Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Модели текстового поиска



Определение модели поиска. В литературе, посвященной текстовому поиску, одним из ключевых понятий, характеризующих технологию поис­ка в той или иной конкретной системе, является модель поиска.

Под моделью поиска понимается сочетание:

способа представления документов;

способа представления поисковых запросов;

вида критерия релевантности документов.

Простейшие модели поиска. К этой категории относятся моде­ли, в которых документ представляется в виде набора ассоциирован­ных с ним внешних атрибутов. К числу таких моделей принадлежит обсуждавшаяся в предыдущем разделе модель дескрипторного поис­ка.

Модели, основанные на классификаторах. документы представля­ются идентификаторами классов в иерархической структуре классифи­катора, к которым относится данный документ. Представление запроса в простейшем случае — также идентификатор какого-либо класса из за­данного классификатора. Критерием релевантности документа являет­ся условие, что класс документа совпадает с классом в представлении за­проса или является его подклассом.

Булевские модели. Особенность заклю­чается в том, что пользователь может формулировать запрос в виде бу­левского выражения с использованием операторов И, ИЛИ, НЕТ. Термы такого выражения могут быть различными в разных вариациях модели поиска.

Критерием релевантности данного документа запросу в булевских моделях поиска является истинность булевского выражения, задан­ного в запросе.

Булевские модели поиска обладают некоторыми недостатками. Они не позволяют ранжировать найденные документы по степени релевант­ности, поскольку отсутствуют критерии ее оценки. Кроме того, не каж­дый пользователь может свободно оперировать булевскими оператора­ми при формулировке своих запросов.

Векторные модели. документы и запросы пред­ставляются векторами. В простейшем случае координаты вектора соот­ветствуют термам текста — словам или словосочетаниям, принадлежа­щим словарю системы, который представляет общеязыковую лексику или лексику предметной области. Каждому терму из такого словаря со­поставляется свое измерение в векторном пространстве. Размерность векторов, представляющих документы и пользовательские запросы, в точности равна количеству измерений в этом пространстве.

Координате вектора присваивается некоторое ненулевое значение в том и только в том случае, когда соответствующий ей терм принадле­жит данному документу или запросу. Поскольку размер словаря может быть очень большим, а документы или тексты запросов состоят из су­щественно меньшего количества содержащихся в нем термов, такие век­торы оказываются очень разреженными. Поэтому нужно использовать какую-либо технику сжатого их представления.

Вероятностные модели. Идеи таких моделей были предложены еще в 1960 году [42]. Клю­чевая из них называется принципом вероятностного ранжирова­ния(ProbabilisticRankingPrinciple, PRP). Суть этого принципа состоит в том, что наивысшая общая эффективность поиска достигается в слу­чае, если результирующие документы ранжируются по убыванию веро­ятности их релевантности запросу. Для каждого документа оценивается вероятность того, что он релевантен запросу, и по этим оценкам выпол­няется ранжирование документов.

техника основана на том факте, что в запросе и в релевантных документах имеются общие термы. Поэтому можно из­бежать просмотра всех документов коллекции, а воспользоваться их ин­дексом по всем термам, вхождения которых имеются в документах кол­лекции. Обычно такой индекс строится по принципу инвертированного списка. Он позволяет достаточно быстро определять для каждого тер­ма все документы коллекции, в которых имеются его вхождения, и тем самым достаточно эффективно вычислять нужные оценки. Вместе с тем в статьях индекса можно хранить различные характеристики, например значения весов термов в документах, и использовать эту важную инфор­мацию в процессе поиска.

Сети вывода основаны на принципе вероятностного ранжирования результирующих документов поиска. Однако, в отличие от вероятностных моделей, в моделях сетей вывода рассматривается оценка не вероятности релевантности докумен­та запросу, а вероятности того, что он удовлетворяет информационным потребностям пользователя.

Модели этого семейства описывают процесс поиска документов как про­цесс рассуждений в условиях неопределенности, в котором оценивается вероятность того, что выраженные с помощью одного или нескольких запросов информационные потребности пользователя удовлетворяются.

Эвристические подходы и эмпирика в моделях поиска. Эв­ристические подходы и формализующие их эмпирические математичес­кие зависимости используются как в функциях оценки релевантности документов, так и в построении представлений документов и запросов. Поэтому таким моделям поиска свойственна некоторая неустойчи­вость поведения. При использовании конкретной модели поиска на­ряду с высокими оценками качества поиска на одной коллекции до­кументов можно получить отнюдь не столь высокие оценки на другой коллекции.

Правдоподобные общие оценки качества поиска для модели можно получать лишь усредненно на множестве разнообразных коллекций. Су­щественное значение имеют и оценки результатов поиска, полученные на больших коллекциях.

Взвешивание термов запроса. В формулировке пользовательского запроса не все термы могут быть равнозначными. Некоторые системы текстового поиска позволяют пользователю придать вес применяемым в запросе термам с тем, чтобы охарактеризовать их значимость в запро­се.

Ранжирование результатов поиска.. Развитые системы тек­стового поиска обладают механизмами, обеспечивающими такую воз­можность. В зависимости от реализуемой ими модели поиска предусмат­ривается упорядочение множества документов, выдаваемых в результате обработки пользовательского запроса, по некоторым оценкам их реле­вантности запросу или вероятности удовлетворения информационных потребностей пользователя

Обратная связь релевантности. Этот метод повышения эффектив­ности поиска на основе информации обратной связи. Результаты обра­ботки запроса могут не удовлетворять пользователя. Во многих системах текстового поиска пользователю предоставляется возможность в таких случаях уточнить запрос. Для этого он может дать оценку релевантности полученных документов — указать, какие из них он считает релевантны­ми или нерелевантными.

Такой итерационный процесс обработки запроса и модификации его с помощью анализа данных, полученных на основе обратной связи поль­зователя с системой, может повторяться до тех пор, пока пользователь не будет удовлетворен результатами поиска. Обратная связь релевантности используется в системах, основанных на различных моделях поиска.

Расширение запросов. Имеется в виду расширение представления запроса, первоначально предложенного системе пользователем. Эта возможность также служит для повышения эффективности поиска

Автоматическое индексирование полного текста. выделяются встречающиеся в нем отдельные слова, за исключением стоп-слов, а также словосочетания (фразы). Используется два способа для выделения из доку­мента устойчивых словосочетаний — лингвистический, основанный на синтаксическом анализе текста, и статистический, который основан на анализе статистики совместного вхождения слов в текст документа.

Мультиязыковой поиск. Некоторые системы текстового поиска поз­воляют осуществлять поиск в коллекциях, содержащих документы, представленные на нескольких естественных языках.

Кросс-языковой поиск. Существуют системы текстового поиска, до­пускающие ситуации, когда информационные потребности пользователя определены на одном языке, а множество документов коллекции, в кото­рой должен осуществляться поиск, представлено на другом языке.Пользователь может обращаться на каком-либо одном языке к кол­лекциям документов международных организаций, транснациональных компаний или любой организации в стране, где существует несколько государственных языков. Такие коллекции могут содержать документы на разных языках.

Доставка документов по назначению. состоит в том, чтобы присвоить вновь поступив­шим документам баллы в соответствии со степенью релевантности и на этой основе произвести их ранжирование.

Фильтрация документов. Цель состоит в отборе из входного потока таких до­кументов, которые соответствуют информационным потребностям дан­ного пользователя.





Дата публикования: 2015-02-03; Прочитано: 2390 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.008 с)...