Главная \| Случайная страница \| Контакты \| Мы поможем в написании вашей работы!

Модели текстового поиска

⇐ Предыдущая 4 5 6 7 8910 11 12 13 Следующая ⇒

Определение модели поиска. В литературе, посвященной текстовому поиску, одним из ключевых понятий, характеризующих технологию поиска в той или иной конкретной системе, является модель поиска.

Под моделью поиска понимается сочетание:

способа представления документов;

способа представления поисковых запросов;

вида критерия релевантности документов.

Простейшие модели поиска. К этой категории относятся модели, в которых документ представляется в виде набора ассоциированных с ним внешних атрибутов. К числу таких моделей принадлежит обсуждавшаяся в предыдущем разделе модель дескрипторного поиска.

Модели, основанные на классификаторах. документы представляются идентификаторами классов в иерархической структуре классификатора, к которым относится данный документ. Представление запроса в простейшем случае — также идентификатор какого-либо класса из заданного классификатора. Критерием релевантности документа является условие, что класс документа совпадает с классом в представлении запроса или является его подклассом.

Булевские модели. Особенность заключается в том, что пользователь может формулировать запрос в виде булевского выражения с использованием операторов И, ИЛИ, НЕТ. Термы такого выражения могут быть различными в разных вариациях модели поиска.

Критерием релевантности данного документа запросу в булевских моделях поиска является истинность булевского выражения, заданного в запросе.

Булевские модели поиска обладают некоторыми недостатками. Они не позволяют ранжировать найденные документы по степени релевантности, поскольку отсутствуют критерии ее оценки. Кроме того, не каждый пользователь может свободно оперировать булевскими операторами при формулировке своих запросов.

Векторные модели. документы и запросы представляются векторами. В простейшем случае координаты вектора соответствуют термам текста — словам или словосочетаниям, принадлежащим словарю системы, который представляет общеязыковую лексику или лексику предметной области. Каждому терму из такого словаря сопоставляется свое измерение в векторном пространстве. Размерность векторов, представляющих документы и пользовательские запросы, в точности равна количеству измерений в этом пространстве.

Координате вектора присваивается некоторое ненулевое значение в том и только в том случае, когда соответствующий ей терм принадлежит данному документу или запросу. Поскольку размер словаря может быть очень большим, а документы или тексты запросов состоят из существенно меньшего количества содержащихся в нем термов, такие векторы оказываются очень разреженными. Поэтому нужно использовать какую-либо технику сжатого их представления.

Вероятностные модели. Идеи таких моделей были предложены еще в 1960 году [42]. Ключевая из них называется принципом вероятностного ранжирования(ProbabilisticRankingPrinciple, PRP). Суть этого принципа состоит в том, что наивысшая общая эффективность поиска достигается в случае, если результирующие документы ранжируются по убыванию вероятности их релевантности запросу. Для каждого документа оценивается вероятность того, что он релевантен запросу, и по этим оценкам выполняется ранжирование документов.

техника основана на том факте, что в запросе и в релевантных документах имеются общие термы. Поэтому можно избежать просмотра всех документов коллекции, а воспользоваться их индексом по всем термам, вхождения которых имеются в документах коллекции. Обычно такой индекс строится по принципу инвертированного списка. Он позволяет достаточно быстро определять для каждого терма все документы коллекции, в которых имеются его вхождения, и тем самым достаточно эффективно вычислять нужные оценки. Вместе с тем в статьях индекса можно хранить различные характеристики, например значения весов термов в документах, и использовать эту важную информацию в процессе поиска.

Сети вывода основаны на принципе вероятностного ранжирования результирующих документов поиска. Однако, в отличие от вероятностных моделей, в моделях сетей вывода рассматривается оценка не вероятности релевантности документа запросу, а вероятности того, что он удовлетворяет информационным потребностям пользователя.

Модели этого семейства описывают процесс поиска документов как процесс рассуждений в условиях неопределенности, в котором оценивается вероятность того, что выраженные с помощью одного или нескольких запросов информационные потребности пользователя удовлетворяются.

Эвристические подходы и эмпирика в моделях поиска. Эвристические подходы и формализующие их эмпирические математические зависимости используются как в функциях оценки релевантности документов, так и в построении представлений документов и запросов. Поэтому таким моделям поиска свойственна некоторая неустойчивость поведения. При использовании конкретной модели поиска наряду с высокими оценками качества поиска на одной коллекции документов можно получить отнюдь не столь высокие оценки на другой коллекции.

Правдоподобные общие оценки качества поиска для модели можно получать лишь усредненно на множестве разнообразных коллекций. Существенное значение имеют и оценки результатов поиска, полученные на больших коллекциях.

Взвешивание термов запроса. В формулировке пользовательского запроса не все термы могут быть равнозначными. Некоторые системы текстового поиска позволяют пользователю придать вес применяемым в запросе термам с тем, чтобы охарактеризовать их значимость в запросе.

Ранжирование результатов поиска.. Развитые системы текстового поиска обладают механизмами, обеспечивающими такую возможность. В зависимости от реализуемой ими модели поиска предусматривается упорядочение множества документов, выдаваемых в результате обработки пользовательского запроса, по некоторым оценкам их релевантности запросу или вероятности удовлетворения информационных потребностей пользователя

Обратная связь релевантности. Этот метод повышения эффективности поиска на основе информации обратной связи. Результаты обработки запроса могут не удовлетворять пользователя. Во многих системах текстового поиска пользователю предоставляется возможность в таких случаях уточнить запрос. Для этого он может дать оценку релевантности полученных документов — указать, какие из них он считает релевантными или нерелевантными.

Такой итерационный процесс обработки запроса и модификации его с помощью анализа данных, полученных на основе обратной связи пользователя с системой, может повторяться до тех пор, пока пользователь не будет удовлетворен результатами поиска. Обратная связь релевантности используется в системах, основанных на различных моделях поиска.

Расширение запросов. Имеется в виду расширение представления запроса, первоначально предложенного системе пользователем. Эта возможность также служит для повышения эффективности поиска

Автоматическое индексирование полного текста. выделяются встречающиеся в нем отдельные слова, за исключением стоп-слов, а также словосочетания (фразы). Используется два способа для выделения из документа устойчивых словосочетаний — лингвистический, основанный на синтаксическом анализе текста, и статистический, который основан на анализе статистики совместного вхождения слов в текст документа.

Мультиязыковой поиск. Некоторые системы текстового поиска позволяют осуществлять поиск в коллекциях, содержащих документы, представленные на нескольких естественных языках.

Кросс-языковой поиск. Существуют системы текстового поиска, допускающие ситуации, когда информационные потребности пользователя определены на одном языке, а множество документов коллекции, в которой должен осуществляться поиск, представлено на другом языке.Пользователь может обращаться на каком-либо одном языке к коллекциям документов международных организаций, транснациональных компаний или любой организации в стране, где существует несколько государственных языков. Такие коллекции могут содержать документы на разных языках.

Доставка документов по назначению. состоит в том, чтобы присвоить вновь поступившим документам баллы в соответствии со степенью релевантности и на этой основе произвести их ранжирование.

Фильтрация документов. Цель состоит в отборе из входного потока таких документов, которые соответствуют информационным потребностям данного пользователя.

⇐ Предыдущая 4 5 6 7 8910 11 12 13 Следующая ⇒

Дата публикования: 2015-02-03; Прочитано: 2390 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!

studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.008 с)...