Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Принципы текстового поиска



Представления документов и их индексирование. Вместо работы с документами в процессе поиска ведется работа со структурированными представлениями их содержания, которые называют представлениями документовОт характера используемых представлений доку­ментов существенным образом зависит качество поиска — его точность, полнота, производительность и другие характеристики. Поскольку вве­денные в систему текстовые документы остаются, как правило, неизмен­ными на протяжении всего времени их существования в системе, пост­роение представления каждого имеющегося в системе документа можно осуществлять однократно на этапе его ввода в систему.

Представление документа конструируется на основе множества свойств (атрибутов) этого документа. В простых системах эти атрибуты не входят как какие-либо компоненты в содержание документа. Они являются внеш­ними по отношению к нему свойствами, ассоциируемыми с данным до­кументом. Это может быть регистрационный номер документа в архиве, дата его регистрации, название организации — получателя документа, место его хранения и прочее. В любом случае ассоциированные с документом атрибуты называются его индексирующими свойствами. Они используются для построения в системе текстового поиска вспомогательной структуры данных, позво­ляющей по их значениям или по значениям некоторой функции, исполь­зующей их в качестве аргументов, эффективным образом (без полного просмотра содержания документов и без полного их перебора) обнару­живать в системе документы, которым они соответствуют, и при необ­ходимости осуществлять быстрый доступ к ним. Такая структура данных называется индексом, а процесс назначения документу указанных ат­рибутов — индексированием документа.

Представление пользовательских запросов. использует вместо заданно­го пользователем запроса его представление, которое конструируется в процессе обработки запроса. Представление запроса должно строить­ся на основе тех же принципов, что и представления документов в данной системе, поскольку иначе их невозможно было бы сопоставлять.

Так, в дескрипторных системах текстового поиска в качестве пред­ставления запроса используется совокупность дескрипторов, характе­ризующих содержание запроса. В таких системах представление запроса называется поисковым образом запроса.

Простейшие критерии релевантности документов. Для решения вопро­са о релевантности документа его представление должно сопоставлять­ся по некоторому критерию близости с представлением запроса. В дескрипторных системах обычно используются теоретико-множественные критерии, напри­мер такого вида: документ признается релевантным, если множество дескрипторов поискового образа запроса Qявляется подмножеством мно­жества дескрипторов поискового образа документа D. Другие варианты: Qи Dравны или пересечение Qи Dне пусто. Критерии близости для систем тек­стового поиска более продвинутого вида обсуждаются в следующем разделе.

Простой контекстный поиск

Наиболее простые технологии полнотекстового поиска ориентиро­ваны на контекстный поиск. В них предусматривается представле­ние документа как совокупности всевозможных встречающихся в его тексте слов и словосочетаний, не считая так называемых стоп-слов. Стоп-слова — это служебные слова (предлоги, союзы и т.п.), которые содержатся практически в любом документе и не являются информатив­ными. Поиск документов с такими словами привел бы к выдаче полной коллекции документов в ответ на запрос.

Общие принципы текстового поиска. При вводе докумен­та в систему осуществляется его индексирование и строится его пред­ставление, которое будет далее представлять этот документ в процес­се функционирования системы и обработки запросов. Когда поступает пользовательский запрос, для него также строится соответствующее представление. Наконец, собственно поиск заключается в том, что каким-либо эффективным образом (не прямым перебором, а обычно с помощью рациональным образом организованного индекса) сопостав­ляется представление запроса с представлениями хранимых в системе документов по принятому в ней критерию близости. В некоторых случа­ях для этих целей вводится специальная метрика. Результаты обработки запроса представляются в виде множества найденных релевантных до­кументов.

Обработка естественного языка и использование словарей. Средства обработки естественного языка в системах текстового по­иска позволяют выделять из анализируемых текстовых документов тер­мы (слова, фразы) — носители его содержания, выявлять зависимости между этими термами и строить их концептуальные иерархии в контекс­те данной предметной области, трансформировать исходные поисковые запросы пользователей в удобную для реализации поиска форму.

Для выполнения указанных функций в используются словари общеязыковой лексики и лек­сики предметной области. Они служат для морфологического анализа текста, для обеспечения отождествления слов в различных грамматичес­ких формах в процессе поиска, а также для построения некоторых видов представлений документов и запросов.

Важную роль в анализе и формировании формализован­ного представления текстовых документов играют специальные словари, называемые тезаурусами. Это словари основных понятий языка< обоз­начаемых отдельными словами или словосочет, с определенными семантическими отношениями между ними.

Онтологии. Для адекватной интерпретации содержания текстовых документов и поисковых запросов, представленных на естественном языке, система должна располагать контекстом, который определя­ет основные понятия предметной области и различного рода семан­тические связи между ними, иначе говоря, спецификацией концепту­ализации предметной области системы. Выраженная явным образом такая спецификация называется онтологией предметной области.


В простейшем случае она представляется в виде некоторого вербального описания. Тогда оно предназначено для использования человеком на стадии индексирования документов и при формулировке запросов. В более сложном случае он­тология задается в виде формального определения на языках представ­ления знаний, допускающих логический вывод. Такие системы называют интеллектуальными.

В последние годы довольно широкое распространение получило пред­ставление онтологии предметной области в виде набора элементов мета­данных Дублинского ядра. Дублинское ядро — это набор элементов метаданных, смысл кото­рых зафиксирован в спецификации определяющего его стандарта. В тер­минах значений этих элементов можно описывать содержание различ­ного рода текстовых документов и документов, представленных в иных средах.

Для формального описания онтологий в развитых системах исполь­зуются языки логики первого порядка. Они допускают возможнос­ти логического вывода.

Одной из последних разработок, посвященных созданию средств фор­мального описания онтологий, является стандарт языка определения





Дата публикования: 2015-02-03; Прочитано: 953 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.006 с)...