Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Представления документов и их индексирование. Вместо работы с документами в процессе поиска ведется работа со структурированными представлениями их содержания, которые называют представлениями документовОт характера используемых представлений документов существенным образом зависит качество поиска — его точность, полнота, производительность и другие характеристики. Поскольку введенные в систему текстовые документы остаются, как правило, неизменными на протяжении всего времени их существования в системе, построение представления каждого имеющегося в системе документа можно осуществлять однократно на этапе его ввода в систему.
Представление документа конструируется на основе множества свойств (атрибутов) этого документа. В простых системах эти атрибуты не входят как какие-либо компоненты в содержание документа. Они являются внешними по отношению к нему свойствами, ассоциируемыми с данным документом. Это может быть регистрационный номер документа в архиве, дата его регистрации, название организации — получателя документа, место его хранения и прочее. В любом случае ассоциированные с документом атрибуты называются его индексирующими свойствами. Они используются для построения в системе текстового поиска вспомогательной структуры данных, позволяющей по их значениям или по значениям некоторой функции, использующей их в качестве аргументов, эффективным образом (без полного просмотра содержания документов и без полного их перебора) обнаруживать в системе документы, которым они соответствуют, и при необходимости осуществлять быстрый доступ к ним. Такая структура данных называется индексом, а процесс назначения документу указанных атрибутов — индексированием документа.
Представление пользовательских запросов. использует вместо заданного пользователем запроса его представление, которое конструируется в процессе обработки запроса. Представление запроса должно строиться на основе тех же принципов, что и представления документов в данной системе, поскольку иначе их невозможно было бы сопоставлять.
Так, в дескрипторных системах текстового поиска в качестве представления запроса используется совокупность дескрипторов, характеризующих содержание запроса. В таких системах представление запроса называется поисковым образом запроса.
Простейшие критерии релевантности документов. Для решения вопроса о релевантности документа его представление должно сопоставляться по некоторому критерию близости с представлением запроса. В дескрипторных системах обычно используются теоретико-множественные критерии, например такого вида: документ признается релевантным, если множество дескрипторов поискового образа запроса Qявляется подмножеством множества дескрипторов поискового образа документа D. Другие варианты: Qи Dравны или пересечение Qи Dне пусто. Критерии близости для систем текстового поиска более продвинутого вида обсуждаются в следующем разделе.
Простой контекстный поиск
Наиболее простые технологии полнотекстового поиска ориентированы на контекстный поиск. В них предусматривается представление документа как совокупности всевозможных встречающихся в его тексте слов и словосочетаний, не считая так называемых стоп-слов. Стоп-слова — это служебные слова (предлоги, союзы и т.п.), которые содержатся практически в любом документе и не являются информативными. Поиск документов с такими словами привел бы к выдаче полной коллекции документов в ответ на запрос.
Общие принципы текстового поиска. При вводе документа в систему осуществляется его индексирование и строится его представление, которое будет далее представлять этот документ в процессе функционирования системы и обработки запросов. Когда поступает пользовательский запрос, для него также строится соответствующее представление. Наконец, собственно поиск заключается в том, что каким-либо эффективным образом (не прямым перебором, а обычно с помощью рациональным образом организованного индекса) сопоставляется представление запроса с представлениями хранимых в системе документов по принятому в ней критерию близости. В некоторых случаях для этих целей вводится специальная метрика. Результаты обработки запроса представляются в виде множества найденных релевантных документов.
Обработка естественного языка и использование словарей. Средства обработки естественного языка в системах текстового поиска позволяют выделять из анализируемых текстовых документов термы (слова, фразы) — носители его содержания, выявлять зависимости между этими термами и строить их концептуальные иерархии в контексте данной предметной области, трансформировать исходные поисковые запросы пользователей в удобную для реализации поиска форму.
Для выполнения указанных функций в используются словари общеязыковой лексики и лексики предметной области. Они служат для морфологического анализа текста, для обеспечения отождествления слов в различных грамматических формах в процессе поиска, а также для построения некоторых видов представлений документов и запросов.
Важную роль в анализе и формировании формализованного представления текстовых документов играют специальные словари, называемые тезаурусами. Это словари основных понятий языка< обозначаемых отдельными словами или словосочет, с определенными семантическими отношениями между ними.
Онтологии. Для адекватной интерпретации содержания текстовых документов и поисковых запросов, представленных на естественном языке, система должна располагать контекстом, который определяет основные понятия предметной области и различного рода семантические связи между ними, иначе говоря, спецификацией концептуализации предметной области системы. Выраженная явным образом такая спецификация называется онтологией предметной области.
В простейшем случае она представляется в виде некоторого вербального описания. Тогда оно предназначено для использования человеком на стадии индексирования документов и при формулировке запросов. В более сложном случае онтология задается в виде формального определения на языках представления знаний, допускающих логический вывод. Такие системы называют интеллектуальными.
В последние годы довольно широкое распространение получило представление онтологии предметной области в виде набора элементов метаданных Дублинского ядра. Дублинское ядро — это набор элементов метаданных, смысл которых зафиксирован в спецификации определяющего его стандарта. В терминах значений этих элементов можно описывать содержание различного рода текстовых документов и документов, представленных в иных средах.
Для формального описания онтологий в развитых системах используются языки логики первого порядка. Они допускают возможности логического вывода.
Одной из последних разработок, посвященных созданию средств формального описания онтологий, является стандарт языка определения
Дата публикования: 2015-02-03; Прочитано: 953 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!