![]() |
Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | |
|
Основными элементами ДИПЯ являются:
1. Словарь лексических единиц, обеспечивающий выделение определенных частей текста и их замену на коды лексических единиц.
2. Правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документов и запросов (слов и словосочетаний - морфология; фраз, текстов в целом - синтаксис) с естественного языка на ИПЯ.
3. Правила построения и ведения ИПЯ, определяющие процедуру изменения и совершенствования ИПЯ, т. е. его словаря и правил применения.
Словари лексических единиц делятся на две группы - основные лексические словари, составляющие лексику ИПЯ, и морфологические словари, обеспечивающие морфологический анализ и нормализацию слов.
В качестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы. Такие словари называются «Словарь ключевых слов», «Словарь словосочетаний» и «Словарь дескрипторов».
Под ключевым словом (КС) понимается полнозначное слово естественного языка, выражающее смысловое содержание фрагмента документа или запроса самостоятельно или в наборе с другими КС.
Словосочетание - последовательность нескольких слов (обычно 2-5) естественного языка, выражающая основное смысловое содержание фрагмента документа или запроса. Словосочетание может использоваться и в роли ключевого слова. Обычно словарь КС включает и отдельные слова и словосочетания. Однако словосочетаний в словаре КС меньше, чем отдельных слов. И наоборот, словарь словосочетаний в основном состоит из словосочетаний.
Дескрипто р - понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов, т. е. это имя класса синонимов. В качестве дескрипторов могут быть использованы код, слово или словосочетание.
Словарь дескрипторов с заданными парадигматическими отношениями между его элементами носит название тезауруса. Тезаурус является основным типом словарей современных ИПС.
Информационно-поисковый тезаурус (ИПТ) по сути представляет собой нормативный словарь-справочник, в котором зафиксирована часть знаний человечества, относящихся к данной предметной области. ИПТ можно представить как мультиграф, узлы которого соответствуют понятиям предметной области, а дуги -существующим парадигматическим отношениям между ними.
Наиболее важными парадигматическими отношениями ИПТ являются соподчинение; вид-род (род-вид); часть-целое (целое-часть); причина-следствие (следствие-причина); функциональное сходство.
Данные отношения выражаются в ИПТ четырьмя способами: лексикографически, т. е. с помощью указательных помет, ссылок; таблично (с помощью таблиц связи слов); аналитически, т. е. с помощью шифров и кодов; графически (с помощью деревьев, графов).
Обобщенная структура ИПТ включает, как минимум, три составляющих - словарную часть, семантическую карту, руководство по использованию.
Словарная часть - алфавитный список дескрипторов с их словарными статьями и ключевых слов. Словарная статья дескриптора di строится по схеме:
di < Ti1, Ti2, Ti3, Ti4,….. Ti8 >,
где di - дескриптор, Ti1 - множество ключевых слов-синонимов di; Ti2 - множество родовых по отношению к di дескрипторов, т. е. дескрипторов, связанных с di отношением род-вид; Ti3 - множество видовых по отношению к di дескрипторов; Ti4.,...Ti8 - множества дескрипторов, связанных с di одним из отношений: целое-часть, часть-целое, причина-следствие, следствие-причина, функциональное сходство. Все указанные множества упорядочены по алфавиту. В конкретных тезаурусах некоторые из множеств Ti4 -Ti8 или все они могут отсутствовать. Все множества могут быть одноэлементными или пустыми.
Семантическая карта - система тематических классов дескрипторов, представленная в виде графической схемы или таблицы.
Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографического контроля и редактирования ПОД и ПОЗ, а также правила ведения ИПТ.
Для удобства пользования основные лексические словари представляют различными способами. Каждая форма представления словарей порождает соответствующий вид словаря, ориентированный на определенные задачи его использования. Наиболее распространенными видами основных лексических словарей являются:
алфавитный - словарь дескрипторов или ключевых слов, упорядоченных по алфавиту;
кодовый - перечень лексических единиц, систематизированный по убыванию или возрастанию их кодов;
частотный - словарь лексических единиц, упорядоченных по убыванию или возрастанию частоты их употребления в поисковом массиве;
пермутационный - словарь словосочетаний, упорядоченный по алфавиту каждого слова словосочетания. (Каждое словосочетание встречается в таком словаре столько раз, сколько слов оно включает.);
отрицаний - перечень лексических единиц, не рекомендуемых для индексирования и поиска;
гнездовой - совокупность классов (гнезд) семантически связанных между собой дескрипторов или ключевых слов, упорядоченных по алфавиту дескрипторов, которые отображают вершины классов;
иерархический - совокупность имен классов условной эквивалентности лексических единиц, упорядоченных в соответствии с заданным на ней отношением порядка (род-вид, часть-целое и т. д.).
Основное назначение морфологических словарей состоит в отождествлении различных форм одного и того же слова и выявлении соответствующей грамматической информации, которую несет данное слово независимо от его окружения в тексте. Отождествление различных форм одного и того же слова проводится для их нормализации, т. е. приведения к единому написанию и морфологической форме (нормальному виду). Именно в таком виде слова после соответствующего кодирования используются при индексировании и поиске документов. Нормализация слов необходима для их индексирования. Грамматическая информация к слову необходима для его восстановления (декодирования) по его коду, представленному в терминах ИПЯ.
Наиболее широкое распространение получили словари основ слов; окончаний слов; суффиксов, префиксов, приставок, предлогов; словоформ (словоформа - это последовательность букв между двумя соседними пробелами).
Процедура нормализации слов и выявления соответствующей им грамматической информации может выполняться как с использованием морфологического анализа и синтеза, так и без них. В любом случае прибегают к морфологическим словарям. В последнем случае необходимо иметь большое количество словарей, включающих все формы возможных словоупотреблений. Использование методов морфологического анализа позволяет сократить количество словарей, но за счет усложнения процедуры нормализации и выявления грамматической информации. Чем менее сложен алгоритм морфологического анализа, тем более сложны используемые им морфологические словари. Следует отметить, что нормализацию слов можно выполнить с помощью морфологических словарей минимальной сложности или вообще без них. Однако платой за такую простоту является невозможность получения грамматической информации или ее бедность.
Дата публикования: 2015-02-03; Прочитано: 1646 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!