Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Состав и структура дескрипторных ИПЯ



Основными элементами ДИПЯ являются:

1. Словарь лексических единиц, обеспечивающий выделе­ние определенных частей текста и их замену на коды лексичес­ких единиц.

2. Правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документов и запросов (слов и сло­восочетаний - морфология; фраз, текстов в целом - синтаксис) с естественного языка на ИПЯ.

3. Правила построения и ведения ИПЯ, определяющие процедуру изменения и совершенствования ИПЯ, т. е. его слова­ря и правил применения.

Словари лексических единиц делятся на две группы - ос­новные лексические словари, составляющие лексику ИПЯ, и морфологические словари, обеспечивающие морфологический анализ и нормализацию слов.

В качестве лексических единиц основных словарей исполь­зуются ключевые слова, словосочетания и дескрипторы. Такие словари называются «Словарь ключевых слов», «Словарь слово­сочетаний» и «Словарь дескрипторов».

Под ключевым словом (КС) понимается полнозначное слово естественного языка, выражающее смысловое содержание фрагмента документа или запроса самостоятельно или в наборе с другими КС.

Словосочетание - последовательность нескольких слов (обычно 2-5) естественного языка, выражающая основное смысло­вое содержание фрагмента документа или запроса. Словосочетание может использоваться и в роли ключевого слова. Обычно словарь КС включает и отдельные слова и словосочетания. Однако словосо­четаний в словаре КС меньше, чем отдельных слов. И наоборот, сло­варь словосочетаний в основном состоит из словосочетаний.

Дескрипто р - понятие, обозначающее группу эквивалент­ных или близких по смыслу ключевых слов, т. е. это имя класса синонимов. В качестве дескрипторов могут быть использованы код, слово или словосочетание.

Словарь дескрипторов с заданными парадигматическими отношениями между его элементами носит название тезауруса. Тезаурус является основным типом словарей современных ИПС.

Информационно-поисковый тезаурус (ИПТ) по сути пред­ставляет собой нормативный словарь-справочник, в котором зафик­сирована часть знаний человечества, относящихся к данной пред­метной области. ИПТ можно представить как мультиграф, узлы ко­торого соответствуют понятиям предметной области, а дуги -существующим парадигматическим отношениям между ними.

Наиболее важными парадигматическими отношениями ИПТ являются соподчинение; вид-род (род-вид); часть-целое (целое-часть); причина-следствие (следствие-причина); функ­циональное сходство.

Данные отношения выражаются в ИПТ четырьмя способами: лексикографически, т. е. с помощью указательных помет, ссылок; таблично (с помощью таблиц связи слов); аналитически, т. е. с помо­щью шифров и кодов; графически (с помощью деревьев, графов).

Обобщенная структура ИПТ включает, как минимум, три составляющих - словарную часть, семантическую карту, руко­водство по использованию.

Словарная часть - алфавитный список дескрипторов с их словарными статьями и ключевых слов. Словарная статья дес­криптора di строится по схеме:

di < Ti1, Ti2, Ti3, Ti4,….. Ti8 >,

где di - дескриптор, Ti1 - множество ключевых слов-синонимов di; Ti2 - множество родовых по отношению к di дескрипторов, т. е. дескрипторов, связанных с di отношением род-вид; Ti3 - множество видовых по отношению к di дескрипторов; Ti4.,...Ti8 - множества дескрипторов, связанных с di одним из отношений: целое-часть, часть-целое, причина-следствие, следствие-при­чина, функциональное сходство. Все указанные множества упо­рядочены по алфавиту. В конкретных тезаурусах некоторые из множеств Ti4 -Ti8 или все они могут отсутствовать. Все множест­ва могут быть одноэлементными или пустыми.

Семантическая карта - система тематических классов дес­крипторов, представленная в виде графической схемы или таблицы.

Руководство по использованию ИПТ содержит правила пе­ревода ключевых слов и словосочетаний на ИПЯ, правила лекси­кографического контроля и редактирования ПОД и ПОЗ, а так­же правила ведения ИПТ.

Для удобства пользования основные лексические словари представляют различными способами. Каждая форма представления словарей порождает соответствующий вид словаря, ориен­тированный на определенные задачи его использования. Наиболее распространенными видами основных лексических словарей являются:

алфавитный - словарь дескрипторов или ключевых слов, упорядоченных по алфавиту;

кодовый - перечень лексических единиц, систематизированный по убыванию или возрастанию их кодов;

частотный - словарь лексических единиц, упорядоченных по убыванию или возрастанию частоты их употребления в поисковом массиве;

пермутационный - словарь словосочетаний, упорядоченный по алфавиту каждого слова словосочетания. (Каждое словосочетание встречается в таком словаре столько раз, сколько слов оно включает.);

отрицаний - перечень лексических единиц, не рекомендуе­мых для индексирования и поиска;

гнездовой - совокупность классов (гнезд) семантически связанных между собой дескрипторов или ключевых слов, упорядоченных по алфавиту дескрипторов, которые отображают вершины классов;

иерархический - совокупность имен классов условной эк­вивалентности лексических единиц, упорядоченных в соответ­ствии с заданным на ней отношением порядка (род-вид, часть-целое и т. д.).

Основное назначение морфологических словарей состоит в отождествлении различных форм одного и того же слова и выяв­лении соответствующей грамматической информации, которую несет данное слово независимо от его окружения в тексте. Отож­дествление различных форм одного и того же слова проводится для их нормализации, т. е. приведения к единому написанию и морфологической форме (нормальному виду). Именно в таком виде слова после соответствующего кодирования используются при индексировании и поиске документов. Нормализация слов необходима для их индексирования. Грамматическая информа­ция к слову необходима для его восстановления (декодирования) по его коду, представленному в терминах ИПЯ.

Наиболее широкое распространение получили словари ос­нов слов; окончаний слов; суффиксов, префиксов, приставок, предлогов; словоформ (словоформа - это последовательность букв между двумя соседними пробелами).

Процедура нормализации слов и выявления соответствую­щей им грамматической информации может выполняться как с ис­пользованием морфологического анализа и синтеза, так и без них. В любом случае прибегают к морфологическим словарям. В по­следнем случае необходимо иметь большое количество словарей, включающих все формы возможных словоупотреблений. Исполь­зование методов морфологического анализа позволяет сократить количество словарей, но за счет усложнения процедуры нормали­зации и выявления грамматической информации. Чем менее сло­жен алгоритм морфологического анализа, тем более сложны ис­пользуемые им морфологические словари. Следует отметить, что нормализацию слов можно выполнить с помощью морфологичес­ких словарей минимальной сложности или вообще без них. Одна­ко платой за такую простоту является невозможность получения грамматической информации или ее бедность.





Дата публикования: 2015-02-03; Прочитано: 1646 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.01 с)...