![]() |
Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | |
|
Задача построения словарей состоит в следующем: по заданному классу текстов необходимо выбрать попарноразличимые лексические единицы (словоформы, основы слов, КС, дескрипторы и т. д.), определить их морфологические, синтаксические и семантические характеристики и расположить в заранее обусловленном порядке.
Существуют три способа построения словарей - априорный, апостериорный, динамический.
При априорном способе лексические единицы выделяются из различных терминологических источников (справочников, энциклопедий, словарей, классификаторов и т. д.) по заданной тематике. После отбора лексики проводят ее семантическую обработку и строят словари.
Апостериорный способ характеризуется тем, что, лексика формируется из представительной выборки будущего фонда документов. Далее проводят ее семантическую обработку и строят словари.
При динамическом способе накопление лексики, ее семантическая обработка и построение словарей совмещены с процессом эксплуатации ИПС.
Первый способ принципиально невозможно автоматизировать. Он требует больших интеллектуальных затрат. Второй поддается автоматизации, однако вызывает много затрат на сбор представительной выборки документов. Третий способ является наиболее перспективным. Одно из его больших достоинств состоит в том, что все процессы построения словарей можно организовать в режиме диалоговой обратной связи с пользователями системы, повышая тем самым качество словарей.
Принципы отбора лексических единиц
В настоящее время не существует методов построения оптимальных словарей. Наука и практика располагают лишь определенными принципами построения более или менее хороших словарей. Эти принципы базируются на свойствах слов и текстов естественного языка, таких как информативность слов, омонимия, синонимия и полисемия слов и фраз; синтаксическая эквивалентность фраз; отношения между словами; изменение со временем значений слов; ненормализованность слов и т. д.
При построении словарей приходится решать три основные проблемы: какие слова включать в словарь; какие учесть типы отношений; какова должна быть детальность словаря?
Решение первой проблемы в основном базируется на учете синонимии, омонимии, полисемии, а также информативности слов, косвенным показателем которой является частота их встречаемости в текстах. Лингвистические исследования показывают, что распределение слов по их частоте вхождения в текст для достаточно больших текстов заданного тематического профиля подчиняется закону, близкому к гиперболическому. Высокочастотной части этого распределения соответствуют «общие» слова, не несущие существенной смысловой нагрузки в текстах данной совокупности. Низкочастотной части распределения соответствуют новые специфические термины, не нашедшие распространения в текстах совокупности.
С учетом сказанного принципы отбора слов при решении первой проблемы состоят в следующем:
- не включать в словари редкие термины;
- исключать общие понятия с высокой частотой встречаемости;
- в каждый класс понятий вводить слова только с одинаковой частотой встречаемости;
- использовать только устойчивые слова и словосочетания;
- исключать незначащие (в пределах данных текстов) слова, тщательно их проанализировав;
- неоднозначные термины применять в том значении, которое они имеют в данном массиве.
Типы парадигматических и синтагматических отношений, используемых в ИПЯ, определяют его смысловыразительную способность, которая возрастает с увеличением количества и усложнением типов учитываемых отношений.
Основные принципы, которыми необходимо руководствоваться при выборе таких отношений:
затраты на разработку, ведение и использование словарей не должны превышать эффекта от их применения;
выбор типов отношений зависит от предполагаемых целей и областей использования ИПЯ и определяется необходимой полнотой и точностью поиска информации;
прежде чем переходить к учету синтагматических отношений, необходимо исчерпать возможности парадигматики. Это связано с тем, что парадигматика позволяет найти область решений, а синтагматика - конкретное решение.
Степень детализации словаря определяет полноту и точность поиска. Широкоупотребляемые термины дают большую полноту, но низкую точность поиска.
При выборе степени детализации словарей необходимо учитывать заданные ограничения на желаемую полноту и точность поиска, а также иметь иерархию словарей и использовать их различные уровни при поиске информации по разным запросам.
Одной из актуальных задач информационно-поисковых систем является поиск аналогов. Сложность этой проблемы заключается в том, что по поисковому образу запроса, выраженному в терминах одной области знаний или отрасли техники, необходимо найти документ-аналог, поисковый образ которого выражен в терминах другой области знаний. Возникает межъязыковой барьер совместимости профессиональных языков. Один из путей преодоления такого барьера состоит в фасетном принципе организации словарей, т. е. в построении одноименных фасет в словарях всех областей знаний и метафасет или трансляторов для перевода терминов одной области знаний в термины другой области знаний в пределах заданного фасета. Другой путь решения той же проблемы состоит в построении иерархического комплекса словарей, охватывающего все области знаний.
Количественные характеристики словарей
Эффективность информационного поиска в значительной мере определяется уровнем качества словарей информационно- поискового языка АИПС. Качество словарей можно характеризовать различными показателями. Наиболее часто для этой цели используются следующие:
- количество типов словарей;
- число лексических единиц словарей;
- полнота словаря;
- коэффициент отображения лексики поискового массива;
- коэффициент динамики роста словаря;
- средняя длина лексической единицы словаря;
- среднее число символов в лексической единице словаря;
- ранговое распределение лексических единиц словаря.
Дата публикования: 2015-02-03; Прочитано: 670 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!