Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Анализ информации и построение словарей



Задача построения словарей состоит в следующем: по за­данному классу текстов необходимо выбрать попарноразличи­мые лексические единицы (словоформы, основы слов, КС, дес­крипторы и т. д.), определить их морфологические, синтаксичес­кие и семантические характеристики и расположить в заранее обусловленном порядке.

Существуют три способа построения словарей - априор­ный, апостериорный, динамический.

При априорном способе лексические единицы выделяются из различных терминологических источников (справочников, эн­циклопедий, словарей, классификаторов и т. д.) по заданной те­матике. После отбора лексики проводят ее семантическую обра­ботку и строят словари.

Апостериорный способ характеризуется тем, что, лексика фор­мируется из представительной выборки будущего фонда докумен­тов. Далее проводят ее семантическую обработку и строят словари.

При динамическом способе накопление лексики, ее семан­тическая обработка и построение словарей совмещены с процес­сом эксплуатации ИПС.

Первый способ принципиально невозможно автоматизиро­вать. Он требует больших интеллектуальных затрат. Второй под­дается автоматизации, однако вызывает много затрат на сбор представительной выборки документов. Третий способ является наиболее перспективным. Одно из его больших достоинств со­стоит в том, что все процессы построения словарей можно орга­низовать в режиме диалоговой обратной связи с пользователями системы, повышая тем самым качество словарей.

Принципы отбора лексических единиц

В настоящее время не существует методов построения оп­тимальных словарей. Наука и практика располагают лишь опре­деленными принципами построения более или менее хороших словарей. Эти принципы базируются на свойствах слов и текстов естественного языка, таких как информативность слов, омони­мия, синонимия и полисемия слов и фраз; синтаксическая экви­валентность фраз; отношения между словами; изменение со вре­менем значений слов; ненормализованность слов и т. д.

При построении словарей приходится решать три основ­ные проблемы: какие слова включать в словарь; какие учесть ти­пы отношений; какова должна быть детальность словаря?

Решение первой проблемы в основном базируется на учете синонимии, омонимии, полисемии, а также информативности слов, косвенным показателем которой является частота их встречаемости в текстах. Лингвистические исследования показывают, что распре­деление слов по их частоте вхождения в текст для достаточно больших текстов заданного тематического профиля подчиняется закону, близкому к гиперболическому. Высокочастотной части этого рас­пределения соответствуют «общие» слова, не несущие существен­ной смысловой нагрузки в текстах данной совокупности. Низкочас­тотной части распределения соответствуют новые специфические термины, не нашедшие распространения в текстах совокупности.

С учетом сказанного принципы отбора слов при решении первой проблемы состоят в следующем:

- не включать в словари редкие термины;

- исключать общие понятия с высокой частотой встречаемости;

- в каждый класс понятий вводить слова только с одинако­вой частотой встречаемости;

- использовать только устойчивые слова и словосочетания;

- исключать незначащие (в пределах данных текстов) слова, тщательно их проанализировав;

- неоднозначные термины применять в том значении, кото­рое они имеют в данном массиве.

Типы парадигматических и синтагматических отношений, используемых в ИПЯ, определяют его смысловыразительную способность, которая возрастает с увеличением количества и ус­ложнением типов учитываемых отношений.

Основные принципы, которыми необходимо руководство­ваться при выборе таких отношений:

затраты на разработку, ведение и использование словарей не должны превышать эффекта от их применения;

выбор типов отношений зависит от предполагаемых целей и областей использования ИПЯ и определяется необходимой полнотой и точностью поиска информации;

прежде чем переходить к учету синтагматических отноше­ний, необходимо исчерпать возможности парадигматики. Это связано с тем, что парадигматика позволяет найти область реше­ний, а синтагматика - конкретное решение.

Степень детализации словаря определяет полноту и точ­ность поиска. Широкоупотребляемые термины дают большую полноту, но низкую точность поиска.

При выборе степени детализации словарей необходимо учи­тывать заданные ограничения на желаемую полноту и точность по­иска, а также иметь иерархию словарей и использовать их различ­ные уровни при поиске информации по разным запросам.

Одной из актуальных задач информационно-поисковых систем является поиск аналогов. Сложность этой проблемы заключается в том, что по поисковому образу запроса, выраженному в терминах одной области знаний или отрасли техники, необходимо найти документ-аналог, поисковый образ которого выражен в терминах другой области знаний. Возникает межъязыковой барьер совместимости профессиональных языков. Один из путей преодоления такого барьера состоит в фасетном принципе организации словарей, т. е. в построении одноименных фасет в словарях всех областей знаний и метафасет или трансляторов для перевода терминов одной области знаний в термины другой области знаний в пределах заданного фасета. Другой путь решения той же проблемы состоит в построении иерархического ком­плекса словарей, охватывающего все области знаний.

Количественные характеристики словарей

Эффективность информационного поиска в значительной мере определяется уровнем качества словарей информационно- поискового языка АИПС. Качество словарей можно характери­зовать различными показателями. Наиболее часто для этой цели используются следующие:

- количество типов словарей;

- число лексических единиц словарей;

- полнота словаря;

- коэффициент отображения лексики поискового массива;

- коэффициент динамики роста словаря;

- средняя длина лексической единицы словаря;

- среднее число символов в лексической единице словаря;

- ранговое распределение лексических единиц словаря.





Дата публикования: 2015-02-03; Прочитано: 670 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.007 с)...