Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Принцип работы большинства программ заключается в автоматическом определении ключевых слов (индексировании) и поиске фрагментов в тексте, содержащих данные слова. Затем происходит автоматическая выборка ключевых предложений и их объединение либо компилятивно, либо по смыслу, либо с помощью человека.
Большинство систем реферирования основано на представлении текста в виде семантических сетей, т.е. в виде списка понятий, слов или словосочетаний, связанных между собой каким-либо отношением. Узлами сети становятся наиболее частотные слова и для каждого из них программа формирует множество смыслов или ассоциативных связей, т.е. список других понятий, в сочетании с которыми данное слово встречается в тексте. Считается, что чем чаще встречается 2 понятия в тексте вместе, тем больше вероятность того, что они связаны по смыслу и являются словосочетанием.
Кроме того, из числа понятий семантической сети сразу исключаются общеупотребительные слова (стоп-слова). Понятие связи сети ранжируется " по весам ", которые отражают степень значимости понятия в тексте и степень их смысловой связи друг с другом. Статистические данные о связи понятий и их распределение в тексте позволяет оценить вклад этих понятий в общее содержание текста и расставить темы согласно их информативности.
Обычно каждой теме сети также соответствует собственный тематический вес и максимально информативная тема имеет вес равный 100. по каждой из тем сети формируется набор связанных фрагментов текста, т.е. цитат, соответствующих данной теме. Таким образом формируется общий реферат или резюме текста.
Такие интеллектуальные системы реферирования и аннотирования (например, TextAnalyst) кроме семантических сетей по тексту позволяют получить специальное представление текста в виде его тематической структуры. То есть система автоматического реферирования документов позволяет получить данные о семантике текста и может быть использовано для автоматической обработки текста, для моделирования текстов ЕЯ и т.д. (в частности это активно используется для классификации и кластеризации данных).
Дата публикования: 2015-02-20; Прочитано: 1177 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!