Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Для автоматической классификации документов хорошо зарекомендовали себя три следующих метода:
Метод рубрикации на основе семантических образов рубрик.
Два метода основанных на дефинициях (1. метод рубрицирования по дефинициям и 2. метод расширенных дефиниций) наиболее простые, их применяют в первую очередь чтобы отсортировать максимально быстро большую часть документов. Суть метода заключается в следующем: метод похож на словарную статью в толковых словарях, т.к. многие тексты часто дают определение основных терминов уже во введении. (Тезаурус - это идеографический словарь…)
Методика состоит в том, что в документе выдается и анализируется основное понятие документа как на базе статистики, так и на базе его определения.
Метод семантических образов рубрик (самый популярный) позволяет более качественно классифицировать статьи любого содержания и размера. Семантический образ - это совокупность ключевых слов и словосочетаний с указанными для них определенными параметрами. Семантический образ документа создается вручную или с использованием статистических программ. Семантические образы рубрик также являются основой для дальнейшего разнесения обрабатываемых текстов по рубрикам.
Иногда списка ключевых слов недостаточно для рубрицирования. Ключевое слово может быть характерно только для одной рубрики, т.е. его вес равен 100, но чаще ключевое слово может входить в образы нескольких рубрик, тогда вероятность его принадлежности и вес уменьшаются.
Несмотря на внешнюю простоту, задача классификации и определения тематики документа (кластеризации) является очень сложной в реализации. На основе только ключевых слов и весов удовлетворительно решить задачу нельзя. Существующие коммерческие системы по сравнению с человеческой оценкой обеспечивают точность классификации 10 - 60%.
Дата публикования: 2015-02-20; Прочитано: 1140 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!