Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Матрицы ассоциации документов, терминов и их свойства



Используем понятие универсального словаря D (прообразом которого может быть, например, тезаурус, рубрикатор), содержавшего множество лексических единиц всего потока документов.

li – совокупность лексических единиц некоторого документа (сообщения), который является элементом некоторого потока L:

Аналогично универсальному словарю введём понятие универсально массива L0 (прообразы – поисковый массив ИПС, отраслевой справочно-информационный фонд, массив библиотеки), подмножеством которого являются все документы:

Где n0 – мощность множества L0.

Линейное представление теоретико-множественного образа документа:

Универсальный массив в линейном представлении есть матрица размерности D*n0:

Подобные матрицы – матрицы «термин-документ». Каждый столбец соответствует документу и описывает множество терминов, содержащихся в нём.

Строка соответствует отдельному термину и является перечнем документов, содержащих данный термин.





Дата публикования: 2015-01-26; Прочитано: 290 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.007 с)...