Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Эвристический поиск работает по принципу отыскания документов, «похожих» на усредненный «тематический» образ некоторого множества релевантных документов, указанных пользователем, и реализуется следующей последовательностью шагов:
Шаг 1. Построение словника по массиву релевантных документов. Результатом является подматрица Lrel матрицы L0, построенная путем выбора столбцов, характеризующих заданные пользователем документы:
n – количество документов, отмеченных пользователем как релевантные.
Шаг 2. Оценка терминов словника и построение Поискового Образа Темы (ПОТ).
Результатом оценивания должно быть выделение тех терминов, которые могут быть включены в ПОТ. Желательно, чтобы в основе формальной оценки лежали частотные характеристики, которые могут быть получены из матриц L0 и Lrel:
(или i-тый элемент главной диагонали матрицы ),
(или i-тый элемент вектора ),
где Fi – частота термина в информационном массиве, FiRel – частота термина в множестве релевантных документов, Qrel – вектор релевантных документов (строка расширенной матрицы ).
Для оценки степени соответствия термина ПОТ может быть использована мера точности термина - отношение частоты термина в множестве релевантных документов к частоте термина в информационном массиве, в качестве порога для отбора в ПОТ – относит коэффициент CR, вычисляемый в зависимости от эвристического параметра ns, характеризующего количество ожидаемых документов. Эвристический параметр характеризует минимальную (ненулевую) точность термина, возможную в ожидаемой выдаче: . В ПОТ отбираются термины, для кот выполняется неравенство: (4.12)
Шаг 3. Построение матрицы «термин-документ» для функции поиска аналогов. На этом шаге из матрицы Lrel должны быть удалены строки, для кот не выполняется неравенство. В результате получаем матрицу LПОТ:
, где M – количество терминов в ПОТ, определяющее порог «близости» для следующего шага.
Шаг 4. Выполнение функции поиска аналогов с пороговым значением M. По матрице LПОТ строится результирующий вектор запроса на отбор документов-аналогов (QПОТ) и формируется поисковый результат с учетом порога близости M. Если число документов полученного результата меньше, чем заданное в системе ns, то пороговое значение M уменьшается на 1, и повторяется процедура поиска аналогов с новым пороговым значением. Таким образом, на каждой i-ой итерации пороговое значение равно M–i.
Цикл заканчивается: либо после выполнения очередной итерации число документов результата стало равно или превысило значение ns, либо пороговое значение стало равно 0.
Дата публикования: 2015-01-26; Прочитано: 264 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!