Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Линейная модель механизма эвристического поиска



Эвристический поиск работает по принципу отыскания документов, «похожих» на усредненный «тематический» образ некоторого множества релевантных документов, указанных пользователем, и реализуется следующей последовательностью шагов:

Шаг 1. Построение словника по массиву релевантных документов. Результатом является подматрица Lrel матрицы L0, построенная путем выбора столбцов, характеризующих заданные пользователем документы:

n – количество документов, отмеченных пользователем как релевантные.

Шаг 2. Оценка терминов словника и построение Поискового Образа Темы (ПОТ).

Результатом оценивания должно быть выделение тех терминов, которые могут быть включены в ПОТ. Желательно, чтобы в основе формальной оценки лежали частотные характеристики, которые могут быть получены из матриц L0 и Lrel:

(или i-тый элемент главной диагонали матрицы ),

(или i-тый элемент вектора ),

где Fi – частота термина в информационном массиве, FiRel – частота термина в множестве релевантных документов, Qrel – вектор релевантных документов (строка расширенной матрицы ).

Для оценки степени соответствия термина ПОТ может быть использована мера точности термина - отношение частоты термина в множестве релевантных документов к частоте термина в информационном массиве, в качестве порога для отбора в ПОТ – относит коэффициент CR, вычисляемый в зависимости от эвристического параметра ns, характеризующего количество ожидаемых документов. Эвристический параметр характеризует минимальную (ненулевую) точность термина, возможную в ожидаемой выдаче: . В ПОТ отбираются термины, для кот выполняется неравенство: (4.12)

Шаг 3. Построение матрицы «термин-документ» для функции поиска аналогов. На этом шаге из матрицы Lrel должны быть удалены строки, для кот не выполняется неравенство. В результате получаем матрицу LПОТ:

, где M – количество терминов в ПОТ, определяющее порог «близости» для следующего шага.

Шаг 4. Выполнение функции поиска аналогов с пороговым значением M. По матрице LПОТ строится результирующий вектор запроса на отбор документов-аналогов (QПОТ) и формируется поисковый результат с учетом порога близости M. Если число документов полученного результата меньше, чем заданное в системе ns, то пороговое значение M уменьшается на 1, и повторяется процедура поиска аналогов с новым пороговым значением. Таким образом, на каждой i-ой итерации пороговое значение равно M–i.

Цикл заканчивается: либо после выполнения очередной итерации число документов результата стало равно или превысило значение ns, либо пороговое значение стало равно 0.





Дата публикования: 2015-01-26; Прочитано: 264 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.007 с)...