Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Понятие рабочей характеристики АИПС



Вывод показателя полезной работы АИПС базируется на предположении о том, что качество поиска АИПС тем выше, чем в большей степени потребитель освобождается от необходимости полного просмотра массива документов. Пусть потребителю требуются релевантные документы в количестве х. При непосредственном просмотре L0 трудозатраты (количество просмотренных документов) в среднем составляет:

В то время как при просмотре массива Lc, имеющего точность р, затраты

Работа АИПС равна разности данных величин или высвобожденной информационной деятельности потребителя:

(1)

С учётом других координат и переменных выражение примет вид:

Пусть прямые параллельны 0р0 и проходят через различные точки прямой 0И. Общее уравнение прямой, проходящей через и имеющей наклон р0, есть:

Подставим в формулу (1), имеем:

Тем самым, на прямых вида величина Сис остаётся постоянной. По мере приближения точки пересечения прямой с 0И к точке И данная константа увеличивается. Она приобретает значение, если линия проходит ниже прямой 0р0.

Таким образом, Сис удовлетворяет условиям:

Или в координатах <n,x>:

Установление пределов измерения Сис позволяет нормировать эту величину:

Мера полезной работы ИС изменяется от +1 до -1, причём:

в точке И ή=+1 (идеальная система, выдающая все релевантные и только релевантные сообщения)

в точке Д ή=-1 (система, выдающая все нерелевантные и только нерелевантные сообщения - дизинформирующая)

38. Матрицы "термин-документ", "термин-термин" и их свойства.

D-словарь, содержащий множество лексических единиц всего потока документов. Тогда

li для всех i, где li- совокупность лексических единиц некоторого документа, который является элементом некоторого потока L: L={l1,…,li,…,ln}, li L.

Существует универсальный массив L0, подмножеством которого являются все документы:

L0={ l1,…,li,…,ln}, li L0 для всех i, причем |L0|=n0, где n0- мощность множества L0.

Линейное представление теоретико-множественного образа документа:

lk = , где bik = 1-если i-й термин входит в k-й документ;0- если не входит.

Универсальный массив в линейном представлении есть матрица размерности D*n0:

L0= Каждый столбец матрицы соответствует документу и описывает множество терминов, содержащихся в нем. Столбец матрицы характеризует ПОД. Строка матрицы соответствует отдельному термину и является перечнем документов, содержащих данный термин. Сумма элементов строки представляет собой частотную характеристику термина Fi, присутствующую обычно в частотном словаре информационного массива: Fi=∑bik.


39. Диаграмма Эйлера-Венна (диаграмма <L>). Критерии оценки АИПС в координатах <L>.

Здесь L1 и L2- множества документов, L12-их пересечение, L0-множество документов информационного массива. П1 и П2- множество терминов (все значимые термины, хотя бы 1 раз встречающиеся во множестве документов);П12- пересечение информационных профилей;D-универсальный словарь.

Данные множества могут трактоваться: L1 и L2- множества документов, связанных по общему термину; П1 и П2- списки терминов каждого из двух документов (термины, хотя бы раз встречающиеся в документах потока или встречающиеся чаще чем некоторый порог ƒmin или имеющие частоты, лежащие в интервале [ƒmin, ƒmax]

Рассмотрим случай когда L1 и L2- множества документов, связанных по общему термину. Выберем 2 произвольных термина T и t, входящие в какие-либо документы из L0.

L1- множество документов, содержащих термин T. L2- множество документов, содержащих термин t.

X=|L12|=|L1∩L2|- количество документов, содержащих оба термина

Y= | L1\L2|- количество документов, содержащих термин T, но не содержащих термин t.

Z= | L2\L1|- количество документов, содержащих термин t

V= |L0\(L1UL2)|- количество документов, не содержащих ни одного из терминов.

X+y+z+v=|L0|=n0

Для измерения эффективности системы используются разностные меры множеств истинно релевантных LИ и выданных LC документов. Проблема оценки эффективности формальна сходна с задачей сопоставления множеств документов и множеств терминов.


40. Таблица сопряженности. Критерии оценки АИПС в координатах <a,b,c,d>.

Таблица сопряженности <a,b,c,d> отображает количественное соотношение выданных системой множеств релевантных (с точки зрения потребителя) и нерелевантных документов и невыданных множеств релевантных и нерелевантных документов.

  Реле- вантные Нереле- вантные
Выданные a b
Невыданные c d

Взаимосвязь представленных координат:

и с

Число выданных релевантных документов: a = x = | L ∩ L |;

и

Общее число релевантных документов: a + с = x۪ = |L |;

c

Количество выданных документов: a + b = n = |L |;

Общее число документов L0: a + b + x + d = n0 = |L0|;

c и

Число выданных нерелевантных документов: b = n – x = | L \ L |

и c

Число невыданных релевантных документов: b = x0 – x = |L \ L |;

c

Число невыданных документов: c + d = n0 – n = |L0 \ L |;

и

Число нерелевантных документов: b + d = n0 – x0 = |L0\L |;

Число невыданных нерелевантных документов: d = n0 – x0 - (n - x) = |L0\ (L U L)|

41. Диаграмма <n,x>. Критерии оценки АИПС в координатах <n,x>.

Допустимые выдачи (имеющие смысл сочетания числа выданных релевантных – х и всего выданных документов - n) находятся в незаштрихованной области 0Иp0Д, ограниченной прямыми линиями:

0И: x = n; Ир0: х = х0; p0Д: х = n – (n0 – x0); Д0: х = 0

Взаимосвязь представленных координат:

и с

Число выданных релевантных документов: a = x = | L ∩ L |;

и

Общее число релевантных документов: a + с = x۪ = |L |;

c

Количество выданных документов: a + b = n = |L |;

Общее число документов L0: a + b + x + d = n0 = |L0|;

c и

Число выданных нерелевантных документов: b = n – x = | L \ L |

и c

Число невыданных релевантных документов: b = x0 – x = |L \ L |;

c

Число невыданных документов: c + d = n0 – n = |L0 \ L |;

и

Число нерелевантных документов: b + d = n0 – x0 = |L0\L |;

и с

Число невыданных нерелевантных документов: d = n0 – x0 - (n - x) = |L0\ (L U L)|





Дата публикования: 2015-01-26; Прочитано: 325 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.01 с)...