![]() |
Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | |
|
Одними из наиболее важных показателей эффективности ИС, содержащих текстовую инф-ю, являются семантические показатели. Семантические показатели основаны на оценке релевантности между документами и запросами.
Релевантность — объективно существующее смысловое соответствие между содержанием документа и запроса. Объективность оценок релевантности обеспечивается тем, что они устанавливаются экспертным путем, а не автором запроса.
Семантическими показателями являются полнота выдачи (потери инф-и) и точность выдачи (информационный шум).
Другой группой показателей оценки эффективности документальных ИС являются прагматические показатели. Эти показатели можно определить только в процессе эксплуатации ИС.
Прагматические показатели определяют абоненты системы на базе оценок пертинентности выданных документов. Пертинентность — это субъективно оцениваемое соответствие содержания документов или текстов инф-м интересам потребителя. Пертинентность может оценить только автор запроса, работающий с ИС. Оценки пертинентности, как правило, отличаются от результатов, полученных на основе оценок релевантности.
Рассмотрим вопросы оценки эф-ти поиска в профессиональных базах и ИР Интернета.
Анализ содержимого профессиональных баз за последние 15 лет показывает неуклонный рост доли текстовой инф-и в общем объеме инф-и в профессиональных базах. Эти обстоятельства позволяют сделать вывод о том, что подходы к оценке эф-ти поиска в документальных системах в полной мере распространяются и на профессиональные базы, и на ИР Интернета.
ИР Интернета и имеющиеся в среде Интернет поисковые средства обладают определенной спецификой, которая оказывает существенное влияние на эффективность поиска в этой среде. Основными поисковыми средствами в Интернете являются поисковые системы и каталоги. Поисковые системы состоят из трех частей:
- робот — программа, которая посещает web-серверы, считывает и индексирует полностью или частично их содержимое и далее следует по ссылкам, найденным на сервере. Просмотры серверов осуществляются периодически, например раз в месяц, раз в две недели;
- индексные массивы и копии текстов просмотренных страниц, хранящиеся в поисковой с-ме;
- программа, которая, просматривая в соответствии с запросом пользователя индексные массивы, отбирает и выдает потребителю найденные документы.
В каталогах имеются иерархические тематические рубрики. Отнесение серверов к тем или иным рубрикам каталога осуществляется человеком. Пользователь ищет инф-ю в каталоге вручную, используя рубрики.
В связи с тем, что в средствах поиска в Интернете не используются информационно -поисковые языки, на которых могли бы быть описаны исходные документы и запросы, полнота поиска в Интернете с учетом указанных выше поисковых средств будет значительно ниже, чем в документальных системах, построенных на базе информационно-поисковых языков.
В 2000 г. специалисты компаний AltaVista, IBM и Compag исследовали ресурсы и гиперсвязи существующего инф-го пространства WWW. Просмотрев с помощью поисковых средств AltaVista свыше 600 млн web-страниц и 1,5 млрд ссылок, размещенных на этих страницах, они пришли к выводу, что исследуемое пространство состоит из следующих компонентов:
- центральное ядро — тесно связанные между собой web-страницы, с каждой из которых можно попасть на любую другую (27 %);
- отправные страницы. В них могут быть ссылки, ведущие к ядру, но из ядра к отправным страницам попасть нельзя (22 %);
- оконечные web-страницы, к которым можно прийти по ссылкам из ядра, но к ядру от них попасть нельзя (22 %);
- полностью изолированные от центрального ядра страницы (22 %); web-страницы, не пересекающиеся с остальными ресурсами Интернета (7 %).
Исследования показали, что при увеличении общего объема ИР Интернета установленные отношения компонентов остаются прежними. Проведенный анализ позволяет сделать вывод о том, что инф-ое пространство Интернета является достаточно сложным и неоднородным. К отдельным ресурсам Интернета поисковые машины не имеют доступа.
У каждой поисковой машины свой процент индексирования документов и своя стратегия выбора — какие из ресурсов индексировать. Следует отметить, что количество документов в Интернете значительно увеличивается с каждым годом, при этом доля просмотренных и заиндексированных документов уменьшается.
ИР Интернета делятся на «видимую» и «невидимую» части сайтов.
«Видимая» часть сайтов — это та часть, которая обрабатывается поисковыми системами и индексируется. «Невидимая» — часть сайтов, которая не предназначена для обработки поисковыми системами.
Перечисленные особенности ИР Интернета и поисковых средств позволяют сделать вывод о том, что эффективность поиска инф-и в Интернете существенно уступает эффективности поиска в документальных информационно-поисковых системах, использующих специальные информационно-поисковые языки, и эффективности поиска в профессиональных базах. Указанные обстоятельства определяют высокие требования к профессиональной подготовке пользователя, которая необходима для получения нужной инф-и из ИР Интернета.
Организация инф-и в профессиональных базах отличается от организации инф-и в Интернете в первую очередь тем, что инф-я накапливается и постоянно обновляется в базах данных, которых в настоящее время свыше 13 тыс. В каждой базе собрана специфичная инф-я. Отбор достоверных источников и накопление инф-и ведут инф-ые агентства-генераторы. Они же поддерживают эти базы в актуальном состоянии, то есть обновляют. Получение инф-и из баз потребителями обеспечивают агентства-поставщики. Потребителю предоставляется язык запроса и документация, характеризующая базы данных, которая включает следующие сведения по каждой базе: название, отражающее вид инф-и, хранимой в базе, с какого времени ведется база, объем накопленной инф-и, период обновления, источники инф-и.
Указанные особенности обеспечивают высокие показатели по достоверности, полноте и точности предоставляемой инф-и.
Дата публикования: 2015-02-03; Прочитано: 454 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!