Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Системы поиска информации. Поиск информации в WWW



67-70 в одном!

Система гипермедиа WWW

WWW (World Wide Web - всемирная паутина) - самый популярный и интересный сервис Интернет сегодня, самое популярное и удобное средство работы с информацией.

Система WWW

Архитектура системы

Система WWW

Основные компоненты

язык гипертекстовой разметки документов HTML (HyperText Markup Language);

универсальный способ адресации ресурсов в сети URL (Universal Resource Locator);

протокол обмена гипертекстовой информацией HTTP (HyperText Transfer Protocol);

универсальный интерфейс шлюзов CGI (Common Gateway Interface).

HTML

HyperText Markup Language (HTML) — это язык описания содержащейся на WWW-информации. HTML-файл представляет из себя обычный ASCII-текст, содержащий специальные коды, которые обозначают присоединенную к файлу графику, видео, аудио информацию или исполняемые коды среды просмотра информации — Web browser — Java Script, Java Classes. Вся эта информация хранится в файлах на WWW-сервере. Когда Web browser получает доступ к этому файлу, он сначала интерпретирует закодированную в HTML-файле информацию, а затем представляет для пользователя всю информацию в графическом или текстовом виде Web-страниц.

HyperText или hyperlinks (гиперссылки), содержит связи внутри текстового документа, которые позволяют пользователю быстро переходить от одной части документа к другой или к другому документу.

URL - Uniform Resource Locator

Каждому документу в WWW назначается унифицированный указатель информационного ресурса – URL, который одновременно служит ссылкой на страницу, а также является уникальным именем страницы (документа).

Формат URL

Формат URL выглядит так:

protocol://host.domain[:port]/path/filename

Protocol имеет одно из значений, перечисленных ниже:

file - файл на вашей локальной системе, или файл на anonymous FTP сервере;

http - файл на World Wide Web сервере;

gopher - файл на Gopher сервере;

WAIS - файл на WAIS (Wide Area Information Server) сервере;

news - группа новостей телеконференций Usenet;

telne t - подключение к удаленной машине в режиме виртуального терминала.

Недостаток URL

URL указывает на определенный хост.

URL не представляет способа ссылки на страницу не указывая ее точного адреса.

Организация IETF работает над системой URI (Uniform Resource Identifier), которую можно считать оббощенным URL-указателем.

URI (Uniform Resource Identifier)

Формат:

схема://[имя_пользователя:пароль@]адрес_хоста:порт/путь_к_документу/имя_документа

Состоит из трех частей:

Схема – идентифицирует тип службы, через которую, можно получить доступ к ресурсу.

Адрес – идентифицирует адрес сервера ресурса.

Имя и путь доступа к документу определяет полный путь к документу на сервере.

Схемы URI

WWW – http://

Gopher – gopher://

FTP – ftp://

Новости Usenet – news://

nntp://

Telnet – telnet://

WAIS – wais://

File – file:///c:|/text/html/index.htm

Схема HTTP

Вслед за именем схемы (http) следует путь, состоящий из доменного адреса машины и полного адреса HTML документа в дереве сервера HTTP. В качестве адреса машины допустимо использование и IP адреса:

http://144.206.160.40/risk/risk.html

Основные информационные ресурсы Интернет

электронная почта и почтовые роботы;

глобальная система телеконференций Usenet, региональные и специализированные телеконференции;

списки рассылки;

он-лайновые средства коммуникации пользователей;

системы поиска людей и организаций;

базы данных Hytelnet;

система файловых архивов FTP, системы поиска в FTP-архивах глобального и регионального охвата;

базы данных Gopher и поисковая система Veronica;

гипертекстовая информационная система World Wide Web (WWW);

каталоги ресурсов - глобальные, локальные, специализированные (в среде WWW);

поисковые машины, или автоматические индексы - глобальные, локальные,

баннерные системы (в среде WWW);

активные информационные каналы (в среде WWW).

Основные принципы информационного поиска

На основе анализа текста документа создается список терминов, характерных для этого документа, в котором образуется словарь документа. Как правило, термины используются в качестве указателей (индексов) документа.

Список терминов документа образует поисковый образ документа.

Совокупность поисковых образов документов образует поисковый массив (индекс).

После создания индекса к нему обращаются с помощью запросов.

Запрос переводится на язык индексирования – поисковое предписание.

Выполняется сравнение поисковых образов с поисковым предписанием.

Результаты сравнения представляют собой список документов, отсортированных по релевантности.

Информационно-поисковая систем

Процедура поиска

Типы запросов

Возможны два основных варианта формулировки запроса к ИПС:

запрос с использованием специального языка запросов (четкий поиск);

запрос на естественном языке (нечеткий поиск).

Четкий запрос

Состоит из слов или словосочетаний естественного языка, объединенных операциями алгебры логики, а также специальными операциями, позволяющими задать условия одновременного вхождения слов в один фрагмент текста:

AND, OR, NOT, Near N.

Система DNS (Domain Name System)

По имени можно получить информацию о профиле организации или ее местоположении.

Шесть доменов высшего уровня определены следующим образом:

gov – правительственные организации;

mil – военные организации;

edu – образовательные организации;

com – коммерческие организации;

org- общественные организации;

net – организации, предоставляющие сетевые услуги, как правило, региональные сетевые организации.

Система DNS (Domain Name System)

Кроме того, все страны мира имеют свое собственное символьное имя, обозначающий домен верхнего уровня этой страны.

Например, de – Германия, us – США, ru- Россия, by – Беларусь и т.д.

Планирование поисковой процедуры

Лексический анализ информации

Сформировать максимально широкий набор ключевых слов (терминов) с учетом профессионального слэнга.





Дата публикования: 2014-11-26; Прочитано: 225 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.008 с)...