Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Как работают поисковые машины



Поисковая машина (для краткости ее часто называют просто поисковик) представляет собой комплект программ, в основе которого лежат следующие пять:

· Spider («паук») — программа, которая загружает в поисковую машину Web-страницы. Работает аналогично браузеру, установленному на компьютере пользователя, но ничего не отображает ни на каком экране.

· Crawler («червяк», или «путешествующий паук») — программа, способная найти на Web-странице все ссылки на другие страницы. Ее задача — определить, куда дальше должен ползти «паук», руководствуясь ссылками или заранее заданным списком адресов.

· Indexer (индексатор) — программа, которая «разбирает» страницу на составные части и анализирует их. Вычленяются и анализируются заголовки Web-страниц, заголовки документов, ссылки, текст документов, отдельно — текст, выделенный полужирным шрифтом, курсивом и т. д.

· Database (база данных) — хранилище всех данных, которые поисковая система загружает и анализирует. Требует огромных ресурсов как для хранения, так и для последующей обработки.

· Search Engine Results Engine (система выдачи результатов поиска) решает, какие страницы удовлетворяют запросу пользователя и в какой степени. Именно с этой частью поисковой системы «общается» пользователь.

Процесс загрузки из Сети информации и предварительного анализа ее поисковой машиной называется индексация, а сама база данных поисковой машины, в которой хранится собранная информация, – индекс.

Когда пользователь формирует запрос на поиск, поисковая машина просматривает свою базу данных и выдает перечень Web-страниц, содержащих слова, введенные пользователем в поле ввода (ключевые слова). Задача поисковой машины – отобрать те из них, которые в набольшей степени отвечают запросу пользователя (релевантны) и указывать ссылки в числе первых.

Высокая скорость поиска обеспечивается не только за счет того, что поисковая машина обращается к уже собранной и хранящейся тут же, у нее «под рукой», информации. Анализируя собранные данные, поисковая машина выполняет индексацию базы данных, в процессе которой каждому слову ставятся в соответствие его «координаты» - номер документа, в котором имеется данное слово, а зачастую и позиция слова в документе (номер предложения и номер слова в нем).

Алгоритмом поиска можно назвать метод, руководствуясь которым поисковая машина принимает решение, включать или не включать ссылку на страницу либо документ в результаты поиска.

Почти каждая поисковая машина использует свой собственный алгоритм поиска, и его детали представляют собой ноу-хау разработчиков поисковика.
Но большинство из них отбирают документы, отвечая сами себе на вопросы:

· Присутствует ли ключевое слово в заголовке документа?

Полнота и точность поиска

Если бы интеллект поисковой машины был сравним с человеческим, в результате поиска мы получали бы несколько документов, содержащих исчерпывающую информацию о предмете поиска. К сожалению, это (пока) не так, и в результатах запроса обычно фигурируют сотни документов, не имеющих отношения к тому, что на самом деле мы хотели получить. Называются такие документы нерелевантными.

Релевантность

Итак, релевантным (от англ. Relevant) называется документ, имеющий отношение к сделанному запросу, т.е. содержащий нужную информацию.

Следует отметить, что обсуждение понятия релевантности в контексте информационно-поисковых систем ведется уже около полувека, но его конкретного общепринятого определения все ещё нет.

Этапы поисковой процедуры

Процедура поиска имеет вполне определенную этапность – от определения информационной потребности и области поиска до анализа результатов и выбора пертинентных объектов.

Информационные потребности пользователя могут относиться к разным областям, которые могут быть как узкоспециализированными, так и достаточно типовыми. На практике основная часть информационных потребностей приходится именно на типовые области применения:

· Поиск отдельных Web-страниц

Вторая, оперативная, часть поисковой процедуры предполагает многовариантность подходов и решений при формализации запросов в процессе их обработки. В этом случае также аналитик-профессионал приходит к необходимости использования весьма ограниченного числа поисковых серверов, каталогов и отдельных web-ресурсов для решения своей задачи. Основной задачей второго этапа является формирование эффективных запросов к ИПС. Наибольшую проблему при формировании запросов представляет то, что на каждом поисковом сервере используется свой информационно-поисковый язык (ИПЯ), несмотря на то что у различных языков много общего, - например, схожий набор булевых операций. В настоящее время не существует единого стандарта, подобного стандарту языка SQL для СУБД, хотя на протяжении многих лет ведутся попытки таких стандартизации.

Третий этап поиска в сете Internet является определяющим, - от его реализации зависит, будет ли найденное решение пертинентно. На этом этапе пользователь работает с конечными документами, полученными в виде отклика ИПС. От правильного выбора набора документов-первоисточников зависит результат работы всех трех этапов поисковой процедуры.





Дата публикования: 2015-02-03; Прочитано: 355 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.007 с)...