Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Пошукові системи(класифікація і сфери використання)



Пошук необхідних відомостей у великому об'ємі досить різноманітної інформації - завдання, яке людство вирішує вже багато століть. У міру зростання об'єму інформаційних ресурсів були розроблені досить досконалі пошукові засоби і прийоми, що дозволяють знайти необхідний документ. В якості основного інструменту для пошуку інформації у бібліотеках використовуються каталоги(алфавітні, систематичні і предметні). Проте кожен інструмент має свої недоліки.

При великих об'ємах інформації(які характерні для Internet) пошук інформації стає дуже складною процедурою. Для того, щоб знайти потрібні відомості в Inemet необхідно мати спеціальні знання і навички. Фахівець, що має такі знання і навички і здійснюючий пошук інформації по замовленнях, що поступили, називається інформаційним брокером.

Він знає, як влаштовані класифікатори, як їх інтерпретують систематизаторы, які існують інструменти для пошуку інформації в Inemet, технологічні прийоми і методики пошуку, особливості різних пошукових машин і так далі. У бесіді із замовником він вивчає його інформаційну потребу і перетворює її на пошуковий припис. У нашій країні фахівці такого профілю - доки рідкість, хоча потреба в них вже відчувається.

 

У Internet доступні інформаційно-пошукові системи(ІПС) трьох типів: класифікаційні, словникові і предметні.

Класифікаційні ІПС використовують ієрархічну організацію інформації, яка описується за допомогою класифікатора. Розділи класифікатора називаються рубриками. У бібліотечній справі для цієї мети використовується, наприклад, систематичний каталог.

Класифікатор розробляється і удосконалюється колективом авторів. Потім його використовує інший колектив фахівців, званих систематизаторами, які, знаючи класифікатор, читають документи і приписують їм класифікаційні індекси, що вказують, яким розділам класифікатора ці документи відповідають. Як приклад класифікаційній ІПС в Internet можна назвати Yahoo! (www.yahoo.com)у якій одночасно працює більше 100 систематизаторов, Excite, Look Smart, Yellow Web, "Сузір'я Інтернет", "Ay".

Класифікаційні ІПС мають ряд специфічних недоліків. Розробка класифікатора пов'язана з оцінкою відносної важливості різних областей людської діяльності. Будь-яка оцінка є соціальною дією - вона пов'язана з суспільством, культурою, соціальною групою, до якої належить людина, що виробляє оцінку. Тому класифікатори створені різними колективами в різних країнах сильно розрізняються. Крім того, у систематизаторов виникають складнощі з інтерпретацією матеріалів, написаних на іноземних мовах(не лише початкових документів, але і класифікаторів). Оскільки абсолютно строгої класифікації не вдається зробити нікому, завжди існують документи, які можна віднести до декількох розділів класифікатора.

Систематизаторы в складних випадках(коли неясно, до якого з розділів має бути віднесений документ) застосовують два прийоми: відсилання і посилання. Відсилання(у Yahoo! вона позначається знаком @) поміщається в тих розділах класифікатора, в які не потрапив цей документ, - в ній вказується, до якої рубрики він віднесений систематизатором. Посилання використовується в тих випадках, коли аналогічна інформація може знаходитися в інших розділах класифікатора.

Словникові ІПС використовують базу даних, побудовану із слів, що зустрічаються в документах Internet 'а. У такій базі при кожному слові зберігається список документів, з яких воно узяте. Оскільки усі морфологічні одиниці в словнику впорядковані, пошук потрібного слова може виконуватися досить швидко, без послідовного перегляду.

По одному слову знайти необхідну інформацію досить складно. Тому, кожна словникова ІПС має свою мову запитів, що дозволяє комбінувати слова, що найбільш повно характеризують шукану інформацію.

До словникових ІПС Internet 'а відносяться такі, як Alta Vista, Rambler, Япеех, Апорт.

Словникові ІПС здатні видавати списки документів, мільйони посилань, що містять. Навіть простий перегляд таких списків скрутний. Тому багато словникових ІПС надають можливість ранжирування результатів пошуку - найбільш важливі документи поміщаються в початок списку.

У мові запитів таких ІПС передбачені спеціальні засоби, наприклад, в режимі складного пошуку в Alta Vista можна вказати перелік термінів, які підвищують ранг знайденого документу(що для цієї ІПС особливо актуально, оскільки вона показує тільки перші 200 знайдених документів). Rambler і Япс1ех дозволяють вказати вагу кожного з термінів, що дозволяє досить точно настроювати порядок дотримання знайдених документів.

У предметних ІПС з пошуковим чином пов'язані списки ресурсів Мережі, що містять потрібну інформацію і посилання на близькі за тематикою сайти. У таких ІПС створюються кільцеві посилальні структури. Так, сервер www.webring.org містить декілька десятків тисяч тематичних кілець (середній розмір кільця - близько 12 серверів але є і кільця-гіганти, до складу яких входять тисячі серверів). Поки кільця були невеликими, пошук інформації труднощів не представляв. Для полегшення пошуку на вказаному сервері використовуються свої класифікаційна і словникова ІПС, що допомагають знайти необхідну інформацію.
За допомогою інформаційно-пошукових систем можна шукати цілком певні інформаційні об'єкти, список яких приведений на мал. 2.

Опис пошукових систем.

Пошукова система Alta Vista.

У кожної пошукової системи існує своя мова запитів, яка визначає правила, відповідно до яких формулюються запити на пошук інформації.

У класифікаційних і словникових ІПС запит складається на основі ключових слів, які є найбільш яскравою характеристикою шуканої інформації(по суті, без цих слів ця інформація обійтися не може). Краще, якщо ці ключові слова мають специфічний сенс, властивий тільки шуканому інформаційному матеріалу, що відрізняє цей матеріал від усіх інших.

Пошукова система AltaVista відноситься до розряду словникових ІПС і є однією з самих інформаційно насичених. Звернутися до неї можна по адресах:

http://www.altavista.digital.com/

http://altavista.telia.com/tgi - bin/telia7country=ru&lang=ru(ця адреса дозволяє звернутися до пошукової системи, працюючої російською мовою);

http://home.microsoft.com/intl/ru/access/allinome.asp(за цією адресою міститься доступ до декількох пошукових машин, у тому числі - працюючим російською мовою).

 

Мал. 2. Пошукові об'єкти в Internet

Розглянемо правила складання пошукових запитів, використання операторів і команд в мові запитів системи AltaVista:

1) Запит на пошук інформації(пошуковий припис) є пошуковим образом.

2) Пошуковий образ може складатися з одного або декількох ключових слів.

3) Залежно від способу з'єднання ключових слів в пошуковому запиті розрізняють прості і складні запити.

4) Складний запит відрізняється від простого тим, що в нім можна вказати дату створення шуканого документу(щоб виділити матеріали, що мають останнє оновлення після вказаної дати), спеціальну логіку пошуку(визначувану використанням операторів AND, OR, NOT, NEAR), вибрати один з трьох варіантів впорядковування результатів пошуку при їх виведенні: "тільки в якості підсумку", "компактна форма", і "стандартна форма"(остання використовується за умовчанням), і використати круглі дужки для виділення логічно самостійних частин запиту.

5) Ключових слів можуть набиратися на різних регістрах клавіатури - залежно від цього пошукова машина буде по- різному проводити пошук.

Наявність в ключовому слові заголовної букви змусить пошукову машину при простому пошуку шукати слова саме з таким написанням, як в запиті. Якщо ж заголовні букви не використовувалися, то пошукова машина враховує будь-які варіанти написання цих слів. Наприклад, якщо пошуковий припис складається з одного слова Computer, будуть знайдені інформаційні матеріали, що містять це слово саме в такому зображенні. Якщо ж це слово не міститиме заголовних букв, то при пошуку враховуватимуться слова в таких зображеннях, як computer, COMPUTER, COMPuter, та ін. Необхідно враховувати, що при використанні пошукового образу, що складається тільки з одного слова computer, AltaVista надає близько 2000 посилань.

Проглянути таку кількість посилань практично неможливо, тобто інформаційний пошук не можна вважати ефективним(при правильно складеному запиті необхідна інформація знаходиться в числі перших двох десятків посилань).

6) У тому випадку, якщо невідоме правильне написання слова, або інтерес представляє безліч однокорінних слів, використовується оператор невизначеності -(зірочка). Поставивши цей символ після будь-якої послідовності букв(не менше три), вплив яких необхідно врахувати при пошуку, можна здійснити широкий пошук, при якому ключове слово модифікуватиметься: пошук буде весьтись як для жорстко вказаної до зірочки сукупності букв, так і для слів, що містять будь-які букви(числом до 5) замість зірочки.

Наприклад, якщо вказати ключове слово comp*, те при пошуку враховуватимуться, як ключові - computer, computers, compute, та ін.

7) Для з'єднання декількох ключових слів можуть використовуватися оператори "пропуск", "лапки", логічні оператори " ", AND, OR, NOT, NEAR.

8) Оператор "пропуск" сполучає слова в пошуковому приписі таким чином, що для пошуку кожне з цих слів використовується окремо. При цьому, порядок слів в запиті не має значення. В процесі пошуку враховується тільки відстань кожного слова від початку документу і частота його використання в документі.

9) Оператор "лапки" сполучає слова так, що вони утворюють фразу, в якій усі вказані в приписі слова в документі стоять поряд один з одним і в тій же послідовності, як це вказано в приписі. Тому, якщо задати пошуковий припис у вигляді слів "personal computer" і у вигляді "computer personal", то результати пошуку будуть різними.

10) Оператор " ", сполучає слова, повідомляє пошукову машину, що в документі необхідно шукати основне слово(перше), але документ потрібно показувати в результаті пошуку тільки якщо далі в тексті трапляються інші слова з пошукового припису. Оператор ставиться безпосередньо перед кожним другорядним словом. Наприклад, по пошуковому образу:

computer personal digital

вестиметься пошук основного слова computer, але текст вважатиметься актуальним тільки якщо в нім трапляються так само слова personal і digital.

11) Оператор стоїть перед словом, означає, що основне слово повинне використовуватися в тексті без другорядного. Наприклад, пошуковий припис computer - personal повідомляє пошукову машину, що потрібно шукати основне слово computer, але в тексті не повинне зустрічатися слово personal(тобто цікавлять матеріали про комп'ютери, але не персональних).

12) Оператори AND, OR, NOT, NEAR використовуються в складних запитах.

13) Оператор AND(замість нього можна використати символ &) визначає, що слова, що сполучаються ним, повинні зустрічатися разом(тобто в простих запитах він еквівалентний знаку " ").

14) Оператор OR(замість нього можна використати знак "|") визначає, що слова, що сполучаються ним, незалежні один від одного(у простих запитах він еквівалентний пропуску).

15) Оператор NOT означає заперечення(у простих запитах він еквівалентний знаку "-").

16) Оператор NEAR(замість нього можна використати символ "~") визначає, що в шуканому тексті вказане їм ключове слово знаходиться від основного не далі, чим на 10 слів (наприклад, в пошуковому приписі:

провайдер* NEAR "дуже дешево" передбачається, що в шуканому тексті слово "провайдер" і словосполучення "дуже дешево" знаходяться не в різних кінцях тексту, а поруч один з одним - між ними може знаходитися не більше 10 слів).

17) Для обмеження пошуку використовуються спеціальні команди(теги): anchor, applet, title, url, host, link, image, from, subject.

18) Команда anchor дозволяє знайти в Мережі слово, що міститься в "тілі" посилання. Для цього після команди anchor через двокрапку вказується шукане слово. Наприклад, пошуковий образ містить:

anchor: home

По цьому запиту буде знайдено усю безліч сторінок, що містять усередині посилань слово home, у тому числі - і в такому посиланні: "If you would like go home, press here".

19) Команда applet дозволяє знайти заданий назвою модуль Java. Наприклад, якщо модуль Java називається word, то знайти його можна, записавши пошуковий образ: applet: word.

20) Команда title використовується у тому випадку, якщо шукане слово знаходиться в заголовку тексту. Наприклад, за запитом виду:

title: links

будуть знайдені документи, що містять слово links в заголовку, у тому числі текст із заголовком "Cool Links".

21) Команда url пропонує шукати url- адресу, що містить задане слово. Наприклад, якщо невідомо, в якому кореневому домені знаходиться host- комп'ютер МЭСИ, можна задати пошуковий припис: url: mesi. Серед безлічі адрес з таким словом буде і адреса http://www.mesi.ru/.

22) Команда host дозволяє дізнатися, які Web- сайти є на заданому host- комп'ютері. Наприклад, для того, щоб дізнатися, які сайти є на хості www.intel.ru необхідно набрати запит: host: intel.ru. Якщо ж в запиті вказати тільки частину імені, то в результаті пошуку будуть знайдені сайти, що мають інші адреси, але що містять задану частину імені.

Використовуючи цю команду, можна вести пошук в заданій країні. Наприклад, за запитом host: *.ru kreml буде знайдено інформація про Московський, Рязанський і інших Кремлях. При цьому треба пам'ятати, що пошук ведеться тільки для сайтів, зареєстрованих в пошуковій системі AltaVista, інші сайти їй недоступні.

23) Команда link дозволяє знайти адреси сторінок(сайтів), що утримують посилання на конкретну(задану в пошуковому образі) Web - сторінку. Наприклад, для того, щоб дізнатися, хто посилається на сайт www.mesi.ru необхідно задати припис: link:www.mesi.ru. Результатом буде список сторінок, на яких містяться посилання на сайт mesi.ru.

24) Команда image дозволяє знайти ілюстрацію в Internet. Для цього потрібно знати назву файлу, в якому вона зберігається. Формат команди той же.

25) Команда from дозволяє шукати в телеконференціях Usenet поштове повідомлення, відправлене конкретною людиною, ім'я якої вказується після двокрапки в команді. Наприклад: from:Иван Федоров(чи Ivan Fedorov).

26) Команда subject дозволяє шукати повідомлення в телеконференціях Usenet на конкретну, задану в пошуковому приписі тему.

Пошукова система AltaVista може працювати(і вести пошук) на різних мовах, у тому числі і на росіянинові.

Описані принципи управління пошуковою системою багато в чому аналогічні використовуваним і в інших пошукових системах.





Дата публикования: 2014-12-08; Прочитано: 2285 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.009 с)...