Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Примеры систем индексирования (СИ)



1. Системы свободного индексирования. Процесс индекси­рования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержа­ние текста. Он может брать слова, отсутствующие в тексте, но важные с его точки зрения для выражения смысла текста. Такие слова он может извлекать из своей памяти, любых словарей, энциклопедий, вообще любых текстов. Отобранный список слов является поисковым образом текста.

Такой вариант индексирования называется: СИ с ручным ин­дексированием (1а), без словаря (2а), с эвристическими процедура­ми отбора слов (36), без лексиграфического контроля (4а) и морфо­логического анализа (5г). Формула такой СИ: 1а, 2а, 3б, 4а, 5г.

2. Системы полусвободного индексирования. В данном случае процесс индексирования аналогичен вышеописанному, но слова сформированного списка соотносятся со словарем, несо­впадающие слова отбрасываются и в ПОД не включаются.

Формула такой СИ: 1а, 2б, 3б, 4а, 5г.

3. Системы жесткого индексирования. В данном случае слова выписываются только из текста. В ПОД включаются лишь те слова, которые есть в словаре. Перед включением тер­мина в словарь проводится его морфологическая нормализа­ция на базе основных лексических словарей. Формула СИ: 1а, 26, 36, 46, 56.

4. Системы статистического автокодирования. Слова вы­бираются из текста по заданным статистическим процедурам, по­сле чего проводится их статистическое кодирование путем усече­ния слов по алгоритмам позиционной статистики. Формула СИ: 16, 2а, Зв, 4а, 5в. Примером такой системы является СИ «РИПСИМЕ-1».

Существует большое разнообразие СИ с другими фор­мулами.

21. Девять признаков типологии инфор­мационно-поисковых операций и их составляющие. (Тема 7, стр. 53-54).

7 .5.1. Типология информационно-поисковых операций (ИПО)

В настоящее время разработаны и реализованы в действую­щих АИПС разнообразные информационно-поисковые операции. Каждый разработчик закладывает в эти операции что-то свое. В ре­зультате число таких операций может достичь в ближайшие годы внушительной величины. В то же время анализ показывает, что каж­дая ИПО характеризуется некоторой вполне ограниченной сово­купностью признаков, определяющих ее содержание, структуру и условия реализации в конкретных АИПС. Следовательно, любую ИПО можно рассматривать как операцию, характеризующуюся не­которой единой для всех ИПО совокупностью существенных при­знаков. Конечно, многие нюансы и тонкости индивидуальных ИПО при таком подходе могут быть утеряны, но появляется возможность проведения сравнительного анализа различных ИПО по тем или иным основаниям, анализа их достоинств, недостатков и, самое глав­ное, условий реализации в конкретных АИПС, а также требований, предъявляемых к организации массивов, методам доступа и т. д. Анализ показывает, что всю совокупность реальных ИПО характе­ризуют следующие наиболее существенные признаки:

1. Временной интервал накопленного массива, в котором проводится поиск.

2. Число одновременно обрабатываемых запросов.

3. Тип поисковых запросов.

4. Характер поисковых запросов.

5. Характер обратной связи.

6. Число используемых ИПЯ.

7. Тип используемых ИПЯ.

8. Способ корректировки поисковых предписаний в про­цессе поиска.

9. Характер семантической организации массива.

С учетом сказанного можно определить типологию инфор­мационно-поисковых операций по совокупности предложенных признаков.

1. По временному интервалу накопленного поискового массива:

а) ретроспективный поиск - поиск в массиве, накопленном в некоторый период времени, превышающий интервал времени об работки последних поступлений в систему;

б) текущий поиск - поиск в массиве поступлений в АИПС.

2. По числу одновременно обрабатываемых поисковых за­просов:

а) индивидуальный поиск - поиск по одному запросу;

б) групповой поиск - поиск по нескольким запросам одновременно.

3. По типу поисковых запросов:

а) поиск по разовым запросам;

б) поиск по постоянно действующим запросам.

4. По характеру поисковых запросов:

а) фактографический поиск - поиск, а точнее выборка, по заранее заданным признакам фактических данных, полностью соответ­ствующих поисковому предписанию (100% полнота и точность);

б) текстовый поиск (семантический или документальный по иск) - поиск текстов (сообщений, документов), релевантных в соответствии с заданным критерием смыслового соответствия поисковому запросу.

5. По характеру обратной связи:

а) поиск без обратной связи АИПС с пользователем;

б) поиск с обратной связью - интерактивный или диалого­вый поиск.

6. По числу используемых ИПЯ:
а) одноязычный поиск;

б) многоязычный поиск - поиск с использованием несколь­ких типов ИПЯ.

7. По типу используемых ИПЯ:

а) жесткоконтролируемый поиск предполагает использова­ние ИПЯ с жестким словарем (ключевых слов, словосочетаний, дескрипторов или иных лексических единиц);

б) слабоконтролируемый поиск предполагает использование ИПЯ со свободным словарем;

в) неконтролируемый поиск предполагает использование ИПЯ без словаря.

8. По способу корректировки поисковых предписаний в процессе поиска (способу реализации обратной связи):

а) без корректировки ПП;

б) с ручной корректировкой ПП, который выполняет лицо, проводящее поиск на основе анализа промежуточных результатов поиска, использования тезауруса, словарей, справочников и т. д.;

в) с автоматизированной корректировкой ПП, который вы­полняет лицо, проводящее поиск на основе анализа промежу­точных результатов поиска и информации, выдаваемой для этой цели АИПС по заранее заложенным в нее алгоритмам ре­ализации ИПО;

г) с автоматической корректировкой ПП средствами ИПО.

9. По характеру семантической организации поискового массива:

а) поиск в семантически неорганизованных массивах - одно­уровневый поиск» т. е. поиск в массиве, рассматриваемом как се­мантически однородный;

б) поиск в семантически организованном массиве (много­уровневый поиск) - поиск в массиве, семантически организован­ном в некоторую иерархическую, сетевую, реляционную, гипер­текстовую или иную структуру.

Приведенная типология видов информационного поиска позволяет детализировать реальные поисковые операции, вычле­няя из них те, которые представляют интерес с точки зрения ис­следуемой проблемы, поскольку по сути дела проведенные виды поиска являются составляющими ИПО.

Например, текстовый (2а), диалоговый (5б), ретроспек­тивный (2а), индивидуальный (2а), одноязычный (6а), поиск по разовым запросам (За), в семантически неорганизованном массиве (9а), с использованием неконтролируемого ИПЯ (7б), с автоматизированной корректировкой поисковых предписа­ний (8б) включает в себя девять составляющих (1а, 2а, За, 4б, 5б, 6а, 7б, 8б, 9а), каждая из которых характеризует один из ас­пектов ИПО.

Поскольку любая информационно-поисковая операция ха­рактеризуется хотя бы одним значением каждого признака, общее число ИПО не превышает мощности множества прямого произве­дения всех девяти подмножеств приведенных признаков, т. е.

N < /{ 1а, 2а} х {2а, 2б} х [За, 3б} х {4а, 4б} х {5а, 5б} х

х {6а, 6б} х {7а, 7б} х {8а, 8б, 8в, 8г} х {9а, 9б}.

В действительности число ИПО меньше, поскольку реализация ИПО с заданной характеристикой предъявляет определенные требования к типу ИПЯ, структуре массивов и т. д., а сами требования могут оказаться противоречивыми для различных характеристик. Например, фактографический поиск (4а) не может проводиться с использованием ИПЯ без словаря (7в) или ИПЯ со свободным словарем (7б).





Дата публикования: 2015-02-03; Прочитано: 1028 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.007 с)...