![]() |
Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | |
|
1. Системы свободного индексирования. Процесс индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные с его точки зрения для выражения смысла текста. Такие слова он может извлекать из своей памяти, любых словарей, энциклопедий, вообще любых текстов. Отобранный список слов является поисковым образом текста.
Такой вариант индексирования называется: СИ с ручным индексированием (1а), без словаря (2а), с эвристическими процедурами отбора слов (36), без лексиграфического контроля (4а) и морфологического анализа (5г). Формула такой СИ: 1а, 2а, 3б, 4а, 5г.
2. Системы полусвободного индексирования. В данном случае процесс индексирования аналогичен вышеописанному, но слова сформированного списка соотносятся со словарем, несовпадающие слова отбрасываются и в ПОД не включаются.
Формула такой СИ: 1а, 2б, 3б, 4а, 5г.
3. Системы жесткого индексирования. В данном случае слова выписываются только из текста. В ПОД включаются лишь те слова, которые есть в словаре. Перед включением термина в словарь проводится его морфологическая нормализация на базе основных лексических словарей. Формула СИ: 1а, 26, 36, 46, 56.
4. Системы статистического автокодирования. Слова выбираются из текста по заданным статистическим процедурам, после чего проводится их статистическое кодирование путем усечения слов по алгоритмам позиционной статистики. Формула СИ: 16, 2а, Зв, 4а, 5в. Примером такой системы является СИ «РИПСИМЕ-1».
Существует большое разнообразие СИ с другими формулами.
21. Девять признаков типологии информационно-поисковых операций и их составляющие. (Тема 7, стр. 53-54).
7 .5.1. Типология информационно-поисковых операций (ИПО)
В настоящее время разработаны и реализованы в действующих АИПС разнообразные информационно-поисковые операции. Каждый разработчик закладывает в эти операции что-то свое. В результате число таких операций может достичь в ближайшие годы внушительной величины. В то же время анализ показывает, что каждая ИПО характеризуется некоторой вполне ограниченной совокупностью признаков, определяющих ее содержание, структуру и условия реализации в конкретных АИПС. Следовательно, любую ИПО можно рассматривать как операцию, характеризующуюся некоторой единой для всех ИПО совокупностью существенных признаков. Конечно, многие нюансы и тонкости индивидуальных ИПО при таком подходе могут быть утеряны, но появляется возможность проведения сравнительного анализа различных ИПО по тем или иным основаниям, анализа их достоинств, недостатков и, самое главное, условий реализации в конкретных АИПС, а также требований, предъявляемых к организации массивов, методам доступа и т. д. Анализ показывает, что всю совокупность реальных ИПО характеризуют следующие наиболее существенные признаки:
1. Временной интервал накопленного массива, в котором проводится поиск.
2. Число одновременно обрабатываемых запросов.
3. Тип поисковых запросов.
4. Характер поисковых запросов.
5. Характер обратной связи.
6. Число используемых ИПЯ.
7. Тип используемых ИПЯ.
8. Способ корректировки поисковых предписаний в процессе поиска.
9. Характер семантической организации массива.
С учетом сказанного можно определить типологию информационно-поисковых операций по совокупности предложенных признаков.
1. По временному интервалу накопленного поискового массива:
а) ретроспективный поиск - поиск в массиве, накопленном в некоторый период времени, превышающий интервал времени об работки последних поступлений в систему;
б) текущий поиск - поиск в массиве поступлений в АИПС.
2. По числу одновременно обрабатываемых поисковых запросов:
а) индивидуальный поиск - поиск по одному запросу;
б) групповой поиск - поиск по нескольким запросам одновременно.
3. По типу поисковых запросов:
а) поиск по разовым запросам;
б) поиск по постоянно действующим запросам.
4. По характеру поисковых запросов:
а) фактографический поиск - поиск, а точнее выборка, по заранее заданным признакам фактических данных, полностью соответствующих поисковому предписанию (100% полнота и точность);
б) текстовый поиск (семантический или документальный по иск) - поиск текстов (сообщений, документов), релевантных в соответствии с заданным критерием смыслового соответствия поисковому запросу.
5. По характеру обратной связи:
а) поиск без обратной связи АИПС с пользователем;
б) поиск с обратной связью - интерактивный или диалоговый поиск.
6. По числу используемых ИПЯ:
а) одноязычный поиск;
б) многоязычный поиск - поиск с использованием нескольких типов ИПЯ.
7. По типу используемых ИПЯ:
а) жесткоконтролируемый поиск предполагает использование ИПЯ с жестким словарем (ключевых слов, словосочетаний, дескрипторов или иных лексических единиц);
б) слабоконтролируемый поиск предполагает использование ИПЯ со свободным словарем;
в) неконтролируемый поиск предполагает использование ИПЯ без словаря.
8. По способу корректировки поисковых предписаний в процессе поиска (способу реализации обратной связи):
а) без корректировки ПП;
б) с ручной корректировкой ПП, который выполняет лицо, проводящее поиск на основе анализа промежуточных результатов поиска, использования тезауруса, словарей, справочников и т. д.;
в) с автоматизированной корректировкой ПП, который выполняет лицо, проводящее поиск на основе анализа промежуточных результатов поиска и информации, выдаваемой для этой цели АИПС по заранее заложенным в нее алгоритмам реализации ИПО;
г) с автоматической корректировкой ПП средствами ИПО.
9. По характеру семантической организации поискового массива:
а) поиск в семантически неорганизованных массивах - одноуровневый поиск» т. е. поиск в массиве, рассматриваемом как семантически однородный;
б) поиск в семантически организованном массиве (многоуровневый поиск) - поиск в массиве, семантически организованном в некоторую иерархическую, сетевую, реляционную, гипертекстовую или иную структуру.
Приведенная типология видов информационного поиска позволяет детализировать реальные поисковые операции, вычленяя из них те, которые представляют интерес с точки зрения исследуемой проблемы, поскольку по сути дела проведенные виды поиска являются составляющими ИПО.
Например, текстовый (2а), диалоговый (5б), ретроспективный (2а), индивидуальный (2а), одноязычный (6а), поиск по разовым запросам (За), в семантически неорганизованном массиве (9а), с использованием неконтролируемого ИПЯ (7б), с автоматизированной корректировкой поисковых предписаний (8б) включает в себя девять составляющих (1а, 2а, За, 4б, 5б, 6а, 7б, 8б, 9а), каждая из которых характеризует один из аспектов ИПО.
Поскольку любая информационно-поисковая операция характеризуется хотя бы одним значением каждого признака, общее число ИПО не превышает мощности множества прямого произведения всех девяти подмножеств приведенных признаков, т. е.
N < /{ 1а, 2а} х {2а, 2б} х [За, 3б} х {4а, 4б} х {5а, 5б} х
х {6а, 6б} х {7а, 7б} х {8а, 8б, 8в, 8г} х {9а, 9б}.
В действительности число ИПО меньше, поскольку реализация ИПО с заданной характеристикой предъявляет определенные требования к типу ИПЯ, структуре массивов и т. д., а сами требования могут оказаться противоречивыми для различных характеристик. Например, фактографический поиск (4а) не может проводиться с использованием ИПЯ без словаря (7в) или ИПЯ со свободным словарем (7б).
Дата публикования: 2015-02-03; Прочитано: 1028 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!