Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Организация поисковых массивов



В современных ИПС могут использоваться три принципи­ально разных типа информационных массивов:

- пассивный массив, или массив третьего контура АИПС. Это массив оригиналов документов или сообщений, отображаю­щих предметную область АИПС;

- слабоактивный массив (массив второго контура АИПС) - упорядоченная машиночитаемая копия документов (сообщений) пассивного массива;

- активный массив - массив первого контура АИПС, или информационно-поисковый массив (ИПМ), структурирован­ный массив машиночитаемых поисковых образов документов, и/или их библиографических описаний, и/или рефератов, и/или самих документов (сообщений) и т. д. Иными словами, это база данных ИПС, структурированная в соответствии с за­данными ИПЯ совокупность элементов фактографической и/или документальной информации, представленных на маши­ночитаемых носителях. Собственно информационный поиск проводится только в активном массиве. Однако результатами этого поиска могут быть только коды документов, отдельные фрагменты документов, их рефераты, аннотации, заголовки и т. д., но не полнозначные копии документов и тем более не ориги­налы документов. Массив второго контура необходим для по­лучения копий документов в целом или их фрагментов. Обыч­но этот массив хранится на машиночитаемых носителях боль­шой емкости. Массив третьего контура используется только при необходимости обращения к оригиналу документа (сооб­щения). Такая необходимость возникает в библиотечных, ар­хивных, банковских и других системах, где важен юридический статус получаемой в ИПС информации. Поисковая процедура в трехконтурной ИПС состоит в проведении собственно ин­формационного поиска в активном массиве (базе данных) АИПС, анализе релевантности результатов поиска и обращении (при необходимости) по найденным поисковым ключам к документам второго или первого контуров АИПС.

Реализация информационного поиска в АИПС предпола­гает предварительное представление информационных массивов в соответствии с некоторой формальной структурой данных. Су­ществует несколько различных структур данных. В документаль­ных АИПС используется простейшая структура данных, включа­ющая четыре типа элементов:

ПОЛЕ-ЗАПИСЬ-ФАЙЛ-НАБОР ФАЙЛОВ

ПОЛЕ - наименьшая поименованная единица данных (ин­формации). Ими могут быть: автор документа, название докумен­та, реферат документа, часть документа или реферата документа, название дескриптора или иной лексической единицы и т. д. Ины­ми словами, ПОЛЕ - любая поименованная единица информа­ции (данных), которая может представлять интерес в процессе информационного поиска. Различают фиксированные и свобод­ные (гибкие) поля данных.

Фиксированное поле данных - поле с заранее заданным (фиксированным) числом символов (байт), используемых при его заполнении. Например, поля «фамилия автора документа», «год издания документа».

Свободные (гибкие) поля не предпола­гают явных ограничений на длину значений данных. Например, поля «реферат», «название документа» могут иметь разное число символов для различных документов.

ЗАПИСЬ - поименованная совокупность полей данных. Например, запись «документ» может включать поля: № докумен­та, название документа, год издания, издательство, авторы и т. д.

ФАЙЛ - поименованная совокупность экземпляров запи­сей одного типа.

НАБОР ФАЙЛОВ - поименованная совокупность файлов.

Схема записи - совокупность имени записи и имен состав­ляющих ее ПОЛЕЙ. Например, схема записи ДОКУМЕНТ име­ет вид ДОКУМЕНТ (№ документа, название документа, год из­дания, авторы, дескрипторы, реферат). Схема записи определяет тип записи - задает порядок композиции схем типов полей и приписывает имя типу записи.

Схема файла - совокупность име­ни файла, имени типа записи и имен составляющих ее полей.

Схема базы данных - совокупность имени набора файлов и схем составляющих ее файлов. База данных - совокупность состояний составляющих ее файлов. При предмашинном представлении информации схему базы данных отображают на бумажном носителе в виде, удобном для сбора и ввода информации. Такое представление носит название РАБОЧЕГО ЛИСТА АИПС, или ФОРМАТА ВВОДА ДАННЫХ АИПС. Обратное отображение РАБОЧЕГО ЛИСТА в схему базы данных выполняется компьютерной программой в процессе ввода информации в АИПС. Схема базы данных (схема организации информационно-поисковых массивов) сильно влияет на эффективность поисковых опера­ций. Существуют разнообразные схемы организации поисковых массивов, отличающиеся между собой как наборами файлов, так и их схемами. Однако в основе любых схем БД лежат схемы фай­лов, а в более узком смысле - схемы записей, поскольку именно они определяют структуру организации массивов.

Рассмотрим наиболее важные в документальном поиске схемы организации массивов.

Прямая схема организации массива

Схема записи представляет собой совокупность имен инте­ресующих пользователя полей, одним из которых обязательно является номер документа. Файл формируется как массив запи­сей, упорядоченных по номерам документов (рис. 7.1).

Инверсная схема организации массива

Схема приемлема только для записей с фиксированными полями. Схема записи включает имя ключевого поля (по которо­му предполагается проводить поиск) и поля «номера докумен­тов». Файл формируется как массив упорядоченных по значени­ям ключевого поля записей (например, по алфавиту, по цифровым кодам и т. д.) (см. рис. 7.1).

Прямая схема организации массива требует минимальных объемов памяти для записи и хранения информации, позволяет легко вносить изменения и дополнения, учитывать синтагматиче­ские отношения в процессе поиска. Однако поиск требует много времени, так как каждый запрос предполагает просмотр всего фай­ла. При групповом поиске этот недостаток частично снимается.

Рис. 7.1. Прямая и инверсная схемы организации массивов

Инверсная схема организации массива требует создания инверсных файлов по каждому из полей, по которым произво­дится поиск. Это существенно увеличивает объемы занимаемой памяти. Однако время поиска при такой схеме минимально, поскольку обеспечивается прямой поиск по ключам. Недостатком инверсной организации массива является сложность корректи­ровки записей и сложность учета синтагматических отношений в процессе поиска.

На практике приходится создавать массивы с прямой и ин­версной организацией, т. е. использовать комбинированную схе­му организации массивов. Процесс поиска в этом случае состоит в том, что в инверсном массиве выбираются номера документов, возможно, релевантных в силу логики запроса, а затем просмат­ривается выделенная часть прямого массива. Такой прием повы­шает оперативность поиска, особенно при конъюнктивной логи­ке запросов.





Дата публикования: 2015-02-03; Прочитано: 733 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.006 с)...