Главная \| Случайная страница \| Контакты \| Мы поможем в написании вашей работы!

Организация поисковых массивов

⇐ Предыдущая 12 13 14 15 161718 19 20 21 Следующая ⇒

В современных ИПС могут использоваться три принципиально разных типа информационных массивов:

- пассивный массив, или массив третьего контура АИПС. Это массив оригиналов документов или сообщений, отображающих предметную область АИПС;

- слабоактивный массив (массив второго контура АИПС) - упорядоченная машиночитаемая копия документов (сообщений) пассивного массива;

- активный массив - массив первого контура АИПС, или информационно-поисковый массив (ИПМ), структурированный массив машиночитаемых поисковых образов документов, и/или их библиографических описаний, и/или рефератов, и/или самих документов (сообщений) и т. д. Иными словами, это база данных ИПС, структурированная в соответствии с заданными ИПЯ совокупность элементов фактографической и/или документальной информации, представленных на машиночитаемых носителях. Собственно информационный поиск проводится только в активном массиве. Однако результатами этого поиска могут быть только коды документов, отдельные фрагменты документов, их рефераты, аннотации, заголовки и т. д., но не полнозначные копии документов и тем более не оригиналы документов. Массив второго контура необходим для получения копий документов в целом или их фрагментов. Обычно этот массив хранится на машиночитаемых носителях большой емкости. Массив третьего контура используется только при необходимости обращения к оригиналу документа (сообщения). Такая необходимость возникает в библиотечных, архивных, банковских и других системах, где важен юридический статус получаемой в ИПС информации. Поисковая процедура в трехконтурной ИПС состоит в проведении собственно информационного поиска в активном массиве (базе данных) АИПС, анализе релевантности результатов поиска и обращении (при необходимости) по найденным поисковым ключам к документам второго или первого контуров АИПС.

Реализация информационного поиска в АИПС предполагает предварительное представление информационных массивов в соответствии с некоторой формальной структурой данных. Существует несколько различных структур данных. В документальных АИПС используется простейшая структура данных, включающая четыре типа элементов:

ПОЛЕ-ЗАПИСЬ-ФАЙЛ-НАБОР ФАЙЛОВ

ПОЛЕ - наименьшая поименованная единица данных (информации). Ими могут быть: автор документа, название документа, реферат документа, часть документа или реферата документа, название дескриптора или иной лексической единицы и т. д. Иными словами, ПОЛЕ - любая поименованная единица информации (данных), которая может представлять интерес в процессе информационного поиска. Различают фиксированные и свободные (гибкие) поля данных.

Фиксированное поле данных - поле с заранее заданным (фиксированным) числом символов (байт), используемых при его заполнении. Например, поля «фамилия автора документа», «год издания документа».

Свободные (гибкие) поля не предполагают явных ограничений на длину значений данных. Например, поля «реферат», «название документа» могут иметь разное число символов для различных документов.

ЗАПИСЬ - поименованная совокупность полей данных. Например, запись «документ» может включать поля: № документа, название документа, год издания, издательство, авторы и т. д.

ФАЙЛ - поименованная совокупность экземпляров записей одного типа.

НАБОР ФАЙЛОВ - поименованная совокупность файлов.

Схема записи - совокупность имени записи и имен составляющих ее ПОЛЕЙ. Например, схема записи ДОКУМЕНТ имеет вид ДОКУМЕНТ (№ документа, название документа, год издания, авторы, дескрипторы, реферат). Схема записи определяет тип записи - задает порядок композиции схем типов полей и приписывает имя типу записи.

Схема файла - совокупность имени файла, имени типа записи и имен составляющих ее полей.

Схема базы данных - совокупность имени набора файлов и схем составляющих ее файлов. База данных - совокупность состояний составляющих ее файлов. При предмашинном представлении информации схему базы данных отображают на бумажном носителе в виде, удобном для сбора и ввода информации. Такое представление носит название РАБОЧЕГО ЛИСТА АИПС, или ФОРМАТА ВВОДА ДАННЫХ АИПС. Обратное отображение РАБОЧЕГО ЛИСТА в схему базы данных выполняется компьютерной программой в процессе ввода информации в АИПС. Схема базы данных (схема организации информационно-поисковых массивов) сильно влияет на эффективность поисковых операций. Существуют разнообразные схемы организации поисковых массивов, отличающиеся между собой как наборами файлов, так и их схемами. Однако в основе любых схем БД лежат схемы файлов, а в более узком смысле - схемы записей, поскольку именно они определяют структуру организации массивов.

Рассмотрим наиболее важные в документальном поиске схемы организации массивов.

Прямая схема организации массива

Схема записи представляет собой совокупность имен интересующих пользователя полей, одним из которых обязательно является номер документа. Файл формируется как массив записей, упорядоченных по номерам документов (рис. 7.1).

Инверсная схема организации массива

Схема приемлема только для записей с фиксированными полями. Схема записи включает имя ключевого поля (по которому предполагается проводить поиск) и поля «номера документов». Файл формируется как массив упорядоченных по значениям ключевого поля записей (например, по алфавиту, по цифровым кодам и т. д.) (см. рис. 7.1).

Прямая схема организации массива требует минимальных объемов памяти для записи и хранения информации, позволяет легко вносить изменения и дополнения, учитывать синтагматические отношения в процессе поиска. Однако поиск требует много времени, так как каждый запрос предполагает просмотр всего файла. При групповом поиске этот недостаток частично снимается.

Рис. 7.1. Прямая и инверсная схемы организации массивов

Инверсная схема организации массива требует создания инверсных файлов по каждому из полей, по которым производится поиск. Это существенно увеличивает объемы занимаемой памяти. Однако время поиска при такой схеме минимально, поскольку обеспечивается прямой поиск по ключам. Недостатком инверсной организации массива является сложность корректировки записей и сложность учета синтагматических отношений в процессе поиска.

На практике приходится создавать массивы с прямой и инверсной организацией, т. е. использовать комбинированную схему организации массивов. Процесс поиска в этом случае состоит в том, что в инверсном массиве выбираются номера документов, возможно, релевантных в силу логики запроса, а затем просматривается выделенная часть прямого массива. Такой прием повышает оперативность поиска, особенно при конъюнктивной логике запросов.

⇐ Предыдущая 12 13 14 15 161718 19 20 21 Следующая ⇒

Дата публикования: 2015-02-03; Прочитано: 733 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!

studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.006 с)...