Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Индексирование и кодирование информации. Особенности представления информации в документальной и фактографической ИС



Системы кодирования информации Запись идентификации объекта проводит­ся с помощью условных обозначений в виде знака или группы знаков по определенным правилам. Условное обозначение объ­екта при этом называется кодом, а совокупность методов и пра­вил условного обозначения — системой кодирования.

кодирование — это процесс присвоения ус­ловных обозначений (кодов) объектам и классификационным группам в соответствии с определенной системой кодирования. Код в системе кодирования задается тройкой: с=(А, L, S), где А — алфавит (множество символов, используемых при запи­си кода), L — длина (число позиций в коде);

S — структура кода (порядок расположения в коде символов, используемых для обозначения классификационного атрибута). Различают следующие типы алфавитов: цифровой, буквен­ный и смешанный. Структура кода представляет собой, как пра­вило, графическое изображение последовательности расположе­ния символов алфавита.

Системы ко­дирования, поддерживающие методы логического упорядочения объектов с дальнейшим при­сваиванием отдельному объекту некоторого кода, определяюще­го место объекта в принятом логическом порядке, называют регистра­ционными. I

При использовании классификационных схем для иденти­фикации группы объектов кодирование отдельного объекта со­стоит в присвоении объекту кода определенного класса классификации, системы кодирования могут быть названы классификационными.

С точки зрения длины кода: системы коди­рования кодами фиксированной длины и системы кодирования кодами переменной длины. В кодах фиксированной длины каждый разряд идентифици­рует конкретный атрибут классификационной схемы. Коды переменной длины ориентированы на идентификацию значений только тех характеристических атрибутов, которые оп­ределяют классификационную группу.

Классификационное кодирование применяется при кодировании объектов на осно­вании предварительной их классификации (правила кодиро­вания в системе кодирования определяются классификационной схемой). Различают последовательное и параллельное классификацион­ное кодирование.

Последовательное используется для иерархиче­ской классификационной структуры: сначала записывается код класса 1-го уровня, затем код класса 2-го уровня, затем код класса 3-го уровня и т. д. В ре­зультате получается кодовая комбинация, каждый разряд которой содержит информацию о значении оп­ределенного характеристического атрибута объекта. Объекты с одинаковыми кодами составляют класс иерархической класси­фикации.

Параллельное кодирование используется для фасетной систе­мы классификации: все фасеты кодируются независимо друг от друга; для значений каж­дого фасета выделяется определенное количество разрядов кода. Параллельная система кодирования обладает теми же достоинст­вами и недостатками, что и фасетная система классификации. основано на предварительной фасетной классификации.

Регистрационное кодирование используется для однозначной идентификации объектов и не требует предварительной классификации объектов. Различают порядковую и серийно-порядковую системы.

Порядковая предполагает последова­тельную нумерацию объектов числами натурального ряда. Этот порядок может быть случайным или определяться после предва­рительного упорядочения объектов, например по алфавиту. Ка­ждый из объектов классифицируемого множества кодируется путем присвоения ему текущего порядкового номера.

Серийно-порядковая предусматривает предварительное выделение групп объектов, которые составля­ют серию, а затем в каждой серии производится порядковая ну­мерация объектов. Каждая серия при этом также будет иметь порядковую нумерацию. удобна, когда количество групп невелико. кодами служат числа натурального ряда с закреплением отдельных серий этих чисел за объектами классифика­ции с одинаковыми признаками.

Координатное индексирование базируется на положении, что смысловое содержание документа и информационной потребности может быть с достаточной степенью точности и полноты выражено соответствующим списком так называемых ключевых слов, которые явно или в скрытом виде содержатся в тексте. Под ключевыми словами понимаются наиболее существенные для этой цели слова и словосочетания, обладающие назывной функцией. Кроме назывных в качестве ключевых слов могут выступать также соответствующие численные характеристики, хронологические данные, диапазоны температур, давлений и т. д.координатное индексирование — это способ выражения основного смыслового содержания документа или информационной потребности в виде определенной совокупности ключевых слов.

При «чистом» координатном индексировании ключевые слова в поисковых образах никак не связаны одно с другим и функционируют самостоятельно. Для отыскания документов необходимо выполнить определенные логические операции над классами, которые обозначены ключевыми словами поисковых образов документов. В простейшем случае, когда поисковое предписание сформулировано в виде логического произведения (конъюнкции) некоторого множества ключевых слов, документ считается отвечающим на информационный запрос и подлежит выдаче, если в поисковом образе этого документа одновременно содержатся все ключевые слова поискового предписания.





Дата публикования: 2015-01-26; Прочитано: 343 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.008 с)...