Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

ИТ хранения и поиска информации



БД - именованная совокупность данных, отражающая состояние объектов и их отношений в заданной предметной области.

СУБД - совокупность языковых и программных средств, предназначенных для создания, ведения и совместного применения БД многими пользователями.

БнД - основанная на технологии БД система программных, языковых, организационных и технических средств, предназначенных для централизованного накопления и коллективного использования данных.

В реальных системах баз знаний применяется следующая классификация знаний: Понятия (математические и нематематические); Факты; Правила, зависимости, закономерности, связи; Алгоритмы, процедуры.

Знания могут быть представлены в виде данных, в виде текста или в виде сложных моделей, например, в виде семантической сети. Знание есть более высокая степень организации данных, которая допускает их специальную интерпретацию.

База данных считается БЗ, если она содержит процедурные данные, способные управлять информационными процессами и используемые для получения новых данных. СБЗ называют систему, обеспечивающую создание и использование БЗ.

База знаний – формализованная система сведений о некоторой предметной области, содержащая данные о свойствах объектов, закономерностях процессов и явлений, правил использования в задаваемых ситуациях этих данных для принятия новых решений.

1. По характеру организации хранения данных и доступа к ним: Локальные (персональные); Общие (централиз. интегрированные); Распределенные БД.

2. По способу обработки: Оперативной обработки транзакции OLTP; Аналитической обработки (хранилище дан); Дедуктивная (логическая) БД.

3. По виду хранимых данных: неструктурированные (семантические) сети; частично структурир. (текст-гипертекст); структурированные.

4. Структурированные классифицируются: По типу используемой модели данных; иерархические; сетевые; реляционные; смешанные; объектные.

5. По форме представления данных: видеоданные (изображения разл. вида); аудиосистемы; мультимедиа (сочетание разл. видов).

6. По типу хранимой информации: фактографические БД (структурированные); документальные (текстовые, полнотекст., библиографические, реферативные, основные оперативные накопления и поиск); лексикографические (словари, классификаторы, словари основ слов и тд).

Пользователи-анали­тики осуществляют доступ к нему через клиентские приложения. Эти приложения могут осуществлять трансляцию запросов потребителей информации либо производить аналитическую обработку данных хранилища.

Концепция хранилищ данных - это концепция подготовки данных для пос­ледующего анализа. Она предполагает выполнение следующих положений: интеграции и согласования данных из различных источников: традици­онных систем операционной обработки данных, информации из внут­ренних и внешних по отношению к организации электронных архивов; разделения наборов данных, используемых системами обработки тран­закций и системами поддержки принятия решений.

Использование концепции хранилища данных в системе поддержки принятия решений преследует следующие цели: 1) своевременное обеспечение аналитиков информацией, необходимой для выработки решений; 2) создание единой модели данных организации; 3) создание интегрированного источника данных, предоставляющего удобный доступ к разнородной информации и гарантирующего получение одинаковых ответов на одинаковые запросы из различных аналитических подсистем.

С технологической точки зрения к архитектуре ИХ предъяв­ляются общие требования: единообразно определенная структура многомерных данных, пользователь не должен знать о том, где хранятся данные, как они организованы и как обрабатываются, поддержка многопользовательского режима оперативного анализа в среде «клиент-сервер», легкая адаптация к новым информационным потребностям путем добавления новых показателей и измерений, автоматическое обновление информации из оперативных БД, выполнение запросов без ограничений на количество изме­рений и уровней их агрегации примерно с одинаковым вре­менем реакции на запрос, удобный интерфейс пользователя, обеспечивающий простоту манипулирования данными.

Инмон рассматривает четыре основных свойства хранилищ данных: Ориентация на предметную область. Интегрированность. Неизменяемость данных. Поддержка хронологии.

К числу основных задач, которые требуется решать при создании ХД, отно­сятся:

1) выбор оптимальной структуры хранения данных с точки зрения обеспе­чения приемлемого времени отклика на аналитические запросы и требу­емого объема памяти;

2) первоначальное заполнение и последующее пополнение хранилища дан­ными;

3) обеспечение удобства доступа пользователей к данным.

Задачи, решаемые ОLТР и аналитическими системами, существен­но различаются, поэтому их БД тоже построены на разных принципах. Критерием эффективности для систем операционной обработки данных служит число транзакций, которое они способны выполнить в единицу времени. Для аналитических систем важнее скорость выполнения слож­ных запросов и прозрачность структуры хранения информации для пользователей. Важная особенность СППР на основе ХД состоит в том, что загрузка данных выполняется сравнительно редко, но большими порциями.

В настоящее время существуют два подхода к построению хранилищ дан­ных: подход, основанный на использовании многомерной модели БД (МОLАР) и подход, использующий реляцион­ную модель БД (RОLАР).

Основными поисковыми средствами в Интернете являются поис­ковые системы и каталоги. Поисковые системы состоят из трех частей:

- робот — программа, которая посещает web-серверы, считывает и индексирует полностью или частично их содержимое и далее следует по ссылкам, найденным на сервере. Просмотры серверов осуществляются периодически, например раз в месяц, раз в две недели;

- индексные массивы и копии текстов просмотренных страниц, хранящиеся в поисковой с-ме;

- программа, которая, просматривая в соответствии с запросом пользователя индексные массивы, отбирает и выдает потребите­лю найденные документы.

В каталогах имеются иерархические тематические рубрики. Отне­сение серверов к тем или иным рубрикам каталога осуществляется человеком. Пользователь ищет инф-ю в каталоге вручную, ис­пользуя рубрики.

В связи с тем, что в средствах поиска в Интернете не используются информационно -поисковые языки, на которых могли бы быть описа­ны исходные документы и запросы, полнота поиска в Интернете с уче­том указанных выше поисковых средств будет значительно ниже, чем в документальных системах, построенных на базе информационно-поисковых языков.

Информационное обеспечение (ИО). Понятие, состав ИО и содержание работ выполняемых в процессе проектирования. Системы классификации. Системы кодирования

Информационное обеспечение автоматизированной системы - совокупностьформ документов,классификаторов, нормативной базы и реализованных решений по объемам, размещению и формам существования информации, применяемой в АС при ее функционировании.

Основное назначение ИО - отражение информации, характеризующей состояние объекта управления и являющейся основой для принятия решений. Информация должна быть достоверной, своевременной и достаточно полной.

Под достоверностью понимается некоторая функция вероятности ошибки, т.е. событие, заключающееся в том, что реальные данные в системе не совпадают (в пределах заданной точности) с их истинным значением.

Существуют три уровня обеспечения достоверности: синтаксический (связан с контролем и обеспечением достоверности элементарных составляющих данных - символов, знаков), семантический (обеспечивающий достоверность смыслового значения данных, их логичность, непротиворечивость и согласованность) и прагматический (связан с вопросами ценности информации при принятии управленческих решений, ее доступности и своевременности, влияния ошибок на качество и эффективность функционирования системы).

В общем случае в составе ИО принято выделять следующие составные части: система показателей данной предметной области, система классификации и кодирования ТЭИ, система документации, информационная база, система сбора и передачи информации.

Этапы проектирования:

1) определение состав показателей, необходимых для решения экономических задач;

2) разработка классификаторов и кодов. Изучается возможность использование общегосударственных классификаторов и кодов (ЕСКК);

3) разработка системы документации. Выявляется возможность использования унифицированной системы документации (УСД);

4) проектирование информационная база;

5) проектирование системы сбора и передачи информации.

Работы по автоматизации обработки данных в любой области начинаются с систематизации и формализации представления технико-экономической информации. Для этого информацию необходимо сначала упорядочить (классифицировать), а затем формализовать (закодировать) с использованием классификатора.

Классификатор – это документ, с помощью которого осуществляется формализованное описание экономической информации в ЭИС. Классификаторы служат для унификации применяемых в ЭИС наименований и обозначений, с целью их однозначного определения. Классификация и кодирование – выполняется для обеспечения совместимости ИО различных систем, а также повышения эффективности обработки данных. Выборку и группировку данных быстрее выполнять по коду, чем по полному наименованию.

Виды классификаторов: общегосударственные (разработанные в централизованном порядке и являющиеся едиными для всей страны), отраслевые (единые для какой-либо отрасли деятельности), локальные (разрабатываются для конкретных предприятий или организаций, для конкретных ИС), международные классификаторы.

Составление классификаторов выполняется в два этапа: классификация, кодирование.

Система классификации – совокупность правил распределения объектов заданного множества на подмножества. Классификация – это результат упорядочения объектов заданного множества.

Система классификации должна обеспечивать: достаточную емкость, гибкость, глубину, возможность сопряжения с другими классификаторами, простоту ручного и автоматизированного ведения.

При классификации технико-экономической информации наиболее широко используют иерархические и многоаспектные системы классификации.

Иерархическая система классификации предполагает разбиение исходного множества на подмножества, между которыми установлены отношения подчинения. Характерными особенностями иерархической системы являются: наличие в системе неограниченного количества признаков классификации, соподчиненность признаков классификации. Достоинства - логичность, простота построения, удобство обработки и большая информационная емкость. Недостаток - жесткость структуры классификации, т.к. признаки и порядок классификации строго фиксированы, нельзя вводить новые признаки и менять их последовательность без перестройки всей системы, гибкость обеспечивается большой избыточностью в ветвях.

Многоаспектная система – это система классификации, которая использует параллельно несколько независимых признаков (аспектов), в качестве основания классификации. Существуют два типа многоаспектных систем: фасетная и дескрипторная. Фасетная система характеризуется следующими особенностями: имеется исходное множество классифицируемых объектов, это множество можно рассматривать в нескольких аспектах, каждый из которых характеризуется одним или несколькими признаками, устанавливается некоторый порядок следования.

Для поиска показателей и документов по набору содержательных признаков используется информационный язык дескрипторного типа. Предполагается, что содержание документов и показателей можно достаточно полно и точно отразить с помощью набора ключевых слов - дескрипторов.

Система кодирования – совокупность правил присваивания кодовых обозначений объектам или группировкам объектов. Цель кодирования – представление идентификатора объекта в более компактной форме, чем его полное наименование.

Наиболее важными свойствами системы кодирования являются: полнота, унифицированность, однозначность, уникальность идентификатора, дешифруемость, избыточность и гибкость, минимальная длина кодового обозначения с сохранением информативности.

Системы кодирования разделяются на классификационные и регистрационные.

Кодовые обозначения, построенные по регистрационным системам кодирования, используются для идентификации объектов. Они не требуют предварительной классификации объектов и независимы от существа решаемых задач. К регистрационным системам кодирования относятся порядковая и серийно-порядковая.

Порядковая система кодирования является наиболее простой. Заключается в последовательной порядковой регистрации объектов. Каждому объекту присваивается порядковый номер, который и является кодом объекта. Новым объектам присваивается текущий свободный порядковый номер. Достоинство: обладает наибольшей полнотой и простотой, наиболее простое присваивание кодов новому объекту. Недостаток: отсутствие какой-либо информации об объекте. Число объектов, которое может быть закодировано при применении порядковой системы кодирования, зависит от длины и основания кода.

Серийно-порядковая система кодирования характеризуется предварительным разбиением объектов на группы по некоторому признаку. Каждой группе выделяется определенная серия кодовых обозначений, в пределах которой каждому объекту присваивается порядковый номер. Серия обозначений для каждой группы выбирается таким образом, чтобы после присваивания кодов объектам группы в ней оставались бы еще свободные номера на случай появления новых объектов.

Серийно-порядковая система кодирования дает возможность кодирования по нескольким признакам в отличие от просто порядковой, которая кодирует только по одному признаку. Система сохраняет все преимущества порядковой системы, однако и в этом случае в коде отсутствует какая либо информация об объекте, что создает трудности при группировке.

Классификационные коды используются для отражения классификационных взаимосвязей объектов и их группировок, и применяется в основном для сложной логической обработки экономической информации. Отсюда вытекают требования к ним: однозначности отображения классификационных взаимосвязей объектов и их группировок и обеспечение простоты обработки. К классификационным системам кодирования относятся последовательная и параллельная (позиционная) системы.

Последовательная система кодирования чаще всего используется при иерархической системе классификации, при последовательном расположении признаков на каждой ступени классификации

Параллельная система кодирования используется для обозначения объектов, характеризуемыми несколькими независимыми признаками.

Комбинированная система кодирования, так же как и позиционная, предусматривает четкое выделение всех признаков классификации. При этом каждый признак может кодироваться независимо по любой системе: порядковой, серийно-порядковой, позиционной.





Дата публикования: 2015-01-26; Прочитано: 581 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2025 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.006 с)...