Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Хранилища данных



Эффективность работы предприятия и сложность анализа его деятельности напрямую зависит от того, как организована обработка информации и поддержка информационных процессов. В банке может функционировать несколько информационных систем, которые выполняют различные задачи (например, опердень, депозитарий, обменный пункт). В процессе эксплуатации эти системы накапливают большое количество информации, использовать которую для анализа достаточно сложно, так как необходимые данные могут находиться в разных источниках. Работающие ИС также могут порождать множество электронных архивов, содержащих устаревшие данные, которые не влияют на текущее состояние, но могут помочь выявить долговременные закономерности и тенденции в работе банка. Как правило, эти архивы имеют различные источники и структуру, содержат различные по содержанию и формату данные. Поэтому поиск в них превращается в трудновыполнимую задачу, которая требует большого количества времени. К тому же вся найденная очень подробная информация не может быть непосредственно использована для анализа без предварительной обработки и согласования с данными более поздних периодов.

Для разрешения проблемы хранения разнородных данных за большие периоды времени из различных источников, в также быстрого доступа и поиска релевантной запросу информации и была разработана концепция Хранилищ данных.

Хранилище Данных (Data Warehouse) - это специальная база данных организации, содержащая предметно-ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, назначение которых - служить основой для получения справочной, аналитической и обобщающей информации (в отличии от транзакционной базы с данными для текущей оперативной работы).

В основе понятия Хранилищ Данных лежат две основополагающие идеи:

n Интеграция ранее разъединенных детализированных данных в едином хранилище, их согласование и предварительная обработка. Источниками данных могут являться рабочие Транзакционные Системы, электронные архивы, а также разнообразные внешние источники (печатные издания, рабочие материалы, статистические отчеты и т.д.);

n Разделение хранящихся данных по их назначению - для операционной обработки, и для использования в задачах анализа. Первые данные не представляют особого интереса, но должны быть доступны по первому требованию. Обобщенные же данные, характеризующие состояние предприятия за определенный период, могут использоваться довольно часто для получения разнообразных экспертных и аналитических оценок его работы. То есть основная цель Хранилища Данных - это не сам анализ, а подготовка к нему данных.

Основные требования к данным, находящимся в Хранилище Данных:

n Предметная ориентированность - все данные о некотором предмете собираются (обычно из множества различных источников), очищаются, согласовываются, дополняются, агрегируются и представляются в единой, удобной для их использования форме;

n Интегрированность - все данные взаимно согласованы и хранятся в едином Хранилище;

n Неизменяемость - исходные данные, после того как они были согласованы и внесены в Хранилище, остаются неизменными и используются только в режиме чтения;

n Поддержка хронологии - данные хронологически структурированы и отражают историю за достаточный для выполнения задач анализа и прогноза период времени.

Предметом концепции Хранилища служат сами данные. Целью является не способы описания и отображения объектов предметной области, а собственно данные, как самостоятельный продукт, получаемый в процессе функционирования различных информационных систем. С этой точки зрения Хранилище данных оправдывает свое название, так как является всего лишь складом разнообразной и разнородной информации. Теперь легко определить основные операции, которые необходимо проводить для поддержания эффективности объекта подобного рода:

n Пополнение Хранилища данных (поступление на склад)

n Поддержка целостности и непротиворечивости данных (инвентаризация, проверка условий хранения, списание и т.д.)

n Организация доступа к данным (выдача со склада)

Рассмотрим их поподробнее:

Сбор данных:

Пополнение Хранилища данных - очень важная и не очень простая операция, так как данные в базу должны поступать в требуемом объеме, а также с определенной регулярностью. Источники данных могут быть весьма разнообразными, от Транзакционных систем, до материалов прессы. Информация от них может поступать в различных форматах, с разными условными обозначениями и наименованиями для одних и тех же понятий, к тому же она может дублироваться в различных источниках. Поэтому на этапе помещения данных в Хранилище должна проводиться первичная переработка данных, имеющая целью привести поступающую разнородную информацию к определенному ее характером виду, а также устранить возможные ошибочные и избыточные значения. Из-за постоянно меняющихся источников и типов поступающей информации, процесс закачки данных в Хранилище нельзя сделать полностью автоматическим, но для ряда информационных систем, таких как уже рассматриваемые Транзакционные системы, которые являются основными источниками поступающих данных, необходимо использовать специально разработанные программные интерфейсы передачи данных. То есть должны существовать программы, выполняющие процедуры передачи данных на склад и их первичной обработки по задаваемому графику или в связи с возникающими событиями.

Доступ к данным.

Чаще всего доступ к данным определяется возможностями Аналитической системы, которая базируется на Хранилище данных (или имеет возможность обращаться к нему) и предоставляет пользователю инструментальные средства для извлечения и обработки данных, а также для проведения различных форм анализа. Чаще всего именно Аналитическая система осуществляет исследование данных (Data Mining), то есть поиск необходимой информации в море хранящихся фактов, а также выявление взаимозависимостей между данными.

Поддержка логической целостности данных.

Для того, чтобы обеспечить согласованность работы с различными источниками и получателями данных, необходимо иметь описание структуры хранимых данных. Обычно такое описание содержится в словаре-справочнике, который часто называют Репозитарием. В нем собираются сведения о форматах, структурах, каналах и источниках поступления данных и другая необходимая информация. Всякая операция с хранимыми данными не должна приводить к появлению записей, не удовлетворяющих их описанию. Помимо проверки данных на соответствие их структуре и назначению, желательна проверка на непротиворечивость различных, но каким-либо образом связанных между собой данных.

Хранилище Метаданных (Репозитарий).

Метаданные - это тип информации, находящийся в Информационном хранилище, который представляет собой информацию о хранимых данных. Метаданные не импортируются из OLTP-систем и не используются непосредственно в задачах поддержки принятия решений, они играют вспомогательную, но очень важную роль.

В общем случае метаданные помещаются в централизованно управляемый Репозитарий, в который включается информация о структуре данных Хранилища, структурах данных, импортируемых из различных источников, о самих источниках, методах загрузки и агрегирования данных, сведения о средствах доступа, а также бизнес-правилах оценки и представления информации. Там же содержится информация о структуре бизнес-понятий.

Так, существуют два типа метаданных: технические и концептуальные (описательные) метаданные. Оба типа метаданных играют важную роль в построении, поддержке и использовании хранилища данных.

Технические метаданные включают информацию об источниках происхождения данных, поступающих в информационное хранилище; о соответствии между таблицами, где хранятся первичные данные Транзакционных систем, и таблицами хранилища, куда загружаются первичные данные; об алгоритмах обработки первичных данных при их поступлении в хранилище; об алгоритмах консолидации данных; о правилах фильтрации, пополнения, очистки и преобразования исходных данных.

Концептуальные метаданные обеспечивают администраторов и конечных пользователей описаниями информационных объектов, к которым они имеют доступ.

Репозитарий метаданных предназначен не только для профессионалов, но и для пользователей, которым он служит в качестве поддержки при формировании бизнес-запросов. Более того, развитая система управления метаданными должна обеспечивать возможность управления бизнес-понятиями со стороны пользователей, которые могут изменять содержание метаданных и образовывать новые понятия по мере развития бизнеса. Так, например, клиенты могут подразделяться на кредитоспособных и некредитоспособных, на имеющих или не имеющих льготы, они могут быть сгруппированы по возрастному признаку, по местам проживания и т. п. Как следствие, появляются новые бизнес-понятия: "постоянный клиент", "перспективный клиент" и т. п. Некоторые бизнес-понятия образуют сложные иерархии, которые должны быть также описаны.

Концептуальные метаданные могут включать правила вычисления определенных переменных, их допустимые значения, дату и время создания отчета, а также детальные описания и разъяснения. Например, объект прибыль может быть продуктом серии сложных вычислений, основанных на доходах и расходах регионов. Концептуальные метаданные используются для документирования этих вычислений таким образом, чтобы они были легко понимаемы конечными пользователями.

Концептуальные метаданные относятся не только к данным в хранилище, но в равной мере применяются для описания широкого класса информационных объектов, таких как графики, диаграммы, запросы или отчеты, возвращаемые из аналитических приложений, или Web - страницы, доступные через Интернет.





Дата публикования: 2015-03-26; Прочитано: 685 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.008 с)...