Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Основные принципы многомерной организации данных



Реляционный подход к проектированию баз данных не очень удобен для использования в задачах, требующих синтеза, анализа и консолидации данных. Для решения этих проблем больше подходит многомерный способ представления данных. Область, где он наиболее эффективен - это хранение и обработка высоко агрегированной и стабильной во времени информации.

Работа с многомерными структурами данных получила название
OLAP (on-line analytical processing). Определением этого понятия служат 12 основных требований к средствам реализации OLAP, которые были сформулированы Э.Коддом [2]:

1. Многомерное представление данных на концептуальном уровне (средства должны поддерживать многомерный взгляд на данные);

2. Прозрачность (пользователь не должен знать о том, какие конкретно средства используются для хранения и обработки данных, как данные организованы и откуда они берутся);

3. Доступность (средства должны сами выбирать и связываться с наилучшим для формирования ответа на данный запрос источником данных);

4. Согласованная производительность (производительность практически не должна зависеть от количества измерений в запросе);

5. Поддержка архитектуры клиент-сервер (средства должны работать в архитектуре клиент-сервер);

6. Равноправность всех измерений (ни одно из измерений не должно быть базовым, все они должны быть равноправными (симметричными));

7. Динамическая обработка разреженных матриц (неопределенные значения должны храниться и обрабатываться наиболее эффективным способом);

8. Поддержка многопользовательского режима работы (средства должны обеспечивать возможность работать с данными более чем одному пользователю);

9. Поддержка операций на основе различных измерений (все многомерные операции должны единообразно и согласованно применяться к любому числу любых измерений);

10. Простота манипулирования данными (средства должны иметь максимально удобный, естественный и комфортный пользовательский интерфейс);

11. Развитые средства представления данных (средства должны поддерживать различные способы визуализации данных);

12. Неограниченное число измерений и уровней агрегации данных (не должно быть ограничений на число поддерживаемых измерений).

Эти требования служат основой для определения OLAP-систем, но некоторые из них могут быть сознательно нарушены, для лучшего соответствия аналитических приложений предметной области и конкретным задачам.

Определим основные понятия многомерного представления данных. На логическом уровне структура данных представляют собой сложный гиперкуб, который характеризуется следующими элементами:

n измерение (dimension) - это множество однотипных данных, образующих одну из граней гиперкуба. В многомерной модели данных измерения играют роль индексов, используемых для идентификации конкретных значений (показателей), находящихся в ячейках гиперкуба;

n показатель (measure) - это поле, значения которого однозначно определяются фиксированным набором измерений.

Многомерное представление данных позволяет ввести следующие операции манипулирования представлениями данных:

1. Сечение (slice&dice). Эта операция позволяет осуществить доступ к данным в любом разрезе и порядке следования. Собственно, она состоит из двух приемов - поворот (rotation или data slicing) и выборка (ranging или data dicing).

Первый прием - Поворот - дает пользователю возможность менять порядок представления измерений при изучении поведения какого-либо показателя. Например, мы имеем три измерения - Тип Клиента (К), Вид Вклада (В) и Отделение Банка (О). Изучая какой-либо показатель, определенный на этих измерениях (количество вкладов, сумма на вкладах, выплаченные проценты, доля закрытых вкладов за период), можно использовать разные совокупности измерений. Например, определить на показателе выплаченных процентов зависимость Вида Вклада от Типа Клиента при определенном ранее Отделении Банка ВТ(О), или зависимость Типа Клиента от Отделения на фиксированном Виде Вклада КО(В). То есть мы формируем так называемые срезы данных - подмножества гиперкуба, получившиеся в результате фиксации значения одного или нескольких измерений. Они имеют вид двумерных таблиц, более удобных для человеческого восприятия, нежели многомерные гиперкубы. Количество возможных срезов зависит от количества измерений и определяется по формуле размещений А nk = n! / (n-k)!, где n - количество измерений, k = 2 - мерность среза данных. Для нашего примера 3 измерения порождают 6 срезов: ВТ(О), ВО(Т), ТО(В), ТВ(О), ВО(Т), ВТ(О).

Второй прием манипулирования данными - Выборка - позволяет пользователю отобрать только те данные, которые его интересуют, задавая ограничения на измерения (или выбирая их конкретные значения). Таким образом можно сузить диапазон просматриваемых данных с целью их более детального изучения. В приведенном выше примере можно, например, указать, что нас интересуют только данные по Срочным Вкладам для Московского и всех зарубежных отделений банка.

Комбинация этих двух приемов дает пользователю возможность тусовать и вращать данные так, как ему угодно, обеспечивая возможность визуализации данных в форме, наиболее комфортной для их восприятия.

2. Иерархия (hierarchy), детализация (drill-down) и свертка (roll-up). Измерения, образующие логический гиперкуб часто могут иметь иерархическую структуру. Наиболее простой пример такого измерения - Время. Часто пользователю при анализе необходимо рассмотреть одни и те же показатели, но на различных уровнях иерархии измерения. Движение вниз по уровням иерархии носит название детализации, а вверх - свертки. В первом случае осуществляется просмотр более детальной информации, а во втором происходит агрегация данных нижележащего уровня иерархии для получения обощенной информации.

Помимо развитого представления данных OLAP-системы также должны обладать возможностями преобразовывать данные и отображать полученные результаты различными способами с использованием различных метрик и операций. Наиболее часто использующиеся представления (метрики) включают:

n Многомерные пропорции (отношения);

n Сравнения (план и факт, настоящий и прошедший период);

n Ранжирование и статистические профили (10 максимальных значений, 10 минимальных значений, пропорции 80 к 20, разбиение на четверти);

n Пользовательская консолидация (финансовая консолидация, разбиение на сегменты рынка, произвольные группы)

Существует два варианта организации данных: Гиперкубическая модель и Поликубическая модель. Поликубическая модель предполагает, что в многомерной структуре данных может быть определено несколько гиперкубов с различной размерностью и различными измерениями в качестве их граней. В случае Гиперкубической модели предполагается, что все показатели должны определяться одним и тем же набором измерений.

При написании данной работы была разработана модель, которая объединяет лучшие черты Поликубического и Гиперкубического подхода. Ее можно назвать моделью Вложенных Гиперкубов: жестко определен один внешний гиперкуб с иерархическими измерениями "Подразделение" и "Время" (фиксированными в силу предметной области), в каждой же его ячейке может существовать неограниченное количество гиперкубов с любыми иными измерениями, самостоятельно определяющимися пользователем в репозитарии. Так как поступающая на анализ информация имеет не только разную форму, но и различный экономический смысл, каждый внутренний гиперкуб характеризуется своими собственными измерениями, определяющими структуру хранимых данных, а также имеет собственный набор показателей. Совокупность конкретных значений всех измерений однозначно определяет значения показателей данного гиперкуба.

Данный подход выводит нас за рамки классического определения OLAP – систем. В классической модели из-за равноправия абсолютно всех измерений и показателей возникает проблема большого количества неопределенных значений. Нарушение этого условия дает нам значительные преимущества при хранении данных. В нашей логической схеме мы не стали настаивать на равноправии измерений и, как следствие, избавились от пустых элементов, однозначно привязав какое-либо количество показателей к каждому внутреннему гиперкубу.

Данная схема является лишь частным случаем многомерной организации структуры данных, и ни коим образом не противоречит самому подходу к многомерным способам представления информации.





Дата публикования: 2015-03-26; Прочитано: 956 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.006 с)...