Главная \| Случайная страница \| Контакты \| Мы поможем в написании вашей работы!

Средства извлечения новой информации

⇐ Предыдущая 91 92 93 94 959697 98 99 100 Следующая ⇒

Если первые две системы семейства BI предназначены для обеспечения доступа к информации, уже имеющейся в базе данных, то следующие программные продукты представляют собой собственно средства извлечения новой информации - ИАД и позволяют получать знания, явно не содержащиеся в исходных данных [1,2]. Оба средства доступны на платформе Windows 95/NT и рассчитаны на использование непосредственно менеджерами и аналитиками как крупных организаций, так и относительно небольших компаний. Поскольку системы основаны на различных методах ИАД (простейшие статистические методы - в Scenario, нейронные сети - в 4Thought), в распоряжение пользователей предоставляется набор средств, для каждого из которых определена область эффективного применения.

Система Scenario предназначена для выявления взаимосвязей в данных. Анализируемая инфомация представляется в виде таблиц, столбцам которых соответствуют факторы (переменные), описывающие предметную область, причем один из этих столбцов отмечается пользователем как целевой показатель. Имея точное представление о том, в какой степени отдельные факторы (тип клиента, канал распространения продукции, затраты на рекламу и др.) влияют на целевой показатель (объем продаж), менеджеры могут оптимизировать решения по размещению ресурсов для обеспечения максимальной прибыли. Scenario фокусирует внимание аналитиков на измеряемых показателях и факторах, что позволяет им переходить от качественных рассуждений к построению более точных количественных моделей.

В Scenario реализовано автоматическое выявление зависимостей по критерию хи-квадрат (метод CHAID) для нахождения однородных групп (сегментов) данных с "аналогичным" поведением относительно целевого показателя. Система использует методы деревьев решений и строит правила классификации, которые можно применять к новым данным для построения прогнозов относительно возможных значений целевого показателя. Хотя ядром системы являются методы статистики, от пользователя не требуется специальных знаний в этой области. Основная статистическая информация отображается средствами интуитивно понятной графики, а более детальные сведения запрашиваются пользователем в случае необходимости. Сами методы ИАД являются лишь основой для реализации типовых видов анализа, используемых аналитиками и лицами, принимающими решения в бизнесе. К этим видам анализа относятся:

1. Ранжирование - упорядочивание факторов по степени их влияния на целевой показатель. С каждым фактором связывается весовой коэффициент, дающий количественную оценку степени влияния.

2. Сегментация - разделение области значений фактора на сегменты для проведения дальнейшего нисходящего анализа. Например, успешные показатели по продажам в целом могут скрыть от исследователя неудачи в некоторых регионах. Проведение сегментации по географическим районам позволит выявить, что успешные продажи имели место только в двух регионах, А и В. Последующий нисходящий анализ может показать, что объем продаж в регионе А зависит от затрат на рекламу, а в регионе В на него влияют главным образом сезонные колебания.

3. Профилирование наилучших достижений - выявление основных характеристик наиболее успешных регионов, филиалов, клиентов и т.д. для планирования дальнейшей деятельности компании. Данный вид анализа также используется в банках и страховых компаниях для оценки риска при выдаче кредитов.

4. Выявление ассоциаций - поиск ассоциированных групп значений факторов, т.е. значений, почти всегда появляющихся вместе (например, продажа ПК в большинстве случаев сопровождается продажей источника бесперебойного питания). Этот вид анализа в первую очередь необходим при планировании продаж, усовершенствовании работы складов, проведении рекламных компаний.

5. Выявление исключений - поиск элементов, выпадающих из общей картины. Появление подобных элементов может быть вызвано как ошибками в данных, которые следует исправить, так и необычными ситуациями в работе компании, требующими немедленного вмешательства со стороны руководства.

Итак, с помощью Scenario можно получать ответы на многие вопросы, необходимые для принятия обоснованных решений.

· Кто из клиентов компании останется в следующем году, кто откажется от ее услуг?

· Какие новые тенденции в спросе определяют деятельность компании?

· Что отличает лучших служащих компании (наиболее выгодные продукты, самые успешные филиалы) от остальных служащих (продуктов, филиалов)?

· Каковы признаки/индикаторы неудач (злоупотреблений) в деятельности филиалов?

· Как определить наилучший район для продвижения нового товара или услуги?

Поскольку процесс ИАД почти всегда требует значительных затрат времени и вычислительных ресурсов, в Scenario реализованы три стратегии анализа.

1. Для проведения быстрого начального анализа задачи, отсева незначащих факторов и фокусировки внимания на ключевых параметрах рекомендуется использовать режим исследования. Этот режим позволяет выигрывать во времени за счет некоторого снижения точности результатов. Поскольку в дальнейшем предполагается проведение более детального анализа, требования к надежности не выдвигаются. Размер выборки не ограничивается.

2. Более точный анализ может быть проведен в режиме тестирования. Использование этого режима обеспечивает очень высокую точность и достаточную надежность результатов. Для его проведения требуется не менее 300 записей в базе данных.

3. Наилучшие по точности и надежности результаты можно получить в режиме верификации. Этот режим, требующий не менее 1000 записей, рекомендуется использовать для проверки и уточнения результатов, полученных в ходе тестирования.

Результаты исследований могут представляться в виде графиков и деревьев решений.

График позволяет просматривать информацию о зависимости целевого показателя от того или иного фактора. На график выводятся описания сегментов данных, полученных путем разбиения значений исследуемого фактора, и вычисляются средние для целевого показателя по каждому сегменту. Пользователь может выбирать любой фактор для просмотра зависимости, группировать или разгруппировывать любые факторы, а кроме того проводить нисходящий анализ для любого сегмента данных. Может оказаться, что наибольшее влияние на продажи в этом магазине оказывают сезонные колебания, в то время как объем продаж в магазине А в значительной мере определяется ценой продукции.

Деревья решений разбивают исходную совокупность данных на группы (сегменты) с точки зрения значений целевого показателя. В приведенном примере все данные, попавшие в левый сегмент второго уровня, обеспечивают относительно небольшую прибыль. Выявленная закономерность состоит в том, что величина прибыли в значительной мере определяется затратами на рекламу: чем они выше, тем больше прибыль. Деревья решений генерируют иерархии правил вида "если... то", позволяющих классифицировать данные в соответствии с их влиянием на целевой показатель.

Для просмотра больших деревьев удобно использовать фильтры, позволяющие получать подробную информацию только по тем сегментам данных, которые интересуют пользователя. Например, в дереве решений подробная информация дана по сегментам, включающим такие каналы сбыта как Магазин А, Магазин В и Спортивные клубы. С помощью фильтров пользователь может также ранжировать сегменты по степени их влияния на целевой показатель и выделять подсветкой N наиболее значимых сегментов.

Ознакомление с результатами анализа обычно требует просмотра большого количества сегментов данных. Чтобы пользователь мог собирать интересующую его информацию в одном месте, в Scenario реализован механизм закладок. Статистическая информация по каждому из сегментов, на котором пользователь оставляет закладку, выводится системой в окно Закладки.

Выбор данных для анализа осуществляется с помощью специальной подсистемы Import Wizard из файлов в формате dBase, электронных таблиц Excel, текстовых файлов, а также отчетов Impromptu.

Scenario дополняет и расширяет возможности PowerPlay. Во-первых, система позволяет фокусировать внимание пользователя, осуществляющего OLAP-анализ, на наиболее значимых факторах, предварительно выявляемых средствами ИАД. Во-вторых, результаты ИАД могут помочь в формировании гиперкубов, поскольку они определяют, какие размерности представляют интерес для исследования и как сегментируются данные.

Как и PowerPlay, Scenario удобно использовать для анализа продаж, проведения маркетинговых исследований, а также проведения ИАД в области финансов, при работе с кадрами и в производстве. По мнению аналитиков, благодаря Scenario можно получать более содержательные результаты. Отмечаются также возможности средств визуализации результатов исследований, встроенные виды анализа и удачная документация - все это делает Scenario удобным инструментом непрограммирующего пользователя. Недостатком текущей версии системы является невозможность использования нечисловых полей в качестве целевых показателей.

В тех случаях, когда представление извлекаемых знаний в виде набора дискретных правил "если... то" не удовлетворяет пользователя, он может применить методы нейронных сетей, реализованные в системе 4Thought и позволяюще:

· моделировать сложные нелинейные зависимости между факторами и целевыми показателями;

· выявлять тенденции в данных (при наличии временных рядов) для построения прогнозов;

· работать с неполными и зашумленными данными;

· получать содержательные результаты при относительно небольшом объеме исходной информации с возможностью последующего усовершенствования модели по мере поступления новых данных.

· Типовыми видами анализа в системе 4Thought являются:

· выявление значимых факторов и получение оценок степени влияния каждого фактора на целевой показатель;

· проверка гипотез "что если" - каково будет значение целевого показателя при некотором гипотетическом наборе значений факторов, каков вклад каждого фактора в это значение;

· прогнозирование значений целевого показателя.

Процесс моделирования средствами 4Thought достаточно прозрачен, а источники данных для анализа такие же, как и в системе Scenario. Анализируемые данные представляются в виде электронной таблицы, столбцам которой соответствуют атрибуты из таблиц базы данных, а строкам - записи. При подготовке данных для анализа пользователь может редактировать таблицы, а также включать в них вычисляемые столбцы. Как и в Scenario, для постановки задачи моделирования должны быть указаны целевой (моделируемый) показатель и переменные-факторы.

Данные в таблице рассматриваются системой как примеры для обучения нейронной сети. Совокупность всех данных разбивается на два подмножества - модельное и тестовое. На каждом цикле обучения сначала сеть обучается на модельном подмножестве, а затем корректность ее работы проверяется на тестовых данных. Обучение продолжается до тех пор, пока не будет достигнуто предельно допустимое число итераций (5000) или пользователь не остановит процесс. Очевидно, что обучение сети целесообразно проводить до тех пор, пока точность результатов сети на модельном и на тестовом подмножествах растет. Убывание точности на тестовом подмножестве означает переобучение сети и снижение качества ее работы, даже при продолжающемся росте точности на модельных данных. Система запоминает состояние сети на момент последней итерации с максимальным значением точности на тестовом подмножестве, и использует именно его в рабочей модели (отметим, что здесь возможны локальные максимумы). Как правило, для обучения оказывается достаточно от 10 до 1000 итераций. При работе с небольшими объемами данных, когда выбор тестового подмножества существенно влияет на результаты обучения, пользователь может провести обучение в несколько циклов, выбирая для каждого цикла новое разбиение на тестовые и модельные данные. В процессе обучения пользователю выдается табло, на которое выводятся данные о текущем состоянии сети (точность на модельном и на тестовом подмножестве, количество итераций, скорость обучения, итерация с наилучшим показателем точности на тестовых данных) в числовом и графическом виде.

⇐ Предыдущая 91 92 93 94 959697 98 99 100 Следующая ⇒

Дата публикования: 2014-10-18; Прочитано: 519 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!

studopedia.org - Студопедия.Орг - 2014-2026 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.038 с)...