Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Обзор методов интеллектуального анализа данных



Проявившиеся в последние годы тенденции в развитии банковского дела, острая конкурентная борьба, стремление получать отдачу от инвестиций в информационные технологии, рост числа сотрудников, принимающих решения, определили интерес финансовых организаций к новой области информатики - технологии интеллектуального анализа данных (ИАД, или Data Mining). В последнее время был разработан ряд технологий, которые призваны извлекать из хранилищ данных большого объема новую информацию путем построения различных моделей. Простой доступ к хранилищу даных обеспечивает не только получение ответов на поставленные вопросы, но и возможность применения технологий ИАД, которые позволяют увидеть интересные взаимоотношения между данными, которые прежде не приходили пользователю в голову, и применение которых может способствовать увеличению прибыли.

Интеллектуальный анализ данных (ИАД) обычно определяют как метод поддержки принятия решений, основанный на анализе зависимостей между данными. Целью технологии ИАД является производство нового знания, которое пользователь может в дальнейшем применять для улучшения результатов своей деятельности. (В рамках такой общей формулировки обычный анализ финансовых отчетов, также может рассматриваться как разновидность ИАД.)

Существует два подхода к поиску зависимостей между данными. В первом случае пользователь сам выдвигает гипотезы относительно зависимостей между данными (verification-driven data mining). Фактически традиционные технологии анализа развивали именно этот подход. Действительно, гипотеза приводила к построению отчета, анализ отчета к выдвижению новой гипотезы и т. д. Во многих системах ИАД в этом процессе автоматизирована проверка достоверности гипотез, что позволяет оценить вероятность тех или иных зависимостей в базе данных.

Второй подход основывается на том, что зависимости между данными ищутся автоматически (discovery-driven data mining). Количество программных продуктов, выполняющих автоматический поиск зависимостей, говорит о растущем интересе производителей и потребителей к системам именно такого типа.

К недостаткам первого подхода можно отнести ограниченность анализа жесткими рамками заранее указанной гипотезы. Аналитик предполагает, например, что два факта как-то связаны. В процессе анализа будут проверены исторические данные и сделан вывод, верна гипотеза или нет. Проблема заключается в том, что другие возможные корреляции попросту выпадут из рассмотрения, если для аналитика они изначально не очевидны. Во втором случае системы ИАД самостоятельно обрабатывают информацию с целью обнаружения внутренних закономерностей. Полученные результаты часто оказываются весьма неожиданными и ведут к нетривиальным выводам. Комбинируя операции двух типов, возможно реализовать самые замысловатые стратегии анализа.

Процессы интеллектуального анализа данных подразделяются на три большие группы: прогнозирование (predictive modelling), поиск зависимостей (discovery) и анализ аномалий (forensic analysis). Прогнозирование предполагает использование набора данных с известными результатами для построения моделей, которые явно предсказывают результаты для других наборов. Поиск зависимостей состоит в просмотре данных хранилища с целью автоматического выявления зависимостей. Проблема здесь заключается в отборе действительно важных зависимостей из огромного числа существующих в базе данных. Анализ аномалий - это процесс поиска подозрительных данных, сильно отклоняющихся от устойчивых зависимостей. Конечно, компания, которая долго находится на рынке, уже осведомлена о многих моделях, которые наблюдались в течении нескольких последних периодов. Но технологии ИАД могут не только подтвердить эти эмпирические наблюдения, но и найти новые, неизвестные ранее модели.

В системах интеллектуального анализа данных применяется чрезвычайно широкий спектр математических, логических и статистических методов: от анализа деревьев решений до нейронных сетей. Пока трудно говорить о перспективности или предпочтительности тех или иных методов. Технология ИАД сейчас находится в начале пути, и практического материала для каких-либо рекомендаций или обобщений явно недостаточно. Приведем лишь краткий перечень наиболее известных методов ИАД, применяющихся на практике.

Проверка гипотез. Операции этого типа выполняют генераторы отчетов, системы обработки SQL-запросов, приложения многомерных баз данных и модули статистического анализа. Наиболее распространенная и простая форма анализа - генерация отчетов и обработка запросов. Ее основное назначение - подтвердить правильность гипотез, сформулированных пользователем, который последовательно задает несколько разных и/или уточняющих запросов, призванных помочь в подтверждении правильности исходного предположения. Результаты обработки запросов обычно оформляются в виде таблиц или графиков. Последовательность выполненных запросов и правила построения таблиц и графиков образуют так называемый сценарий анализа.

Многомерный анализ. Чем серьезнее вопросы, формулируемые пользователями, тем сложнее для восприятия и отладки становятся запросы, тем больше становится время их обработки. Для более эффективной работы производят перегруппировку данных, выделяя ряд критериев (время, подразделения, счета, клиенты, сотрудники, договора и т. д.), которые играют роль измерений в логической многомерной структуре, куда и помещаются данные, называемые показателями. Организованные таким образом многомерные таблицы существенно облегчают формирование запросов. Для работы с многомерными таблицами фирмы - поставщики соответствующих СУБД - предлагают специализированные языки запросов, которые упрощают просмотр многомерных БД и позволяют создавать иерархические структуры данных по какому-либо измерению. В образующихся деревьях на самом верхнем уровне хранится консолидированная информация, а на нижнем - текущие данные. Для работы с такой структурой данных используются средства OLAP - оперативной аналитической обработки. Технология OLAP направлена на поддержку принятия решения, помогая понять данные, фокусируя внимание аналитика на важных переменных и определяя исключения.

Классификация (распознавание). Это один из наиболее популярных методов исследования данных. С ее помощью выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил, для чего используются так называемые деревья решений. Однажды оопределенный эффективный классификатор используется для классификации новых записей в базе данных в уже существующие классы и в этом случае он преобретает характер прогноза. Например, классификатор, который умеет идентифицировать риск выдачи займа, может быть использован для целей принятия решения, велик ли риск предоставления займа определенному клиенту. То есть, классификатор используется для прогнозирования возможности возврата займа.

Кластеризация. Кластеризация напоминает классификацию, с тем отличием, что критерии классификации не заданы. Кластеризация при исследовании данных позволяет обнаруживать данные, сгруппированные по каким-нибудь признакам, так что объекты одной группы "похожи" друг на друга, а объекты различных групп - "не похожи". Это могут быть, например, родственные по какому-нибудь признаку номера счетов.

Алгоритмы кластеризации как инструмент первичного анализа незаменимы при обработке наборов многомерных данных, возникающих в новых областях, постановках и исследованиях.

Нейронные сети относятся к классу нелинейных адаптивных систем со структурой, условно имитирующей нервную ткань. Архитектура нейронной сети включает взаимосвязанные вычислительные элементы (нейроны), каждый из которых генерирует выходной сигнал в ответ на несколько входных. Выход сигнал элемента является входным для других. Каждый вход получает вес (в виде коэффициента в соответствующем уравнении), который корректируется в процессе обучения сети. Обучение сводится к подбору таких весов, при которых нейронная сеть безошибочно распознает эталонную выборку (learning set).

Наивысшие результаты распознавания (и классификации) достигаются при дополнительном структурировании сети путем разбиения всего множества нейронов на два или большее число слоев. Поскольку каждый элемент нейронной сети частично изолирован от своих соседей, у нейронных алгоритмов имеется хороший потенциал для распараллеливания вычислений.

Нейросетевые технологии предоставляют сегодня широкие возможности для решения задач прогнозирования, оптимизации и управления, обработки сигналов и распознавания образов. Они позволяют выявлять нелинейные закономерности в сильно зашумленных неоднородных данных, дают хорошие результаты при большом числе входных параметров и обеспечивают адекватные решения при относительно небольших объемах данных. Сейчас уже накоплен богатый опыт успешного использования нейронных сетей в практических приложениях.

Генетические алгоритмы. ИАД - не основная область применения генетических алгоритмов. Первые генетические алгоритмы были предложены в начале 70-х годов Джоном Холландом с целью имитации эволюционных процессов в живой природе. В технологии ИАД их нужно рассматривать как мощное средство решения разнообразных комбинаторных задач и задач оптимизации. Генетические алгоритмы оперируют такими понятиями, как ген, хромосома, популяция, мутация и пр,а сам метод имитирует процесс естественного отбора в природе.

Но генетические алгоритмы имеют два слабых места. Во-первых, сама постановка задачи в их терминах не дает возможности проанализировать статистическую значимость получаемого с их помощью решения и, во-вторых, эффективно сформулировать задачу, определить критерий отбора под силу только специалисту. В силу этих факторов сегодня генетические алгоритмы надо рассматривать скорее как инструмент научного исследования, чем как средство анализа данных для практического применения в бизнесе и финансах.

Статистический анализ. Простейшая статистическая обработка возможна при работе с данными на уровне SQL-запросов. Однако для выполнения более содержательного статистического анализа, например при проверке сложных гипотез, требуются специализированные средства, которые не только поддерживают соответствующие методы анализа (регрессионный, факторный, дисперсионный, кластерный и др.), но и имеют наглядные средства визуализации результатов. Многие пакеты статистической обработки позволяют проверять гипотезы и автоматически их генерировать.

Прогнозное моделирование. Благодаря бурному развитию различных методов автоматического построения моделей (методы индукции, нейронные сети) прогнозное моделирование стало самым распространенным типом операций информационного анализа данных. Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в базе данных в виде временных рядов, которые отражают динамику исследуемой системы в прошлом. Если удается построить математическую модель, адекватно описывающую эту динамику, есть вероятность, что с ее помощью можно предсказать и поведение системы в будущем. Ценность некоторых прогнозных моделей, особенно базирующихся на индукционных методах, заключается в простоте представления результатов. В том случае, когда поведение сложной системы описывается в терминах простых логических выражений типа если-то-иначе (if-then-else), соответствующие модели легко воспринимаются пользователями, их удобно изучать и модифицировать.

Из истории развития банка или предприятия, заданной векторными описаниями их положения в различные моменты времени, можно определить их обобщенные показатели на некоторое время вперед. Для решения задачи необходимы аналогичные наборы данных о деятельности других банков (предприятий), для которых заранее уже имеются эти обобщенные показатели.

Средства ИАД предполагают оказание помощи в нахождении скрытых зависимостей в данных. Получаемые модели можно использовать как для предсказания будущих значений, так и для описания текущего состояния. Однако, средства ИАД не могут работать без сопровождения пользователей, которые хорошо понимают предметную область, сами данные и общий характер используемых аналитических методов. Технология нахождения нового знания в хранилище данных не заменяет аналитиков и менеджеров, а дает им современный, мощный инструмент для улучшения работы, которую они выполняют. Результат применения этой технологии может проявляться в широком спектре, от увеличения доходов, до уменьшения расходов.

В банковской сфере с помощью методов ИАД, например, можно решать такие задачи:

- выявление мошенничества с кредитными карточками. Путем анализа прошлых транзакций, которые в последствии оказались мошенническими, можно выявить некоторые стериотипы такого мошенничества. Например, можно установить, что одним из предупреждающих сигналов служат многочисленные транзакции в магазинах бытовой электроники в течение короткого периода времени. Полученное знание банк может использовать в своих действующих системах, не разрешая подтверждения транзакции, совпадающей со стереотипом мошенничества, без предварительной беседы с покупателем.

- классификация клиентов. Разбивая клиентов на различные категории, банки могут сделать свою маркетинговую политику более целенаправленной и результативной, предлагая различные виды услуг разным группам клиентов. Например, банк может предлагать одну совместную карточку клиентам, которые часто путешествуют, и другую – клиентам, которые всегда вовремя оплачивают свои счета за покупки по кредитным карточкам. Классификацию полезно также использовать для определения, какие конкретно отделения с наибольшей вероятностью получат прибыль от отдельных рекламных акций.

- прогнозирование изменений клиентуры. ИАД помогает банкам строить прогнозные модели ценности для своих клиентов, и соответственным образом обслуживат ькаждую категорию. Для этого выясняется характер потребностей сегодняшних прибыльных клиентов и с помощью методов ИАД определяются общие черты, которыми они обладали несколько лет назад. Затем выявляются клиенты, обладающие этими чертами сегодня, считая их вероятными прибыльными клиентами в ближайшем будущем. Банк может включить указанных клиентов в целевые программы удерживания клиентов, например, предлагая специальные сделки или вводя штрафные санкции за отказ от дальнейших услуг.

Сложные задачи интеллектуального анализа данных требуют комплексного подхода, то есть применения различных методик на разных этапах поиска решений.





Дата публикования: 2015-03-26; Прочитано: 1200 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.007 с)...