Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Актуальность проблемы



Сегодня большинство средств интеллектуального анализа данных довольно дороги - от 25-150 тысяч долларов за систему для предприятия небольших или средних масштабов и до многих миллионов для гиганта вроде Wal-Mart. Пять лет назад одна страховая компания истратила на систему интеллектуального анализа данных более 10 миллионов долларов. По словам ее главного исполнительного директора, он понимает, что сегодня смог бы приобрести аналогичную систему за гораздо меньшие деньги, но полученная с тех пор отдача с лихвой окупила потраченные миллионы. Этот пример дает некоторое представление о ценности интеллектуального анализа данных для бизнеса. Однако высокие цены на инструментарий свидетельствуют о том, что используемое сегодня ПО по своему уровню сложности все еще принадлежит к старому миру, в котором лишь самые крупные организации, располагавшие большим штатом сотрудников или пользовавшиеся услугами узко специализированных производителей, могут позволить себе глубокую переработку данных.

С ростом конкуренции в нашей основанной на информации экономике сведения о клиентах становятся все более важным производственным ресурсом. Каждая компания и каждый работник интеллектуального труда просто обязаны извлекать максимум возможного из имеющихся данных. Многие новые пользователи не могут позволить себе крупных расходов на инструментарий для работы с базами данных или на высококвалифицированных узких специалистов. К счастью, по мере освоения средствами интеллектуального анализа данных такой массовой платформы, как персональный компьютер, неизбежно должно произойти стремительное снижение цен с взрывоподобным ростом популярности этого инструментария в компаниях всех масштабов и в их подразделениях. Вскоре каждый пользователь из деловой сферы сможет проводить сложную обработку информации, прежде доступную лишь организациям, способным выложить за нее большие деньги. Интеллектуальный анализ данных проникнет повсюду, войдет в стандартный набор функциональных возможностей информационной инфраструктуры любой компании.

Главная ценность интеллектуального анализа данных для бизнеса будет заключаться в том, что он поможет ответить на вопросы, какие продукты имеет смысл создавать и к каким уровням цен следует стремиться. Компании смогут оценивать множество различных вариантов цен и размеров партий, выбирая наиболее выгодные для себя и наиболее привлекательные для клиентов. Особенно большой интерес такие возможности представляют для компаний, предлагающих информационные продукты. В отличие от производства автомобилей или, скажем, стульев, в сфере страховых или финансовых услуг, а также в книгоиздательской деятельности на этап разработки приходится значительно больше затрат, чем на этап производства. Стоимость же этих продуктов определяется не столько величиной произведенных вложений, сколько их ценностью для покупателя. Секрет успеха информационного продукта - в понимании продавцом интересов наиболее вероятного клиента и особенностей его покупательского поведения.

Страховые компании, например, предлагают такие продукты, которые могут оказаться для них очень прибыльными при приобретении одними клиентами, малоприбыльными - при приобретении другими и вовсе неприбыльными - при приобретении третьими. Эта разница коррелирует со статистикой страховых случаев. Интеллектуальный анализ данных позволяет выделить категории клиентов и географические области, для которых характерен высокий или низкий уровень выплат по страховке. Исходя из этого, можно принять решение об усилении маркетинговой активности в отношении потенциальных клиентов, возрастная группа или география проживания которых позволяют рассчитывать на низкий уровень страховых выплат, а также о предложении им привлекательных цен. С другой стороны, возможны и решения о повышении цен или сокращении маркетинговых усилий применительно к группам клиентов с "неблагоприятной" статистикой. Когда в условиях ведения бизнеса есть такие различия, применение интеллектуального анализа данных при разработке стратегии способно дать очень много. Аналогичные возможности применения этой технологии существуют и при поиске новых клиентов банками. Люди меняют сегодня банки гораздо чаще, чем раньше, и появляется все больше новых компаний, предлагающих финансовые услуги. Для привлечения клиентов приходится предпринимать все более серьезные маркетинговые усилия, которые окупаются только в тех случаях, когда эти клиенты оказываются достаточно выгодными.

И, наконец, всегда следует задаваться вопросом: сможете ли вы использовать результаты анализа на практике? Если контингент ваших клиентов в значительной мере однороден или общее их число невелико, пользы от самого что ни на есть интеллектуального анализа будет далеко не так много, как в рассмотренных примерах. Бакалейщик, предлагающий деликатесы узкому кругу клиентов, проживающих по соседству с его лавкой, вероятно, не нуждается в этой технологии. А вот общенациональная сеть бакалейных магазинов - совсем другое дело.

Мощные возможности интеллектуального анализа данных будут полезны компаниям, ищущим способы привлечения новых клиентов; вырабатывающим ориентиры для своих маркетинговых усилий; пытающимся определить, в какую сторону дальше развивать продукты и к какому уровню цен стремиться, чем заинтересовать конкретных клиентов. Человеческая изобретательность и высокая квалификация необходимы, чтобы использовать эту информацию для выработки новых подходов к самым различным сторонам коммерческой деятельности - от упаковки до ценообразования, чтобы разглядеть контуры новых продуктов в выданных компьютером отчетах и придумать привлекательные для клиентов новые предложения. Чем лучше инструментарий, используемый специалистами для этой работы, тем эффективнее они могут применять свои творческие способности. Руководству компании не следует жалеть денег на расширение возможностей сотрудников. Будет разумно выделять 3-4% от фонда заработной платы работников интеллектуального труда на приобретение для них самого лучшего инструментария. Если его применение избавит людей от рутины, они смогут всю свою умственную энергию направить на творческое использование закономерностей и тенденций, выявленных компьютером в автоматическом режиме. Использование информации для создания новаторских продуктов и услуг, а также для укрепления сотрудничества с партнерами и клиентами, всегда останется исключительной прерогативой человека. Чем больше ценной руды станет извлекать ПО из залежей данных, тем больше будет у людей работы по превращению этой руды в золото.

Интеллектуальный анализ данных (англ. Data Mining) — выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах необработанных данных. Как правило подразделяется на задачи классификации, моделирования и прогнозирования. Процесс автоматического поиска закономерностей в больших массивах данных. Термин Data Mining веден Григорием Пятецким-Шапиро в 1989 г.

Английский термин «Data Mining» не имеет однозначного перевода на русский язык (добыча данных, вскрытие данных, информационная проходка, извлечение данных/информации) поэтому в большинстве случаев используется в оригинале. Наиболее удачным непрямым переводом считается термин Интеллектуальный анализ данных.

ИАД включает методы и модели статистического анализа и машинного обучения, дистанцируясь от них в сторону автоматического анализа данных. Инструменты ИАД позволяют проводить анализ данных предметными специалистами (аналитиками), не владеющими соответствующими математическими знаниями.

Задачи решаемые Data Mining:

1. Классификация – отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов.

2. Кластеризация – разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга.

3. Регрессия – установление зависимости непрерывными входным и выходным векторами.

4. Ассоциация – поиск повторяющихся паттернов. Например, поиск устойчивых связей в корзине покупателя (market basket analysis) – вместе с пивом покупают орешки.

5. Последовательные шаблоны – аналогично задаче ассоциации, но с учетом временной составляющей. Например, поиск причинно-следственных связей.

6. Прогнозирование – аналогично задаче регрессии, но с учетом временной составляющей. Например, прогноз трендов финансовых показателей.

7. Анализ отклонений – выявление наиболее нехарактерных паттернов. Например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы.

В литературе можно встретить еще ряд классов задач. Базовыми задачами являются первые четыре. Остальные задачи сводятся к ним тем или иным способом.

Для эффективного управления бизнесом в сфере электронной коммерции в настоящее время большое распространение получают методы бизнес-аналитики (BI - Business Intelligence). В сферу их применения входят задачи по прогнозированию объемов продаж, управлению количеством товарных запасов, определению оптимальных торговых наценок, выявлению типичных паттернов покупательского поведения, оптимизации навигации по сайту, улучшению рубрикации и т.п.

В полноценную систему бизнес-аналитики должны входить следующие составляющие: хранилище данных, средства обработки данных, средства анализа данных, средства визуализации.

Хранилище данных заполняется сведениями, извлекаемыми из систем оперативного учета. Использование отдельного хранилища данных обусловлено необходимостью объединения информации из разнородных источников, выполнения предобработки данных (заполнение пропущенных значений, удаление аномальных значений, предагрегация) и организации информации в удобной для последующего анализа форме.

Для анализа данных используются средства многомерного хранения и аналитической обработки данных (OLAP - Online Analytical Processing), представляющие бизнес-операции в виде фактов (объем продаж, число единиц на складе и т.д.) и измерений (время, география, поставщик, покупатель, товар и т.д.). Средства OLAP позволяют осуществлять стратегический обзор ситуации и в реальном времени получать ответы на вопросы, интересующие аналитика. Средства OLAP в основном предназначены для быстрого составления отчетности по консолидированным показателям процессов в различных разрезах и с произвольной глубиной "проваливания" в оперативные данные. Средства OLAP также идеально подходят для проверок заранее сформулированных аналитиком гипотез.

С целью автоматического обнаружения ранее неизвестных знаний в накопленных данных используются технологии интеллектуального анализа данных, называемые также "раскопкой данных" (Data Mining), "обнаружением знаний в базах данных" (Knowledge Discovery in Databases). В отличии от технологии OLAP сам поиск закономерностей и шаблонов в данных осуществляется не пользователем системы, а самой технологией, реализующей несколько алгоритмов Data Mining.

В список основных задач, решаемых алгоритмами DM, входят:

· сегментация (выявление структуры, групп, кластеров);

· поиск ассоциаций (связей между различными характеристиками);

· поиск временных шаблонов;

· регрессия (прогнозирование, классификация, восстановление функциональной зависимости между характеристиками).

Итак, ИАД (Data Mining) - это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). При этом накопленные сведения автоматически обобщаются до информации, которая может быть охарактеризована как знания.

В общем случае процесс ИАД состоит из трёх стадий (рис. 1):

1) выявление закономерностей (свободный поиск);

2) использование выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование);

3) анализ исключений, предназначенный для выявления и толкования аномалий в найденных закономерностях.

Иногда в явном виде выделяют промежуточную стадию проверки достоверности найденных закономерностей между их нахождением и использованием (стадия валидации).

Рис. 1. Стадии процесса интеллектуального анализа данных

Все методы ИАД подразделяются на две большие группы по принципу работы с исходными обучающими данными.

1. В первом случае исходные данные могут храниться в явном детализированном виде и непосредственно использоваться для прогностического моделирования и/или анализа исключений; это так называемые методы рассуждений на основе анализа прецедентов. Главной проблемой этой группы методов является затрудненность их использования на больших объемах данных, хотя именно при анализе больших хранилищ данных методы ИАД приносят наибольшую пользу.

2. Во втором случае информация вначале извлекается из первичных данных и преобразуется в некоторые формальные конструкции (их вид зависит от конкретного метода). Согласно предыдущей классификации, этот этап выполняется на стадии свободного поиска, которая у методов первой группы в принципе отсутствует. Таким образом, для прогностического моделирования и анализа исключений используются результаты этой стадии, которые гораздо более компактны, чем сами массивы исходных данных. При этом полученные конструкции могут быть либо "прозрачными" (интерпретируемыми), либо "черными ящиками" (нетрактуемыми).

Две эти группы и примеры входящих в них методов представлены на рис. 2.

Рис. 2. Классификация

Системы ИАД применяются в научных исследованиях и образовании, в работе правоохранительных органов, производстве, здравоохранении и многих других областях. Особенно широко технология ИАД используется в деловых приложениях. В таблице 1 приведено несколько примеров приложений в области финансов и маркетингового анализа.

Приложение (организация) Описание
FALCON (HNC Software, Inc.) Инструментальное средство для оперативного выявления злоупотреблений с кредитными карточками; более 100 организаций-пользователей отмечают сокращение числа нарушений на 20-30%.
Классификатор дебиторских счетов (Internal Revenue Service) Выявление счетов потенциально платежеспособных дебиторов на основе анализа больших объемов архивных данных по уплате налогов.
Повышение качества архивной финансовой информации (Lockheed) Выявление закономерностей (в виде правил вывода) в архивных финансовых данных для использования в моделях прогнозирования, системах поддержки принятия решений по инвестированию и т.д.
Верификация данных по курсам валют (Reuters) Система выявления ошибок в оперативно поступающих данных по курсам валют. С помощью нейронных сетей и индуктивного вывода правил строятся приблизительные прогнозы, которые сравниваются с поступающими данными. Большие отклонения рассматриваются как возможные ошибки.
Прогнозирование невыплат в сделках с недвижимостью (Leeds) Анализ архивных данных по сделкам с недвижимостью и выявление паттернов, соответствующих проблемным сделкам, заканчивающимся невыплатами. Выявленные закономерности используются для оценки риска при заключении новых сделок.
Маркетинговые исследования (Dickinson Direct) Определение характеристик типичных покупателей продукции компании для выявления новых потенциальных клиентов (профилирование клиентов).
Маркетинговые исследования (Reader's Digest Canada) Выявление основных сегментов рынка и наиболее благоприятных подмножеств, а также исследование зависимостей между основными показателями и характеристиками сегментов.
Установка лотерейных автоматов (Automated Wagering, Inc.) Объединение методов ИАД с географическим анализом для определения наилучших мест для установки лотерейных автоматов в штате Флорида.
Выявление потенциальных покупателей автомобильных стерео систем (Washington Auto Audio, Inc.) Анализ демографической базы данных, содержащей информацию о 14000 реальных и потенциальных клиентов, позволил за 90 секунд получить 3 довольно надежных индикатора для прогноза спроса на продукцию и услуги компании. Аналогичные результаты были получены в результате традиционного исследования, выполненного одной из консалтинговых компаний, причем это исследование обошлось фирме на порядок дороже, чем автоматизированная система интеллектуального анализа данных.

Таблица 1. Примеры использования методов интеллектуального анализа данных в финансовых приложениях и маркетинговом анализе

Как видно из таблицы 1, результаты ИАД представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Поэтому перед разработчиками встает задача внедрения технологии ИАД в автоматизированные системы анализа и поддержки принятия решений. В отличие от исследовательских приложений, подобные системы должны ориентироваться на непрограммирующего пользователя и на решение конкретных проблем, которые оказываются довольно разнообразными и нередко требуют применения различных подходов. Например, от автоматизированной системы анализа финансового состояния коммерческого банка может потребоваться решение таких задач как:

· получение отчетности банка и проверка ее полноты и корректности;

· проведение группировки статей баланса и расчет экономических нормативов и аналитических коэффициентов (например, по методу CAMEL);

· проверка экономических нормативов по методике ЦБ РФ;

· оценка состояния банка по системе аналитических коэффициентов;

· определение рейтинга банка;

· анализ динамики основных показателей, выявление тенденций и прогнозирование состояния банка;

· анализ степени влияния тех или иных факторов на состояние банка;

· выработка рекомендаций по оптимизации банковского баланса.

Эта система обеспечивает решение нескольких задач, от сбора и проверки корректности информации, поступающей в базу данных, до традиционного и/или интеллектуального анализа данных (степень влияния различных факторов на состояние банка, прогнозирование) и оптимизационного анализа, причем от пользователя не требуется специальных знаний в области баз данных, факторного анализа или методов оптимизации.

К сожалению, универсальные средства ИАД довольно сложны и дороги, поэтому они не могут широко применяться в рамках интегрированных систем, ориентированных на конечного пользователя. Действительно, в основу технологии ИАД положен не один, а несколько принципиально различных подходов (таблица 2), причем использование некоторых из них невозможно без специальной подготовки. Выбор подхода нередко требует привлечения специалиста по ИАД.

Таблица 2. Основные технологии интеллектуального анализа данных

Технология Достоинства Недостатки
Правила вывода Удобны в тех случаях, когда данные связаны отношениями, представимыми в виде правил "если то " При большом количестве правил теряется наглядность; не всегда удается выделить отношения "если то "
Нейронные сети Удобны при работе с нелинейными зависимостями, зашумленными и неполными данными "Черный ящик": модель не может объяснить выявленные знания; данные обязательно должны быть преобразованы к числовому виду
Нечеткая логика Ранжируют данные по степени близости к желаемым результатам; нечеткий поиск в базах данных Технология новая, поэтому сейчас известно ограниченное число специализированных приложений
Визуализация Многомерное графическое представление данных, по которому пользователь сам выявляет закономерности - образцы и отношения между данными Модели не исполняются, и их интерпретация полностью зависит от аналитика
Статистика Есть большое число алгоритмов и опыт их применения в научных и инженерных приложениях Больше подходят для проверки гипотез, чем для выявления новых закономерностей в данных
К-ближайший сосед Выявление кластеров, обработка целостных источников данных Большие затраты памяти, проблемы с чувствительностью
Интегрированные технологии Можно выбирать подходы, адекватные задачам, или сравнивать результаты применения разных подходов. Сложные средства поддержки; высокая стоимость; для каждой отдельно взятой технологии не всегда реализуется наилучшее решение

Однако вряд ли есть смысл использовать универсальные средства ИАД во всех случаях, поскольку накопленный опыт работы с методами интеллектуального анализа уже позволил выделить типовые задачи и определить наиболее эффективные методы их решения. Существующие системы ИАД можно подразделить на исследовательские, ориентированные на специалистов и предназначенные для работы с новыми типами проблем, и прикладные, рассчитанные на непрограммирующих пользователей (аналитиков, менеджеров, технологов и т.д.) и решающие типовые задачи. Если в исследовательских системах ИАД важно разнообразие доступных методов обработки данных и гибкость используемых средств, то в прикладных системах такие широкие возможности оказываются излишними. В подобных системах целесообразно реализовывать не методы, а типовые виды рассуждений (анализа), характерные для проблемной области. Создание соответствующих инструментальных средств с дружественным интерфейсом обеспечивает доступность ИАД для широкого круга пользователей.





Дата публикования: 2014-10-18; Прочитано: 2057 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.011 с)...