Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Методы и стадии ИАД



ИАД (Data Mining) - мультидисциплинарная область, возникшая и развивающаяся на базе таких наук как прикладная статистика, распознавание образов, искусственный интеллект, теория баз данных и т.д. ИАД - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Суть и цель технологии ИАД можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.

Неочевидных - найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем.

Объективных - обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного мнения, которое всегда является субъективным.

Практически полезных - выводы имеют конкретное значение, которому можно найти практическое применение.

Различные инструменты ИАД имеют различную степень "дружелюбности" интерфейса и требуют определенной квалификации пользователя. Поэтому программное обеспечение должно соответствовать уровню подготовки пользователя. Использование ИАД должно быть неразрывно связано с повышением квалификации пользователя. Однако специалистов по ИАД, которые бы хорошо разбирались в бизнесе, пока еще мало.

Извлечение полезных сведений невозможно без хорошего понимания сути данных. Необходим тщательный выбор модели и интерпретация зависимостей или шаблонов, которые обнаружены. Поэтому работа с такими средствами требует тесного сотрудничества между экспертом в предметной области и специалистом по инструментам ИАД. Построенные модели должны быть грамотно интегрированы в бизнес-процессы для возможности оценки и обновления моделей. В последнее время системы ИАД поставляются как часть технологии хранилищ данных.

Сложность подготовки данных. Успешный анализ требует качественной предобработки данных. По утверждению аналитиков и пользователей баз данных, процесс предобработки может занять до 80% процентов всего ИАД-процесса. Таким образом, чтобы технология работала на себя, потребуется много усилий и времени, которые уходят на предварительный анализ данных, выбор модели и ее корректировку.

Большой процент ложных, недостоверных или бессмысленных результатов. С помощью ИАД можно отыскивать действительно ценную информацию, которая вскоре даст большие дивиденды в виде финансовой и конкурентной выгоды. Однако ИАД достаточно часто делает множество ложных и не имеющих смысла открытий. Многие специалисты утверждают, что ИАД-средства могут выдавать огромное количество статистически недостоверных результатов. Чтобы этого избежать, необходима проверка адекватности полученных моделей на тестовых данных.

Высокая стоимость. Качественная ИАД-программа может стоить достаточно дорого для компании. Вариантом служит приобретение уже готового решения с предварительной проверкой его использования.

Наличие достаточного количества репрезентативных данных. Средства ИАД теоретически не требуют наличия строго определенного количества ретроспективных данных. Эта особенность может стать причиной обнаружения недостоверных, ложных моделей и, как результат, принятия на их основе неверных решений. Необходимо осуществлять контроль статистической значимости обнаруженных знаний.

К методам и алгоритмам ИАД относятся следующие: искусственные нейронные сети, деревья решений, символьные правила, методы ближайшего соседа и k-ближайшего соседа, метод опорных векторов, байесовские сети, линейная регрессия, корреляционно-регрессионный анализ; иерархические методы кластерного анализа, неиерархические методы кластерного анализа, в том числе алгоритмы k-средних и k-медианы; методы поиска ассоциативных правил, в том числе алгоритм Apriori; метод ограниченного перебора, эволюционное программирование и генетические алгоритмы, разнообразные методы визуализации данных и множество других методов.

Большинство аналитических методов, используемые в технологии ИАД - это известные математические алгоритмы и методы. Новым в их применении является возможность их использования при решении тех или иных конкретных проблем, обусловленная появившимися возможностями технических и программных средств. Следует отметить, что большинство методов ИАД были разработаны в рамках теории искусственного интеллекта.

ИАД может состоять из двух или трех стадий:

Стадия 1. Выявление закономерностей (свободный поиск).

Осуществляется исследование набора данных с целью поиска скрытых закономерностей. Предварительные гипотезы относительно вида закономерностей здесь не определяются.

Закономерность - существенная и постоянно повторяющаяся взаимосвязь, определяющая этапы и формы процесса становления, развития различных явлений или процессов.

Свободный поиск представлен такими действиями: выявление закономерностей условной логики; выявление закономерностей ассоциативной логики; выявление трендов и колебаний.

Стадия 2. Использование выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование). Здесь обнаруженные закономерности используются непосредственно для прогнозирования.

Прогностическое моделирование включает: предсказание неизвестных значений; прогнозирование развития процессов.

В процессе прогностического моделирования решаются задачи классификации и прогнозирования.

При решении задачи классификации результаты работы первой стадии (индукции правил) используются для отнесения нового объекта, с определенной уверенностью, к одному из известных, предопределенных классов на основании известных значений.

При решении задачи прогнозирования результаты первой стадии (определение тренда или колебаний) используются для предсказания неизвестных (пропущенных или же будущих) значений целевой переменной (переменных).

В дополнение к этим стадиям иногда вводят стадию валидации, следующую за стадией свободного поиска. Цель валидации - проверка достоверности найденных закономерностей.

Стадия 3. Анализ исключений - стадия предназначена для выявления и объяснения аномалий, найденных в закономерностях. Действие, выполняемое на этой стадии, - выявление отклонений. Для выявления отклонений необходимо определить норму, которая рассчитывается на стадии свободного поиска.

Классификация технологических методов ИАД:

непосредственное использование или сохранение данных - исходные данные хранятся в явном детализированном виде и непосредственно используются на стадиях прогностического моделирования;

выявление и использование формализованных закономерностей, или дистилляция шаблонов - один образец (шаблон) информации извлекается из исходных данных и преобразуется в некие формальные конструкции;

логические методы включают: нечеткие запросы и анализы; символьные правила; деревья решений; генетические алгоритмы.

методы кросс-табуляции: агенты, баесовские (доверительные) сети, кросс-табличная визуализация;

методы на основе уравнений - статистические методы и нейронные сети;

кибернетические методы: искусственные нейронные сети, эволюционное программирование; генетические алгоритмы; ассоциативная память (поиск аналогов, прототипов); нечеткая логика; деревья решений; системы обработки экспертных знаний.





Дата публикования: 2014-11-03; Прочитано: 2322 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.007 с)...