Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Классификация и общая характеристика задач, решаемых Data Mining



Существует несколько условных классификаций задач Data Mining. Мы будем говорить о четырех базовых типах задач.

1. Классификация — это установление зависимости дискретной выходной переменной от входных переменных.

2. Регрессия это установление зависимости непрерывной выходной переменной от входных переменных.

3. Кластеризация это группировка объектов (наблюдений, событий) на основе данных, описывающих свойства объектов. Объекты внутри кластера должны быть похожими друг на друга и отличаться от других, которые вошли в другие кластеры.

4. Ассоциация — выявление закономерностей между связанными событиями. Примером такой закономерности служит правило, указывающее, что из события X следует событие Y. Такие правила называются ассоциативными.

Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее называют анализом рыночной корзины (market basket analysis).

Если же нас интересует последовательность происходящих событий, то можно говорить о последовательных шаблонах установлении закономерностей между связанными во времени событиями. Примером такой закономерности служит правило, указывающее, что из события X спустя время t последует событие Y.

Кроме перечисленных задач, часто выделяют:

анализ отклонений (deviation detection),

анализ связей (link alalysis),

отбор значимых признаков (feature selection),

хотя эти задачи граничат с очисткой и визуализацией данных.

В общем случае непринципиально, каким именно алгоритмом будет решаться задача, главное — иметь метод решения для каждого класса задач.

Решение подавляющего большинства бизнес-задач сводится к процессу KDD. Ранее были описаны базовые блоки, из которых собирается практически любое бизнес-решение.

Рисунок иллюстрирует некоторые популярные бизнес-задачи, которые решаются алгоритмами Data Mining.

Цель применения моделей в методах Data Mining — выявление новых свойств и закономерностей исследуемых объектов и процессов.

Поэтому информационный подход здесь очень кстати: модель должна самостоятельно обнаружить в данных присущие им закономерности (в большинстве случаев ранее неизвестные и скрытые) и приобрести свойства, необходимые для отражения этих закономерностей. Комплекс методов, используемых для создания таких моделей, называется машинным обучением, а сами модели — обучаемыми. В основе машинного обучения лежит обучающая выборка. Она может быть либо получена как совокупность наблюдений за развитием объекта или процесса в прошлом, либо (что встречается реже) создана экспертом или аналитиком на основе некоторых гипотез, аналогий, личного опыта и даже интуиции.

Слово «выборка» в данном случае означает, что, возможно, для обучения модели мы будем использовать не все имеющиеся данные, а некоторое их подмножество, наиболее полно отражающее искомые свойства и закономерности.Данные из обучающей выборки последовательно предъявляются модели, в результате чего модель приобретает необходимые свойства.

Этот процесс называется обучением. Он является итеративной процедурой.





Дата публикования: 2015-01-26; Прочитано: 1920 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.01 с)...