Главная \| Случайная страница \| Контакты \| Мы поможем в написании вашей работы!

Классификация и общая характеристика задач, решаемых Data Mining

⇐ Предыдущая 31 32 33 34 353637 38 39 40 Следующая ⇒

Существует несколько условных классификаций задач Data Mining. Мы будем говорить о четырех базовых типах задач.

1. Классификация — это установление зависимости дискретной выходной переменной от входных переменных.

2. Регрессия — это установление зависимости непрерывной выходной переменной от входных переменных.

3. Кластеризация — это группировка объектов (наблюдений, событий) на основе данных, описывающих свойства объектов. Объекты внутри кластера должны быть похожими друг на друга и отличаться от других, которые вошли в другие кластеры.

4. Ассоциация — выявление закономерностей между связанными событиями. Примером такой закономерности служит правило, указывающее, что из события X следует событие Y. Такие правила называются ассоциативными.

Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее называют анализом рыночной корзины (market basket analysis).

Если же нас интересует последовательность происходящих событий, то можно говорить о последовательных шаблонах — установлении закономерностей между связанными во времени событиями. Примером такой закономерности служит правило, указывающее, что из события X спустя время t последует событие Y.

Кроме перечисленных задач, часто выделяют:

• анализ отклонений (deviation detection),

• анализ связей (link alalysis),

• отбор значимых признаков (feature selection),

хотя эти задачи граничат с очисткой и визуализацией данных.

В общем случае непринципиально, каким именно алгоритмом будет решаться задача, главное — иметь метод решения для каждого класса задач.

Решение подавляющего большинства бизнес-задач сводится к процессу KDD. Ранее были описаны базовые блоки, из которых собирается практически любое бизнес-решение.

Рисунок иллюстрирует некоторые популярные бизнес-задачи, которые решаются алгоритмами Data Mining.

Цель применения моделей в методах Data Mining — выявление новых свойств и закономерностей исследуемых объектов и процессов.

Поэтому информационный подход здесь очень кстати: модель должна самостоятельно обнаружить в данных присущие им закономерности (в большинстве случаев ранее неизвестные и скрытые) и приобрести свойства, необходимые для отражения этих закономерностей. Комплекс методов, используемых для создания таких моделей, называется машинным обучением, а сами модели — обучаемыми. В основе машинного обучения лежит обучающая выборка. Она может быть либо получена как совокупность наблюдений за развитием объекта или процесса в прошлом, либо (что встречается реже) создана экспертом или аналитиком на основе некоторых гипотез, аналогий, личного опыта и даже интуиции.

Слово «выборка» в данном случае означает, что, возможно, для обучения модели мы будем использовать не все имеющиеся данные, а некоторое их подмножество, наиболее полно отражающее искомые свойства и закономерности.Данные из обучающей выборки последовательно предъявляются модели, в результате чего модель приобретает необходимые свойства.

Этот процесс называется обучением. Он является итеративной процедурой.

⇐ Предыдущая 31 32 33 34 353637 38 39 40 Следующая ⇒

Дата публикования: 2015-01-26; Прочитано: 1920 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!

studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.01 с)...