![]() |
Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | |
|
Существует несколько условных классификаций задач Data Mining. Мы будем говорить о четырех базовых типах задач.
1. Классификация — это установление зависимости дискретной выходной переменной от входных переменных.
2. Регрессия — это установление зависимости непрерывной выходной переменной от входных переменных.
3. Кластеризация — это группировка объектов (наблюдений, событий) на основе данных, описывающих свойства объектов. Объекты внутри кластера должны быть похожими друг на друга и отличаться от других, которые вошли в другие кластеры.
4. Ассоциация — выявление закономерностей между связанными событиями. Примером такой закономерности служит правило, указывающее, что из события X следует событие Y. Такие правила называются ассоциативными.
Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее называют анализом рыночной корзины (market basket analysis).
Если же нас интересует последовательность происходящих событий, то можно говорить о последовательных шаблонах — установлении закономерностей между связанными во времени событиями. Примером такой закономерности служит правило, указывающее, что из события X спустя время t последует событие Y.
Кроме перечисленных задач, часто выделяют:
• анализ отклонений (deviation detection),
• анализ связей (link alalysis),
• отбор значимых признаков (feature selection),
хотя эти задачи граничат с очисткой и визуализацией данных.
В общем случае непринципиально, каким именно алгоритмом будет решаться задача, главное — иметь метод решения для каждого класса задач.
Решение подавляющего большинства бизнес-задач сводится к процессу KDD. Ранее были описаны базовые блоки, из которых собирается практически любое бизнес-решение.
Рисунок иллюстрирует некоторые популярные бизнес-задачи, которые решаются алгоритмами Data Mining.
Цель применения моделей в методах Data Mining — выявление новых свойств и закономерностей исследуемых объектов и процессов.
Поэтому информационный подход здесь очень кстати: модель должна самостоятельно обнаружить в данных присущие им закономерности (в большинстве случаев ранее неизвестные и скрытые) и приобрести свойства, необходимые для отражения этих закономерностей. Комплекс методов, используемых для создания таких моделей, называется машинным обучением, а сами модели — обучаемыми. В основе машинного обучения лежит обучающая выборка. Она может быть либо получена как совокупность наблюдений за развитием объекта или процесса в прошлом, либо (что встречается реже) создана экспертом или аналитиком на основе некоторых гипотез, аналогий, личного опыта и даже интуиции.
Слово «выборка» в данном случае означает, что, возможно, для обучения модели мы будем использовать не все имеющиеся данные, а некоторое их подмножество, наиболее полно отражающее искомые свойства и закономерности.Данные из обучающей выборки последовательно предъявляются модели, в результате чего модель приобретает необходимые свойства.
Этот процесс называется обучением. Он является итеративной процедурой.
Дата публикования: 2015-01-26; Прочитано: 2079 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!