Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Инструменты добычи данных



Knowledge Discovery in Databases (KDD)– это процесс поиска полезных знаний в "сырых" данных. KDD включает в себя вопросы подготовки данных, выбора информативных признаков, очистки данных, применения методов "раскапывания данных" (Data Mining), а также обработки и интерпретации полученных результатов.

Центральным элементом этой технологии являются методы Data Mining, позволяющие обнаруживать знания при помощи математических правил:

· Фильтрация. Необходимость в фильтрации возникает, когда нужно отделить полезную информацию от искажающего его шума за счет сглаживания, очистки, редактирования аномальных значений, устранения незначащих факторов, понижения размерности информации и т.д. Применение фильтрации в системах анализа данных относится к первичной обработке данных и позволяет повысить качество исходных данных, а, следовательно, и точность результата анализа.

· Деревья решений. Они позволяют представлять правила в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая конструкция, представленная в виде «если..., то...». Деревья решений применяются при решении задач поиска оптимальных решений на основе описанной модели поведения.

· Ассоциативные правила. Они позволяют находить закономерности между связанными событиями. Примером такого правила служит утверждение, что в том случае, если произошло событие А, то произойдет и событие В с вероятностью C. Впервые это задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом рыночной корзины (market basket analysis).

· Генетические алгоритмы. Они применяются при решении задач оптимизации. Эти методы были открыты при изучении эволюции и происхождения видов. Генетические алгоритмы нужны для настройки нейронных сетей, а также решения различных задач, когда можно составить описание возможных вариантов решения в виде вектора параметров, и известен критерий, определяющий эффективность каждого варианта. Генетические алгоритмы применяются для составления расписаний, портфелей ценных бумаг, заполнения контейнеров при перевозке (пересылке) грузов, выбор маршрутов движения, конфигурации оборудования и т.д.

· Нейронные сети. Они реализуют алгоритмы на основе сетей обратного распространения ошибки, самоорганизующихся карт Кохонена, RBF-сетей, сетей Хэмминга и других подобных алгоритмов анализа данных. Нейронные сети применяются для решения самых различных задач - восстановление пропусков в данных, поиск закономерностей, классификация и кластеризация данных, прогнозирование и моделирование.

Инструменты добычи данных поставляются заказчикам двумя способами:

· в составе OLAP-систем,

· в виде самостоятельных систем Data Mining.

Функциональность Data Mining в той или иной степени полноты реализации включена в аналитические системы различных производителей – Oracle, Hyperion, SAS и т.д. Однако, наиболее «продвинутыми» в этом плане являются специализированные системы математического анализа данных. В России авторитетным разработчиком систем в технологии KDD является компания "Лаборатория BaseGroup".





Дата публикования: 2014-11-03; Прочитано: 708 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.006 с)...