Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Задание 1. Рассмотрим задачу определения того, является ли ядовитым найденный гриб. Действие нашего «определителя грибов», как и других инструментов предсказания с помощью Data Mining, будет состоять из двух процессов: обучение модели (которое выполняется однократно и требует относительно много времени) и принятие решения о том, относится ли конкретный гриб к категории съедобных (что происходит неоднократно).
В качестве исходных данных для обучения модели мы воспользуемся набором данных о более чем 8 тыс. грибов, доступных в виде файла в формате CSV по адресу http://www.ics.uci.edu/~mlearn/MLRepository.html, который содержит таблицу, где имеется колонка Edibility с двумя возможными значениями (Еdible – съедобный и poisonous ядовитый). Для упрощения работы с этим набором данных переведем его на русский язык и импортируем в какую-нибудь СУБД, например в Access или в Microsoft SQL Server. Создадим в этой таблице автоматически заполняемое целочисленное ключевое поле оно потребуется при создании модели Data Mining на основе этих данных.
Теперь можно приступить к созданию самого дерева решений используя соответствующий инструментарий, например, системы STATIATICA.
Задание 2. Сформулировать собственную задачу, построить дерево решений и сделать выводы по полученным результатам.
Контрольные вопросы
1. В чем отличие задач классификации и прогнозирования методом деревьев решений.
2. Дайте определение критерия расщепления.
3. Преречислите преимущества метода деревьев решений.
4. Каковы правила остановки ветвления дерева решений.
Дата публикования: 2014-10-30; Прочитано: 243 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!