Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Сравнительный анализ иерархических и неиерархических методов кластеризации



Перед проведением кластеризации у аналитика может возникнуть вопрос, какой группе методов кластерного анализа отдать предпочтение. Выбирая между иерархическими и неиерархическими методами, необхо­димо учитывать следующие их особенности.

Неиерархические методы выявляют более высокую устойчивость по отношению к шумам и выбросам, некорректному выбору метрики, включению незначимых переменных в набор, участвующий в кластеризации. Ценой, которую приходится платить за эти достоинства метода, является слово "апри­ори". Аналитик должен заранее определить количество кластеров, количест­во итераций или правило остановки, а также некоторые другие параметры кластеризации. Это особенно сложно начинающим специалистам.

Если нет предположений относительно числа кластеров, рекоменду­ют использовать иерархические алгоритмы. Однако, если объем выборки не позволяет это сделать, возможный путь — проведение ряда экспери­ментов в различным количеством кластеров, например, начать разбиение совокупности данных с двух групп и, постепенно увеличивая их количе­ство, сравнивать результаты. За счет такого «варьирования» результатов достигается достаточно большая гибкость кластеризации.

Иерархические методы, в отличие от неиерархических, отказывают­ся от определения числа кластеров, а строят полное дерево вложенных кластеров.

Сложности иерархических методов кластеризации: ограничение объема набора данных; выбор меры близости; негибкость полученных классификаций.

Преимущество этой группы методов в сравнении с неиерархическими методами - их наглядность и возможность получить детальное представле­ние о структуре данных.

При использовании иерархических методов существует возможность достаточно легко идентифицировать выбросы в наборе данных и, в резуль­тате, повысить качество данных. Эта процедура лежит в основе двухшагового алгоритма кластеризации. Такой набор данных в дальнейшем может быть использован для проведения неиерархической кластеризации.

Существует еще одни аспект, о котором уже упоминалось. Это вопрос кластеризации всей совокупности данных или же ее выборки. Названный аспект существенен для обеих рассматриваемых групп методов, однако он более критичен для иерархических методов. Иерархические методы не могут работать с большими наборами данных, а использование некоторой выборки, т.е. части данных, могло бы позво­лить применять эти методы.

Результаты кластеризации могут не иметь достаточного статисти­ческого обоснования. С другой стороны, при решении задач кластери­зации допустима нестатистическая интерпретация полученных резуль­татов, а также достаточно большое разнообразие вариантов понятия кластера. Такая нестатистическая интерпретация дает возможность ана­литику получить удовлетворяющие его результаты кластеризации, что при использовании других методов часто бывает затруднительным.





Дата публикования: 2014-11-18; Прочитано: 939 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.005 с)...