Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
После получений результатов кластерного анализа методом k-средних, следует проверить правильность кластеризации (т.е. оценить, насколько кластеры отличаются друг от друга). Для этого рассчитываются средние значения для каждого кластера. При хорошей кластеризации должны быть получены сильно отличающиеся средние для всех измерений или хотя бы большей их части.
Достоинства алгоритма k -средних:
•простота использования;
•быстрота использования;
•понятность и прозрачность алгоритма.
Название каждого объекта
наиболее подходящему
(похожему) кластеру
Пересчет
кластерных центров (покоординатных средних)
Перераспределение Перераспределение
объектов объектов
Пересчет
кластерных центров (покоординатных средних)
Рис.14.1. Пример работы алгоритма k-средних (k=2)
Недостатки алгоритма k -средних:
• алгоритм слишком чувствителен к выбросам, которые могут исказить
среднее. Возможным решением этой проблемы является модификации алгоритма — алгоритм k -медианы;
• алгоритм может медленно работать на больших базах данных. Возможным решением данной проблемы является использование выборки
данных.
Алгоритм РАМ (partitioning around Medoids)
РАМ является модификацией алгоритма k-средних, алгоритмом k -медианы (k-medoids).
Алгоритм менее чувствителен к шумам и выбросам данных, чем алгоритм k-means, поскольку медиана меньше подвержена влияниям выбросов.
РАМ эффективен для небольших баз данных, но его не следует использовать для больших наборов данных.
Дата публикования: 2014-11-18; Прочитано: 1158 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!