Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Проверка качества кластеризации



После получений результатов кластерного анализа методом k-сред­них, следует проверить правильность кластеризации (т.е. оценить, на­сколько кластеры отличаются друг от друга). Для этого рассчитываются средние значения для каждого кластера. При хорошей кластеризации должны быть получены сильно отличающиеся средние для всех измере­ний или хотя бы большей их части.

Достоинства алгоритма k -средних:

•простота использования;

•быстрота использования;

•понятность и прозрачность алгоритма.


Название каждого объекта

наиболее подходящему

(похожему) кластеру


Пересчет

кластерных центров (покоординатных средних)

Перераспределение Перераспределение

объектов объектов


Пересчет

кластерных центров (покоординатных средних)

Рис.14.1. Пример работы алгоритма k-средних (k=2)

Недостатки алгоритма k -средних:

• алгоритм слишком чувствителен к выбросам, которые могут исказить
среднее. Возможным решением этой проблемы является модификации алгоритма — алгоритм k -медианы;

• алгоритм может медленно работать на больших базах данных. Возможным решением данной проблемы является использование выборки
данных.

Алгоритм РАМ (partitioning around Medoids)

РАМ является модификацией алгоритма k-средних, алгоритмом k -медианы (k-medoids).

Алгоритм менее чувствителен к шумам и выбросам данных, чем алгоритм k-means, поскольку медиана меньше подвержена влияниям выбросов.

РАМ эффективен для небольших баз данных, но его не следует использовать для больших наборов данных.





Дата публикования: 2014-11-18; Прочитано: 1158 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.006 с)...