Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Иерархические кластер-процедуры



Иерархические (древообразные) процедуры являются наиболее распространенными (в смысле реализации на ЭВМ) алгоритмами кластерного анализа. Они бывают двух типов: агломеративные и дивизимные. В агломеративных процедурах начальным является разбиение, состоящее из п одноэлементных классов, а конечным — состоящее из одного класса; в дивизимных — наоборот.

Принцип работы иерархических агломеративных (дивизимных) процедур состоит в последовательном объединении (разделении) групп элементов, сначала самых близких (далеких), а затем — все более отдаленных (близких) друг от друга. Большинство этих алгоритмов исходит из матрицы расстояний.

К недостаткам иерархических процедур следует отнести громоздкость их численной реализации. Алгоритмы требуют вычисления матрицы расстояний на каждом шаге, а следовательно, емкой машинной памяти и большого количества времени. В этой связи реализация таких алгоритмов при числе наблюдений, большем нескольких сотен, нецелесообразна, а в ряде случаев и невозможна.

В качестве примера рассмотрим агломеративный иерархический алгоритм. На первом шаге алгоритма каждое наблюдение xi (i = 1, 2,..., п)рассматривается как отдельный кластер. В дальнейшем на каждом шаге работы алгоритма происходит объединение двух самых близких кластеров, и с учетом принятого расстояния по формуле пересчитывается матрица расстояний, размерность которой, очевидно, снижается на единицу. Работа алгоритма заканчивается, когда все наблюдения объединены в один класс.

Большинство программ, реализующих алгоритм иерархической классификации, предусматривает графическое представление результатов классификации в виде дендрограммы.

Пример. Классификация стран по уровню жизни населения

В табл. 53.4 представлены значения следующих шести показателей, характеризующих условия жизни населения двадцати стран в 1994 г.:

x1 потребление мяса и мясопродуктов на душу населения(кг);

х2 смертность населения по причине болезни органов кровообращения на 100 тыс. человек;

х3 оценка валового внутреннего продукта по паритету покупательной способности в 1994 г. на душу населения (в % по отношению к США);

x4 — расходы на здравоохранение (в % от ВВП);

x5 — потребление фруктов и ягод на душу населения (кг);

x6 потребление хлебопродуктов на душу населения (кг).

Провести классификацию стран по уровню жизни населения и дать содержательную интерпретацию полученных результатов.

Таблица 53.4





Дата публикования: 2014-10-30; Прочитано: 374 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.005 с)...