Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
"Кластерный анализ" — научное направление предназначенное для формирования групп "близких" между собой объектов по совокупности общих для этих объектов признаков. По смыслу аналогичен терминам: автоматическая классификация, таксономия, распознавание образов без учителя. Фактически "кластерный анализ" - это обобщенное название достаточно большого набора алгоритмов, используемых при создании классификации. В ряде изданий используются и такие синонимы кластерного анализа, как классификация и разбиение. Кластерный анализ широко используется в науке как средство типологического анализа. В любой научной деятельности классификация является одной из фундаментальных составляющих, без которой невозможны построение и проверка научных гипотез и теорий. Анализ отечественных и зарубежных публикаций показывает, что кластерный анализ находит применение в самых разнообразных научных направлениях: в биологии, медицине, археологии, истории, географии, экономике, психологии, социологии, филологии, политике и т.д. В прекрасной книге В.В. Налимова "Вероятностная модель языка" описано применение кластерного анализа при исследовании восприятия живописи.
Необходимость анализа и формализации задач, связанных со сравнением и классификацией объектов, сознавали учёные далёкого прошлого. "Его (Аристотеля) величайшим и в то же время чреватым наиболее опасными последствиями вкладом в науку была идея классификации, которая проходит через все его работы... Аристотель ввёл или, по крайней мере, кодифицировал способ классификации предметов, основанный на сходстве и различии...", - писал Дж. Берналл в "Науке истории общества" (М,: Изд-во иностр. лит., 1956, с. 117).
После Аристотеля с его "деревом вещей жизни" имеется (ещё в докомпьютерной эре) ряд интереснейших примеров прекрасно построенных классификаций как в естественных, так и в общественных науках. Иерархическая классификация (основанная на понятии сходства) растений и видов М. Адансона (1757 г.). Знаменитая периодическая система элементов Д.И. Менделеева (1869 г.), представляющая собой по существу классификацию многомерных наблюдений (каждый химический элемент может представлен в виде вектора характеризующих его разнотипных признаков, включая характеристики конфигурации внешних электронных оболочек атомов) с выявленным единым классифицирующим фактором (зарядом атомного ядра) и с упорядочением элементов внутри каждого класса.
Большая часть литературы по кластерному анализу появилась в течение последних трех десятилетий, хотя первые работы, в которых упоминались кластерные методы, известны достаточно давно. Польский антрополог К. Чекановский выдвинул идею "структурной классификации", содержавшую основную идею кластерного анализа - выделение компактных групп объектов. В 1925 г. советский гидробиолог П.В. Терентьев разработал так называемый "метод корреляционных плеяд", предназначенный для группирующих признаков. Этот метод дал толчок развитию способов группировки с помощью графов.
Слово "cluster" переводится с английского языка как "гроздь, кисть, пучок, группа". По этой причине первоначальное время этот вид анализа называли "гроздевым анализом". В начале 50-х годов появились публикации Р. Люиса, Е. Фикса и Дж. Ходжеса по иерархическим алгоритмам кластерного анализа. Заметный толчок развитие работ по кластерному анализу дали работы Р.Розенблатта по распознающему устройству (персептрону), положившие начало развитию теории "распознавания образов без учителя".
Толчком к разработке современных методов классификации и к появлению нового научного направления под названием "Кластерный анализ" явилась книга "Принципы численной таксономии", опубликованная в 1963 г. двумя биологами — Робертом Сокэлом и Питером Снитом. Авторы этой книги исходили из того, что для создания эффективных биологических классификаций, процедура кластеризации должна обеспечивать использование всевозможных показателей-признаков характеризующих исследуемые организмы, производить оценку степени сходства между этими организмами и обеспечивать размещение схожих организмов в одну и ту же группу - кластер. При этом сформированные группы должны быть достаточно «локальны», т.е. сходство объектов внутри групп должно превосходить сходство групп между собой. Последующий анализ выделенных групп-кластеров, по мнению авторов, может выяснить, отвечают ли эти группы разным биологическим видам. Иными словами, Сокэл и Снит предполагали, что выявление структуры распределения объектов в группы, помогает установить процесс образования этих групп. Различие и сходство организмов разных кластеров (групп) могут служить базой для осмысления происходившего эволюционного процесса и выяснения его механизма.
После появления книги Сокэла и Снита идеи кластерного анализа стремительно начали использоваться во многих других научных направлениях. Большая часть литературы по кластерному анализу появилась в течение последних трёх десятилетий ХХ-го столетия. Достаточно сказать, что только число монографий по кластерному анализу, изданных к настоящему времени в разных странах, измеряется сотнями. И это вполне понятно. Ведь речь идёт фактически о моделировании операции группирования - одной из важнейших не только в статистике, но и в познании, распознавании образов, принятии управленческих и иных решений. По приблизительным оценкам специалистов число публикаций по кластерному анализу и его приложениям в различных областях знаний удваивается каждые три года.
Каковы же причины столь бурного интереса к этому виду анализа? Объективно существуют три основные причины этого явления.
Первая - это появление мощной вычислительной техники, без которой кластерный анализ реальных данных практически не реализуем.
До разработки аппарата многомерного статистического анализа и, главное, до появления и развития достаточно мощной электронной вычислительной базы проблемы теории и практики классификации относились не к разработке методов и алгоритмов, а к полноте и тщательности отбора и теоретического анализа изучаемых объектов, характеризующих их общих признаков, смысла и числа градаций по каждому из них. Вследствие этого субъективная классификация, которая ранее опиралась па достаточно малое количество учитываемых признаков, часто оказывается ненадёжной. Объективная классификация, с всё возрастающим набором признаков, характеризующих изучаемые объекты, требует использования сложных алгоритмов кластеризации, которые могут быть реализованы только на базе современных компьютеров. Именно электронно-вычислительная техника стала тем главным инструментом, который позволил но новому подойти к решению этой важной проблемы и, в частности, конструктивно воспользоваться некоторым уже разработанным и разрабатываемым аппаратам многомерного статистического анализа объектов произвольной природы.
Следующая причина заключается в том, что современная наука всё сильнее опирается в своих построениях на классификацию. Причём этот процесс всё более углубляется, поскольку параллельно этому идет всё большая специализация знания, которая невозможна без достаточно объективной классификации.
По мере роста объема перерабатываемой информации и, в частности, числа классифицируемых объектов и характеризующих их признаков возможность эффективной реализации подобной логики исследования становилась всё менее реальной. Так, например, число к групп или классов, подсчитываемое при комбинационной группировке по формуле:
где nij - число градаций по признаку,
р - общее число анализируем их признаков,
уже при nij =3 и р = 5 оказывается равным 243. Именно электронно-вычислительная техника стала тем инструментом, который позволил по новому подойти к решению этой важной проблемы и, в частности, конструктивно воспользоваться разрабатываемым в настоящее время аппаратом обработки многомерных статистических объектов как числовой, так и нечисловой природы.
До появления современной компьютерной техники все методы классификации сводились по существу к методике группировки объектов по некоторому ограниченному числу признаков, которые характеризовались только значениями, поддающимися их количественному измерению (измерению числом). Однако оказалось, что большая половина признаков, особенно в экономике, социологии, психологии, политологии идр. не поддаются числовому измерению. В связи с этим, в последние три десятилетия появилось новое, но пока ещё недостаточно изученное направление под названием "статистика объектов нечисловой природы". В настоящей работе этому направлению уделяется главное внимание.
Появление средств обработки больших массивов данных стимулировало проведение комплексных исследований сложных многомерных социально-экономических, технических, медицинских и многих других процессов и систем. Таких, как образ и уровень жизни населения, которые так же характеризуются набором признаков как числовой, так и нечисловой природы, совершенствование организационных систем, региональная дифференциация социально-экономического развития, планирование и прогнозирование отраслевых систем, выявление закономерностей возникновения сбоев в технике, классификация заболеваний в медицине, в археологии с использованием кластерного анализа исследователи пытаются установить таксономии каменных орудий, похоронных объектов. Известны широкие применения кластерного анализа в маркетинговых исследованиях. В общем, всякий раз, когда необходимо классифицировать "горы" информации к пригодным для дальнейшей обработки группам, кластерный анализ оказывается весьма полезным и эффективным.
Третья причина - углубление специальных знаний неизбежно приводит кувеличению количества переменных или признаков, учитываемых при анализе тех или иных объектов или явлений.
Кластерный анализ предназначен для разбиения множества объектов на заданное или неизвестное число классов на основании некоторого математического критерия качества. Узловым моментом в кластерном анализе считается выбор топометрики (или нормы близости объектов), от которой решающим образом зависит окончательный вариант разбиения объектов на группы при заданном алгоритме разбиения.
Дата публикования: 2014-11-18; Прочитано: 1155 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!