Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Сущность, типологизация и прикладная направленность задач классификации объектов



"Кластерный анализ" — научное направление предназначенное для формирования групп "близких" между собой объектов по сово­купности общих для этих объектов признаков. По смыслу анало­гичен терминам: автоматическая классификация, таксономия, рас­познавание образов без учителя. Фактически "кластерный анализ" - это обобщенное название достаточно большого набора алгоритмов, используемых при создании классификации. В ряде изданий используются и такие синонимы кластерного анализа, как классифи­кация и разбиение. Кластерный анализ широко используется в нау­ке как средство типологического анализа. В любой научной деятельности классификация является одной из фундаментальных составляющих, без которой невозможны построение и проверка на­учных гипотез и теорий. Анализ отечественных и зарубежных пуб­ликаций показывает, что кластерный анализ находит применение в самых разнообразных научных направлениях: в биологии, медици­не, археологии, истории, географии, экономике, психологии, со­циологии, филологии, политике и т.д. В прекрасной книге В.В. Налимова "Вероятностная модель языка" описано применение кла­стерного анализа при исследовании восприятия живописи.

Необходимость анализа и формализации задач, связанных со сравнением и классификацией объектов, сознавали учёные далёко­го прошлого. "Его (Аристотеля) величайшим и в то же время чрева­тым наиболее опасными последствиями вкладом в науку была идея классификации, которая проходит через все его работы... Аристо­тель ввёл или, по крайней мере, кодифицировал способ классифи­кации предметов, основанный на сходстве и различии...", - писал Дж. Берналл в "Науке истории общества" (М,: Изд-во иностр. лит., 1956, с. 117).

После Аристотеля с его "деревом вещей жизни" имеется (ещё в докомпьютерной эре) ряд интереснейших примеров прекрасно по­строенных классификаций как в естественных, так и в обществен­ных науках. Иерархическая классификация (основанная на понятии сходства) растений и видов М. Адансона (1757 г.). Знаменитая пе­риодическая система элементов Д.И. Менделеева (1869 г.), пред­ставляющая собой по существу классификацию многомерных наблюдений (каждый химический элемент может представлен в виде вектора характеризующих его разнотипных признаков, включая характеристики конфигурации внешних электронных оболочек ато­мов) с выявленным единым классифицирующим фактором (заря­дом атомного ядра) и с упорядочением элементов внутри каждого класса.

Большая часть литературы по кластерному анализу появилась в течение последних трех десятилетий, хотя первые работы, в кото­рых упоминались кластерные методы, известны достаточно давно. Польский антрополог К. Чекановский выдвинул идею "структурной классификации", содержавшую основную идею кластерного анали­за - выделение компактных групп объектов. В 1925 г. советский гидробиолог П.В. Терентьев разработал так называемый "метод корреляционных плеяд", предназначенный для группирующих признаков. Этот метод дал толчок развитию способов группировки с помощью графов.

Слово "cluster" переводится с английского языка как "гроздь, кисть, пучок, группа". По этой причине первоначальное время этот вид анализа называли "гроздевым анализом". В начале 50-х годов появились публикации Р. Люиса, Е. Фикса и Дж. Ходжеса по ие­рархическим алгоритмам кластерного анализа. Заметный толчок развитие работ по кластерному анализу дали работы Р.Розенблатта по распознающему устройству (персептрону), положившие начало развитию теории "распознавания образов без учителя".

Толчком к разработке современных методов классификации и к появлению нового научного направления под названием "Кластер­ный анализ" явилась книга "Принципы численной таксономии", опубликованная в 1963 г. двумя биологами — Робертом Сокэлом и Питером Снитом. Авторы этой книги исходили из того, что для создания эффективных биологических классификаций, процедура кластеризации должна обеспечивать использование всевозможных показателей-признаков характеризующих исследуемые организмы, производить оценку степени сходства между этими организмами и обеспечивать размещение схожих организмов в одну и ту же груп­пу - кластер. При этом сформированные группы должны быть дос­таточно «локальны», т.е. сходство объектов внутри групп должно превосходить сходство групп между собой. Последующий анализ выделенных групп-кластеров, по мнению авторов, может выяснить, отвечают ли эти группы разным биологическим видам. Иными сло­вами, Сокэл и Снит предполагали, что выявление структуры распределения объектов в группы, помогает установить процесс обра­зования этих групп. Различие и сходство организмов разных кластеров (групп) могут служить базой для осмысления происходив­шего эволюционного процесса и выяснения его механизма.

После появления книги Сокэла и Снита идеи кластерного ана­лиза стремительно начали использоваться во многих других науч­ных направлениях. Большая часть литературы по кластерному ана­лизу появилась в течение последних трёх десятилетий ХХ-го столе­тия. Достаточно сказать, что только число монографий по кластер­ному анализу, изданных к настоящему времени в разных странах, измеряется сотнями. И это вполне понятно. Ведь речь идёт факти­чески о моделировании операции группирования - одной из важ­нейших не только в статистике, но и в познании, распознавании образов, принятии управленческих и иных решений. По приблизи­тельным оценкам специалистов число публикаций по кластерному анализу и его приложениям в различных областях знаний удваива­ется каждые три года.

Каковы же причины столь бурного интереса к этому виду анали­за? Объективно существуют три основные причины этого явления.

Первая - это появление мощной вычислительной техники, без которой кластерный анализ реальных данных практически не реа­лизуем.

До разработки аппарата многомерного статистического анализа и, главное, до появления и развития достаточно мощной электрон­ной вычислительной базы проблемы теории и практики классифи­кации относились не к разработке методов и алгоритмов, а к полно­те и тщательности отбора и теоретического анализа изучаемых объектов, характеризующих их общих признаков, смысла и числа градаций по каждому из них. Вследствие этого субъективная клас­сификация, которая ранее опиралась па достаточно малое количе­ство учитываемых признаков, часто оказывается ненадёжной. Объ­ективная классификация, с всё возрастающим набором признаков, характеризующих изучаемые объекты, требует использования сложных алгоритмов кластеризации, которые могут быть реализо­ваны только на базе современных компьютеров. Именно электрон­но-вычислительная техника стала тем главным инструментом, ко­торый позволил но новому подойти к решению этой важной проблемы и, в частности, конструктивно воспользоваться некоторым уже разработанным и разрабатываемым аппаратам многомерного статистического анализа объектов произвольной природы.

Следующая причина заключается в том, что современная наука всё сильнее опирается в своих построениях на классифика­цию. Причём этот процесс всё более углубляется, поскольку парал­лельно этому идет всё большая специализация знания, которая не­возможна без достаточно объективной классификации.

По мере роста объема перерабатываемой информации и, в ча­стности, числа классифицируемых объектов и характеризующих их признаков возможность эффективной реализации подобной логики исследования становилась всё менее реальной. Так, например, чис­ло к групп или классов, подсчитываемое при комбинационной группировке по формуле:

где nij - число градаций по признаку,

р - общее число анализируем их признаков,

уже при nij =3 и р = 5 оказывается равным 243. Именно элек­тронно-вычислительная техника стала тем инструментом, который позволил по новому подойти к решению этой важной проблемы и, в частности, конструктивно воспользоваться разрабатываемым в на­стоящее время аппаратом обработки многомерных статистических объектов как числовой, так и нечисловой природы.

До появления современной компьютерной техники все методы классификации сводились по существу к методике группировки объектов по некоторому ограниченному числу признаков, которые характеризовались только значениями, поддающимися их количе­ственному измерению (измерению числом). Однако оказалось, что большая половина признаков, особенно в экономике, социологии, психологии, политологии идр. не поддаются числовому измере­нию. В связи с этим, в последние три десятилетия появилось новое, но пока ещё недостаточно изученное направление под названием "статистика объектов нечисловой природы". В настоящей работе этому направлению уделяется главное внимание.

Появление средств обработки больших массивов данных сти­мулировало проведение комплексных исследований сложных мно­гомерных социально-экономических, технических, медицинских и многих других процессов и систем. Таких, как образ и уровень жизни населения, которые так же характеризуются набором при­знаков как числовой, так и нечисловой природы, совершенствова­ние организационных систем, региональная дифференциация соци­ально-экономического развития, планирование и прогнозирование отраслевых систем, выявление закономерностей возникновения сбоев в технике, классификация заболеваний в медицине, в архео­логии с использованием кластерного анализа исследователи пыта­ются установить таксономии каменных орудий, похоронных объек­тов. Известны широкие применения кластерного анализа в марке­тинговых исследованиях. В общем, всякий раз, когда необходимо классифицировать "горы" информации к пригодным для дальней­шей обработки группам, кластерный анализ оказывается весьма по­лезным и эффективным.

Третья причина - углубление специальных знаний неизбежно приводит кувеличению количества переменных или признаков, учитываемых при анализе тех или иных объектов или явлений.

Кластерный анализ предназначен для разбиения множества объектов на заданное или неизвестное число классов на основании некоторого математического критерия качества. Узловым мо­ментом в кластерном анализе считается выбор топометрики (или нормы близости объектов), от которой решающим образом зависит окончательный вариант разбиения объектов на груп­пы при заданном алгоритме разбиения.

Но до настоящего времени учёные так и не пришли к единому мнению по выбору имманентной метрики. В каждом научном на­правлении и каждой конкретной задаче этот выбор производится по-своему, с учетом главных целей исследования, физической и статистической природы используемой информации и т. п.





Дата публикования: 2014-11-18; Прочитано: 1091 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.007 с)...