Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Метод главных компонент



Способности человека крайне ограничены. Например, он не может представить себе пространство, имеющее больше трех измерений. В то же время, например, состояние его здоровья описывается набором примерно из 300 параметров, как формально простых (температура, артериальное давление,…), так и сложных (результаты биохимических и прочих анализов и обследований). И отображается здоровье индивидуума точкой в пространстве, имеющем 300 координат. Данные о множестве людей в таком случае представляются точками, рассеянными по всему 300-мерному пространству, и, как галактики во Вселенной, образующими сгустки. Один из сгустков точек (в терминах статистики — кластеров) соответствует здоровому состоянию, остальные — разным болезням.

Подобным же образом «здоровье» сложного технологического процесса отображается в многомерном пространстве параметров процесса, как минимум, двумя локализованными состояниями, одно из которых — нормальное, другое — недопустимое (аварийное).

В борьбе с «проклятием многомерности» математики изобрели множество методов обработки данных, позволяющих анализировать структуру экспериментальных данных. Пожалуй, самый популярный из этих методов — метод главных компонент.

Основная идея метода — сокращение размерности путем перехода к новой системе координат. Дело в том, что в большинстве практических задач исходная система координат (набор измеряемых переменных) в какой-то мере случайна и далека от совершенства. Измеряются параметры, которые не отражают сущность изучаемых процессов и явлений: они просто удобны для измерений, соответствуют традициям, особенностям человеческого восприятия и т.д. Кроме того, отдельные группы измеряемых параметров сильно коррелируют между собой, что фактически означает многократное ненужное дублирование информации.

Рассмотрим простой пример. Допустим, у нас имеется выборка результатов учебы большой группы школьников. Для каждого ученика подсчитаны средние оценки

а) по точным и естественным наукам Х1 (математика, физика, химия, биология);

б) по гуманитарным дисциплинам Х2 (родной и иностранный язык, литература, история).

Значения Х1 и Х2 — числа, заключенные между 2,0 и 5,0. В результате исследования получена картина, представленная на рис. 12.

Рис. 12. Классификация учащихся.

На этом рисунке видно, что школьников можно разделить на две группы:

а) учеников, которым лучше даются естественные науки;

б) учеников, которые лучше успевают по гуманитарным дисциплинам.

Ни Х1, ни Х2, взятые отдельно, не позволяют вынести заключение о принадлежности школьника к той или иной группе. Для такого вывода нужна двумерная информация, обе координаты. Наилучшей для классификации будет система координат (Z1, Z2). При переходе к этой системе координат достаточно знать только Z1, чтобы принять решение:

Если , школьник относится к группе «естественников»;

Если , школьник относится к группе «гуманитариев».

Отказываясь от координаты Z2, мы теряем информацию о средней успеваемости.





Дата публикования: 2014-11-28; Прочитано: 199 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.006 с)...