Главная \| Случайная страница \| Контакты \| Мы поможем в написании вашей работы!

Метод главных компонент

⇐ Предыдущая 26 27 28 29 303132 33 34 35 Следующая ⇒

В основе модели для выражения исходных признаков через факторы здесь лежит предположение о том, что число факторов равно числу исходных признаков (k=m), а характерные факторы вообще отсутствуют:

X₁=a₁₁F₁+...+a_1mF_m

.................................... (1)

X_m=a_m1F₁+...+a_mmF_m

Очевидно, уравнения (1) определяют здесь систему преобразования одних параметров в другие. Поскольку число факторов равно числу исходных параметров, задача искомого преобразования решается однозначно, т.е. факторные нагрузки определяются в этом методе однозначно.

Каждая из переменных F_i называется здесь i -й главной компонентой. Метод главных компонент состоит в построении факторов - главных компонент, каждый из которых представляет линейную комбинацию исходных признаков. Первая главная компонента F₁ определяет такое направление в пространстве исходных признаков, по которому совокупность объектов (точек) имеет наибольший разброс (дисперсию). Вторая главная компонента F₂ строится с таким расчетом, чтобы ее направление было ортогонально направлению F₁ и она объясняла как можно большую часть остаточной дисперсии, и т.д. вплоть до m -й(?) главной компоненты F_m. Так как выделение главных компонент происходит в убывающем порядке с точки зрения доли, объясняемой ими дисперсии, то признаки, входящие в первую главную компоненту с большими коэффициентами a_i(i = l..m) оказывают максимальное влияние на дифференциацию изучаемых объектов.

Как и в центроидном методе, достаточное число компонент (факторов) определяется здесь обычно на основе некоторого заданного уровня объясненной

дисперсии исходных признаков с помощью факторов.

Анализ главных компонент. Пример, в котором две коррелированные переменные объединены в один фактор, показывает главную идею факторного анализа или, более точно, анализа главных компонент (это различие будет обсуждаться позднее). Если пример с двумя переменными распространить на большее число переменных, то вычисления становятся сложнее, однако основной принцип представления двух или более зависимых переменных одним фактором остается в силе.

Выделение главных компонент. В основном процедура выделения главных компонент подобна вращению, максимизирующему дисперсию (варимакс) исходного пространства переменных. Например, на диаграмме рассеяния вы можете рассматривать линию регрессии как ось X, повернув ее так, что она совпадает с прямой регрессии. Этот тип вращения называется вращением, максимизирующим дисперсию, так как критерий (цель) вращения заключается в максимизации дисперсии (изменчивости) "новой" переменной (фактора) и минимизации разброса вокруг нее.

Объединение двух переменных в один фактор. Зависимость между переменными можно обнаружить с помощью диаграммы рассеяния. Полученная путем подгонки линия регрессии дает графическое представление зависимости. Если определить новую переменную на основе линии регрессии, изображенной на этой диаграмме, то такая переменная будет включить в себя наиболее существенные черты обеих переменных. Итак, фактически, вы сократили число переменных и заменили две одной. Отметим, что новый фактор (переменная) в действительности является линейной комбинацией двух исходных переменных.

Обобщение на случай многих переменных. В том случае, когда имеются более двух переменных, можно считать, что они определяют трехмерное "пространство" точно так же, как две переменные определяют плоскость. Если вы имеете три переменные, то можете построить ЗМ диаграмму рассеяния.

Для случая более трех переменных, становится невозможным представить точки на диаграмме рассеяния, однако логика вращения осей с целью максимизации дисперсии нового фактора остается прежней.

Обзор результатов анализа главных компонент. Посмотрим теперь на некоторые стандартные результаты анализа главных компонент. При повторных итерациях вы выделяете факторы с все меньшей и меньшей дисперсией. Для простоты изложения считаем, что обычно работа начинается с матрицы, в которой дисперсии всех переменных равны 1.0. Поэтому общая дисперсия равна числу переменных. Например, если вы имеете 10 переменных, каждая из которых имеет дисперсию 1, то наибольшая изменчивость, которая потенциально может быть выделена, равна 10 раз по 1. Предположим, что при изучении степени удовлетворенности жизнью вы включили 10 пунктов для измерения различных аспектов удовлетворенности домашней жизнью и работой. Дисперсия, объясненная последовательными факторами, представлена в следующей таблице:

STATISTICA	Собственные значения	(factor.sta)
ФАКТОРНЫЙ АНАЛИЗ	Выделение:	Главные компоненты
Собственные значения	% общей дисперсии	Кумулят.. соб. знач,	Кумулят . %
Значение
	6.118369	61.18369	6.11837	61.1837
	1.800682	18.00682	7.91905	79.1905
	0.472888	4.72888	8.39194	83.9194
	0.407996	4.07996	8.79993	87.9993
	0.317222	3.17222	9.11716	91.1716
	0.293300	2.93300	9.41046	94.1046
	0.195808	1.95808	9.60626	96.0626
	0.170431	1.70431	9.77670	97.7670
	0.137970	1.37970	9.91467	99.1467
	0.085334	0.85334	10.00000	100.0000

Собственные значения. Во втором столбце (Собственные значения) таблицы результатов вы можете найти дисперсию нового, только что выделенного фактора. В третьем столбце для каждого фактора приводится процент от общей дисперсии (в данном примере она равна 10) для каждого фактора. Как можно видеть, первый фактор (значение 1) объясняет 61 процент общей дисперсии, фактор 2 (значение 2) - 18 процентов, и т.д. Четвертый столбец содержит накопленную или кумулятивную дисперсию. Дисперсии, выделяемые факторами, названы собственными значениями. Это название происходит из использованного способа вычисления.

Собственные значения и задача о числе факторов. Как только получена информация о том, сколько дисперсии выделил каждый фактор, вы можете возвратиться к вопросу о том, сколько факторов следует оставить. Как говорилось выше, по своей природе это решение произвольно. Однако имеются некоторые общеупотребительные рекомендации, и на практике следование им дает наилучшие результаты.

Несколько ортогональных факторов. После того, как вы нашли линию, для которой дисперсия максимальна, вокруг нее остается некоторый разброс данных. И процедуру естественно повторить. В анализе главных компонент именно так и делается: после того, как первый фактор выделен, то есть, после того, как первая линия проведена, определяется следующая линия, максимизирующая остаточную вариацию (разброс данных вокруг первой прямой), и т.д. Таким образом, факторы последовательно выделяются один за другим. Так как каждый последующий фактор определяется так, чтобы максимизировать изменчивость, оставшуюся от предыдущих, то факторы оказываются независимыми друг от друга. Другими словами, некоррелированными или ортогональными.

⇐ Предыдущая 26 27 28 29 303132 33 34 35 Следующая ⇒

Дата публикования: 2014-11-18; Прочитано: 3083 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!

studopedia.org - Студопедия.Орг - 2014-2025 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.466 с)...