Главная \| Случайная страница \| Контакты \| Мы поможем в написании вашей работы!

Компонентный анализ

⇐ Предыдущая 203 204 205 206 207208209 210 211 212 Следующая ⇒

Компонентный анализ предназначен для преобразования системы k исходных признаков в систему k новых показателей (главных компонент). Главные компоненты не коррелированы между собой и упорядочены по величине их дисперсий, причем первая главная компонента имеет наибольшую дисперсию, а последняя, k- я — наименьшую. При этом выявляются неявные, непосредственно не измеряемые, но объективно существующие закономерности, обусловленные действием как внутренних, так и внешних причин.

Компонентный анализ является одним из основных методов факторного анализа. В задачах снижения размерности и классификации обычно используются т первых компонент (т << k).

При наличии результативного признака у может быть построено уравнение регрессии на главных компонентах.

На основании матрицы исходных данных

размерности п х k, где х_ij.— значение j -го показателя у i -го наблюдения (i = 1, 2,..., n; j = 1, 2,.... k), вычисляют средние значения показателей а также s₁,..., s_k и матрицу нормированных значений

с элементами

Рассчитывается матрица парных коэффициентов корреляции:

(53.24)

с элементами

(53.25)

где j, l= 1, 2, .... k.

На главной диагонали матрицы R, т.е. при j = l, расположены элементы

Модель компонентного анализа имеет вид

(53.26)

где a_iv — «вес», т.е. факторная нагрузка v -й главной компоненты на j -ю переменную;

f _iv — значение v -й главной компоненты для i -го наблюдения (объекта), где v = 1, 2, ...,k.

В матричной форме модель (53.26) имеет вид

(53.27)

f _iv — значение v -й главной компоненты для i -го наблюдения (объекта);

a_iv — значение факторной нагрузки v -й главной компоненты на j -ю переменную.

Матрица F описывает п наблюдений в пространстве k главных компонент. При этом элементы матрицы F нормированы, т.е. f_v = , a главные компоненты не коррелированы между собой. Из этого следует, что

(53.28)

Выражение (53.28) может быть представлено в виде

(53.29)

С целью интерпретации элементов матрицы А рассмотрим выражение для парного коэффициента корреляции между переменной z_j и, например, f₁ -й главной компонентой. Так как z_о и f₁ нормированы, будем иметь с учетом (53.26):

Принимая во внимание (53.29), окончательно получим

Рассуждая аналогично, можно записать в общем виде

(53.30)

для всех j = 1, 2,.,., k и v = 1, 2,.... k.

Таким образом, элемент a_jv матрицы факторных нагрузок А характеризует тесноту линейной связи между исходной переменной z_j и главной компонентой f_v, т.е. –1 ≤ a_jv ≤ +1.

Рассмотрим теперь выражение для дисперсии нормированной переменной z_j. С учетом (53.26) будем иметь

где v, v' = 1, 2,..., k.

Учитывая (53.29), окончательно получим

(53.31)

По условию, переменные z_j нормированы и s = 1. Таким образом, дисперсия переменной z_j, согласно (53.31), представлена своими составляющими, определяющими долю вклада в нее всех k главных компонент.

Полный вклад v -й главной компоненты в дисперсию всех k исходных признаков вычисляется по формуле

(53.32)

Одно из основополагающих условий метода главных компонент связано с представлением корреляционной матрицы R через матрицу факторных нагрузок А. Подставив для этого (53.27) в (53.24), будем иметь

Учитывая (53.28), окончательно получим

(53.33)

Перейдем теперь непосредственно к отысканию собственных значений и собственных векторов корреляционной матрицы R.

Из линейной алгебры известно, что для любой симметричной матрицы R всегда существует такая ортогональная матрица U, что выполняется условие

(53.34)

Так как матрица R положительно определена, т.е. ее главные миноры положительны, то все собственные значения λ _v > 0 для любых v =1, 2,..., k.

В компонентном анализе элементы матрицы Λ ранжированы: λ ₁ ≥ λ ₂ ≥ ... ≥λ _v... ≥ λ _k ≥ 0. Как будет показано ниже, собственное значение λ _v характеризует вклад v -й главной компоненты в суммарную дисперсию исходного признакового пространства.

Таким образом, первая главная компонента вносит наибольший вклад в суммарную дисперсию, а последняя, k- я, — наименьший.

В ортогональной матрице U собственных векторов v -й столбец является собственным вектором, соответствующим λ _v -му значению.

Собственные значения λ ₁ ≥... ≥ λ _v.... ≥λ _k находятся как корни характеристического уравнения

(53.35)

Собственный вектор V_v, соответствующий собственному значению λ _v корреляционной матрицы R, определяется как отличное от нуля решение уравнения, которое следует из (53.34):

(53.36)

Нормированный собственный вектор U_v равен

Из условия ортогональности матрицы U следует, что U^-1 = U^T, но тогда, по определению, матрицы R и Λ подобны, так как они, согласно (53.34), удовлетворяют условию

Так как у подобных матриц суммы диагональных элементов равны, то

Учитывая, что сумма диагональных элементов матрицы R равна k, будем иметь

Таким образом,

(53.37)

Представим матрицу факторных нагрузок А в виде

(53.38)

а v -й столбец матрицы А — как

где U_v — собственный вектор матрицы R, соответствующий собственному значению λ _v.

Найдем норму вектора А_v:

(53.39)

Здесь учитывалось, что вектор U_v — нормированный и U U_v = 1. Таким образом,

Сравнив полученный результат с (53.32), можно сделать вывод, что собственное значение λ _v характеризует вклад v -й главной компоненты в суммарную дисперсию всех исходных признаков. Из (53.38) следует, что

(53.40)

Согласно (53.37), общий вклад всех главных компонент в суммарную дисперсию равен k. Тогда удельный вклад v -й главной компоненты определяется по формуле .

Суммарный вклад т первых главных компонент определяется из выражения .

Обычно для анализа используют т первых главных компонент, вклад которых в суммарную дисперсию превышает 60—70%.

Матрица факторных нагрузок А используется для экономической интерпретации главных компонент, которые представляют собой линейные функции исходных признаков. Для экономической интерпретации f _v используются лишь те х_j, для которых |a _jv | > 0,5.

Значения главных компонент для каждого i -го объекта (i = 1, 2,.... n) задаются матрицей F.

Матрицу значений главных компонент можно получить из формулы

откуда

Уравнение регрессии на главных компонентах строится по алгоритму пошагового регрессионного анализа, где в качестве аргументов используются главные компоненты, а не исходные показатели. К достоинству последней модели следует отнести тот факт, что главные компоненты не коррелированы. При построении уравнений регрессии следует учитывать все главные компоненты.

Пример. Построение регрессионного уравнения

По данным примера из § 53.2 провести компонентный анализ и построить уравнение регрессии урожайности Y на главных компонентах.

Решение. В примере из § 53.2 пошаговая процедура регрессионного анализа позволила исключить отрицательное значение мультиколлинеарности на качество регрессионной модели за счет значительной потери информации. Из пяти исходных показателей в окончательную модель вошли только два (x₁ и x₄). Более рациональным в условиях мультиколлинеарности можно считать построение уравнения регрессии на главных компонентах, которые являются линейными функциями всех исходных показателей и не коррелированы между собой.

Воспользовавшись методом главных компонент, найдем собственные значения и на их основе — вклад главных компонент в суммарную дисперсию исходных показателей x₁, х₂, х₃, х₄, х₅ (табл. 53.2).

Таблица 53.2

⇐ Предыдущая 203 204 205 206 207208209 210 211 212 Следующая ⇒

Дата публикования: 2014-10-30; Прочитано: 474 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!

studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.012 с)...