Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Срок сдачи до 06.05.13
Провести компонентный анализ исходных признаков X1, X2, X3, X4, X5 (из лабораторной №4). Определить необходимое число компонент. Вычислить факторные нагрузки. Определить вклады факторов в суммарную дисперсию. Интерпретировать найденные главные компоненты с использованием факторных нагрузок и их квадратов. Определить, существует ли связь между первым фактором и признаком Y (результирующий признак из лабораторной работы №4).
Вычисление компонент
В качестве примера рассмотрим значения некоторых медико-социальных показателей регионов Финляндии (более 50 регионов):
Для поиска компонент будем использовать 1-6 признаки:
Hosp_day | Кол-во койко-дней в стационаре на 1000 чел населения |
Divorces | Количество разводов на 1000 состоящих в браке |
Childrens | % семей с детьми |
Hosp_pers | Кол-во пролечившихся в стационаре на 1000 чел |
Long_soc | Количество потребителей долговременной социальной помощи в % ко всем |
Ind_morb | Индекс заболеваемости |
Перед применением процедуры компонентного анализа следует построить корреляционную матрицу для исследуемых признаков и проанализировать взаимосвязи (не строить графики, только словесное пояснение).
Для вызова модуля компонентного анализа и используется пункт меню «Statistics/Multivariate exploratory techniques/ Factor Analysis» (Многомерные разведочные методы/ Факторный анализ):
В открывшейся форме следует выбрать признаки, по которым будем проводить поиск главных компонент:
В следующей форме следует указать количество компонент, которые хотим построить по исходным данным («Max. no of factors») и минимальное значение собственного числа – собственные числа меньшие этого значения (и соответствующие им компоненты) будут исключаться из результатов («Mini. Eigenvalue»). Способ получения компонент – «Principal components» (Главные компоненты). На первом этапе исследования желательно указывать количество компонент равное количеству исследуемых признаков и достаточно малое значение минимального собственного числа:
Следующая форма используется для исследования полученных компонент:
Для решения вопроса о количестве собственных чисел или количестве компонент «взявших на себя» наибольшую часть суммарной дисперсии исходных признаков можно рассмотреть график изменения значений собственных чисел (закладка «Explained variance», кнопка «Scree plot»):
.
Существует несколько подходов к определению достаточного количества компонент с использованием этого графика:
· Критерий Кайзера: оставляются компоненты, для которых . В данном примере – это первая вторая компоненты.
· Критерий «каменистой осыпи»: на графике находят место, где убывание значений слева направо максимально замедляется. Значения слева от этого участка – оставляем, справа – исключаем. В данном примере участок графика после второго собственного числа можно считать участком «замедления».
· По количеству факторов, которым можно придать смысл при интерпретации.
После вывода графика по нажатию на кнопку «Eigenvalues» можно получить следующую таблицу:
В ней содержатся: собственные значения, процент суммарной дисперсии, приходящейся на компоненту, соответствующую данному собственному числу (суммарная дисперсия равна количеству исходных признаков – следу корреляционной матрицы, см. лекции). Также в таблице представлены собственные числа и процент дисперсии с накоплением. По сумме накопленных процентов видно, что первые три компоненты объясняют более 76% суммарной дисперсии исходных признаков.
Для интерпретации факторов необходимо вычислить факторные нагрузки и их квадраты. На закладке «Loadings» по нажатию кнопки «Summary: Factor loadings» получаем значения факторных нагрузок.
Значения выводятся в виде таблицы:
Значения квадратов факторных нагрузок в системе STATISTICA можно получить только для первого фактора по нажатию кнопки «Communality» (закладка «Explained variance»). Можно вычислить квадраты в других программных системах и представить их в виде таблицы, можно для интерпретации факторов воспользоваться только значениями факторных нагрузок.
В данном примере наибольшие факторные нагрузки в первой компоненте падают на признаки «Hosp_day», «Hosp_pers» и «Ind_morb», связанные с заболеваемостью и лечением в стационаре. Все признаки входят в компоненту с отрицательными знаками, поэтому высокие значения этих признаков будут давать низкие (отрицательные) значения компоненты. На основе этого можно сделать вывод, что данная компонента характеризует уровень заболеваемости и количество оказываемой медицинской помощи в регионе.
Вторая компонента имеет наибольший вклад признаков «Divorces» (разводы) и «Long_soc» (долговременная соц.помощь). На основании этих признаков и равенства их знаков можно сделать вывод о том, что данная компонента характеризует количество социальных выплат неполным семьям.
Третья компонента дублирует исходный признак «Childrens» и как комбинация нескольких исходных признаков интерпретироваться не может.
В интерпретации найденных компонент может помочь также диаграмма рассеивания исходных признаков в пространстве компонент (закладка «Loadings», кнопка «Plot of loadings 2D»):
Дата публикования: 2015-01-10; Прочитано: 243 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!