Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Описание модуля Discriminant Analysis



Возможности модуля и основные принципы работы с ним продемонстрируем на классическом примере анализа цветов ириса. Задача состоит в том, чтобы по результатам измерения длины и ширины чашелистиков и лепестков цветка отнести ирис к одному из трёх типов: SETOSA, VERSICOL, VIRGINIC.

Для запуска модуля в верхнем меню File (Файл) надо выбрать команду Open (Открыть) и открыть файл данных Irisdat из библиотеки Examples/Datasets/ Irisdat.sta.

В меню Statistics необходимо щёлкнуть по Multivariate Exploratory Techniques (многомерные исследовательские методы) и выбрать команду Discriminant Analysis (Дискриминантный анализ). Откроется стартовая панель модуля (рис. 1).

Чтобы выбрать переменные для анализа, нужно нажать кнопку Variables. Появится окно, в котором необходимо выбрать группирующие и независимые переменные. В качестве Grouping variable (группирующей переменной) выберите переменную IRISTYPE (сорт ириса). Группирующая переменная не должна входить в список независимых переменных.

Рис. 1

В качестве Independent variable list (список независимых переменных) выберите переменные SEPALLEN (длина чашелистика), SEPALWID (ширина чашелистика), PETALLEN (длина пестика), PETALWID (ширина пестика) и щёлкните по ОК (рис. 2).

Рис. 2

Далее надо задать коды для значений группирующей переменной. Нажмите кнопку Codes for grouping variables (рис.3).

Рис. 3

Откроется окно, где можно задать коды для названия групп, к которым принадлежит объект (рис.4).

В качестве кодов группирующих переменных выберите типы цветов с помощью нажатия кнопки All. Щёлкните ОК.

Рис. 4

Если в диалоге Discriminant Function Analysis была установлена галочка на опции Advansed options (см. рис. 3), откроется окно диалога Model Definition (рис.5). Перейдите на вкладку Advansed. В поле Method можно указать метод дискриминантного анализа:

· Standart (стандарт). При этом методе все выбранные переменные будут одновременно включены в модель (уравнение);

· Forward stepwise (пошаговый вперёд). Программа на последовательных шагах включает переменные в модель;

· Backward stepwise (пошаговый назад). Программа включает в модель все выбранные переменные и затем удаляет на каждом шаге переменные из модели.

Рис.5

Опция Tolerance (толерантность) задаёт нижнюю границу толерантности. Толерантность, как уже указывалось, является, является мерой избыточности переменных. Чем меньше значение толерантности, тем избыточнее переменная в модели, так как переменная несёт малую дополнительную информацию. Переменные с толерантностью меньше заданного значения в модель не включаются.

Можно выделить следующие опции диалога Stepwise options для методов пошагового анализа (Forward stepwise, Backward stepwise) (рис. 6).

F to enter (F -включить), F to remove (F -исключить). В пошаговом анализе дискриминантной функции переменные включают в модель, если соответствующие им значение F больше, чем значение F - включить, переменные удаляют из модели, если соответствующие им значения F меньше, чем значение F -исключить. Заметим, что значение F -включить всегда должно быть больше чем значение F -исключить. Если при проведении пошагового анализа с включением необходимо включить все переменные, надо установить в поле F to enter значение, равное малому числу (например, 0,0001), а в поле F to remove – значение 0.

Рис. 6

Если при проведении пошагового анализа с исключением необходимо исключить все переменные из модели, надо установить в поле F to enter значение, равное очень большому числу (например, 999), а в поле E to remove – меньшее значение того же порядка (например, 998).

Number of steps (число шагов) определяет максимальное количество шагов, которое будет осуществлено. Эта опция имеет приоритет перед значениями F to enter, F to remove. Пошаговый метод будет остановлен при достижении максимального числа шагов, несмотря на то, следует ли включать или исключать переменные на основе значений F.

Dysplay results (вывод результатов). Если в предлагаемом программой списке выбрать Summary only (только итог), то программа выполнит все шаги пошагового анализа и только потом появится окно результатов. При выборе At each step (на каждом шаге) программа будет выводить результаты анализа на каждом шаге.

В диалоге Model Definition выберите метод Standard и щёлкните по OK, откроется окно результатов рис.7.

Информационная часть окна сообщает, что:

· Number of variables in model (что переменных в модели) равно 4;

· Wilks `Lambda (значение лямбда Уилкса) равно 0,0234386;

· Approx.F (8,288) (приближенное значение F-статистики с числом степеней свободы 8 и 288) равно 199,1454;

· p (уровень значимости F-критерия) меньше 0,0000.

Рис.7

Статистика лямбда Уилкса вычисляется как отношение детерминанта матрицы внутригрупповых дисперсий/ковариаций к детерминанту общей ковариационной матрицы. Значения принадлежат интервалу (0,1). Значения лямбда, лежащие около 0, свидетельствуют о хорошей дискриминации. Значения лямбды, лежащее около 1, свидетельствуют о плохой дискриминации.

Нажмите кнопку Summary: Variables in the model (итоги: переменные, включённые в модель). Появится итоговая таблица анализа данных.

Рис.8

В первом столбце таблицы приведены значения Wilks' Lambda, являющиеся результатом исключения соответствующей переменной из модели. Чем больше значение лямбды, тем более желательно присутствие этой переменной в процедуре дискриминации.

Значение Partial Lambda (частная лямбда) есть отношение лямбда Уилкса после добавления соответствующей переменной к лямбде Уилкса до добавления этой переменной. Частная лямбда характеризует единичный вклад соответствующей переменной в разделительную силу модели.

Чем меньше статистика Partial Lambda, тем больше вклад в общую дискриминацию. Из таблицы видно, что переменная PETALLEN даёт вклад больше всех, переменная PETALWID - вторая по значению вклада, переменная SEPALWID- третья по значению вклада, а переменная SEPALLEN вносит в общую дискриминацию вклад меньше всех. Поэтому на этой стадии исследования можно заключить, что размеры пестика являются главными переменными, которые позволяют производить дискриминацию между различными типами ирисов.

F-remove (F -исключить) - это значения F -критерия, связанные с соответствующей частной лямбда Уилкса. Значения p-level - это уровни значимости критериев F-remove.

Толерантность (Toler) определяется как 1-R2, где R2 – это коэффициент множественной корреляции данной переменной со всеми другими переменными в модели. Как уже отмечалось, толерантность является мерой избыточности переменной в модели.

Кнопка Distances between groups (расстояние между группами) меню A dvanced предназначена для ввода таблицы с расстояниями между группами. По данным этой таблицы можно судить о качестве дискриминации наблюдений и о степени различия (неоднородности) групп.

Для получения дальнейших результатов о природе дискриминации следует провести канонический анализ. Чтобы увидеть, как четыре переменные разделяют различные совокупности (типы ирисов), надо вычислить дискриминантную функцию. Каждая последующая дискриминантная функция будет вносить все меньший и меньший вклад в общую дискриминацию. Максимальное число оцениваемых функция равно числу переменных (4) или числу групп (3) минус один, в зависимости от того, какое число меньше. В нашем случае оцениваются две дискриминантные функции.

Щёлкните по кнопке Perform canonical analysis (выполнение канонического анализа), программа вычислит независимые (ортогональные) дискриминантные функции рис.9.

Рис.9

В открывшемся окне Canonical Analysis нажмите кнопку Summary рис.10.

Рис.10

Появится таблица результатов с пошаговых критерием для канонических корней - дискриминантных функций: Chi-Square Tests with Successive Roots (итоги х2-критерий последовательности корней) рис.11.

Рис.11

Первая строка показывает критерий значимости для всех корней. Вторя строка содержит значимость корней, оставшихся после удаления первого корня и т.д. Таким образом, таблица позволит оценить, сколько значимых корней нужно интерпретировать. Как видно из таблицы, обе дискриминантные функции статистически значимы.

Нажмите в левом нижнем углу экрана Canonical Analysis: Irisdat и перейдите к предыдущему меню см. рис.10. Затем нажмите меню Advanced рис.11.

Рис.11

Если нажать кнопку Coefficients for canonical variables (коэффициенты канонических переменных), появятся две таблицы с коэффициентами дискриминантных (канонических) функций. В первой таблице (рис. 12) даны исходные (не стандартизованные) коэффициенты дискриминантных функций. Эти коэффициенты могут быть использованы для вычисления значений канонических переменных для каждого наблюдения каждой дискриминантной функции.

Рис. 12

Во второй таблице (рис. 13) приведены стандартизованные коэффициенты дискриминантных функций.

Рис.13

Эти коэффициенты, основанные на стандартизированных переменных, принадлежат одной и той же шкале измерений (абсолютной), поэтому их можно сравнивать, чтобы определить величины и направления вкладов переменных в каждую каноническую функцию. Из таблицы видно, что наибольший вклад дискриминантной функции 1 вносят переменные: PETALLEN, PETALWID, в дискриминантную функцию 2 – SEPALWID и PETALWID. В таблицах приведены собственные значения для каждой дискриминантной функции и кумулятивная доля объяснённой дисперсии, накопленной каждой функцией. Как видно, функция 1 ответственна за 99,1% объяснённой дисперсии, то есть 99,1% всей дискриминирующей мощности определяется этой функцией, поэтому эта функция «важна».

В диалоговом окне Canonical Analysis (рис.11) выберите вкладку Advanced. В открывающемся окне щёлкните кнопкой Factor structure (факторная структура). В появившейся таблице (рис.14) приведены объединённые внутригрупповые корреляции переменных соответствующими дискриминантными функциями.

Рис.14

Эти корреляции называют ещё структурными коэффициентами. Обычно структурные коэффициенты используют для содержательной интерпретации функции, в отличие от коэффициентов дискриминантной функции, которые обозначают вклад каждой переменной функции. У переменных PETALLEN, PETALWID наибольшие корреляции с дискриминантной функцией 1, у переменных SEPALWID, PETALWID – наибольшие корреляции с дискриминантной функцией 2.

Нажмите в левом нижнем углу экрана Canonical Analysis: Irisdat и перейдите к предыдущему меню см. рис.11. Нажмите кнопку Means of canonical variables (средние канонические переменные). Программа выведет таблицу (рис. 15) со средними значениями для дискриминантных функций, которые позволяют определить группы, лучше всего идентифицируемые конкретной дискриминантной функцией.

Рис.15

Из таблицы видно, что дискриминантная функция 1 идентифицирует в основном сорта SETOSA (значение среднего значительно отличается от других средних), а дискриминантная функция 2 – сорт VERSICOL. Но дискриминантная функция 2 определяет всего лишь 0,879% дискриминирующей мощности (100% - 99,121%).

Нажмите в левом нижнем углу экрана Canonical Analysis: Irisdat и перейдите

на вкладку Canonical scores (каноническое значение) см. рис.11, щёлкните кнопкой Canonical scores for each case (каноническое значение для каждого наблюдения) рис.16.

Рис.16

Появится таблица (рис.17) со значениями дискриминантных функций для каждого наблюдения. Наблюдения (ирисы), определяемые программой как объект, принадлежащие одной группе, должны иметь близкие значения дискриминантных функций. Чтобы сохранить эти значения, надо нажать на кнопку Save canonical scores (сохранить канонические значения).

Кнопка By group предназначена для вывода гистограммы канонических значений по группам. Кнопка All groups combined выведет комбинированную гистограмму для всех групп.

По таблице, изображённой на рис. 17, трудно судить о результатах разделения программой наблюдений по группам. Нажмите кнопку Scatterplot of canonical scores (диаграмма рассеяния для канонических значений).

Рис. 17

Появится диаграмма рассеяния (рис. 18) канонических значений для пар значений дискриминантных функций.

Рис.18

На диаграмме видно, что наблюдения (ирисы), принадлежащие одинаковым группам (сортам), локализованы в определённых областях плоскости, при этом расстояние между центроидами групп VERSICOL и VIRGINIC намного меньше, чем расстояние между центроидами групп SETOSE и VERSICOL, SETOSA и VIRGINIC. Это может говорить о том, что сорта VERSICOL и VERGINIC наиболее схожи между собой, а сорт Setosa значительно отличается от них обоих.

Из диаграммы видно, что цвета сорта Setosa представлены на диаграмме точками далеко справа, т. е. этим цветам соответствуют большие значения корня дискриминанты 1. Поэтому дискриминантная функция 1 главным образом дискриминирует цветы между этим сортом и двумя другими. Дискриминантная функция 2, по-видимому, даёт основную дискриминацию между цветками сорта VERSICOL (которые преимущественно имеют большие отрицательные значения корня дискриминанты 2) и двумя другими сортами. Однако дискриминация здесь не настолько отчётливо. Дискриминантная функция 1 более сильная, чем дискриминантная функция 2. Дискриминантная функция 1 имеет отрицательные коэффициенты (см. рис.13) для ширины(PETALWID) и длины(PETALLEN) пестиков и положительные коэффициенты для ширины(SEPALWID) и длины(SEPALLEN) чашелистиков. Таким образом, чем шире и длиннее пестики, короче и уже чашелистики, тем менее вероятно, что это цветки сорта SETOSA.

Вернитесь в окно результатов Discriminant Function Analysis Results и активизируйте вкладку Classification. Откроется окно результатов классификации (рис. 19).

Рис.19

В рамке A priori classification probabilities (априорные вероятности классификации) приведены различные опции задания априорных вероятностей того, что наблюдение при классификации попадёт в одну из групп:

· Proportional to group sizes (пропорциональные размеры групп);

· User defined (заданная пользователем).

Априорные вероятности могут существенно влиять на точность классификации. Если есть предварительные сведения (оценки) о возможном количественном соотношении наблюдений в группах, то желательно выбрать опцию User defined, если таких сведений нет и число наблюдений группах примерно одинаково, то надо выбрать Same for all groups, в противном случае – Proportional to group sizes.

В рамке Score to save for each case (сохранить для каждого наблюдения) приведены опции, при выборе которых можно сохранить тот или иной результат классификации:

· Save classification for case (сохранить результат классификации);

· Save distance for case (сохранить расстояния);

· Save posterior probability for case (сохранить апостериорные вероятности).

В строке Max. number of cases in a single results spreadsheet (максимальное число наблюдений в таблице результатов) можно указать максимальное число наблюдений в таблице результатов. Если наблюдений больше указанного числа, то результаты будут выведены несколькими таблицами.

Нажмите на кнопку Classification functions (функции классификации). Функции классификации – это линейные функции, которые вычисляются для каждой группы и могут быть использованы для классификации наблюдений. Наблюдение приписывают той группе, для которой классификационная функция имеет наибольшее значение.

В таблице, изображённой на рис. 20. приведены коэффициенты и свободные члены при переменных линейных функций. Например, классификационное уравнение для группы SETOSA имеет вид:

SETOSA=23.54*SEPALEN + 23.58*SEPALWID – 16.43*PETALLEN – 17.39*PETALWID – 86.30

Рис. 20

Нажмите на кнопку Classification matrix (матрица классификации). Матрица (рис.21) содержит информацию о количестве и проценте корректно классифицированных наблюдений в каждой группе. Строки матрицы – исходные классы, столбцы – предсказанные классы.

Рис. 21

Нажмите на кнопку Classification of cases (классификация наблюдений). Программа выведет таблицу классификации для каждого наблюдения (рис.22).

Рис.22

Классификации упорядочены по первому, второму и третьему выбору. Столбец 1 содержит первый классификационный выбор, т. е. группу, для которой соответствующее наблюдение имеет наивысшую апостериорную вероятность и наибольшее значение классификационной функции. Наблюдения, которые не удалось правильно классифицировать, помечены *.

Щёлкните кнопкой Squared Mahalanobis distance (квадраты расстояний Махаланобиса). Будет выведена таблица квадратов расстояний Махаланобиса каждого наблюдения от центроида группы (рис. 23)

Рис.23

Эти расстояния аналогичны квадратам евклидовых расстояний, но учитывают корреляции между переменными в модели. Наблюдение приписывают группе, к которой оно ближе всего. Наблюдения, которые не удалось правильно классифицировать, также помечены *.

Нажмите кнопку Posterior probabilities (апостериорные вероятности). В открывшейся таблице (рис. 24) каждому наблюдению будет поставлена в соответствие вероятность принадлежности к группам. Эта вероятность определяется посредством расстояний Махаланобиса и априорных вероятностей. Чем дальше наблюдение расположено от центра группы, тем менее вероятно, что оно принадлежит этой группе. Наблюдение приписывают той группе, для которой имеется наибольшая апостериорная вероятность классификации. Априорные вероятности могут быть заданы пользователем, могут быть равны для всех групп, могут быть пропорциональны размерам групп.

Рис.24

На данном этапе удобно рассмотреть возможность классификации новых наблюдений. Для этого добавьте в таблицу исходных данных новое наблюдение, например, так, как это показано на рис. 25.

Рис. 25

Для того чтобы понять к какому классу относится этот объект, нажмите кнопку Posterior probabilities рис.26. Появится таблица с апостериорными вероятностями, к которой будет добавлена строка 151 (рис. 27).

Рис.26

Рис.27

Максимальное значение вероятности соответствует группе SETOSA. Значит новое наблюдение (цветок) с вероятность 1.0 можно отнести к типу SETOSA.

Рис. 18

Нажмите кнопку Squared Mahalanobis distances. Появится строка таблицы с расстояниями от нового случая центроидов группы (рис. 28).

Рис.28

Расстояние от нового цветка до центроидов групп минимально для групп SETOSA. Это дополнительное подтверждение того, что новый цветок ириса относится к сорту SETOSA.

Если выделить вкладку Descriptives (описания) (рис.29) и нажать на кнопку Review Descriptive Statistics (рис.30), то программа предоставит пользователю широкие возможности анализа описательных статистик исходных данных, которые можно использовать для проверки выполнения предположений применения параметрической дискриминации рис.31.

Так, на вкладке Quick рис.32 можно посмотреть Pooled within-groups covariances & correlations (объединённые внутригрупповые ковариации и корреляции) и Means & number of cases (средние и число наблюдений).

Рис.29

Рис.30

Рис.31

Рис.32

На вкладке Within (внутри) рис.33 можно посмотреть:

Рис.33

o Pooled within-groups covariances & correlations (объединённые внутригрупповые ковариации и корреляции)

o Within-groups standard deviations (внутригрупповые стандартные отклонения);

o Categorized histogram by group (категорированные гистограммы по группам);

o Box plot of means by group (диаграммы размаха);

o Categorized scatterplot by group (категорированные диаграммы рассеяния);

o Categorized normal probability plot by group (категорированный нормальный график по группам).

Вкладки All cases (все наблюдения) рис. 34 предоставит следующие данные:

Рис. 34

o Total covariances & correlations (полные ковариации и корреляции);

o Plot of total correlations (график полной корреляции);

o Box plot of means (диаграмма размаха средних).





Дата публикования: 2015-01-10; Прочитано: 854 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.023 с)...