Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Классификационный анализ с обучением



Дискриминантный анализ.

Кластерный и дискриминантный анализ наиболее ярко отражают черты многомерного анализа в классификации, факторный анализ – в исследовании связи.

Дискриминантный анализ как раздел многомерного статистического анализа включает статистические методы классификации многомерных наблюдений в ситуации, когда исследователь обладает так называемыми обучающими выборками (классификация с обучением).

Цель дискриминантного анализа состоит в том, чтобы на основе измерения различных характеристик (признаков, параметров) объекта классифицировать его, т.е. отнести к одной из нескольких групп (классов) некоторым оптимальным способом. Под оптимальным способом понимается либо минимум математического ожидания потерь, либо минимум вероятности ложной классификации. Этот вид статистического анализа является многомерным, так как использует несколько параметров объекта.

Широкий круг задач, возникающих на практике и связанных с классификацией, можно решить методами дискриминантного анализа, типичные области применения которого медицина, управление производством, экономика, геология, контроль качества.

В общем случае задача различения (дискриминации) формулируется следующим образом. Пусть результатом наблюдения над объектом является построение k-мерного случайного вектора X = (x1, x2, …, xk). Требуется установить правило, согласно которому по значениям координат вектора X объект относят к одной из возможных совокупностей πi, i =1, 2, …, n. Для построения правила дискриминации все выборочное пространство R значений вектора X разбивается на области Ri, i =1, 2, …, n, так что при попадании X в Ri объект относят к совокупности πi.

Правило дискриминации выбирается в соответствии с определённым принципом оптимальности на основе априорной информации о вероятностях pi извлечения объекта из πi. При этом следует учитывать размер убытка от неправильной дискриминации. Априорная информация может быть представлена как в виде некоторых сведений о функциях k-мерного распределения признаков в каждой совокупности, так и в виде выборок из этих совокупностей. Априорные вероятности pi могут быть либо заданы, либо нет. Очевидно, что рекомендации будут тем точнее, чем полнее исходная информация.

Обычно в задаче различения переходят от вектора признаков, характеризующих объект, к линейной функции от них, дискриминантной функции – гиперплоскости, наилучшим образом разделяющей совокупность выборочных точек.

Методы дискриминации можно условно разделить на параметрические и непараметрические.

В параметрических известно, что распределение векторов признаков в каждой совокупности нормально, но нет информации о параметрах этих распределений.

Здесь естественно в дискриминантной функции заменить неизвестные параметры распределения их наилучшими оценками, произведёнными на основе выборочных точек. Правило дискриминации можно основывать на отношении правдоподобия.

Непараметрические методы дискриминации не требует знаний о точном функциональном виде распределений и позволяют решать задачи дискриминации на основе незначительной априорной информации о совокупностях, что особенно ценно для практических применений.

Таким образом, параметрический дискриминантный анализ применяется при выполнении ряда предположений:

· Предположения о том, что наблюдаемые величины – измеряемые характеристики объекта имеют нормально распределение. Это предположение следует проверять. В модуле имеются специальные опции, позволяющие быстро построить гистограммы и нормальные вероятностные графики. Умеренные отклонения от этого предположения допустимы;

· Предположения об однородности дисперсий и ковариаций наблюдаемых переменных в разных классах. Умеренные отклонения от этого предположения также допустимы.

Наиболее важным критерием правильности построенного классификатора является практика.

В модуле Discriminant Analysis пакета STATISTICA имеется широкий набор средств, обеспечивающих проведение дискриминантного анализа данных, визуализации и интерпретации результатов. Модуль позволяет проводить классификационный анализ с пошаговым включением или исключением переменных или вводить в модель заданные пользователем блоки переменных. В дополнение к многочисленным графикам и статистикам, описывающим дискриминирующую функцию, программа содержит также большой набор средств и статистик для классификации старых и новых наблюдений (для оценки качества модели). Программа выполняет полный канонический анализ и выдаёт все собственные значения, их уровни значимости, коэффициенты дискриминантной функции, структурной матрицы и т.д. Встроенные средства графический поддержки включают гистограммы, диаграмма рассеяния, большой набор категорированных графиков, позволяющий исследовать распределение и взаимосвязи между зависимыми переменными для разных групп и многое др.

В целом модуль Discriminant Analysis – это обучающая система и очень полезный инструмент для поиска переменных, позволяющих относить наблюдаемые объекты в одну или несколько реально наблюдаемых групп; классификации наблюдений в различные группы.

Модели, реализованные в модуле, является линейными, а функции классификации и дискриминантные функции – линейными комбинациями наблюдаемых величин.





Дата публикования: 2015-01-10; Прочитано: 1115 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.006 с)...