Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
3. Общая изменчивость, заключающаяся в том, что все наблюдения дисперсионного комплекса отличаются друг от друга (или иногда совпадают).
Мерилом изменчивости признака в выборке служит сумма квадратов отклонений его значений от средней арифметической å(х - )2. Эта величина, отнесенная к числу наблюдений, дает меру рассеяния, именуемую дисперсией, которая и применяется в дисперсионном анализе.
1. Мерой факториальной изменчивости будет сумма квадратов отклонений средних значений групп ( ) от общего среднего :
S2x= n . (4.55)
Эту величину иногда называют рассеиванием по факторам.
2. Мера остаточной изменчивости выразится суммой квадратов отклонений всех наблюдений в данной совокупности от среднего значения совокупности:
S2z= . (4.56)
3. Мерой общей изменчивости является сумма квадратов отклонений в дисперсионном комплексе от общего среднего:
S2y= 2. (4.57)
Тогда в соответствии с основной идеей дисперсионного анализа можно записать S2y=S2x+S2z или
S2y= 2= n + (4.58)
Вычислим факториальную и остаточную дисперсии как меры соответствующих типов изменчивости признака в дисперсионном комплексе:
(4.59)
В этих формулах фигурируют степени свободы (nх, nz, nу), т.к. дисперсия s2 и есть сумма квадратов отклонений в расчете на одну степень свободы. Число степеней свободы есть количество значений, необходимых для восстановления утерянного. Число степеней свободы для факториальной дисперсии равно числу совокупностей без единицы (m -1), т.к. все группы связаны друг с другом лишь одним общим условием – значением средней арифметической всего дисперсионного комплекса ( ).Число степеней свободы для остаточной дисперсии равно числу наблюдений в комплексе минус число совокупностей (mn-m), ибо все наблюдения связаны наличием в каждой группе своей средней арифметической ( ).Число степеней свободы для вычисления общей дисперсии всего комплекса равно числу наблюдений в комплексе без единицы (mn- 1), ибо все наблюдения связаны только одним общим условием – наличием общей средней ( ).
Затем необходимо рассчитать доли влияния учтенного и неучтенного факторов как отношения соответствующих сумм квадратов отклонений:
. (4.60)
Эти величины представляют собой не что иное, как квадраты корреляционных отношений. В сумме эти показатели должны всегда составлять 1 (100%). Теперь можно ответить на интересующий вопрос: насколько учитываемый фактор ответственен за изменчивость результативного признака и сколько процентов падает на долю неучтенных факторов. Для проверки достоверности полученного вывода необходимо провести проверку по F -критерию. Определяют значение критерия Фишера (F), представляющего собой отношение двух дисперсий – факториальной и остаточной – , и сравнивают его с табличным в зависимости от числа степеней свободы n1= m -1 и n2= mn-m. Для того чтобы отвергнуть нулевую гипотезу, необходимо, чтобы полученное значение критерия было больше табличного.
Однофакторный дисперсионный анализ удобно представить в виде табл. 4.18.
Таблица 4.18
Логическая схема однофакторного дисперсионного комплекса
Компоненты дисперсии | Сумма квадратов | Число степеней свободы | Дисперсии | Степень влияния фактора |
Факториальная (межгрупповая) | п | m -1 | ||
Остаточная (внутригрупповая) | m (n -1) | |||
Полная (общая) | mn -1 |
Пример построения простейшего дисперсионного комплекса
Предположим, что изучается влияние возрастающих доз удобрения определенного типа на урожайность какой-либо культуры. Пусть имеются четыре дозы удобрения (А1…А4, причем А1<A2<A3<A4), которое использовали на пяти делянках по каждой дозе (m=4, n=5). Требуется выяснить, влияет ли повышение дозы удобрения на урожайность и если да, то достоверен ли этот вывод настолько, чтобы можно было рекомендовать этот опыт сельскому хозяйству. Результаты наблюдений приведены в табл. 4.19.
Таблица 4.19
Исходные данные для расчета однофакторного
дисперсионного комплекса
Доза удобрения | Урожайность, ц/га | ||||
№ делянки 1 | |||||
А1 | |||||
А2 | |||||
А3 | |||||
А4 |
Рассчитываем средние Средняя арифметическая всех совокупностей = 3500/20=175.
По расчетным данным составляем табл. 4.20.
Таблица 4.20
Результаты-расчеты однофакторного дисперсионного комплекса
Компоненты дисперсии | Суммы квадратов | Число степеней свободы | Дисперсии | Степень влияния фактора |
Факториальная | 0,74 | |||
Остаточная | 201,25 | 0,26 | ||
Общая | 644,7 |
Значение критерия Фишера равно F= 14,95; при n1=16 и n2=3 степенях свободы и уровне значимости 0,01 табличное значения критерия составляет Fst= 9,01. Вычисленное значение больше стандартного, поэтому нулевую гипотезу отвергаем, а это значит, что повышенные дозы удобрения влияют на урожайность достоверно. Но необходимо помнить, что на долю неучтенных факторов приходится 26% изменчивости, т.е. урожайность зависит еще и от других факторов.
4.3.2. Двухфакторный комплекс
Если исследуют влияние двух, трех и т.д. факторов, то структура дисперсионного анализа остается той же, что и при однофакторном комплексе, усложняются лишь вычисления. Рассмотрим задачу оценки действия двух одновременно действующих факторов. Но прежде всего введем некоторые ограничения. Основное из них состоит в том, что включаемые в дисперсионный анализ факторы должны быть независимы друг от друга, корреляция между ними не допустима. Нельзя, например, изучать одновременное влияние температуры и влажности воздуха на урожайность какой-либо культуры, ибо температура и влажность воздуха обычно сильно коррелируют. Крайне желательно, чтобы число наблюдений по совокупностям было одинаковым или хотя бы пропорциональным. Пусть имеется несколько однотипных участков земли и несколько видов удобрения. Требуется выяснить, значимо ли влияние качества различных участков земли и качество удобрений на урожайность зерновой культуры. Это типичная задача двухфакторного дисперсионного анализа. Пусть фактор А – влияние земли; фактор В – влияние качества удобрения. Урожайность обозначим через хij. Для простоты сначала рассмотрим случай, когда для каждого участка земли и для каждого удобрения сделано одно наблюдение. Тогда матрица наблюдений будет следующей
Таблица 4.21
Матрица наблюдений для двухфакторного дисперсионного
комплекса (с одним наблюдением в ячейке)
Вид удобрения (j) Участки земли (i) | В1 | В2 | … | Вv | |
A1 | X11 | X12 | … | X1v | |
A2 | X21 | X22 | … | X2v | |
… | … | … | … | … | … |
Ar | Xr1 | Xr2 | … | xrv | |
… |
То есть мы имеем r участков земли и v видов удобрения. В матрице им соответствуют r строк – уровни фактора А и v столбцов – уровни фактора В.
По каждому столбцу и строке рассчитаем среднее значение, а также общее среднее. В двухфакторном анализе изучается раздельное влияние на признак фактора А, фактора В, в связи с этим факториальная сумма квадратов отклонений распадается на две части:
S2x=S2A+S2B, (4.61)
а сама основная формула приобретает вид
S2y= S2A+S2B+S2z, (4.62)
где
(4.63)
Произведем оценку дисперсий:
. (4.64)
В двухфакторном анализе для выяснения значимости влияния факторов А и В на исследуемый признак сравнивают дисперсии по факторам с остаточной дисперсией, т.е. оценивают отношения и , находя таким образом значения FA и FB. Полученные значения сравнивают с табличными значениями при выбранном уровне значимости a. При FA<Fa и FB<Fa нулевая гипотеза о равенстве средних не отвергается, т.е. влияние факторов А и В на исследуемый признак незначительно.
Результаты двухфакторного дисперсионного анализа также удобно представить в виде табл. 4.22.
Таблица 4.22
Логическая схема двухфакторного дисперсионного комплекса
(с одним наблюдением в ячейке)
Компоненты дисперсии | Сумма квадратов | Число степеней свободы | Дисперсии |
Между средними по строкам (факториальная по А) | r -1 | s2A= S2A/r-1 | |
Между средними по столбцам (факториальная по В) | v -1 | s2В= S2B/v-1 | |
Остаточная | (r -1)(v -1) | s2z= S2z /((r-1)(v-1)) | |
Полная | rv -1 | s2y= S2y/ (rv-1) |
При одном наблюдении в ячейке схема вычислений довольно проста, однако в этом случае достоверность выводов, полученных на основании проведенного анализа, недостаточна. Поэтому при решении практических задач желательно иметь несколько наблюдений в одной ячейке. Рассмотрим схему двухфакторного дисперсионного анализа с несколькими (но равными количествами – k) наблюдениями в каждой ячейке. Матрицу наблюдений можно представить в виде табл. 4.23.
Таблица 4.23
Матрица наблюдений двухфакторного дисперсионного комплекса
с несколькими, но равными наблюдениями в ячейке
А В | В1 | В2 | … | Вv | |
A1 | (х111,х112,…,х11k) | (x121,x122,…,x12k) | … | (x1v1,x1v2,…,x1vk) |
Окончание табл. 4.23
A2 | (x211,x212,…,x21k) | (x221,x222,…,x22k) | … | (x2v1,x2v2,…,x2vk) | |
… | … | … | … | … | … |
Ar | (xr11,xr12,…,xr1k) | (xr21,xr22,…,xr2k) | … | (xrv1,xrv2,…,xrvk) | |
… |
Для каждой ячейки имеется свое среднее значение, из которого находятся средние по строкам и столбцам, а затем общее среднее.
В табл. 4.23 r – число уровней фактора А, v – число уровней фактора В. Порядок проведения расчетов такой же, как и прежде. Схема анализа и порядок расчетов приведены в табл. 4.24.
Таблица 4.24
Логическая схема двухфакторного дисперсионного комплекса
с несколькими, но равными наблюдениями в ячейке
Компонента дисперсии | Суммы квадратов | Число степеней свободы | Дисперсии |
Между средними по строкам (по фактору А) | v- 1 | s2A=S2A/(v-1) | |
Между средними по столбцам (по фактору В) | r- 1 | s2В=S2B/(r-1) | |
Взаимодействие | (v- 1)(r- 1) | s2АВ=S2AB/ ((v-1)(r-1)) | |
Остаточная | Rv(k -1) | s2z=S2z/ (rv(k-1)) | |
Полная | Rvk- 1 | s2y=S2y/(rvk-1) |
Проверка достоверности нулевой гипотезы делается точно так же, как и при одном наблюдении в ячейке.
Методики расчета двухфакторного дисперсионного комплекса с неравным числом наблюдений в ячейке и многофакторного комплекса подробно приводятся в учебном пособии (Иванова В.М. и др. Математическая статистика: Учеб. пособие. – М., 1975).
4.4. Анализ главных компонент
Анализ главных компонент является одним из самых простых способов изучения многомерных вариаций. Этот метод можно применять к любым данным, отвечающим следующим основным требованиям.
1. В каждой из выборок индивидов измеряются значения одних и тех же переменных. Индивиды, для которых измерения проведены не полностью, исключаются из рассмотрения.
2. Предполагается, что выбранные для анализа переменные непрерывны, а если они дискретны, то изменяются с такими приращениями, которые достаточно малы, чтобы величины можно было приближенно считать непрерывными.
3. К отношениям между переменными или их линейным функциям не добавляется никаких других отношений или линейных функций, так же как исходные переменные не заменяются их отношениями или линейными функциями.
В задачу анализа главных компонент может входить исследование одного или нескольких следующих вопросов:
1. Анализ корреляций между отдельными переменными.
2. Сведение исходной размерности вариабельности к наименьшему числу существенных для анализа измерений вариабельности.
3. Исключение тех переменных, которые несут сравнительно мало дополнительной информации по изучаемой проблеме.
4. Выявление наиболее информативных сочетаний отдельных выборок или какой-либо структуры.
5. Установление подлинности тех выборок, происхождение которых неизвестно или вызывает сомнения.
То есть сущность метода главных компонент состоит в переходе от описания некоторого множества изучаемых объектов, заданных большим числом косвенно измеряемых признаков, к описанию меньшим числом максимально информативных переменных, отражающих наиболее информативные свойства явления.
Пусть имеется m случайных переменных Х1, …, Хm с многомерным распределением. Требуется определить взаимосвязь между переменными. Эта взаимосвязь называется структурой зависимости и может быть измерена ковариациями, дисперсиями или корреляциями между исходными переменными (Ковариация – математическое ожидание (средняя) произведения отклонений двух признаков от их средних: ,т.е. сопряженное варьирование двух признаков; ). Задача состоит в нахождении переменных Y1,…,Yn, являющихся линейными комбинациями переменных Хi (n<m), по которым можно получить сжатую структуру зависимости между исходными переменными, несущую почти всю информацию, содержащуюся в них. Метод главных компонент является одним из наиболее простых методов анализа структуры зависимости.
Суть метода состоит в том, что ищутся такие линейные комбинации Y1,Y2,…Ym (называемые главными компонентами) исходных переменных Х1,Х2,…Хm:
, , k=1,…,m, (4.65)
что новые переменные Yk не коррелированы и упорядочены по возрастанию дисперсии (k – номер компоненты). То есть Y1 определяется условием максимальности дисперсии всех переменных; Y2 определяется условием максимальности дисперсии среди всех нормированных комбинаций Хi, i=1,…,m, не коррелирующих с Y1; Y3 – условием максимальности дисперсии всех нормированных комбинаций Хi, не коррелирующих с Y1 и Y2, и т.д. (Нормирование х и у – переход к новым величинам x’ и y’, в которых средние равны 0, а дисперсии равны 1: ). Таким образом, подмножество q первых главных компонент будет объяснять большую часть общей дисперсии исходных признаков.
Обозначим дисперсии главных компонент v21,…,v2m, а дисперсии исходных признаков – s21,…,s2m . Из вышесказанного следует, что . При этом справедливо равенство . Это равенство означает, что исходно заложенная в данных дисперсия не меняется при переходе к новым переменным, а перераспределяется. Кроме того, новые переменные в отличие от исходных признаков приобрели такое ценное качество, как отсутствие корреляции друг с другом.
Решение поставленной задачи сводится к нахождению коэффициентов aki. Для этого необходимо построить исходную матрицу ковариаций или корреляций признаков, для которой находятся ее собственные значения и собственные векторы. Собственные значения матрицы равны дисперсии компоненты v2k. Упорядоченные по убыванию собственных значений матрицы собственные векторы и будут являться искомыми коэффициентами aki (т.е. собственный вектор есть не что иное, как набор коэффициентов aki).
Линейная комбинация называется первой главной компонентой переменных Х1,Х2,…,Хm. Она объясняет 100 v2 (Y1)/ S2общ процентов общей дисперсии. Вторая главная компонента, которая определяется линейной комбинацией , соответствует второму по величине собственному значению. Первая и вторая главных компоненты объясняют вместе 100[ v2 (Y1)+ v2(Y2)]/ S2общ процентов общей дисперсии и т.д. Последний собственный вектор определяет последнюю компоненту , и все главные компоненты в совокупности объясняют процентов общей дисперсии и равны 100%.
Для получения главных компонент можно вместо ковариационной матрицы использовать корреляционную. Когда переменные измеряются в различных единицах, не имеющих между собой ничего общего, линейные комбинации бывает трудно интерпретировать. В этом случае необходимо провести стандартизацию (или нормирование) переменных. При этом общая дисперсия будет равна числу переменных. Надо отметить, что главные компоненты, получаемые из ковариационной и корреляционной матрицы, различны.
Дата публикования: 2014-11-03; Прочитано: 320 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!