Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Авторы: Дулепов В.И., Лескова О.А., Майоров И.С. :Владивосток, 2004. 35 с.( в формате книги), в doc. 209 с. 9 страница



3. Общая изменчивость, заключающаяся в том, что все наблюдения дисперсионного комплекса отличаются друг от друга (или иногда совпадают).

Мерилом изменчивости признака в выборке служит сумма квадратов отклонений его значений от средней арифметической å(х - )2. Эта величина, отнесенная к числу наблюдений, дает меру рассеяния, именуемую дисперсией, которая и применяется в дисперсионном анализе.

1. Мерой факториальной изменчивости будет сумма квадратов отклонений средних значений групп ( ) от общего среднего :

S2x= n . (4.55)

Эту величину иногда называют рассеиванием по факторам.

2. Мера остаточной изменчивости выразится суммой квадратов отклонений всех наблюдений в данной совокупности от среднего значения совокупности:

S2z= . (4.56)

3. Мерой общей изменчивости является сумма квадратов отклонений в дисперсионном комплексе от общего среднего:

S2y= 2. (4.57)

Тогда в соответствии с основной идеей дисперсионного анализа можно записать S2y=S2x+S2z или

S2y= 2= n + (4.58)

Вычислим факториальную и остаточную дисперсии как меры соответствующих типов изменчивости признака в дисперсионном комплексе:

(4.59)

В этих формулах фигурируют степени свободы (nх, nz, nу), т.к. дисперсия s2 и есть сумма квадратов отклонений в расчете на одну степень свободы. Число степеней свободы есть количество значений, необходимых для восстановления утерянного. Число степеней свободы для факториальной дисперсии равно числу совокупностей без единицы (m -1), т.к. все группы связаны друг с другом лишь одним общим условием – значением средней арифметической всего дисперсионного комплекса ( ).Число степеней свободы для остаточной дисперсии равно числу наблюдений в комплексе минус число совокупностей (mn-m), ибо все наблюдения связаны наличием в каждой группе своей средней арифметической ( ).Число степеней свободы для вычисления общей дисперсии всего комплекса равно числу наблюдений в комплексе без единицы (mn- 1), ибо все наблюдения связаны только одним общим условием – наличием общей средней ( ).

Затем необходимо рассчитать доли влияния учтенного и неучтенного факторов как отношения соответствующих сумм квадратов отклонений:

. (4.60)

Эти величины представляют собой не что иное, как квадраты корреляционных отношений. В сумме эти показатели должны всегда составлять 1 (100%). Теперь можно ответить на интересующий вопрос: насколько учитываемый фактор ответственен за изменчивость результативного признака и сколько процентов падает на долю неучтенных факторов. Для проверки достоверности полученного вывода необходимо провести проверку по F -критерию. Определяют значение критерия Фишера (F), представляющего собой отношение двух дисперсий – факториальной и остаточной – , и сравнивают его с табличным в зависимости от числа степеней свободы n1= m -1 и n2= mn-m. Для того чтобы отвергнуть нулевую гипотезу, необходимо, чтобы полученное значение критерия было больше табличного.

Однофакторный дисперсионный анализ удобно представить в виде табл. 4.18.

Таблица 4.18

Логическая схема однофакторного дисперсионного комплекса

Компоненты дисперсии Сумма квадратов Число степеней свободы Дисперсии Степень влияния фактора
Факториальная (межгрупповая) п m -1
Остаточная (внутригрупповая) m (n -1)
Полная (общая) mn -1  

Пример построения простейшего дисперсионного комплекса

Предположим, что изучается влияние возрастающих доз удобрения определенного типа на урожайность какой-либо культуры. Пусть имеются четыре дозы удобрения (А1…А4, причем А1<A2<A3<A4), которое использовали на пяти делянках по каждой дозе (m=4, n=5). Требуется выяснить, влияет ли повышение дозы удобрения на урожайность и если да, то достоверен ли этот вывод настолько, чтобы можно было рекомендовать этот опыт сельскому хозяйству. Результаты наблюдений приведены в табл. 4.19.

Таблица 4.19

Исходные данные для расчета однофакторного
дисперсионного комплекса

Доза удобрения Урожайность, ц/га
  № делянки 1        
А1          
А2          
А3          
А4          

Рассчитываем средние Средняя арифметическая всех совокупностей = 3500/20=175.

По расчетным данным составляем табл. 4.20.

Таблица 4.20

Результаты-расчеты однофакторного дисперсионного комплекса

Компоненты дисперсии Суммы квадратов Число степеней свободы Дисперсии Степень влияния фактора
Факториальная       0,74
Остаточная     201,25 0,26
Общая     644,7  

Значение критерия Фишера равно F= 14,95; при n1=16 и n2=3 степенях свободы и уровне значимости 0,01 табличное значения критерия составляет Fst= 9,01. Вычисленное значение больше стандартного, поэтому нулевую гипотезу отвергаем, а это значит, что повышенные дозы удобрения влияют на урожайность достоверно. Но необходимо помнить, что на долю неучтенных факторов приходится 26% изменчивости, т.е. урожайность зависит еще и от других факторов.

4.3.2. Двухфакторный комплекс

Если исследуют влияние двух, трех и т.д. факторов, то структура дисперсионного анализа остается той же, что и при однофакторном комплексе, усложняются лишь вычисления. Рассмотрим задачу оценки действия двух одновременно действующих факторов. Но прежде всего введем некоторые ограничения. Основное из них состоит в том, что включаемые в дисперсионный анализ факторы должны быть независимы друг от друга, корреляция между ними не допустима. Нельзя, например, изучать одновременное влияние температуры и влажности воздуха на урожайность какой-либо культуры, ибо температура и влажность воздуха обычно сильно коррелируют. Крайне желательно, чтобы число наблюдений по совокупностям было одинаковым или хотя бы пропорциональным. Пусть имеется несколько однотипных участков земли и несколько видов удобрения. Требуется выяснить, значимо ли влияние качества различных участков земли и качество удобрений на урожайность зерновой культуры. Это типичная задача двухфакторного дисперсионного анализа. Пусть фактор А – влияние земли; фактор В – влияние качества удобрения. Урожайность обозначим через хij. Для простоты сначала рассмотрим случай, когда для каждого участка земли и для каждого удобрения сделано одно наблюдение. Тогда матрица наблюдений будет следующей

Таблица 4.21

Матрица наблюдений для двухфакторного дисперсионного
комплекса (с одним наблюдением в ячейке)

Вид удобрения (j) Участки земли (i) В1 В2 Вv
A1 X11 X12 X1v
A2 X21 X22 X2v
Ar Xr1 Xr2 xrv

То есть мы имеем r участков земли и v видов удобрения. В матрице им соответствуют r строк – уровни фактора А и v столбцов – уровни фактора В.

По каждому столбцу и строке рассчитаем среднее значение, а также общее среднее. В двухфакторном анализе изучается раздельное влияние на признак фактора А, фактора В, в связи с этим факториальная сумма квадратов отклонений распадается на две части:

S2x=S2A+S2B, (4.61)

а сама основная формула приобретает вид

S2y= S2A+S2B+S2z, (4.62)

где

(4.63)

Произведем оценку дисперсий:

. (4.64)

В двухфакторном анализе для выяснения значимости влияния факторов А и В на исследуемый признак сравнивают дисперсии по факторам с остаточной дисперсией, т.е. оценивают отношения и , находя таким образом значения FA и FB. Полученные значения сравнивают с табличными значениями при выбранном уровне значимости a. При FA<Fa и FB<Fa нулевая гипотеза о равенстве средних не отвергается, т.е. влияние факторов А и В на исследуемый признак незначительно.

Результаты двухфакторного дисперсионного анализа также удобно представить в виде табл. 4.22.

Таблица 4.22

Логическая схема двухфакторного дисперсионного комплекса
(с одним наблюдением в ячейке)

Компоненты дисперсии Сумма квадратов Число степеней свободы Дисперсии
Между средними по строкам (факториальная по А) r -1 s2A= S2A/r-1
Между средними по столбцам (факториальная по В) v -1 s2В= S2B/v-1
Остаточная (r -1)(v -1) s2z= S2z /((r-1)(v-1))
Полная rv -1 s2y= S2y/ (rv-1)

При одном наблюдении в ячейке схема вычислений довольно проста, однако в этом случае достоверность выводов, полученных на основании проведенного анализа, недостаточна. Поэтому при решении практических задач желательно иметь несколько наблюдений в одной ячейке. Рассмотрим схему двухфакторного дисперсионного анализа с несколькими (но равными количествами – k) наблюдениями в каждой ячейке. Матрицу наблюдений можно представить в виде табл. 4.23.

Таблица 4.23

Матрица наблюдений двухфакторного дисперсионного комплекса
с несколькими, но равными наблюдениями в ячейке

А В В1 В2 Вv
           
A1 111112,…,х11k) (x121,x122,…,x12k) (x1v1,x1v2,…,x1vk)

Окончание табл. 4.23

           
A2 (x211,x212,…,x21k) (x221,x222,…,x22k) (x2v1,x2v2,…,x2vk)
Ar (xr11,xr12,…,xr1k) (xr21,xr22,…,xr2k) (xrv1,xrv2,…,xrvk)

Для каждой ячейки имеется свое среднее значение, из которого находятся средние по строкам и столбцам, а затем общее среднее.
В табл. 4.23 r – число уровней фактора А, v – число уровней фактора В. Порядок проведения расчетов такой же, как и прежде. Схема анализа и порядок расчетов приведены в табл. 4.24.

Таблица 4.24

Логическая схема двухфакторного дисперсионного комплекса
с несколькими, но равными наблюдениями в ячейке

Компонента дисперсии Суммы квадратов Число степеней свободы Дисперсии
Между средними по строкам (по фактору А) v- 1 s2A=S2A/(v-1)
Между средними по столбцам (по фактору В) r- 1 s2В=S2B/(r-1)
Взаимодействие (v- 1)(r- 1) s2АВ=S2AB/ ((v-1)(r-1))
Остаточная Rv(k -1) s2z=S2z/ (rv(k-1))
Полная Rvk- 1 s2y=S2y/(rvk-1)

Проверка достоверности нулевой гипотезы делается точно так же, как и при одном наблюдении в ячейке.

Методики расчета двухфакторного дисперсионного комплекса с неравным числом наблюдений в ячейке и многофакторного комплекса подробно приводятся в учебном пособии (Иванова В.М. и др. Математическая статистика: Учеб. пособие. – М., 1975).

4.4. Анализ главных компонент

Анализ главных компонент является одним из самых простых способов изучения многомерных вариаций. Этот метод можно применять к любым данным, отвечающим следующим основным требованиям.

1. В каждой из выборок индивидов измеряются значения одних и тех же переменных. Индивиды, для которых измерения проведены не полностью, исключаются из рассмотрения.

2. Предполагается, что выбранные для анализа переменные непрерывны, а если они дискретны, то изменяются с такими приращениями, которые достаточно малы, чтобы величины можно было приближенно считать непрерывными.

3. К отношениям между переменными или их линейным функциям не добавляется никаких других отношений или линейных функций, так же как исходные переменные не заменяются их отношениями или линейными функциями.

В задачу анализа главных компонент может входить исследование одного или нескольких следующих вопросов:

1. Анализ корреляций между отдельными переменными.

2. Сведение исходной размерности вариабельности к наименьшему числу существенных для анализа измерений вариабельности.

3. Исключение тех переменных, которые несут сравнительно мало дополнительной информации по изучаемой проблеме.

4. Выявление наиболее информативных сочетаний отдельных выборок или какой-либо структуры.

5. Установление подлинности тех выборок, происхождение которых неизвестно или вызывает сомнения.

То есть сущность метода главных компонент состоит в переходе от описания некоторого множества изучаемых объектов, заданных большим числом косвенно измеряемых признаков, к описанию меньшим числом максимально информативных переменных, отражающих наиболее информативные свойства явления.

Пусть имеется m случайных переменных Х1, …, Хm с многомерным распределением. Требуется определить взаимосвязь между переменными. Эта взаимосвязь называется структурой зависимости и может быть измерена ковариациями, дисперсиями или корреляциями между исходными переменными (Ковариация – математическое ожидание (средняя) произведения отклонений двух признаков от их средних: ,т.е. сопряженное варьирование двух признаков; ). Задача состоит в нахождении переменных Y1,…,Yn, являющихся линейными комбинациями переменных Хi (n<m), по которым можно получить сжатую структуру зависимости между исходными переменными, несущую почти всю информацию, содержащуюся в них. Метод главных компонент является одним из наиболее простых методов анализа структуры зависимости.

Суть метода состоит в том, что ищутся такие линейные комбинации Y1,Y2,…Ym (называемые главными компонентами) исходных переменных Х12,…Хm:

, , k=1,…,m, (4.65)

что новые переменные Yk не коррелированы и упорядочены по возрастанию дисперсии (k – номер компоненты). То есть Y1 определяется условием максимальности дисперсии всех переменных; Y2 определяется условием максимальности дисперсии среди всех нормированных комбинаций Хi, i=1,…,m, не коррелирующих с Y1; Y3 – условием максимальности дисперсии всех нормированных комбинаций Хi, не коррелирующих с Y1 и Y2, и т.д. (Нормирование х и у – переход к новым величинам x’ и y’, в которых средние равны 0, а дисперсии равны 1: ). Таким образом, подмножество q первых главных компонент будет объяснять большую часть общей дисперсии исходных признаков.

Обозначим дисперсии главных компонент v21,…,v2m, а дисперсии исходных признаков – s21,…,s2m . Из вышесказанного следует, что . При этом справедливо равенство . Это равенство означает, что исходно заложенная в данных дисперсия не меняется при переходе к новым переменным, а перераспределяется. Кроме того, новые переменные в отличие от исходных признаков приобрели такое ценное качество, как отсутствие корреляции друг с другом.

Решение поставленной задачи сводится к нахождению коэффициентов aki. Для этого необходимо построить исходную матрицу ковариаций или корреляций признаков, для которой находятся ее собственные значения и собственные векторы. Собственные значения матрицы равны дисперсии компоненты v2k. Упорядоченные по убыванию собственных значений матрицы собственные векторы и будут являться искомыми коэффициентами aki (т.е. собственный вектор есть не что иное, как набор коэффициентов aki).

Линейная комбинация называется первой главной компонентой переменных Х12,…,Хm. Она объясняет 100 v2 (Y1)/ S2общ процентов общей дисперсии. Вторая главная компонента, которая определяется линейной комбинацией , соответствует второму по величине собственному значению. Первая и вторая главных компоненты объясняют вместе 100[ v2 (Y1)+ v2(Y2)]/ S2общ процентов общей дисперсии и т.д. Последний собственный вектор определяет последнюю компоненту , и все главные компоненты в совокупности объясняют процентов общей дисперсии и равны 100%.

Для получения главных компонент можно вместо ковариационной матрицы использовать корреляционную. Когда переменные измеряются в различных единицах, не имеющих между собой ничего общего, линейные комбинации бывает трудно интерпретировать. В этом случае необходимо провести стандартизацию (или нормирование) переменных. При этом общая дисперсия будет равна числу переменных. Надо отметить, что главные компоненты, получаемые из ковариационной и корреляционной матрицы, различны.





Дата публикования: 2014-11-03; Прочитано: 320 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.029 с)...