Главная \| Случайная страница \| Контакты \| Мы поможем в написании вашей работы!

Авторы: Дулепов В.И., Лескова О.А., Майоров И.С. :Владивосток, 2004. 35 с.( в формате книги), в doc. 209 с. 9 страница

⇐ Предыдущая 4 5 6 7 8910 11 12 13 Следующая ⇒

3. Общая изменчивость, заключающаяся в том, что все наблюдения дисперсионного комплекса отличаются друг от друга (или иногда совпадают).

Мерилом изменчивости признака в выборке служит сумма квадратов отклонений его значений от средней арифметической å(х -)². Эта величина, отнесенная к числу наблюдений, дает меру рассеяния, именуемую дисперсией, которая и применяется в дисперсионном анализе.

1. Мерой факториальной изменчивости будет сумма квадратов отклонений средних значений групп () от общего среднего :

S²_x= n . (4.55)

Эту величину иногда называют рассеиванием по факторам.

2. Мера остаточной изменчивости выразится суммой квадратов отклонений всех наблюдений в данной совокупности от среднего значения совокупности:

S²_z= . (4.56)

3. Мерой общей изменчивости является сумма квадратов отклонений в дисперсионном комплексе от общего среднего:

S²_y= ². (4.57)

Тогда в соответствии с основной идеей дисперсионного анализа можно записать S²_y=S²_x+S²_z или

S²_y= ²= n + (4.58)

Вычислим факториальную и остаточную дисперсии как меры соответствующих типов изменчивости признака в дисперсионном комплексе:

(4.59)

В этих формулах фигурируют степени свободы (n_х, n_z, n_у), т.к. дисперсия s² и есть сумма квадратов отклонений в расчете на одну степень свободы. Число степеней свободы есть количество значений, необходимых для восстановления утерянного. Число степеней свободы для факториальной дисперсии равно числу совокупностей без единицы (m -1), т.к. все группы связаны друг с другом лишь одним общим условием – значением средней арифметической всего дисперсионного комплекса ().Число степеней свободы для остаточной дисперсии равно числу наблюдений в комплексе минус число совокупностей (mn-m), ибо все наблюдения связаны наличием в каждой группе своей средней арифметической ().Число степеней свободы для вычисления общей дисперсии всего комплекса равно числу наблюдений в комплексе без единицы (mn- 1), ибо все наблюдения связаны только одним общим условием – наличием общей средней ().

Затем необходимо рассчитать доли влияния учтенного и неучтенного факторов как отношения соответствующих сумм квадратов отклонений:

. (4.60)

Эти величины представляют собой не что иное, как квадраты корреляционных отношений. В сумме эти показатели должны всегда составлять 1 (100%). Теперь можно ответить на интересующий вопрос: насколько учитываемый фактор ответственен за изменчивость результативного признака и сколько процентов падает на долю неучтенных факторов. Для проверки достоверности полученного вывода необходимо провести проверку по F -критерию. Определяют значение критерия Фишера (F), представляющего собой отношение двух дисперсий – факториальной и остаточной – , и сравнивают его с табличным в зависимости от числа степеней свободы n₁= m -1 и n₂= mn-m. Для того чтобы отвергнуть нулевую гипотезу, необходимо, чтобы полученное значение критерия было больше табличного.

Однофакторный дисперсионный анализ удобно представить в виде табл. 4.18.

Таблица 4.18

Логическая схема однофакторного дисперсионного комплекса

Компоненты дисперсии	Сумма квадратов	Число степеней свободы	Дисперсии	Степень влияния фактора
Факториальная (межгрупповая)	п	m -1
Остаточная (внутригрупповая)		m (n -1)
Полная (общая)		mn -1

Пример построения простейшего дисперсионного комплекса

Предположим, что изучается влияние возрастающих доз удобрения определенного типа на урожайность какой-либо культуры. Пусть имеются четыре дозы удобрения (А₁…А₄, причем А1<A2<A3<A4), которое использовали на пяти делянках по каждой дозе (m=4, n=5). Требуется выяснить, влияет ли повышение дозы удобрения на урожайность и если да, то достоверен ли этот вывод настолько, чтобы можно было рекомендовать этот опыт сельскому хозяйству. Результаты наблюдений приведены в табл. 4.19.

Таблица 4.19

Исходные данные для расчета однофакторного
дисперсионного комплекса

Доза удобрения	Урожайность, ц/га
	№ делянки 1
А1
А2
А3
А4

Рассчитываем средние Средняя арифметическая всех совокупностей = 3500/20=175.

По расчетным данным составляем табл. 4.20.

Таблица 4.20

Результаты-расчеты однофакторного дисперсионного комплекса

Компоненты дисперсии	Суммы квадратов	Число степеней свободы	Дисперсии	Степень влияния фактора
Факториальная				0,74
Остаточная			201,25	0,26
Общая			644,7

Значение критерия Фишера равно F= 14,95; при n₁=16 и n₂=3 степенях свободы и уровне значимости 0,01 табличное значения критерия составляет F_st= 9,01. Вычисленное значение больше стандартного, поэтому нулевую гипотезу отвергаем, а это значит, что повышенные дозы удобрения влияют на урожайность достоверно. Но необходимо помнить, что на долю неучтенных факторов приходится 26% изменчивости, т.е. урожайность зависит еще и от других факторов.

4.3.2. Двухфакторный комплекс

Если исследуют влияние двух, трех и т.д. факторов, то структура дисперсионного анализа остается той же, что и при однофакторном комплексе, усложняются лишь вычисления. Рассмотрим задачу оценки действия двух одновременно действующих факторов. Но прежде всего введем некоторые ограничения. Основное из них состоит в том, что включаемые в дисперсионный анализ факторы должны быть независимы друг от друга, корреляция между ними не допустима. Нельзя, например, изучать одновременное влияние температуры и влажности воздуха на урожайность какой-либо культуры, ибо температура и влажность воздуха обычно сильно коррелируют. Крайне желательно, чтобы число наблюдений по совокупностям было одинаковым или хотя бы пропорциональным. Пусть имеется несколько однотипных участков земли и несколько видов удобрения. Требуется выяснить, значимо ли влияние качества различных участков земли и качество удобрений на урожайность зерновой культуры. Это типичная задача двухфакторного дисперсионного анализа. Пусть фактор А – влияние земли; фактор В – влияние качества удобрения. Урожайность обозначим через х_ij. Для простоты сначала рассмотрим случай, когда для каждого участка земли и для каждого удобрения сделано одно наблюдение. Тогда матрица наблюдений будет следующей

Таблица 4.21

Матрица наблюдений для двухфакторного дисперсионного
комплекса (с одним наблюдением в ячейке)

Вид удобрения (j) Участки земли (i)	В₁	В₂	…	В_v
A₁	X₁₁	X₁₂	…	X_1v
A₂	X₂₁	X₂₂	…	X_2v
…	…	…	…	…	…
A_r	X_r1	X_r2	…	x_rv
			…

То есть мы имеем r участков земли и v видов удобрения. В матрице им соответствуют r строк – уровни фактора А и v столбцов – уровни фактора В.

По каждому столбцу и строке рассчитаем среднее значение, а также общее среднее. В двухфакторном анализе изучается раздельное влияние на признак фактора А, фактора В, в связи с этим факториальная сумма квадратов отклонений распадается на две части:

S²_x=S²_A+S²_B, (4.61)

а сама основная формула приобретает вид

S²_y= S²_A+S²_B+S²_z, (4.62)

где

(4.63)

Произведем оценку дисперсий:

. (4.64)

В двухфакторном анализе для выяснения значимости влияния факторов А и В на исследуемый признак сравнивают дисперсии по факторам с остаточной дисперсией, т.е. оценивают отношения и , находя таким образом значения F_A и F_B. Полученные значения сравнивают с табличными значениями при выбранном уровне значимости a. При F_A<F_a и F_B<F_a нулевая гипотеза о равенстве средних не отвергается, т.е. влияние факторов А и В на исследуемый признак незначительно.

Результаты двухфакторного дисперсионного анализа также удобно представить в виде табл. 4.22.

Таблица 4.22

Логическая схема двухфакторного дисперсионного комплекса
(с одним наблюдением в ячейке)

Компоненты дисперсии	Сумма квадратов	Число степеней свободы	Дисперсии
Между средними по строкам (факториальная по А)		r -1	s²_A= S²_A/r-1
Между средними по столбцам (факториальная по В)		v -1	s²_В= S²_B/v-1
Остаточная		(r -1)(v -1)	s²_z= S²_z /((r-1)(v-1))
Полная		rv -1	s²_y= S²_y/ (rv-1)

При одном наблюдении в ячейке схема вычислений довольно проста, однако в этом случае достоверность выводов, полученных на основании проведенного анализа, недостаточна. Поэтому при решении практических задач желательно иметь несколько наблюдений в одной ячейке. Рассмотрим схему двухфакторного дисперсионного анализа с несколькими (но равными количествами – k) наблюдениями в каждой ячейке. Матрицу наблюдений можно представить в виде табл. 4.23.

Таблица 4.23

Матрица наблюдений двухфакторного дисперсионного комплекса
с несколькими, но равными наблюдениями в ячейке

А В	В₁	В₂	…	В_v

A₁	(х₁₁₁,х₁₁₂,…,х₁₁_k)	(x₁₂₁,x₁₂₂,…,x_12k)	…	(x_1v1,x_1v2,…,x_1vk)

Окончание табл. 4.23


A₂	(x₂₁₁,x₂₁₂,…,x_21k)	(x₂₂₁,x₂₂₂,…,x_22k)	…	(x_2v1,x_2v2,…,x_2vk)
…	…	…	…	…	…
A_r	(x_r11,x_r12,…,x_r1k)	(x_r21,x_r22,…,x_r2k)	…	(x_rv1,x_rv2,…,x_rvk)
			…

Для каждой ячейки имеется свое среднее значение, из которого находятся средние по строкам и столбцам, а затем общее среднее.
В табл. 4.23 r – число уровней фактора А, v – число уровней фактора В. Порядок проведения расчетов такой же, как и прежде. Схема анализа и порядок расчетов приведены в табл. 4.24.

Таблица 4.24

Логическая схема двухфакторного дисперсионного комплекса
с несколькими, но равными наблюдениями в ячейке

Компонента дисперсии	Суммы квадратов	Число степеней свободы	Дисперсии
Между средними по строкам (по фактору А)		v- 1	s²_A=S²_A/(v-1)
Между средними по столбцам (по фактору В)		r- 1	s²_В=S²_B/(r-1)
Взаимодействие		(v- 1)(r- 1)	s²_АВ=S²_AB/ ((v-1)(r-1))
Остаточная		Rv(k -1)	s²_z=S²_z/ (rv(k-1))
Полная		Rvk- 1	s²_y=S²_y/(rvk-1)

Проверка достоверности нулевой гипотезы делается точно так же, как и при одном наблюдении в ячейке.

Методики расчета двухфакторного дисперсионного комплекса с неравным числом наблюдений в ячейке и многофакторного комплекса подробно приводятся в учебном пособии (Иванова В.М. и др. Математическая статистика: Учеб. пособие. – М., 1975).

4.4. Анализ главных компонент

Анализ главных компонент является одним из самых простых способов изучения многомерных вариаций. Этот метод можно применять к любым данным, отвечающим следующим основным требованиям.

1. В каждой из выборок индивидов измеряются значения одних и тех же переменных. Индивиды, для которых измерения проведены не полностью, исключаются из рассмотрения.

2. Предполагается, что выбранные для анализа переменные непрерывны, а если они дискретны, то изменяются с такими приращениями, которые достаточно малы, чтобы величины можно было приближенно считать непрерывными.

3. К отношениям между переменными или их линейным функциям не добавляется никаких других отношений или линейных функций, так же как исходные переменные не заменяются их отношениями или линейными функциями.

В задачу анализа главных компонент может входить исследование одного или нескольких следующих вопросов:

1. Анализ корреляций между отдельными переменными.

2. Сведение исходной размерности вариабельности к наименьшему числу существенных для анализа измерений вариабельности.

3. Исключение тех переменных, которые несут сравнительно мало дополнительной информации по изучаемой проблеме.

4. Выявление наиболее информативных сочетаний отдельных выборок или какой-либо структуры.

5. Установление подлинности тех выборок, происхождение которых неизвестно или вызывает сомнения.

То есть сущность метода главных компонент состоит в переходе от описания некоторого множества изучаемых объектов, заданных большим числом косвенно измеряемых признаков, к описанию меньшим числом максимально информативных переменных, отражающих наиболее информативные свойства явления.

Пусть имеется m случайных переменных Х₁, …, Х_m с многомерным распределением. Требуется определить взаимосвязь между переменными. Эта взаимосвязь называется структурой зависимости и может быть измерена ковариациями, дисперсиями или корреляциями между исходными переменными (Ковариация – математическое ожидание (средняя) произведения отклонений двух признаков от их средних:,т.е. сопряженное варьирование двух признаков; ). Задача состоит в нахождении переменных Y₁,…,Y_n, являющихся линейными комбинациями переменных Х_i (n<m), по которым можно получить сжатую структуру зависимости между исходными переменными, несущую почти всю информацию, содержащуюся в них. Метод главных компонент является одним из наиболее простых методов анализа структуры зависимости.

Суть метода состоит в том, что ищутся такие линейные комбинации Y₁,Y₂,…Y_m (называемые главными компонентами) исходных переменных Х₁,Х₂,…Х_m:

, , k=1,…,m, (4.65)

что новые переменные Y_k не коррелированы и упорядочены по возрастанию дисперсии (k – номер компоненты). То есть Y₁ определяется условием максимальности дисперсии всех переменных; Y₂ определяется условием максимальности дисперсии среди всех нормированных комбинаций Х_i, i=1,…,m, не коррелирующих с Y₁; Y₃ – условием максимальности дисперсии всех нормированных комбинаций Х_i, не коррелирующих с Y₁ и Y₂, и т.д. (Нормирование х и у – переход к новым величинам x’ и y’, в которых средние равны 0, а дисперсии равны 1: ). Таким образом, подмножество q первых главных компонент будет объяснять большую часть общей дисперсии исходных признаков.

Обозначим дисперсии главных компонент v²₁,…,v²_m, а дисперсии исходных признаков – s²₁,…,s²_m _. Из вышесказанного следует, что . При этом справедливо равенство . Это равенство означает, что исходно заложенная в данных дисперсия не меняется при переходе к новым переменным, а перераспределяется. Кроме того, новые переменные в отличие от исходных признаков приобрели такое ценное качество, как отсутствие корреляции друг с другом.

Решение поставленной задачи сводится к нахождению коэффициентов a_ki. Для этого необходимо построить исходную матрицу ковариаций или корреляций признаков, для которой находятся ее собственные значения и собственные векторы. Собственные значения матрицы равны дисперсии компоненты v²_k. Упорядоченные по убыванию собственных значений матрицы собственные векторы и будут являться искомыми коэффициентами a_ki (т.е. собственный вектор есть не что иное, как набор коэффициентов a_ki).

Линейная комбинация называется первой главной компонентой переменных Х₁,Х₂,…,Х_m. Она объясняет 100 v² (Y₁)/ S²_общ процентов общей дисперсии. Вторая главная компонента, которая определяется линейной комбинацией , соответствует второму по величине собственному значению. Первая и вторая главных компоненты объясняют вместе 100[ v² (Y₁)+ v²(Y₂)]/ S²_общ процентов общей дисперсии и т.д. Последний собственный вектор определяет последнюю компоненту , и все главные компоненты в совокупности объясняют процентов общей дисперсии и равны 100%.

Для получения главных компонент можно вместо ковариационной матрицы использовать корреляционную. Когда переменные измеряются в различных единицах, не имеющих между собой ничего общего, линейные комбинации бывает трудно интерпретировать. В этом случае необходимо провести стандартизацию (или нормирование) переменных. При этом общая дисперсия будет равна числу переменных. Надо отметить, что главные компоненты, получаемые из ковариационной и корреляционной матрицы, различны.

⇐ Предыдущая 4 5 6 7 8910 11 12 13 Следующая ⇒

Дата публикования: 2014-11-03; Прочитано: 320 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!

studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.029 с)...