Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Глава 5. Проверка статистических гипотез



В научных исследованиях для доказательства достоверности результатов эксперимента необходимо оценивать их значимость. Приходится сравнивать данные опыта с контрольными данными, причем о преимуществе одной из сравниваемых групп судят по разности выборочных средних. Так как значения выборочных средних (или других выборочных характеристик) являются случайными величинами, варьирующимися около значений параметров генеральной совокупности, то разница между сравниваемыми выборочными параметрами может возникнуть вследствие случайности, не из-за систематического воздействия на изучаемый признак. Установление значимости различия (является ли различие систематическим или случайным) осуществляется проверкой статистической гипотезы.

§5.1. Статистические гипотезы

Статистические гипотезы.

Статистической гипотезой называется предположение о виде неизвестного распределения или о значениях параметров распределения наблюдаемых в эксперименте случайных величин.

Нулевой (основной) называется выдвинутая гипотеза, которая обозначается Н 0. Альтернативной (конкурирующей) называется гипотеза, которая противоречит основной (обозначение: Н 1).

Если производится сравнение одной выборки, генеральный параметр которой z 1, с другой выборкой, генеральный параметр которой z 2, то основная гипотеза формулируется обычно так: генеральные параметры сравниваемых выборок равны, то есть различия между выборочными параметрами носят не систематический, а исключительно случайный характер. Основную гипотезу принято записывать в виде: Н 0: z 1= z 2.

Альтернативные гипотезы могут иметь один из следующих видов: а) Н 1: z 1> z 2; б) Н 1: z 1< z 2; в) Н 1: z 1¹ z 2. Гипотезы (а) и (б) называются направленными, а гипотеза вида (в) – ненаправленной.

Проверка гипотезы позволяет сделать вывод о том, противоречит ли выдвинутая гипотеза эмпирическим данным, или нет. Нулевую гипотезу проверяют на основании данных выборки. В следствие случайности выборки возможны следующие виды ошибок:

1) ошибка первого рода имеет место тогда, когда отвергается правильная гипотеза;

2) ошибка второго рода имеет место тогда, когда принимается неправильная гипотеза.

Вероятность совершить ошибку первого рода называется уровнем значимости a. В прикладных исследованиях обычно принимается уровень значимости a=0,05, и в особых случаях, требующих высокой точности, полагают a=0,01.

Статистический критерий. Критические области.

Статистическим критерием (или просто критерием) называется специально выработанная случайная величина К с известной функцией распределения, которая служит для проверки основной гипотезы. Значение критерия, вычисленное по выборке, называется наблюдаемым значением критерия и обозначается .

Критической областью называется множество значений критерия, при которых отвергается основная гипотеза. Границы критической области называются критическими точками kc.

Виды критических областей:

1) правосторонняя: если К > kc; применяется, если Н 1: z 1> z 2;

2) левосторонняя: если К <- kc; применяется, если Н 1: z 1< z 2;

3) двусторонняя: если К < kc 1 и К > kc 2, причем kc 2> kc 1; применяется, если Н 1: z 1¹ z 2. (правосторонняя или левосторонняя область называется односторонней).

Правило принятия решения при проверке статистической гипотезы.

Если наблюдаемое значение критерия принадлежит критической области, то Н 0 отвергается, а если не принадлежит, то Н 0 принимается. Например, для правосторонней критической области этот правило можно сформулировать в терминах критериев:

· если < kc, то нет оснований отвергнуть основную гипотезу;

· если ³ kc, то основная гипотеза отвергается.

Используя понятие критической области, можно сформулировать определение уровня значимости в следующем виде:

· для правосторонней критической области: Р (К > kc)=a;

· для левосторонней критической области: Р (К <- kc)=a;

· для двусторонней критической области: Р (К < kc 1)+ Р (К > kc 2)=a;

· для симметричной двусторонней критической области (когда kc 2=- kc 1 =kc): Р (К > kc)=a/2.

В Excel можно вычислить вероятность Р ( < kc). Тогда правило принятия решения при проверке статистической гипотезы может быть сформулировано в терминах вероятностей виде:

· если Р ( < kc)>a то нет оснований отвергнуть основную гипотезу;

· если Р ( < kc)<a то основная гипотеза отвергается.

§5.2. Критерий Фишера (F -тест) сравнения двух выборочных дисперсий

Критерий Фишера.

Для оценки значимости различия исправленных дисперсий и (пусть > ), рассчитанных по двум выборкам из генеральных совокупностей Х и Y, имеющих распределение, близкое к нормальному, используется критерий Фишера (или F - критерий).

Требуется проверить основную гипотезу Н 0: = .

Наблюдаемое значение критерия Фишера вычисляется по формуле:

. (4.1)

В числителе (4.1) всегда должна быть та дисперсия, которая больше!

Правило принятия решения при использовании критерия Фишера.

Если альтернативная гипотеза Н 1: > , то по таблице критических точек распределения Фишера (или вычисляется в Excel) для заданного уровня значимости a и чисел степеней свободы распределения Фишера, равных

kх = nх -1 и kу = nу -1, (4.2)

где nх и nу - объемы выборок, находится критическая точка распределения Фишера F a(kх, kу) правосторонней критической области. Это значение сравнивается с наблюдаемым значением критерия Фишера:

· если < F a(kх, kу), то нет оснований отвергнуть основную гипотезу, то есть различие между выборочными дисперсиями признается случайным и экспериментальные данные не противоречат предположению о равенстве генеральных дисперсий;

· если ³ F a(kх, kу), то основная гипотеза отвергается, то есть различие между выборочными дисперсиями признается существенным.

Сравнение дисперсий необходимо в различных случаях, например, для сравнения точности измерительных приборов, самих методов измерения. Очевидно, что предпочтительнее тот измерительный прибор или метод, который дает меньший разброс результатов измерений, то есть наименьшую дисперсию. Устанавливать, являются ли генеральные дисперсии двух выборок одинаковыми или различными, следует перед использованием критерия Стьюдента.

Сравнение дисперсий двух выборок средствами Excel.

Наиболее удобным и быстрым способом сравнения дисперсий двух выборок в Excel является использование Пакета анализа. Для этого в Пакете анализа имеется инструмент анализа под названием Двухвыборочный F-тест для дисперсии.

Вызов этого инструмента осуществляется выполнением команд Сервис ® Анализ данных. После этого, в появившемся диалоговом окне Анализ данных следует выбрать среди инструментов анализа нужный вам Двухвыборочный F-тест для дисперсии и нажать ОК. В результате появится новое диалоговое окно Двухвыборочный F-тест для дисперсии.

В этом окне следует:

· в группе Входные данные в поле Интервал переменной 1 ввести адрес интервала ячеек, содержащих данные первой измеренной величины (первая выборка), а в поле Интервал переменной 2 ввести адрес интервала ячеек, содержащих данные второй измеренной величины (вторая выборка);

· в поле Альфа установить уровень значимости (по умолчанию установлено a=0,05);

· в группе Параметры вывода, если вы хотите вывести результаты вычислений на текущем рабочем листе этого файла, то необходимо активизировать переключатель Выходной интервал и указать его адрес в поле справа;

· если вы хотите вывести результаты вычислений на другой рабочий лист, то следует активизировать переключатель Новый рабочий лист и ввести его адрес в поле справа;

· если вы хотите вывести результаты вычислений в новый файл, то следует активизировать переключатель Новая рабочая книга.

После того, как установлены все необходимые параметры, следует закрыть диалоговое окно нажатием на ОК.

В результате появится таблица, в которой будут содержаться вычисленные выборочные средние, дисперсии, для каждой выборки: число степеней свободы (4.2) для каждой выборки (в строке: df), наблюдаемое значение критерия Фишера (4.1) (в строке: F), вероятность того, что наблюдаемое значение критерия будет меньше критической точки односторонней критической области (в строке: Р(F<=f) одностороннее), критическая точка распределения односторонней критической области (в последней строке: F критическое одностороннее).

Для принятия решения следует сравнить наблюдаемое значение критерия Фишера, находящееся в строке F данной таблицы, с критической точкой распределения Фишера, находящейся в последней строке данной таблицы.

После проведения F -теста может оказаться, что дисперсия первой переменной меньше дисперсия второй переменной (что соответствует тому, что в формуле (4.1) в числителе оказалась меньшая дисперсия). Действительно, в Excel первой переменной считается та, наблюдаемые значения которой расположены в левом столбце (или верхней строке), а дисперсия первой выборки может оказаться меньше. Тогда в этом случае правило принятия решения меняется:

· если > F a, то нет оснований отвергнуть основную гипотезу;

· если < F a, то основная гипотеза отвергается.

В Excel в этом случае вычисляются значения критерия Фишера для проверки другой альтернативной гипотезы: Н 1: < .

§5.3. Критерий Стьюдента (t -тест) сравнения выборочных средних двух независимых выборок

Критерий Стьюдента.

Пусть из двух генеральных совокупностей Х и Y, имеющих распределение, близкое к нормальному, извлечено по одной независимой выборке. Вычисленные по этим выборкам средние значения и , как правило, различаются. В силу случайности выборки это различие может быть случайным, и генеральные средние и могут совпадать.

Требуется проверить основную гипотезу Н 0: = . Значимость различия между двумя выборочными средними и определяется с помощью критерия Стьюдента (или tкритерия).

Наблюдаемое значение критерия Стьюдента вычисляется по формуле:

, (4.3)

где величина называется ошибкой разности выборочных средних. Вычисление зависит от объемов выборок и того, предполагаются ли равными или нет неизвестные дисперсии генеральных совокупностей:

· если объемы выборок nх и nу примерно одинаковые и достаточно большие, т.е. nх >30 и nу >30, то

,

где и – дисперсии выборок из двух генеральных совокупностей Х и Y;

· если объемы выборок nх и nу малы, т.е. nх <30 и nу <30, а дисперсии генеральных совокупностей неизвестны и предполагаются равными, то

,

где и – исправленные дисперсии выборок из двух генеральных совокупностей Х и Y.

Поэтому перед вычислением критерия Стьюдента всегда следует проверить гипотезу о равенстве генеральных дисперсий с помощью критерия Фишера.

Правила принятия решения при использовании критерия Стьюдента.

1) Если альтернативная гипотеза Н 1: ¹ , то по таблице критических точек распределения Стьюдента (или вычисляется в Excel) для заданного уровня значимости a и числа степеней свободы распределения Стьюдента, равного

k = nх + nу -2, (4.4)

где nх и nу - объемы выборок, находится критическая точка двусторонней критической области t a(k). Это значение сравнивается с наблюдаемым значением критерия Стьюдента:

· если < t a(k), то нет оснований отвергнуть основную гипотезу, то есть различие между выборочными средними признается случайным и экспериментальные данные не противоречат предположению о равенстве генеральных средних;

· если ³ t a(k), то основная гипотеза отвергается, то есть различие между выборочными средними признается существенным.

2) Если альтернативная гипотеза Н 1: > , то по таблице критических точек распределения Стьюдента для заданного уровня значимости a (помещенного в нижней строке таблицы) и числа степеней свободы распределения Стьюдента k находится критическая точка правосторонней критической области t a(k). Это значение сравнивается с наблюдаемым значением критерия Стьюдента (4.3):

· если < t a(k), то нет оснований отвергнуть основную гипотезу;

· если ³ t a(k), то основная гипотеза отвергается.

Сравнение средних двух независимых выборок в Excel.

Наиболее быстрым и удобным способом проверки статистической гипотезы о равенстве средних в Excel является использование Пакета анализа. Поскольку критерий Стьюдента зависит от того, равны или нет дисперсии генеральных совокупностей, из которых произведены две независимые выборки, то для сравнения средних этих выборок, соответственно, имеется два инструмента анализа: Двухвыборочный t-тест с одинаковыми дисперсиями, Двухвыборочный t-тест с различными дисперсиями.

Для вызова любого из данных инструментов анализа необходимо выполнить команду Сервис ® Анализ данных, а затем в появившемся диалоговом окне Анализ данных выбрать нужный вам инструмент.

Естественно, что выбор t -теста можно осуществить, только после того, как произведена проверка гипотезы о равенстве генеральных дисперсий двух выборок и установлено с помощью критерия Фишера (F -теста), значимо ли различаются дисперсии выборок или нет. Если дисперсии выборок оказались равными, то следует выбрать инструмент Двухвыборочный t-тест с одинаковыми дисперсиями.

После нажатия на кнопку ОК появится диалоговое окно с названием выбранного инструмента анализа. Вид этого окна:

Порядок ввода данных в этом окне точно такой же, как и в диалоговом окне инструмента анализа Двухвыборочный F-тест для дисперсии.

В окне t -теста имеется поле гипотетическая разность средних, в которое при необходимости можно ввести предполагаемую разность генеральных средних. Обычно это поле оставляют незаполненным, что соответствует о том, что проверяется нулевая гипотеза о равенстве генеральных средних Н 0: = , различие которых предполагается случайным.

Переключатель Метки следует активизировать в том случае, если диапазон ячеек с входными данными содержит в первой строке заголовок. Поскольку, обычно во входных данных указываются адреса ячеек с результатами измерений, то переключатель Метки лучше не активизировать.

После заполнения необходимых полей диалогового окна Двухвыборочный t-тест с одинаковыми дисперсиями и нажатия на ОК появится таблица с таким же названием.

В появившейся таблице будут содержаться вычисленные средние и дисперсии для каждой выборки, объемы этих выборок (в строке: Наблюдения), теоретическая генеральная дисперсия обеих выборок (в строке: Объединенная дисперсия), число степеней свободы распределения Стьюдента (4.4) (в строке: df), наблюдаемое значение критерия Стьюдента (4.3) (в строке: t-статистика), вероятность того, что наблюдаемое значение критерия Стьюдента будет меньше или равно критической точке распределения Стьюдента правосторонней критической области (в строке: P(T<=t) одностороннее); критическая точка распределения Стьюдента для заданного уровня значимости a правосторонней критической области (в строке: t критическое одностороннее); вероятность того, что наблюдаемое значение критерия Стьюдента будет меньше или равно критической точке распределения Стьюдента двусторонней критической области (в строке: P(T<=t) двустороннее); критическую точку распределения Стьюдента двусторонней критической области (в строке: t критическое двустороннее).

Если после выполнения F -теста дисперсии выборок оказались различными, то следует выбрать инструмент Двухвыборочный t-тест с различными дисперсиями. После нажатия на кнопку ОК появится диалоговое окно с названием выбранного инструмента. Порядок заполнения полей в этом диалоговом окне точно такой же как и в предыдущем случае. Вычисляемая в t -тесте с различными дисперсиями таблица практически совпадает с таблицей, вычисляемой в t -тесте с одинаковыми дисперсиями, за исключением того, что в таблице t -теста с различными дисперсиями нет строки объединенная дисперсия.

Эти тесты для средних вычисляют различные значения критериев Стьюдента в тех случаях, когда дисперсии выборок отличаются существенно. Если дисперсии одинаковы, то оба теста вычисляют одинаковые значения.

Для принятия решения следует сравнить наблюдаемое значение критерия Стьюдента, находящееся в строке t-статистика, с критической точкой распределения Стьюдента двухсторонней критической области, находящейся в строке t критическое двухстороннее, если альтернативная гипотеза Н 1: ¹ , или с критической точкой распределения Стьюдента правосторонней критической области, находящейся в строке t критическое одностороннее, если альтернативная гипотеза Н 1: > . Решение принимается, исходя из правила принятия решения для модифицированного критерия Стьюдента.





Дата публикования: 2015-03-26; Прочитано: 1421 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.014 с)...