Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Режим работы «Двухвыборочный z -тест для средних» служит для проверки гипотезы о различии между средними (математическими ожиданиями) двух нормальных распределений с известными дисперсиями.
В диалоговом окне данного режима (рисунок 1) задаются следующие параметры:
- интервал переменной 1 - вводится ссылка на ячейки, содержащие результаты наблюдений величины X. Диапазон данных должен состоять из одного столбца или одной строки;
- интервал переменной 2 - вводится ссылка на ячейки, содержащие результаты наблюдений величины Y. Диапазон данных должен состоять из одного столбца или одной строки;
- гипотетическая средняя разность - вводится число, равное предполагаемой разности средних (математических ожиданий) изучаемых генеральных совокупностей. Значение 0 указывает на то, что проверяется гипотеза Н 0: ax=аy;
- дисперсия переметной 1 (известная) - вводится известное значение дисперсии генеральной совокупности величины X;
- дисперсия переменной 2 (известная) - вводится известное значение дисперсии генеральной совокупности величины Y;
- метки;
- альфа - вводится уровень значимости a, равный вероятности возникновения ошибки первого рода (отвержение нулевой гипотезы);
- выходной интервал/Новый рабочий лист/Новая рабочая книга/
Рисунок 1 - Диалоговое окно режима «Двухвыборочный z-тест для средних»
Пример 1. Выборочные данныео диаметре валиков (мм), изготовленных автоматом 1 и автоматом 2, приведены в таблице, сформированной на рабочем листе Microsoft Excel (таблица 1).
Таблица 1 - Выборочные данные
С | D | E | |
N п/п | Автомат 1 | Автомат 2 | |
182,30 | 185,30 | ||
183,00 | 185,60 | ||
181,80 | 184,80 | ||
181,40 | 186,20 | ||
181,80 | 185,80 | ||
181,60 | 184,00 | ||
183,20 | 184,20 | ||
182,40 | 185,20 | ||
182,50 | 184,20 | ||
179,70 | |||
179,90 | |||
181,90 | |||
182,80 | |||
183,40 | |||
Среднее | 182,00 | 185,00 |
По выборке объема n = 14 найден средний размер = 182,0 мм диаметра валиков, изготовленных автоматом 1 (ячейка D38 содержит формулу =CP3HAЧ(D24:D37)). По выборке объема m =9 найден средний размер =185,0 мм диаметра валиков, изготовленных автоматом 2 (ячейка E38 содержит формулу =СРЗНАЧ(Е24:Е32)).
Кроме того, предварительным анализом установлено, что размер диаметра валиков, изготовленных каждым автоматом, имеет нормальный закон распределения с дисперсией s х2 = 5 мм2 для автомата 1 и s у2 = 7мм2 для автомата 2. Можно ли при уровне значимости a = 0,05 объяснить различие выборочных средних случайной величиной? Или, иными словами, при уровне значимости a = 0,05 требуется проверить гипотезу H0:ax = ay.
Для решения задачи используем режим работы «Двухвыборочный z -тест для средних». Значения параметров, установленных в одноименном диалоговом окне, представлены на рисунке 2,а рассчитанные в данном режиме показатели - в таблице 2.
Рисунок 2 - Диалоговое окно режима с заданными параметрами
Таблица 2 - Результаты расчета для режима «Двухвыборочный z -тест для средних»
С | D | E | |||
Двухвыборочный z-тест для средних | |||||
Автомат 1 | Автомат 2 | ||||
Среднее | 181,98 | 185,03 | |||
Известная дисперсия | |||||
Наблюдения | |||||
Гипотетическая разность средних | |||||
z | -2,867 | ||||
P(Z<=z) одностороннее | 0,002 | ||||
z критическое одностороннее | 1,645 | ||||
P(Z<=z) двухстороннее | 0,004 | ||||
Z критическое двухстороннее | 1,960 | ||||
Так как значение zp попадает в критическую область (| zp |>| zкр |; 2,867 > 1,96), то гипотеза H0:ax = ay отвергается, т.е. считаем, что различие выборочных средних неслучайно.
Дадим более подробное пояснение проведенным расчетам, на основании которых и строился сформулированный вывод.
Так как нулевая гипотеза имеет вид H0: ax = ay, то альтернативная ей гипотеза будет иметь соответственно вид H1: ax = ay т.е. включать в себя два условия: ах<ay и ах>ay. В этом случае критическая область будет определяться двумя интервалами
(-¥; ) и (;+¥), где критические точки и определяются из условий и , которые с учетом равенства zкр = N (0,1)запишем в следующем виде: и .
По данной схеме находятся критические точки = -1,96 и = 1,96 (показатель z критическое двустороннее в таблице 2), задающие критическую область (-¥; -1,96)È(1,96; +¥). Модуль значений критических точек рассчитывается по формуле =НОРМСТОБР(1-0,05/2) в ячейке D52.
Расчетное значение критерия zp вычисляется в ячейке D48 по формуле =(D44-Е44)/КОРЕНЬ(D45/D46+Е45/Е46), где в ячейках D44 и Е44 рассчитываются средние значения выборок с помощью функции СРЗНАЧ; в ячейках D45 и Е45 содержатся значения дисперсий, установленные в диалоговом окне Двухвыборочный z -тест для средних; в ячейках D46 и Е46 рассчитываются объемы выборок с помощью функции СЧЕТ.
Расчетное значение критерия zp= -2,867 попадает в критический интервал (-¥; -1,96), поэтому нулевая гипотезе H0:ax = ay отвергается на уровне значимости a = 0,05.
Статистические функции, связанные с режимом «Двухвыборочный z-тест для средних»
Функция ZTECT -рассчитывает для определенного выборочного массива данных двустороннее р-значение z-mecma.
ZTECT (массив; х; сигма).
Здесь:
- массив: массив данных, с которыми сравнивается х;
- х: проверяемое значение;
- сигма: известное стандартное отклонение генеральной совокупности. Если этот аргумент опущен, то используется оценка генерального стандартного отклонения по выборке.
Замечания:
- • если массив пуст, то функция ZTECT помещает в ячейку значение ошибки #Н/Д.
Функция ZTECT служит для проверки гипотезы о числовом значении средней (математического ожидания) нормального распределения при известной дисперсии.
Заметим, если числовое значение стандартного отклонения генеральной совокупности не известно, то в функции используется оценка стандартного отклонения по представленной выборке.
Рассматривается случайная величина X=N(a, s), причем числовое значение математического ожидания а не известно, а числовое значение дисперсии s 2 известно.
Выдвигается гипотеза H0 о том, что среднее (математическое ожидание) равно числу а 0, т. е. H 0: а = а0. В этом случае альтернативная гипотеза будет иметь вид H 1: а ¹ а0.
В качестве критерия проверки гипотезы берется величина:
, (1)
которая при выполнении гипотезы подчиняется нормальному закону распределения с нулевым математическим ожиданием и единичной дисперсией.
Пример 2. Результаты девяти выборочных замеров времени изготовления детали (мин) приведены в таблице 3, сформированной на рабочем листе Microsoft Excel.
Таблица 3 - Исходные данные
F | G | |
Номер замера | Время изготовления, мин | |
Предполагается, что время изготовления - нормально распределенная случайная величина. На уровне значимости a = 0,05 требуется решить:
1) можно ли принять 50 мин в качестве нормативного времени (математического ожидания) изготовления детали?
2) можно ли принять за норматив 49 мин?
Для варианта 1 проверяется статистическая гипотеза Н0: ах = = 50 мин, а для варианта 2 - гипотеза Н0: ах = 49 мин.
Расчетные показатели для проверки выдвинутых гипотез приведены в таблице 4.
Таблица 4 - Расчетные показатели
F | G | |
Номер замера | Время изготовления, мин | |
Среднее | ||
Оценка стандартного отклонения | 2,4 | |
z критические двусторонние | -1,96 | |
z расчетное (ах = 50) | -2,5 | |
z расчетное (ах = 49) | -1.25 | |
z расчетное (ах = 50) с помощью функции ZTEST | -2,5 | |
z расчетное (ах = 49) с помощью функции ZTEST | -1,25 |
Содержимое ячеек в таблице 4:
- массив G24:G32 содержит исходные данные задачи;
- ячейка G33 содержит формулу =CP3HAЧ(G24:G32) - рассчитывается среднее значение выборки;
- ячейка G34 содержит формулу =CTAHДOTKJIOH(G24:G32) - оценивается стандартное отклонение по выборке;
- ячейка G36 содержит формулу =НОРМСТОБР(0,05/2) - вычисляются критические точки и тем самым задается критическая область (-¥; -1,96) È (1,96; +¥);
- ячейки G37 и G38 содержат соответственно формулы (G33 - 50)/G34∙3 и =(G33-49)/G34∙3, которые вычисляют расчетные значения
z -критерия для гипотез Н0: ах= 50 мин и Н0: ах= 49 мин (здесь , п = 9 - объем выборки);
- ячейки G40 и G41 содержат соответственно формулы =HOPMCTOБP(1-ZTECT(G24:G32;50)) и
=НОРМСТОБР(1-ZTECT(G24:G32;50)), которые вычисляют расчетный значения z -критерия с использованием функции ZTЕСТ, рассчитывающей вероятностные значения z -теста.
Заметим, чтов постановке задачи не приведена информация о значении генерального стандартного отклонения, поэтому использовалась оценка генерального стандартного отклонения по предоставленной выборке.
При проверке гипотезы Н0: ах = 50 мин расчетное значение критерия zp = -2,50 попадает в критический интервал (-¥; -1,96), поэтому данная гипотеза отвергается, а принимается альтернативная гипотеза Н1: ах = 48 мин (среднее значение, вычисленное по представленной выборке). Или, иначеговоря, 50 мин нельзя считать нормативным временем изготовления детали, и за норматив берется время 48 мин.
При проверке гипотезы Н0: ах = 49 мин расчетное значение критерия zp = -2,50 не попадает в критическую область (-¥; -1,96) È (1,96; +¥), поэтому данная гипотеза не отвергается, т.е. за норматив времени изготовления детали выбирают 49 мин.
Заметим, что функция ZTECT аналогична функции НОРМРАСП при условии, что в качестве аргумента s используется аргумент m,выражающий стандартное отклонение выборочной средней от генеральной средней и получивший название средней ошибки выборки.
Зная, что
, (2)
можно вывести формулу
. (3)
1.2 Двухвыборочный t -тест с одинаковыми и различными дисперсиями
Режимы работы «Двухвыборочный t -тест с одинаковыми дисперсиями» (гомоскедастический тест) и «Двухвыборочный t -тест с различными дисперсиями» (гетероскедастический тест) служат для проверки гипотез о различии между средними (математическими ожиданиями) двух нормальных распределений соответственно с неизвестными, но равными дисперсиями (s2X = s2Y) и с неизвестными дисперсиями, равенство которых не предполагается (s2X ¹ s2Y).
В диалоговых окнах данных режимов (рисунки 3 и 4) задаются параметры, аналогичные параметрам, задаваемым в диалоговом окне Двухвыборочный z -тест для средних (рисунок 1), только отсутствуют поля Дисперсия переменной 1 (известная) и Дисперсия переменной 2 (известная).
Рисунок 3 - Диалоговое окно «Двухвыборочный t -тест с одинаковыми дисперсиями»
Рисунок 4 - Диалоговое окно «Двухвыборочный t -тест с различными дисперсиями»
Пример 3. Выборочные данные о расходе сырья при производстве продукции по старой и новой технологиям приведены в таблице 5, сформированной на рабочем листе Microsoft Excel.
При уровне значимости a = 0,05 требуется проверить гипотезу H 0: a X = a Y, предположив, что соответствующие генеральные cовокупности X и Y имеют нормальные распределения:
1) с одинаковыми дисперсиями s2X = s2Y;
2) с различными дисперсиями s2X ¹s2Y;
Для проверки предположения 1 используем режим работы «Двухвыборочный t -тест с одинаковыми дисперсиями», а для проверки предположения 2 - «Двухвыборочный t -тест с различными дисперсиями». Значения параметров, установленных в одноименных диалоговых окнах, представлены на рисунках 5 и 6, а рассчитанные в этих режимах показатели - в таблицах 6 и 7 соответственно.
Таблица 5 - Исходные данные
C | D | E | |
Номер изделия | Новая технология | Старая технология | |
Рисунок 5 - Диалоговое окно «Двухвыборочный t -тест с одинаковыми дисперсиями» с заданными параметрами
Таблица 6 - Результаты расчета для режима «Двухвыборочный t -тест с одинаковыми дисперсиями»
C | D | E | |
Двухвыборочный t-тест с одинаковыми дисперсиями | |||
Новая технология | Старая технология | ||
Среднее | 304,77 | 307,11 | |
Дисперсия | 2,19 | 1,61 | |
Наблюдения | |||
Объединенная дисперсия | 1,96 | ||
Гипотетическая разность средних | |||
df | |||
t-статистика | -3,86 | ||
P(T<=t) одностороннее | 0,0005 | ||
t критическое одностороннее | 1,72 | ||
P(T<=t) двухстороннее | 0,0010 | ||
t критическое двухстороннее | 2,09 |
Рисунок 6 - Диалоговое окно «Двухвыборочный t -тест с различными дисперсиями» с заданными параметрами
Для предположения 1 величина t р = -3,86, а критическая область образуется интервалами (-¥; -2,09)È(2,09; +¥). Для предположения 2 величина t р = -3,97, а критическая область образуется интервалами (-¥; -2,09)È (2,09; +¥). Так как величина tp в обоих случаях попадает в критический интервал (-¥; -2,09), то гипотезу H 0: a X = a Y, отвергаем, т.е. при переходе на новую технологию происходит изменение среднего расхода сырья на одно изделие. При этом, конечно, следует иметь в виду, что данное заключение может оказаться ошибочным (на самом деле аX = аY), т. е. имеет место ошибка первого рода, вероятность которой равна a = 0,05.
Таблица 7 - Результаты расчета для режима «Двухвыборочный t -тест с различными дисперсиями»
C | D | E | |
Двухвыборочный t-тест с различными дисперсиями | |||
Новая технология | Старая технология | ||
Среднее | 304,77 | 307,11 | |
Дисперсия | 2,19 | 1,61 | |
Наблюдения | |||
Гипотетическая разность средних | |||
df | |||
t-статистика | -3,97 | ||
P(T<=t) одностороннее | 0,0004 | ||
t критическое одностороннее | 1,73 | ||
P(T<=t) двухстороннее | 0,0008 | ||
t критическое двухстороннее | 2,093 |
Заметим, что и в первом, и во втором случае получены результаты, несущественно отличающиеся друг от друга (в первом случае t р = -3,86, во втором случае t р = -3,97). Данное обстоятельство еще раз подтверждает, что для проверки гипотезы Н0: аX= aY при предположении s2X ¹s2Y можно пользоваться и критерием
особенно в тех случаях, когда предполагается, что s2X иs2Y различаются незначительно.
Рассмотрим более подробно механизм расчетов основных показателей, представленных в таблицах 6 и 7.
В первом случае (таблица 6) расчетное значение критерия tp вычисляется в ячейке D42 по формуле:
=(D36-E36)/KOPEHЬ(D39)/KOPEHЬ(l/D38+l/E38),
где в ячейках D36 и Е36 рассчитываются средние значения выборок с помощью функции СРЗНАЧ;
в ячейках D38 и Е38 определяются объемы выборок с помощью функции СЧЕТ;
в ячейке D39 вычисляется оценка объединенной дисперсии, рассчитываемая, в свою очередь, по формуле =(D37∙(D38-1)+E37∙ (E38-1))/((D38-1)+(E38-1)), где в ячейках D37 и Е37 вычисляются оценки дисперсий с помощью функции ДИСП.
Число степеней свободы (показатель df) рассчитывается в ячейке D41 по формуле =D38+E38-2, а модуль значения критических точек (показатель t критическое двустороннее) вычисляется в ячейке D46 по формуле =СТЬЮДРАСПОБР(0,05;D41).
Во втором случае (таблица 7) расчетное значение критерия t р вычисляется в ячейке D57 по формуле =(D52-E52)/KOPEHЬ(D53/D54+E53/E54), где в ячейках D52 и Е52 рассчитываются средние значения выборок с помощью функции СРЗНАЧ;
в ячейках D53 и Е53 вычисляются оценки дисперсий с помощью функции ДИСП;
в ячейках D54 и Е54 определяются объемы выборок с помощью функции СЧЕТ.
Число степеней свободы (показатель df) рассчитывается в ячейке D56 по формуле =((D53/D54+E53/E54)^2)/((D53/D54)^2/(D54-
-1)+(Е53/Е54)^2/(Е54-1)), после чего оно округляется до целого числа с помощью функции ОКРУГЛ (здесь k = 18,96, после округления которого показатель df = 19).
Модуль значения критических точек (показатель t критическое двустороннее) рассчитывается в ячейке D61 по формуле =СТЬЮДРАСПОБР(0,05;D56).
Дата публикования: 2014-12-30; Прочитано: 4607 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!