Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Двухвыборочный z-тест для средних



Режим работы «Двухвыборочный z -тест для средних» служит для проверки гипотезы о различии между средними (математическими ожиданиями) двух нормальных распределений с известными дисперсиями.

В диалоговом окне данного режима (рисунок 1) задаются следующие параметры:

- интервал переменной 1 - вводится ссылка на ячейки, содержащие результаты наблюдений величины X. Диапазон данных должен состоять из одного столбца или одной строки;

- интервал переменной 2 - вводится ссылка на ячейки, содержащие результаты наблюдений величины Y. Диапазон данных должен состоять из одного столбца или одной строки;

- гипотетическая средняя разность - вводится число, равное предполагаемой разности средних (математических ожиданий) изучаемых генеральных совокупностей. Значение 0 указывает на то, что проверяется гипотеза Н 0: axy;

- дисперсия переметной 1 (известная) - вводится известное значение дисперсии генеральной совокупности величины X;

- дисперсия переменной 2 (известная) - вводится известное значение дисперсии генеральной совокупности величины Y;

- метки;

- альфа - вводится уровень значимости a, равный вероятности возникновения ошибки первого рода (отвержение нулевой гипотезы);

- выходной интервал/Новый рабочий лист/Новая рабочая книга/

Рисунок 1 - Диалоговое окно режима «Двухвыборочный z-тест для средних»

Пример 1. Выборочные данныео диаметре валиков (мм), изготовленных автоматом 1 и автоматом 2, приведены в таблице, сформированной на рабочем листе Microsoft Excel (таблица 1).

Таблица 1 - Выборочные данные

  С D E
  N п/п Автомат 1 Автомат 2
    182,30 185,30
    183,00 185,60
    181,80 184,80
    181,40 186,20
    181,80 185,80
    181,60 184,00
    183,20 184,20
    182,40 185,20
    182,50 184,20
    179,70  
    179,90  
    181,90  
    182,80  
    183,40  
  Среднее 182,00 185,00

По выборке объема n = 14 найден средний размер = 182,0 мм диаметра валиков, изготовленных автоматом 1 (ячейка D38 содержит формулу =CP3HAЧ(D24:D37)). По выборке объема m =9 найден средний размер =185,0 мм диаметра валиков, изготовленных автоматом 2 (ячейка E38 содержит формулу =СРЗНАЧ(Е24:Е32)).

Кроме того, предварительным анализом установлено, что размер диаметра валиков, изготовленных каждым автоматом, имеет нормальный закон распределения с дисперсией s х2 = 5 мм2 для автомата 1 и s у2 = 7мм2 для автомата 2. Можно ли при уровне значимости a = 0,05 объяснить различие выборочных средних случайной величиной? Или, иными словами, при уровне значимости a = 0,05 требуется проверить гипотезу H0:ax = ay.

Для решения задачи используем режим работы «Двухвыборочный z -тест для средних». Значения параметров, установленных в одноименном диалоговом окне, представлены на рисунке 2,а рассчитанные в данном режиме показатели - в таблице 2.

Рисунок 2 - Диалоговое окно режима с заданными параметрами

Таблица 2 - Результаты расчета для режима «Двухвыборочный z -тест для средних»

    С D E
  Двухвыборочный z-тест для средних  
         
      Автомат 1 Автомат 2
    Среднее 181,98 185,03
    Известная дисперсия    
    Наблюдения    
    Гипотетическая разность средних    
    z -2,867  
    P(Z<=z) одностороннее 0,002  
    z критическое одностороннее 1,645  
    P(Z<=z) двухстороннее 0,004  
    Z критическое двухстороннее 1,960  
           

Так как значение zp попадает в критическую область (| zp |>| zкр |; 2,867 > 1,96), то гипотеза H0:ax = ay отвергается, т.е. считаем, что различие выборочных средних неслучайно.

Дадим более подробное пояснение проведенным расчетам, на основании которых и строился сформулированный вывод.

Так как нулевая гипотеза имеет вид H0: ax = ay, то альтернативная ей гипотеза будет иметь соответственно вид H1: ax = ay т.е. включать в себя два условия: ах<ay и ах>ay. В этом случае критическая область будет определяться двумя интервалами

(-¥; ) и (;+¥), где критические точки и определяются из условий и , которые с учетом равенства zкр = N (0,1)запишем в следующем виде: и .

По данной схеме находятся критические точки = -1,96 и = 1,96 (показатель z критическое двустороннее в таблице 2), задающие критическую область (-¥; -1,96)È(1,96; +¥). Модуль значений критических точек рассчитывается по формуле =НОРМСТОБР(1-0,05/2) в ячейке D52.

Расчетное значение критерия zp вычисляется в ячейке D48 по формуле =(D44-Е44)/КОРЕНЬ(D45/D46+Е45/Е46), где в ячейках D44 и Е44 рассчитываются средние значения выборок с помощью функции СРЗНАЧ; в ячейках D45 и Е45 содержатся значения дисперсий, установленные в диалоговом окне Двухвыборочный z -тест для средних; в ячейках D46 и Е46 рассчитываются объемы выборок с помощью функции СЧЕТ.

Расчетное значение критерия zp= -2,867 попадает в критический интервал (-¥; -1,96), поэтому нулевая гипотезе H0:ax = ay отвергается на уровне значимости a = 0,05.

Статистические функции, связанные с режимом «Двухвыборочный z-тест для средних»

Функция ZTECT -рассчитывает для определенного выборочного массива данных двустороннее р-значение z-mecma.

ZTECT (массив; х; сигма).

Здесь:

- массив: массив данных, с которыми сравнивается х;

- х: проверяемое значение;

- сигма: известное стандартное отклонение генеральной совокупности. Если этот аргумент опущен, то используется оценка генерального стандартного отклонения по выборке.

Замечания:

- • если массив пуст, то функция ZTECT помещает в ячейку значение ошибки #Н/Д.

Функция ZTECT служит для проверки гипотезы о числовом значении средней (математического ожидания) нормального распределения при известной дисперсии.

Заметим, если числовое значение стандартного отклонения генеральной совокупности не известно, то в функции используется оценка стандартного отклонения по представленной выборке.

Рассматривается случайная величина X=N(a, s), причем числовое значение математического ожидания а не известно, а числовое значение дисперсии s 2 известно.

Выдвигается гипотеза H0 о том, что среднее (математическое ожидание) равно числу а 0, т. е. H 0: а = а0. В этом случае альтернативная гипотеза будет иметь вид H 1: а ¹ а0.

В качестве критерия проверки гипотезы берется величина:

, (1)

которая при выполнении гипотезы подчиняется нормальному закону распределения с нулевым математическим ожиданием и единичной дисперсией.

Пример 2. Результаты девяти выборочных замеров времени изготовления детали (мин) приведены в таблице 3, сформированной на рабочем листе Microsoft Excel.

Таблица 3 - Исходные данные

  F G
  Номер замера Время изготовления, мин
     
     
     
     
     
     
     
     
     

Предполагается, что время изготовления - нормально распределенная случайная величина. На уровне значимости a = 0,05 требуется решить:

1) можно ли принять 50 мин в качестве нормативного времени (математического ожидания) изготовления детали?

2) можно ли принять за норматив 49 мин?

Для варианта 1 проверяется статистическая гипотеза Н0: ах = = 50 мин, а для варианта 2 - гипотеза Н0: ах = 49 мин.

Расчетные показатели для проверки выдвинутых гипотез приведены в таблице 4.

Таблица 4 - Расчетные показатели

  F G
  Номер замера Время изготовления, мин
     
     
     
     
     
     
     
     
     
  Среднее  
  Оценка стандартного отклонения 2,4
     
  z критические двусторонние -1,96
  z расчетное (ах = 50) -2,5
  z расчетное х = 49) -1.25
     
  z расчетное (ах = 50) с помощью функции ZTEST -2,5
  z расчетное (ах = 49) с помощью функции ZTEST -1,25

Содержимое ячеек в таблице 4:

- массив G24:G32 содержит исходные данные задачи;

- ячейка G33 содержит формулу =CP3HAЧ(G24:G32) - рассчитывается среднее значение выборки;

- ячейка G34 содержит формулу =CTAHДOTKJIOH(G24:G32) - оценивается стандартное отклонение по выборке;

- ячейка G36 содержит формулу =НОРМСТОБР(0,05/2) - вычисляются критические точки и тем самым задается критическая область (-¥; -1,96) È (1,96; +¥);

- ячейки G37 и G38 содержат соответственно формулы (G33 - 50)/G34∙3 и =(G33-49)/G34∙3, которые вычисляют расчетные значения
z -критерия для гипотез Н0: ах= 50 мин и Н0: ах= 49 мин (здесь , п = 9 - объем выборки);

- ячейки G40 и G41 содержат соответственно формулы =HOPMCTOБP(1-ZTECT(G24:G32;50)) и

=НОРМСТОБР(1-ZTECT(G24:G32;50)), которые вычисляют расчетный значения z -критерия с использованием функции ZTЕСТ, рассчитывающей вероятностные значения z -теста.

Заметим, чтов постановке задачи не приведена информация о значении генерального стандартного отклонения, поэтому использовалась оценка генерального стандартного отклонения по предоставленной выборке.

При проверке гипотезы Н0: ах = 50 мин расчетное значение критерия zp = -2,50 попадает в критический интервал (-¥; -1,96), поэтому данная гипотеза отвергается, а принимается альтернативная гипотеза Н1: ах = 48 мин (среднее значение, вычисленное по представленной выборке). Или, иначеговоря, 50 мин нельзя считать нормативным временем изготовления детали, и за норматив берется время 48 мин.

При проверке гипотезы Н0: ах = 49 мин расчетное значение критерия zp = -2,50 не попадает в критическую область (-¥; -1,96) È (1,96; +¥), поэтому данная гипотеза не отвергается, т.е. за норматив времени изготовления детали выбирают 49 мин.

Заметим, что функция ZTECT аналогична функции НОРМРАСП при условии, что в качестве аргумента s используется аргумент m,выражающий стандартное отклонение выборочной средней от генеральной средней и получивший название средней ошибки выборки.

Зная, что

, (2)

можно вывести формулу

. (3)

1.2 Двухвыборочный t -тест с одинаковыми и различными дисперсиями

Режимы работы «Двухвыборочный t -тест с одинаковыми дисперсиями» (гомоскедастический тест) и «Двухвыборочный t -тест с различными дисперсиями» (гетероскедастический тест) служат для проверки гипотез о различии между средними (математическими ожиданиями) двух нормальных распределений соответственно с неизвестными, но равными дисперсиями (s2X = s2Y) и с неизвестными дисперсиями, равенство которых не предполагается (s2X ¹ s2Y).

В диалоговых окнах данных режимов (рисунки 3 и 4) задаются параметры, аналогичные параметрам, задаваемым в диалоговом окне Двухвыборочный z -тест для средних (рисунок 1), только отсутствуют поля Дисперсия переменной 1 (известная) и Дисперсия переменной 2 (известная).

Рисунок 3 - Диалоговое окно «Двухвыборочный t -тест с одинаковыми дисперсиями»

Рисунок 4 - Диалоговое окно «Двухвыборочный t -тест с различными дисперсиями»

Пример 3. Выборочные данные о расходе сырья при производстве продукции по старой и новой технологиям приведены в таблице 5, сформированной на рабочем листе Microsoft Excel.

При уровне значимости a = 0,05 требуется проверить гипотезу H 0: a X = a Y, предположив, что соответствующие генеральные cовокупности X и Y имеют нормальные распределения:

1) с одинаковыми дисперсиями s2X = s2Y;

2) с различными дисперсиями s2X ¹s2Y;

Для проверки предположения 1 используем режим работы «Двухвыборочный t -тест с одинаковыми дисперсиями», а для проверки предположения 2 - «Двухвыборочный t -тест с различными дисперсиями». Значения параметров, установленных в одноименных диалоговых окнах, представлены на рисунках 5 и 6, а рассчитанные в этих режимах показатели - в таблицах 6 и 7 соответственно.

Таблица 5 - Исходные данные

  C D E
  Номер изделия Новая технология Старая технология
       
       
       
       
       
       
       
       
       
       
       
       
       

Рисунок 5 - Диалоговое окно «Двухвыборочный t -тест с одинаковыми дисперсиями» с заданными параметрами

Таблица 6 - Результаты расчета для режима «Двухвыборочный t -тест с одинаковыми дисперсиями»

  C D E
  Двухвыборочный t-тест с одинаковыми дисперсиями
       
    Новая технология Старая технология
  Среднее 304,77 307,11
  Дисперсия 2,19 1,61
  Наблюдения    
  Объединенная дисперсия 1,96  
  Гипотетическая разность средних    
  df    
  t-статистика -3,86  
  P(T<=t) одностороннее 0,0005  
  t критическое одностороннее 1,72  
  P(T<=t) двухстороннее 0,0010  
  t критическое двухстороннее 2,09  

Рисунок 6 - Диалоговое окно «Двухвыборочный t -тест с различными дисперсиями» с заданными параметрами

Для предположения 1 величина t р = -3,86, а критическая область образуется интервалами (-¥; -2,09)È(2,09; +¥). Для предположения 2 величина t р = -3,97, а критическая область образуется интервалами (-¥; -2,09)È (2,09; +¥). Так как величина tp в обоих случаях попадает в критический интервал (-¥; -2,09), то гипотезу H 0: a X = a Y, отвергаем, т.е. при переходе на новую технологию происходит изменение среднего расхода сырья на одно изделие. При этом, конечно, следует иметь в виду, что данное заключение может оказаться ошибочным (на самом деле аX = аY), т. е. имеет место ошибка первого рода, вероятность которой равна a = 0,05.

Таблица 7 - Результаты расчета для режима «Двухвыборочный t -тест с различными дисперсиями»

  C D E
  Двухвыборочный t-тест с различными дисперсиями
       
    Новая технология Старая технология
  Среднее 304,77 307,11
  Дисперсия 2,19 1,61
  Наблюдения    
  Гипотетическая разность средних    
  df    
  t-статистика -3,97  
  P(T<=t) одностороннее 0,0004  
  t критическое одностороннее 1,73  
  P(T<=t) двухстороннее 0,0008  
  t критическое двухстороннее 2,093  

Заметим, что и в первом, и во втором случае получены результаты, несущественно отличающиеся друг от друга (в первом случае t р = -3,86, во втором случае t р = -3,97). Данное обстоятельство еще раз подтверждает, что для проверки гипотезы Н0: аX= aY при предположении s2X ¹s2Y можно пользоваться и критерием

особенно в тех случаях, когда предполагается, что s2X иs2Y различаются незначительно.

Рассмотрим более подробно механизм расчетов основных показателей, представленных в таблицах 6 и 7.

В первом случае (таблица 6) расчетное значение критерия tp вычисляется в ячейке D42 по формуле:

=(D36-E36)/KOPEHЬ(D39)/KOPEHЬ(l/D38+l/E38),

где в ячейках D36 и Е36 рассчитываются средние значения выборок с помощью функции СРЗНАЧ;

в ячейках D38 и Е38 определяются объемы выборок с помощью функции СЧЕТ;

в ячейке D39 вычисляется оценка объединенной дисперсии, рассчитываемая, в свою очередь, по формуле =(D37∙(D38-1)+E37∙ (E38-1))/((D38-1)+(E38-1)), где в ячейках D37 и Е37 вычисляются оценки дисперсий с помощью функции ДИСП.

Число степеней свободы (показатель df) рассчитывается в ячейке D41 по формуле =D38+E38-2, а модуль значения критических точек (показатель t критическое двустороннее) вычисляется в ячейке D46 по формуле =СТЬЮДРАСПОБР(0,05;D41).

Во втором случае (таблица 7) расчетное значение критерия t р вычисляется в ячейке D57 по формуле =(D52-E52)/KOPEHЬ(D53/D54+E53/E54), где в ячейках D52 и Е52 рассчитываются средние значения выборок с помощью функции СРЗНАЧ;

в ячейках D53 и Е53 вычисляются оценки дисперсий с помощью функции ДИСП;

в ячейках D54 и Е54 определяются объемы выборок с помощью функции СЧЕТ.

Число степеней свободы (показатель df) рассчитывается в ячейке D56 по формуле =((D53/D54+E53/E54)^2)/((D53/D54)^2/(D54-
-1)+(Е53/Е54)^2/(Е54-1)), после чего оно округляется до целого числа с помощью функции ОКРУГЛ (здесь k = 18,96, после округления которого показатель df = 19).

Модуль значения критических точек (показатель t критическое двустороннее) рассчитывается в ячейке D61 по формуле =СТЬЮДРАСПОБР(0,05;D56).





Дата публикования: 2014-12-30; Прочитано: 4607 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.017 с)...