Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Сравнение эмпирического распределения с теоретическим производят с помощью статистических методов проверки гипотез



Для проверки гипотезы о распределениях к настоящему времени разработано много различных критериев. Наиболее широкое распространение получил так называемый критерий согласия «хи-квадрат» (или критерий Пирсона). Данный критерий применяется для сгруппированных данных и представляет собой случайную величину, имеющую распределение близкое к распределению «хи-квадрат». Обозначают ее c 2 (x) и рассчитывают по формуле:

c 2 (x) = , (*)

где m -число групп;

nj – эмпирическая частота в j -ой группе;

n'j – теоретическая частота в j -ой группе.

Если расхождение между сравниваемыми эмпирическими и теоретическими частотами распределения окажется слишком большим, т.е. величина критерия c 2 (x) будет принимать большие численные значения, то гипотезу о соответствии эмпирического распределения теоретическому следует отвергнуть.

Если расхождение окажется небольшим, то есть величина критерия c 2 (x) будет принимать небольшие численные значения, то гипотезу о соответствии эмпирического распределения теоретическому можно будет признать не противоречащей данным наблюдения.

Для оценки существенности величины c 2 (x) определяют критическое значение (c 2кр) по таблицам значений c 2 –критерия Пирсона в зависимости от уровня значимости a и числа степеней свободы (k), которое равно k = m-p -1, где p - число оцененных параметров теоретического распределения.

Если c 2 > c 2кр, то гипотеза о соответствии эмпирического распределения теоретическому отклоняется и наоборот.

Порядок расчета величины критерия «хи-квадрат» зависит от вида распределения (дискретное или интервальное).

Если проверяется гипотеза для дискретного ряда распределения, то порядок расчета c 2 следующий:

1) строится эмпирический ряд распределения и находятся эмпирические частоты nj. При этом может оказаться, что для некоторых групп nj <5 (обычно в начале или конце ряда). Такие группы следует объединить с соседними, чтобы условие nj ≥5 выполнялось для всех групп.

2) рассчитываются теоретические вероятности pj, для объединенных групп соответствующие вероятности суммируются. Если проверяется2-ой вид гипотез о распределении (о виде распределения), то расчету теоретических вероятностей должно предшествовать оценивание неизвестных параметров (например, методом максимума правдоподобия).

3) вычисляются ожидаемые частоты: n’j = n · pj, где n – объем выборки;

4) вычисляется значение статистики критерия «хи-квадрат» по формуле (*).

Затем определяют критическое значение c2kр по таблицам распределения Пирсона.

Если исследуемая переменная непрерывна, то порядок расчета остается прежним. При этом эмпирический ряд распределения строится как интервальный. Теоретические вероятности pj рассчитываются через интегральную функцию теоретического распределения - F (х), как: pj = F (хвj) - F (хнj),

где хвj и хнj - соответственно верхняя и нижняя границы j –го интервала.

После этого может быть применена описанная выше методика проверки гипотезы.

ПРИМЕР. Имеются данные о 100 студентах, характеризующихся признаком х- время, потраченное студентом на самостоятельную работу при изучении статистики (час.). Требуется проверить гипотезу о нормальном распределении признака х в генеральной совокупности. Исходные данные представлены в виде равноинтервальной группировки:

Время, потраченное на самостоятельную работу, час.– (xн j; x вj) Число студентов – эмпирическая частота (nj) Стандартизованное значение признака – (tнj; tвj) Значение интегральной функции станадартного нормального распределения Теоретическая вероятность – Рj Теоретическая частота, n‘j (nj – n‘j) 2/ n‘j
Ф(t н j) Ф(t в j)
[20; 40)   [-2,48; -1,51) 0,0066 0,0659 0,0593 5,93 0,147
[40; 60)   [-1,51; -0,53) 0,0659 0,2964 0,2305 23,05 0,165
[60; 80)   [-0,53; 0,44) 0,2964 0,6691 0,3727 37,27 0,200
[80; 100)   [0,44; 1,41) 0,6691 0,9207 0,2516 25,16 1,057
[100; 120]   [1,41; 2,38] 0,9207 0,9914 0,0707 7,07 1,213
Итого         0,9848 98,48 2,78

Если мы предполагаем, что распределение x нормально, то величина t =(x – )/ s должна иметь стандартное нормальное распределение (с математическим ожиданием равным нулю и средним квадратическим отклонением равным единице). Причем - среднее значение , хj – середина интервала в j–ой группе; s- исправленное среднее квадратическое отклонение, представляющее собой корень квадратный из исправленной дисперсии: s 2= .

Для условий нашего примера:

=(30·5+50·25+70·40+90·20+110·10)/100=71.

s 2=((30-71)2·5+(50-71)2·25+(70-71)2·40+(90-71)2·20+(110-71)2·10)/(100-1)=423,23.

s =20,57.

Рассчитаем стандартизованные значения (t).

Для первой группы: t н1 =(20-71)/20,57= -2,48, t в1 =(40-71)/20,57= -1,51. Результаты остальных расчетов приведены в таблице (столбец 3).

Для определения теоретических вероятностей (Pj) найдем значения интегральной функции стандартного нормального распределения Ф(t) для нижней и верхней границ интервалов (по соответствующим статистическим таблицам). Затем для каждой группы (j) рассчитаем Pj по формуле: Pj = Ф(t в j) -Ф(t н j). Результаты расчетов приведены в таблице (столбцы 4,5).

Затем определим теоретические частоты (n‘J) по формуле: n‘j=Pj·n, n - объем выборки. В нашем примере n =100. (столбец 6).

Теперь мы можем рассчитать наблюдаемое значение статистики критерия - c 2набл по формуле (*). Для нашего примера c 2набл = 2,78 (смотри итоговую строку в столбце 7).

Найдем критическое значение статистики критерия - c 2кр. При уровне значимости a =0,05 и числе степеней свободы k = m-p -1=5-2-1=2. (р=2, т.к мы оценивали два параметра нормального распределения: мат.ожидание а= =71 и среднее квадратическое отклонение s=20,57). По таблице критических значений c 2 –критерия Пирсона найдем, что c 2кр(0,05; 2)=5,99.

Так как c 2набл = 2,78< c 2кр(0,05; 2)=5,99 нет оснований отвергать гипотезу о нормальном характере распределения признака x в генеральной совокупности.

Контрольные вопросы.

1. Дайте понятие рядов распределения. Назовите их основные виды.

2. Назовите основные элементы ряда распределения.

3. Какие графики используют для изображения рядов распределений.

4. Перечислите основные этапы анализа рядов распределения.

5. Как рассчитать среднее арифметическое по сгруппированным и несгруппированным данным. Перечислите основные свойства среднего арифметического.

6. Что такое квантиль распределения. Какие виды квантилей Вы знаете.

7. Что такое мода, как она рассчитывается.

8. Как рассчитываются абсолютные показатели вариации признака: размах, среднее линейное отклонение, среднее квадратическиое отклонение, дисперсия.

9. Для чего используют относительные показатели вариации. Какие относительные показатели вариации Вы знаете.

10. В чем состоит теорема о разложении дисперсии при группировании. Опишите основные области ее применения.

11. Какие показатели формы распределения признака Вы знаете.

12. Опишите методику проверки гипотезы о соответствии эмпирического распределения теоретическому.





Дата публикования: 2015-01-09; Прочитано: 1092 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.007 с)...