Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Рассмотрим случай, наиболее часто встречающийся на практике, когда неизвестно ни математическое ожидание , ни дисперсия измеряемой величины. Произведём оценку этих величин по выборке .
(3.1)
На основе выборки составляется статистика
(3.2)
где - одно из возможных значений в выборке .
Производится проверка гипотезы о том, что математическое ожидание равно .
Статистика имеет степеней свободы, т.к. в формуле (3.2) используется две величины ( и ), являющиеся функцией выборочных значений . Случайные величины имеют плотность вероятности [4, стр. 26], равную
, , (3.3)
и связаны со случайными величинами , распределенными по закону Стьюдента с степенями свободы
, ,
где - функция распределения Стьюдента с степенями свободы.
В [4], [7] приведены таблицы - процентных точек распределения Стьюдента,
Критическое значение при проверки гипотезы : определяется как
, (3.4)
где - критическое значение распределения Стьюдента с степенями свободы.
Пример 3.1. Положим, произведена выборка объёмом , вычислены эмпирические и . Одно из измерений вызывает сомнение и требуется проверить гипотезу об однородности выборки.
1. Вычисляется статистика по формуле (3.2).
2. По заданному уровню значимости 0.05 определим критическое значение , используя плотность распределения (3.3) статистики . Решением уравнения
будет .
3. Вывод: если , гипотеза об однородности выборки отвергается с уровнем значимости 0.05.
Это же критическое значение можно получить, используя распределение Стьюдента. Действительно, используя плотность распределения Стьюдента и решая уравнение
, определим , равное . Пересчитаем полученное критическое значение в критическое значение по формуле (3.4) и получим .
В [4] представлена таблица процентных точек распределения Стьюдента для различных и , рассчитанные по формуле . Для рассматриваемого примера имеем .
3.3 Исключение грубых погрешностей
Рассмотрим задачу исключения грубых погрешностей из ряда измерений [4, стр. 58]. Пусть -взаимно независимые нормально распределенные случайные величины с , . Проверяется гипотеза о том, что . Альтернативная гипотеза: и .
Величина d может быть и положительной и отрицательной, если d > 0, то проверяется альтернативная гипотеза , а если d < 0, то проверяется альтернативная гипотеза . Причем номер испытания , на котором допущена ошибка d и ее величина неизвестны.
Перепишем последовательность в виде вариационного ряда . Тогда . В зависимости от того известны или нет значения параметров , можно получить 4 задачи проверки гипотезы . Рассмотрим только одну задачу с неизвестными параметрами , т.е. вместо используем их оценки по формулам
,
.
Оценки и являются несмещёнными, состоятельными и эффективными.
Несмещенная оценка дисперсии - имеет степень свободы. Рассмотрим статистики
, ,
,
в которых, в принципе, может применяться как смещенная, так и несмещенная дисперсия; поэтому индекс у среднеквадратического отклонения опущен.
Получим вероятностные зависимости между статистиками , , . Нормированное нормальное распределение симметрично относительно оси ординат. Поэтому все статистики и с соответствующими аргументами распределены одинаково (например, и ) и -квантили распределения лишь знаком отличаются от -квантилей распределения статистики :
. (3.5)
Из этого равенства следует, что для вычисления достаточно знать . Равенство (3.5) можно представит как
.
Из этого соотношения получим
(3.6)
Событие может быть представлено как сумма двух несовместных событий: и . Тогда имеем
(3.7)
Подставляя (3.6) в (3.7), получим
Откуда .
Положим - граница критического множества, и определяет критическое множество, т.е. такое множество, что при попадании статистики в это множество гипотеза отвергается. Из предыдущего ясно, что вероятность отвергнуть гипотезу по статистике при верности гипотезы не превышает , где является уровнем значимости для проверки гипотезы по статистике .
Пусть - уровень значимости при проверке гипотезы .
Если бы была составлена таблица для , то ею можно было бы воспользоваться для проверки гипотезы : . Однако такой таблицы нет.
В [4, стр. 59] со ссылкой на [6] приводится неравенство
, (3.8)
где - функция распределения Стьюдента с степенями свободы. Ввиду того, что математическое ожидание и дисперсия - неизвестны, и они оцениваются по выборке, то число степеней свободы распределения Стьюдента .
Перепишем неравенство (3.8) в виде
(3.9)
Это неравенство позволяет вычислить приближённо квантиль распределения статистики по заданному уровню значимости α.
Если применяется смещенная оценка , то приближенно можно оценить квантиль распределения статистики по заданному уровню значимости α при помощи неравенства [4]
(3.10)
где - функции распределения Стьюдента с степенями свободы.
Пример 3.2 Определим критическое значение при отбраковке величины по заданному числу испытаний и уровню значимости , если оценки и - несмещённые.
Для решения задачи используем статистику и неравенство (3.9) для оценки вероятности по данному уровню значимости. При вычислении выражений, входящих в неравенства (3.8) использовался пакет Mathematica. Программа вычислений приведена в Приложении.
Левая часть неравенства (3.9) дает значение = t0= =3.1539768 для уровня значимости 0.049999995. Определим .
Правая часть неравенства (3.9) дает значение = t0= =3.1692727 для уровня значимости . 0.049999997.
Определим .
Существует некоторый произвол в выборе критического значения или , так как они оба обеспечивают один и тот же уровень значимости. Выберем .
Вывод. Если статистика > , гипотеза отвергается с уровнем значимости, не превышающей 0.04999999.
4. Свободные от распределения методы
для непараметрических задач
Как известно, оценка параметров по методу максимума правдоподобия, проверка гипотез по критерию отношения правдоподобия и ряд других задач предполагает, что распределение выборочных значений априорно известно. Но на практике встречаются задачи, когда неизвестно распределение . Поэтому приходится решать эти задачи методами свободными от распределения вероятности выборочных значений .
Критерий проверки непараметрических гипотез основан на принципе равной вероятности всех возможных выборок объема , количество которых равно . Выборки образованы перестановками (инверсией) членов выборки , и для каждой перестановки вероятность её реализации равна . Если верна проверяемая гипотеза , то ей соответствует некоторое множество перестановок. При построении критерия проверки гипотезы необходимо найти критическое множество, определить мощность критерия, значимость его и состоятельность.
4.1 Критерий об однородности двух выборок
Рассмотрим следующую проблему. Производятся измерения одной и той же физической величины разными приборами, имеющими разные погрешности измерений. Необходимо проверить гипотезу о том, что эти измерения имеют одну и ту же функцию распределения. Применим критерий Вилкоксона для решения этой непараметрической задачи.
Положим, имеются две последовательности измерений (выборки) и , выполненные разными приборами. Проверяется гипотеза о том, что
, (4.1)
. (4.2)
Гипотезе соответствует одно из соотношений
или
.
Соотношения (4.1) и (4.2) эквивалентны утверждению: проверяется гипотеза о том, что выборки и принадлежат одной и той же генеральной совокупности.
Вилкоксоном была решена эта задача для , Манном и Уитни эта же задача была решена для , [16]. Поэтому в литературе можно встретить эту задачу под именем критерий Вилкоксона [4] или критерий Манна-Уитни, [16].
Составим из величин и вариационный ряд, т.е. расположим их в порядке возрастания их значений, положим . Полученный ряд в математической статистике называется порядковой статистикой. Например, получен следующий ряд
x | y | x | y | x | x | y | y | x | y | y | x | x | |
N-2 | N-1 | N |
где .
Представленная таблица является примером реализации одной из перестановок последовательностей и .
Нижний ряд чисел указывает взаимное расположение и , т.е. ранги величин и в вариационном ряде. В частности, для приведенного примера ранги последовательности имеют следующие значения
Пусть - ранги, соответствующие последовательности . Статистика критерия Вилкоксона задается формулой
(4.3)
Распределение статистики зависит от вида перестановки в [4, Таблица 6.8] приведены таблицы нижних критических значений статистики , соответствующие уровню значимости для . Если объем выборки или больше 25, статистика распределена асимптотически нормально с математическим ожиданием и дисперсией соответственно
, . (4.4)
Более точная формула распределения статистики имеет вид
, (4.5)
где ,
.
Статистика принимает только целочисленные значения. Поэтому следует выбирать такое целочисленное граничное значение , которое удовлетворяло бы системе неравенств
, . (4.6)
При проверке двусторонней гипотезы необходимо найти нижнее критическое значение и верхнее критическое значение . Верхнее и нижнее критические значения связаны между собой соотношением
. (4.7)
Пример 4.1. Положим, произведены две выборки и , n = m = 10, значения которых приведены в таблице 4.1.
Таблица 4.1
x | y | ранг |
В третьем столбце указаны ранги элементов по отношению к элементам выборки y. Значение статистики .
По таблицам [4, Таблица 6.8, стр. 357] определим критическое значение для уровня значимости =0,025: =78. Верхнее критическое значение определяется по формуле (4.7) и равно =210-78=132.
Вывод. Обе выборки принадлежат одной и той же генеральной совокупности, так как статистика не принадлежит ни одной критической области (0, 78), (132, )
С целью определения уровня значимости для критерия Вилкоксона было проведено моделирование процедуры проверки гипотезы о том, что две выборки принадлежат одной и той же генеральной совокупности. Число серий экспериментов принято . В результате было принято правильных решений 9538 раз, уровень значимости составляет =0.0462. Программа - 2 моделирования процедуры проверки гипотезы о принадлежности двух выборок одной и той же генеральной совокупности приведена в Приложении.
4.2 Проверка гипотезы о некоррелированности
двух распределений
Положим, имеются две случайные величины и , распределенные по нормальному закону. Чтобы проверить гипотезу о независимости случайных величин и находится коэффициент корреляции
, (4.8)
который сравнивается с порогом . Если выполняется условие , гипотеза не отвергается, т.е. считается, что случайные величины и независимы. Однако применение этого критерия связано с предположением о нормальности распределений случайных величин и . Если это условие не соблюдается, выводы о зависимости или независимости случайных величин и неверны.
Рассмотрим критерий проверки гипотезы о некоррелированности случайных величин и , свободный от типа распределения вероятности случайных величин и . Предположим, произведены выборки = и = . Каждую из последовательностей и можно получить способами. Можно считать, что один из случаев дал возможность составить пары . Если одну из последовательностей не переставлять, получим возможных инверсий. По полученным парам производится проверка гипотезы о некоррелированности случайных величин и .
Если последовательности и не коррелированны, то это свойство должно сохраниться и для последовательности рангов относительно пар . Свойство некоррелированности инвариантно относительно парных перестановок элементов последовательности и последовательности , [3].
Следуя утверждению [3], составим последовательность пар рангов для последовательностей и таким образом, чтобы рангам элементов сопоставлялись ранги элементов .
1. Для этого построим вариационный ряд для последовательности и определим ранги элементов . Точно также определим ранги элементов последовательности . Произведем ранжирование рангов последовательности и занесём их в первую строку таблицы 4.2.
2. Во вторую строку таблицы 4.2 записываются элементы последовательности соответствующие их рангам.
3. Третья строка таблицы 4.2 заполняется значениями последовательности , сопоставляемые значениям элементов последовательности , т.е. образуются пары (, ).
Таблица 4.2
... | |||||
... | |||||
... | |||||
... |
4. В четвертую строку заносятся значения рангов последовательности .
В результате, выписывая только первую и четвертую строки, получим таблицу 4.3 пар рангов последовательностей и .
Таблица 4.3
m | |||||
Пример 4.1. Положим, в результате эксперимента получены данные и , которые ранжированы в следующем порядке: , .
Заполним таблицы Пр 4.1 и Пр 4.2.
Таблица Пр 4.1
Таблица Пр 4.2
Для проверки гипотезы о некоррелированности последовательностей и предложено несколько критериев [4]: критерий Спирмена, критерий Кендала, критерий Кендала-Бэбингтона (критерий согласованности). Рассмотрим критерий Спирмена. Для проверки гипотезы о некоррелированности последовательностей и Спирменом введен коэффициент ранговой корреляции, равный
. (4.9)
Для числа экспериментов от 4 до 10 Спирменом получено распределение и составлены таблицы [4, таблица 6.10а, стр. 363]. Распределение вероятности симметрично относительно математического ожидания и сосредоточено на отрезке . Пользуясь симметричностью распределения , можно вычислить вероятность
.
Если гипотеза верна,
, , (4.10)
, .
Пример 4.2. (продолжение примера 4.1). Необходимо по результатам примера 4.1 построить критическую область (найти критические значения для коэффициента корреляции ) при проверке гипотезы о некоррелированности последовательностей и с уровнем значимости =0.1.
Ввиду того, что коэффициент корреляции может принимать как отрицательные, так и положительные значения, то должны рассматривать двустороннюю гипотезу и определить критические значения и , Рис. 4.1. Критическими областями в этом случае будут интервалы , с уровнями значимости по = = 0.05.
В таблице [4, таблица 6.10а, стр. 363] нет точного значения вероятности , поэтому нужно воспользоваться линейной интерполяцией. Определим ближайшие к большее и меньшее значения , :
,
,
Определим пороговое значение с помощью формулы
=
= .
Так как принимает только целые значения, примем = 37.
Рассчитаем по формуле нижнее критическое значение: = -0.85. Верхнее критическое значение, в силу симметричности распределения будет равно = 0.85. Критическими областями будут интервалы (-1, -0.85) и (0.85, 1)
Используя (4.9) и таблицу Пр 4.2, определим экспериментальные значения = 24 и -0.2. Статистика -0.2 не принадлежит критическим областям, поэтому гипотеза о некоррелированности последовательностей и не отвергается.
При числе экспериментов, превышающих =10, распределение коэффициента корреляции хорошо апроксимируется нормальным распределением [4] с математическим ожиданием, равным нулю и дисперсией .
Вероятность превышения порога коэффициентом корреляции равна,[4, стр.98],
,
где ,
,
- обратная функция нормального распределения с параметрами (0, 1). Величина - квантиль нормального распределения находится как решение уравнения при известном .
Пример 4.3. Произведено =30 экспериментов над случайными величинами и получены ряды наблюдений и . Взаимное расположение точек показано на рисунке 4.2.
Необходимо проверить гипотезу о некоррелированности последовательностей и . Уровень значимости =0.05.
Используем двустороннюю гипотезу с уровнем значимости = 0.025.
Определим = и
Нижняя граница критической области равна = =-0.362.
Для моделирования случайных величин, распределенных по нормальному и равномерному законам, и определения коэффициента корреляции Спирмена составлена программа в пакете Математика. Программа – 3 вычисления коэффициента корреляции Спирмена приведена в приложении.
Согласно критерию Спирмена определим по формуле (4.9) значение =-0.204004.
Ввиду того, что удовлетворяет неравенству -0.362 < < 0.362, гипотеза не отвергается, т.е. выборки и не коррелированны.
Недостатком критерия Спирмена [3] является то, что возможна ситуация, когда выборки и зависимы, но = 0 и гипотеза не отвергается. В этом случае данный критерий будет несостоятельным и следует применить другой критерий для проверки гипотезы о независимости выборок и .
Дата публикования: 2015-03-26; Прочитано: 848 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!