Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Отсев грубых измерений по малым выборкам



Рассмотрим случай, наиболее часто встречающийся на практике, когда неизвестно ни математическое ожидание , ни дисперсия измеряемой величины. Произведём оценку этих величин по выборке .

(3.1)

На основе выборки составляется статистика

(3.2)

где - одно из возможных значений в выборке .

Производится проверка гипотезы о том, что математическое ожидание равно .

Статистика имеет степеней свободы, т.к. в формуле (3.2) используется две величины ( и ), являющиеся функцией выборочных значений . Случайные величины имеют плотность вероятности [4, стр. 26], равную

, , (3.3)

и связаны со случайными величинами , распределенными по закону Стьюдента с степенями свободы

, ,

где - функция распределения Стьюдента с степенями свободы.

В [4], [7] приведены таблицы - процентных точек распределения Стьюдента,

Критическое значение при проверки гипотезы : определяется как

, (3.4)

где - критическое значение распределения Стьюдента с степенями свободы.

Пример 3.1. Положим, произведена выборка объёмом , вычислены эмпирические и . Одно из измерений вызывает сомнение и требуется проверить гипотезу об однородности выборки.

1. Вычисляется статистика по формуле (3.2).

2. По заданному уровню значимости 0.05 определим критическое значение , используя плотность распределения (3.3) статистики . Решением уравнения

будет .

3. Вывод: если , гипотеза об однородности выборки отвергается с уровнем значимости 0.05.

Это же критическое значение можно получить, используя распределение Стьюдента. Действительно, используя плотность распределения Стьюдента и решая уравнение

, определим , равное . Пересчитаем полученное критическое значение в критическое значение по формуле (3.4) и получим .

В [4] представлена таблица процентных точек распределения Стьюдента для различных и , рассчитанные по формуле . Для рассматриваемого примера имеем .

3.3 Исключение грубых погрешностей

Рассмотрим задачу исключения грубых погрешностей из ряда измерений [4, стр. 58]. Пусть -взаимно независимые нормально распределенные случайные величины с , . Проверяется гипотеза о том, что . Альтернативная гипотеза: и .

Величина d может быть и положительной и отрицательной, если d > 0, то проверяется альтернативная гипотеза , а если d < 0, то проверяется альтернативная гипотеза . Причем номер испытания , на котором допущена ошибка d и ее величина неизвестны.

Перепишем последовательность в виде вариационного ряда . Тогда . В зависимости от того известны или нет значения параметров , можно получить 4 задачи проверки гипотезы . Рассмотрим только одну задачу с неизвестными параметрами , т.е. вместо используем их оценки по формулам

,

.

Оценки и являются несмещёнными, состоятельными и эффективными.

Несмещенная оценка дисперсии - имеет степень свободы. Рассмотрим статистики

, ,

,

в которых, в принципе, может применяться как смещенная, так и несмещенная дисперсия; поэтому индекс у среднеквадратического отклонения опущен.

Получим вероятностные зависимости между статистиками , , . Нормированное нормальное распределение симметрично относительно оси ординат. Поэтому все статистики и с соответствующими аргументами распределены одинаково (например, и ) и -квантили распределения лишь знаком отличаются от -квантилей распределения статистики :

. (3.5)

Из этого равенства следует, что для вычисления достаточно знать . Равенство (3.5) можно представит как

.

Из этого соотношения получим

(3.6)

Событие может быть представлено как сумма двух несовместных событий: и . Тогда имеем

(3.7)

Подставляя (3.6) в (3.7), получим

Откуда .

Положим - граница критического множества, и определяет критическое множество, т.е. такое множество, что при попадании статистики в это множество гипотеза отвергается. Из предыдущего ясно, что вероятность отвергнуть гипотезу по статистике при верности гипотезы не превышает , где является уровнем значимости для проверки гипотезы по статистике .

Пусть - уровень значимости при проверке гипотезы .

Если бы была составлена таблица для , то ею можно было бы воспользоваться для проверки гипотезы : . Однако такой таблицы нет.

В [4, стр. 59] со ссылкой на [6] приводится неравенство

, (3.8)

где - функция распределения Стьюдента с степенями свободы. Ввиду того, что математическое ожидание и дисперсия - неизвестны, и они оцениваются по выборке, то число степеней свободы распределения Стьюдента .

Перепишем неравенство (3.8) в виде

(3.9)

Это неравенство позволяет вычислить приближённо квантиль распределения статистики по заданному уровню значимости α.

Если применяется смещенная оценка , то приближенно можно оценить квантиль распределения статистики по заданному уровню значимости α при помощи неравенства [4]

(3.10)

где - функции распределения Стьюдента с степенями свободы.

Пример 3.2 Определим критическое значение при отбраковке величины по заданному числу испытаний и уровню значимости , если оценки и - несмещённые.

Для решения задачи используем статистику и неравенство (3.9) для оценки вероятности по данному уровню значимости. При вычислении выражений, входящих в неравенства (3.8) использовался пакет Mathematica. Программа вычислений приведена в Приложении.

Левая часть неравенства (3.9) дает значение = t0= =3.1539768 для уровня значимости 0.049999995. Определим .

Правая часть неравенства (3.9) дает значение = t0= =3.1692727 для уровня значимости . 0.049999997.

Определим .

Существует некоторый произвол в выборе критического значения или , так как они оба обеспечивают один и тот же уровень значимости. Выберем .

Вывод. Если статистика > , гипотеза отвергается с уровнем значимости, не превышающей 0.04999999.

4. Свободные от распределения методы

для непараметрических задач

Как известно, оценка параметров по методу максимума правдоподобия, проверка гипотез по критерию отношения правдоподобия и ряд других задач предполагает, что распределение выборочных значений априорно известно. Но на практике встречаются задачи, когда неизвестно распределение . Поэтому приходится решать эти задачи методами свободными от распределения вероятности выборочных значений .

Критерий проверки непараметрических гипотез основан на принципе равной вероятности всех возможных выборок объема , количество которых равно . Выборки образованы перестановками (инверсией) членов выборки , и для каждой перестановки вероятность её реализации равна . Если верна проверяемая гипотеза , то ей соответствует некоторое множество перестановок. При построении критерия проверки гипотезы необходимо найти критическое множество, определить мощность критерия, значимость его и состоятельность.

4.1 Критерий об однородности двух выборок

Рассмотрим следующую проблему. Производятся измерения одной и той же физической величины разными приборами, имеющими разные погрешности измерений. Необходимо проверить гипотезу о том, что эти измерения имеют одну и ту же функцию распределения. Применим критерий Вилкоксона для решения этой непараметрической задачи.

Положим, имеются две последовательности измерений (выборки) и , выполненные разными приборами. Проверяется гипотеза о том, что

, (4.1)

. (4.2)

Гипотезе соответствует одно из соотношений

или

.

Соотношения (4.1) и (4.2) эквивалентны утверждению: проверяется гипотеза о том, что выборки и принадлежат одной и той же генеральной совокупности.

Вилкоксоном была решена эта задача для , Манном и Уитни эта же задача была решена для , [16]. Поэтому в литературе можно встретить эту задачу под именем критерий Вилкоксона [4] или критерий Манна-Уитни, [16].

Составим из величин и вариационный ряд, т.е. расположим их в порядке возрастания их значений, положим . Полученный ряд в математической статистике называется порядковой статистикой. Например, получен следующий ряд

x y x y x x y y x y y x x
                    N-2 N-1 N

где .

Представленная таблица является примером реализации одной из перестановок последовательностей и .

Нижний ряд чисел указывает взаимное расположение и , т.е. ранги величин и в вариационном ряде. В частности, для приведенного примера ранги последовательности имеют следующие значения

Пусть - ранги, соответствующие последовательности . Статистика критерия Вилкоксона задается формулой

(4.3)

Распределение статистики зависит от вида перестановки в [4, Таблица 6.8] приведены таблицы нижних критических значений статистики , соответствующие уровню значимости для . Если объем выборки или больше 25, статистика распределена асимптотически нормально с математическим ожиданием и дисперсией соответственно

, . (4.4)

Более точная формула распределения статистики имеет вид

, (4.5)

где ,

.

Статистика принимает только целочисленные значения. Поэтому следует выбирать такое целочисленное граничное значение , которое удовлетворяло бы системе неравенств

, . (4.6)

При проверке двусторонней гипотезы необходимо найти нижнее критическое значение и верхнее критическое значение . Верхнее и нижнее критические значения связаны между собой соотношением

. (4.7)

Пример 4.1. Положим, произведены две выборки и , n = m = 10, значения которых приведены в таблице 4.1.

Таблица 4.1

x y ранг

В третьем столбце указаны ранги элементов по отношению к элементам выборки y. Значение статистики .

По таблицам [4, Таблица 6.8, стр. 357] определим критическое значение для уровня значимости =0,025: =78. Верхнее критическое значение определяется по формуле (4.7) и равно =210-78=132.

Вывод. Обе выборки принадлежат одной и той же генеральной совокупности, так как статистика не принадлежит ни одной критической области (0, 78), (132, )

С целью определения уровня значимости для критерия Вилкоксона было проведено моделирование процедуры проверки гипотезы о том, что две выборки принадлежат одной и той же генеральной совокупности. Число серий экспериментов принято . В результате было принято правильных решений 9538 раз, уровень значимости составляет =0.0462. Программа - 2 моделирования процедуры проверки гипотезы о принадлежности двух выборок одной и той же генеральной совокупности приведена в Приложении.

4.2 Проверка гипотезы о некоррелированности

двух распределений

Положим, имеются две случайные величины и , распределенные по нормальному закону. Чтобы проверить гипотезу о независимости случайных величин и находится коэффициент корреляции

, (4.8)

который сравнивается с порогом . Если выполняется условие , гипотеза не отвергается, т.е. считается, что случайные величины и независимы. Однако применение этого критерия связано с предположением о нормальности распределений случайных величин и . Если это условие не соблюдается, выводы о зависимости или независимости случайных величин и неверны.

Рассмотрим критерий проверки гипотезы о некоррелированности случайных величин и , свободный от типа распределения вероятности случайных величин и . Предположим, произведены выборки = и = . Каждую из последовательностей и можно получить способами. Можно считать, что один из случаев дал возможность составить пары . Если одну из последовательностей не переставлять, получим возможных инверсий. По полученным парам производится проверка гипотезы о некоррелированности случайных величин и .

Если последовательности и не коррелированны, то это свойство должно сохраниться и для последовательности рангов относительно пар . Свойство некоррелированности инвариантно относительно парных перестановок элементов последовательности и последовательности , [3].

Следуя утверждению [3], составим последовательность пар рангов для последовательностей и таким образом, чтобы рангам элементов сопоставлялись ранги элементов .

1. Для этого построим вариационный ряд для последовательности и определим ранги элементов . Точно также определим ранги элементов последовательности . Произведем ранжирование рангов последовательности и занесём их в первую строку таблицы 4.2.

2. Во вторую строку таблицы 4.2 записываются элементы последовательности соответствующие их рангам.

3. Третья строка таблицы 4.2 заполняется значениями последовательности , сопоставляемые значениям элементов последовательности , т.е. образуются пары (, ).

Таблица 4.2

...
...
...
...

4. В четвертую строку заносятся значения рангов последовательности .

В результате, выписывая только первую и четвертую строки, получим таблицу 4.3 пар рангов последовательностей и .

Таблица 4.3

      m

Пример 4.1. Положим, в результате эксперимента получены данные и , которые ранжированы в следующем порядке: , .

Заполним таблицы Пр 4.1 и Пр 4.2.

Таблица Пр 4.1

         
         

Таблица Пр 4.2

         
         

Для проверки гипотезы о некоррелированности последовательностей и предложено несколько критериев [4]: критерий Спирмена, критерий Кендала, критерий Кендала-Бэбингтона (критерий согласованности). Рассмотрим критерий Спирмена. Для проверки гипотезы о некоррелированности последовательностей и Спирменом введен коэффициент ранговой корреляции, равный

. (4.9)

Для числа экспериментов от 4 до 10 Спирменом получено распределение и составлены таблицы [4, таблица 6.10а, стр. 363]. Распределение вероятности симметрично относительно математического ожидания и сосредоточено на отрезке . Пользуясь симметричностью распределения , можно вычислить вероятность

.

Если гипотеза верна,

, , (4.10)

, .

Пример 4.2. (продолжение примера 4.1). Необходимо по результатам примера 4.1 построить критическую область (найти критические значения для коэффициента корреляции ) при проверке гипотезы о некоррелированности последовательностей и с уровнем значимости =0.1.

Ввиду того, что коэффициент корреляции может принимать как отрицательные, так и положительные значения, то должны рассматривать двустороннюю гипотезу и определить критические значения и , Рис. 4.1. Критическими областями в этом случае будут интервалы , с уровнями значимости по = = 0.05.

В таблице [4, таблица 6.10а, стр. 363] нет точного значения вероятности , поэтому нужно воспользоваться линейной интерполяцией. Определим ближайшие к большее и меньшее значения , :

,

,

Определим пороговое значение с помощью формулы

=

= .

Так как принимает только целые значения, примем = 37.

Рассчитаем по формуле нижнее критическое значение: = -0.85. Верхнее критическое значение, в силу симметричности распределения будет равно = 0.85. Критическими областями будут интервалы (-1, -0.85) и (0.85, 1)

Используя (4.9) и таблицу Пр 4.2, определим экспериментальные значения = 24 и -0.2. Статистика -0.2 не принадлежит критическим областям, поэтому гипотеза о некоррелированности последовательностей и не отвергается.

При числе экспериментов, превышающих =10, распределение коэффициента корреляции хорошо апроксимируется нормальным распределением [4] с математическим ожиданием, равным нулю и дисперсией .

Вероятность превышения порога коэффициентом корреляции равна,[4, стр.98],

,

где ,

,

- обратная функция нормального распределения с параметрами (0, 1). Величина - квантиль нормального распределения находится как решение уравнения при известном .

Пример 4.3. Произведено =30 экспериментов над случайными величинами и получены ряды наблюдений и . Взаимное расположение точек показано на рисунке 4.2.
 
 

Необходимо проверить гипотезу о некоррелированности последовательностей и . Уровень значимости =0.05.

Используем двустороннюю гипотезу с уровнем значимости = 0.025.

Определим = и

Нижняя граница критической области равна = =-0.362.

Для моделирования случайных величин, распределенных по нормальному и равномерному законам, и определения коэффициента корреляции Спирмена составлена программа в пакете Математика. Программа – 3 вычисления коэффициента корреляции Спирмена приведена в приложении.

Согласно критерию Спирмена определим по формуле (4.9) значение =-0.204004.

Ввиду того, что удовлетворяет неравенству -0.362 < < 0.362, гипотеза не отвергается, т.е. выборки и не коррелированны.

Недостатком критерия Спирмена [3] является то, что возможна ситуация, когда выборки и зависимы, но = 0 и гипотеза не отвергается. В этом случае данный критерий будет несостоятельным и следует применить другой критерий для проверки гипотезы о независимости выборок и .





Дата публикования: 2015-03-26; Прочитано: 848 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.038 с)...