Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

II. Математическая статистика 3 страница



Следует заметить, что последствия этих ошибок в конкретных ситуациях могут оказаться различными. Например, система предупреждения о ядерном ракетном нападении на нашу страну выдает решение о том, что нападение имеет место, когда в действительности его нет («ложная тревога»). Понятно, что приводятся в действие механизмы оповещения населения, обеспечивается готовность специальных служб и т.д. и т.п. Эта ошибка (второго рода) приводит к некоторым материальным потерям. Гораздо серьезнее ошибка первого рода, когда нападение имеет место, а принимается решение о его отсутствии («пропуск цели»). Эта ошибка может привести к многочисленным человеческим жертвам.

Разумеется, можно привести примеры, когда более тяжелыми являются последствия ошибки второго рода. К тому же, не следует забывать и о том, что имеется известный произвол в выборе основной и альтернативной гипотез. Если их поменять местами, то поменяются местами и ошибки первого и второго рода.

Для ответа на вопрос, какое решающее правило (способ разбиения на и ) является наилучшим, введем еще два понятия: функции потерь и среднего риска.

При правильных решениях потери будем считать нулевыми. Потери, связанные с ошибками первого и второго рода, обозначим соответственно и . Будем считать, что . Это потери, выраженные в некоторых единицах. Не останавливаясь пока на том, как выбрать и , будем считать их заданными (попутно отметим, что выбор и на практике носит субъективный характер и часто производится на основании экспертных оценок).

Перейдем к понятию среднего риска. Пусть и – соответственно вероятности правильного решения, ошибок первого и второго рода. Определение этих значений будет проведено ниже. Величина потерь , к которым приведет однократное применение решающего правила, является случайной величиной (случайный риск), которая принимает значения с вероятностями и . Математическое ожидание случайного риска называется средним риском и обозначается :

. (***)

Понятие среднего риска приводит к естественному способу сравнения решающих правил: из двух правил лучшим считается то, которое приводит к меньшему среднему риску.

Оптимальным решающим правилом называется правило, приводящее к наименьшему возможному в данной задаче риску.

Итак, мы должны найти оптимальное решающее правило (будем обозначать его греческой буквой ), которое соответствует заданным условным распределениям и , априорной вероятности и функции потерь .

В нашем примере и задаются формулами (*), (**). Найдем вероятность ошибки первого рода:

Здесь суммирование ведется по всем возможным значениям случайной величины , попавшим в область . Аналогично вероятность ошибки второго рода равна

Найдем вероятности и :

В соответствии с (***) средний риск равен

Теперь учтем, что в соответствии со свойствами вероятности

.

Средний риск можно представить в виде

Первое слагаемое положительно, а под знак суммы во втором слагаемом входит величина

,

которая может оказаться как положительной, так и отрицательной. Если в область включить все значения , при которых выражение в квадратных скобках отрицательно, то, очевидно, средний риск принимает наименьшее значение.

Мы получили решающее правило : если наблюдаемое в опыте значение таково, что выполняется условие или

,

то принимается основная гипотеза , в случае неравенства противоположного знака – альтернативная или конкурирующая гипотеза .

Величину

в теории проверки гипотез называют отношением правдоподобия, а величину

порогом, с которым отношение правдоподобия необходимо сравнивать.

Смысл решающего правила очевиден: величина равна отношению вероятностей того, что наблюдаемое значение принадлежит партии с повышенным и пониженным процентом брака. Порог же зависит как от априорной информации (вероятности ), так и от потерь , связанных с возможными ошибками принятия решения.

Для задачи с партиями транзисторов можно детализировать решающее правило. С учетом (*) и (**) получаем:

. (****)

Поскольку по условию , то и .

Поэтому, логарифмируя неравенство (****) и разрешая относительно , получим

(!)

Итак, если число бракованных изделий среди наблюдаемых изделий контрольной партии удовлетворяет неравенству (!), то принимается решение о плохом качестве партии (принимается гипотеза ); в противном случае принимается гипотеза (качество партии хорошее). Это правило вполне согласуется со здравым смыслом.

Если проверяется гипотеза относительно непрерывной случайной величины , то решающее правило по-прежнему предписывает формировать отношение правдоподобия, только роль вероятностей и играют соответствующие плотности распределения вероятностей.

Отметим еще одно обстоятельство. С понятием функция правдоподобия мы уже сталкивались, когда обсуждали проблему оценки параметров распределения. Оценки максимального правдоподобия находились путем максимизации этой функции (по оцениваемому параметру ). В теории проверки статистических гипотез мы фактически оперируем с отношением функций правдоподобия, соответствующих двум гипотезам. Резюмируя, можно утверждать, что в статистических задачах (будь то оценивание параметров или проверка гипотез) ключевую роль играет функция правдоподобия.

2.5.2. Эмпирические критерии проверки статистических гипотез. Критерий Пирсона

(критерий ). Критерий Фишера-Снедекора

Мы с вами обсудили метод проверки статистических гипотез, основанный на минимизации среднего риска. Для его реализации требуется полное статистическое описание ситуации: априорная информация о вероятностях гипотез, вид распределения для наблюдаемых данных; должны быть также конкретизированы потери, связанные с возможными ошибками при принятии решения. На практике такая полная информация либо частично, либо полностью может отсутствовать. Как же в таких случаях осуществлять проверку гипотез?

Существует целый ряд так называемых эмпирических методов (критериев согласия), которые были предложены различными исследователями: это критерии Пирсона, Колмогорова, Фишера (F –критерий) и др.

Рассмотрим две задачи проверки статистических гипотез, для решения которых использованы эмпирические критерии.

Рассмотрим задачу проверки гипотезы о виде распределения генеральной совокупности и применим критерий Пирсона (критерий ).

Пусть в результате эксперимента получена выборка объема . Имеется некоторое теоретическое распределение , и мы хотим проверить, удовлетворяют ли наши экспериментальные данные этому распределению. Таким образом, мы собираемся проверить гипотезу : выборка принадлежит распределению . Разумеется, что гипотеза может быть либо принята, либо отвергнута.

Разобьем всю числовую ось на интервалы и вычислим теоретические частоты и опытные частоты попадания в указанные интервалы разбиения (всего интервалов). Очевидно, , где – объем наблюдаемой выборки. В критерии Пирсона (критерии ) за меру расхождения опытного и теоретического рядов частот принимают величину

. (*)

Она равна нулю лишь при совпадении всех соответствующих эмпирических и теоретических частот, а в остальных случаях положительна и тем больше, чем больше расхождение между распределениями.

Величина является случайной. В некоторых случаях (далеко не всегда!) ее закон распределения известен. К примеру, если распределение – нормальное, то эта величина распределена по так называемому – распределению с степенями свободы. Плотность этого распределения имеет вид

,

где – гамма-функция Эйлера; в частности для целых . Это распределение определяется одним параметром – числом степеней свободы. В литературе по теории вероятностей и математической статистики обычно приводятся критические точки распределения т.е. значения , удовлетворяющие равенству

(например, таблица VII в [2]). Величина называется уровнем значимости. Если величина выбрана достаточно малой (0,01 или 0,05) и наблюдаемая в эксперименте величина (вычисленная по формуле (*)) удовлетворяет неравенству , то это означает, что вероятность больших отклонений экспериментальных данных от теоретических мала и нет оснований отвергать гипотезу . В случае большие отклонения имеют заметную вероятность; скорее всего, это связано с тем, что выдвинута неверная гипотеза о виде распределения, поэтому она должна быть отвергнута.

Таким образом, при применении критерия согласия Пирсона используют следующую схему вычислений.

1) по формуле (*) находят величину

2) определяют число степеней , равное количеству частичных интервалов. При этом надо следить за тем, чтобы не оказалось очень малых частот (в областях малых частот следует укрупнять интервалы).

3) Задаются уровнем значимости (0,01 или 0,05). Пользуясь упомянутыми выше таблицами, определяют, какое из неравенств или выполняется. В первом случае гипотеза принимается, а во втором отвергается с уровнем значимости .

Заметим, что критерий Пирсона имеет достаточно универсальный характер и используется на практике для проверки гипотез при различных законах распределения наблюдаемых данных.

Примерно по такой же схеме применяют и другие критерии согласия. Для каждого критерия выбирается своя мера отклонения экспериментального и теоретического распределений и критические точки соответствующих законов распределения (распределения Стьюдента, Фишера-Снедекора и др.).

Теперь рассмотрим задачу сравнения дисперсий двух распределений. На практике такая задача возникает, если требуется сравнить точность различных приборов или методов измерений. Очевидно, предпочтительнее тот прибор, инструмент или метод, который обеспечивает наименьшее рассеивание результатов измерений, т.е. наименьшую дисперсию.

Пусть генеральные совокупности и распределены нормально. По независимым выборкам с объемами и , извлеченным из этих совокупностей, найдены исправленные выборочные дисперсии и . Требуется по исправленным дисперсиям при заданном уровне значимости проверить нулевую гипотезу, состоящую в том, что генеральные дисперсии равны между собой:

.

Учитывая, что исправленные дисперсии являются несмещенными оценками генеральных дисперсий, т.е.

нулевую гипотезу запишем так:

.

Таким образом, требуется проверить, что математические ожидания исправленных выборочных дисперсий равны между собой. Мы пытаемся ответить на вопрос: значимо (существенно) или незначимо различаются исправленные дисперсии?

Если окажется, что нулевая гипотеза справедлива, т.е. генеральные дисперсии одинаковы, то различие выборочных дисперсий объясняется случайными причинами (например, случайным отбором объектов выборки). Если же нулевая гипотеза отвергнута, т.е. генеральные дисперсии неодинаковы, то различие выборочных дисперсий обусловлено не случайными причинами, а является следствием того, что сами генеральные дисперсии различны.

В качестве критерия проверки нулевой гипотезы естественно выбрать отношение большей выборочной дисперсии к меньшей, т.е. случайную величину

.

Величина , равная отношению выборочных дисперсий двух нормальных распределений, распределена по так называемому распределению Фишера-Снедекора со степенями свободы и , где – объем выборки, по которой определена большая дисперсия, а – объем выборки, по которой найдена меньшая дисперсия. Плотность этого распределения

где

Распределение Фишера-Снедекора зависит от двух параметров: чисел степеней свободы.

Если мы знаем закон распределения величины , то схема дальнейших действий такая же, как и для критерия Пирсона. Для этого надо воспользоваться таблицами критических точек распределения Фишера-Снедекора, приведенными, например, в [1] (приложение 7), т.е. при выбранном значении уровня значимости определить . Если выполняется неравенство , то нулевая гипотеза принимается, если же выполняется неравенство , то гипотеза отвергается с уровнем значимости .

2.6. Элементы корреляционного и регрессионного анализа

2.6.1. Выборочное уравнение прямой линии регрессии.

Выборочный коэффициент корреляции

В п. 1.8.7 обсуждались уравнения прямых линий среднеквадратической регрессии: если имеется система двух коррелированных случайных величин , то уравнение регрессии на имеет вид:

, (*)

где – математические ожидания и среднеквадратические отклонения двух компонент случайной величины , а – их коэффициент корреляции. Коэффициент называется коэффициентом регрессии на . Аналогично можно записать и уравнение прямой линии регрессии на .

Если система величин наблюдается экспериментально, то возникает естественный вопрос: как отыскать параметры прямой линии регрессии по наблюдаемой выборке?

Рассмотрим простейшую постановку задачи. Имеется несгруппированная выборка значений, т.е. пар чисел , для которых различные значения и соответствующие значения наблюдались по одному разу. Будем искать уравнение прямой регрессии в виде

, (**)

где выборочный коэффициент регрессии на .

Коэффициенты и найдем, как и в п. 1.8.7, с помощью метода наименьших квадратов, минимизируя функцию

по параметрам и . Приравнивая нулю частные производные и , получим систему двух линейных уравнений относительно неизвестных и :

(***)

Суммирование во всех выражениях ведется по индексу от до , например,

и т.д.

Решив эту систему, найдем:

(****)





Дата публикования: 2015-03-26; Прочитано: 277 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.026 с)...