Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

II. Математическая статистика 2 страница



Эффективной называют статистическую оценку, которая при заданном объеме выборки имеет наименьшую возможную дисперсию.

С теорией оценок связан еще один термин – состоятельность оценки. Состоятельной называют оценку, которая при стремится по вероятности к оцениваемому параметру. Например, если оценка несмещенная и при ее дисперсия стремится к нулю, то такая оценка оказывается состоятельной.

2.3.2. Статистическая (выборочная) оценка математического ожидания

Рассмотрим следующую задачу. Имеется случайная величина с математическим ожиданием и дисперсией ; оба параметра нам неизвестны. Требуется на основании опыта, т.е. на основании выборки объема независимых значений случайной величины , определить параметр . Покажем, что для этой цели наилучшей в некотором смысле оценкой является среднее арифметическое значение наблюдаемых величин:

.

Сначала убедимся в несмещенности такой оценки:

Оценка не смещена, т.к. ее математическое ожидание равно истинному значению оцениваемого параметра, т.е математическому ожиданию генеральной совокупности.

Теперь вспомним, что в соответствии с законом больших чисел

Но это означает, что оценка по вероятности при сходится к , т.е. является состоятельной оценкой.

Таким образом, мы доказали, что среднее арифметическое значение наблюдаемых данных

является несмещенной и состоятельной оценкой математического ожидания.

При этом указанные свойства оценки никак не связаны с видом самого закона распределения.

2.3.3. Статистическая (выборочная) оценка дисперсии

Рассмотрим другую задачу: имеется случайная величина с математическим ожиданием и дисперсией . Параметры неизвестны. По выборке независимых случайных величин объема необходимо построить оценку неизвестной дисперсии .

Можно действовать по аналогии с предыдущим случаем, т.е. в качестве оценки выбрать

, (*)

где – статистическая оценка математического ожидания. Можно, однако, показать (убедиться в этом самостоятельно!), что оценка (*) является смещенной оценкой: ее математическое ожидание равно , т.е. она немного занижена по сравнению с

. Поэтому на практике пользуются так называемой исправленной оценкой дисперсии

, (**)

которая является как несмещенной, так и состоятельной.

2.3.4. Интервальные оценки для математического ожидания. Доверительный

интервал, доверительная вероятность

До сих пор мы занимались точечными оценками. Точечная оценка – это одно значение (одно число на числовой оси), которое, как мы считаем, представляет собой значение оцениваемого параметра. Обычно при выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра и гораздо правильнее указывать некоторый диапазон значений параметра, которому мы в той или иной мере (с той или иной вероятностью)можем доверять. Таким образом, на сцену выходят два новых термина: доверительный интервал и доверительная вероятность.

Пусть для параметра найдена оценка . Ясно, что чем меньше , тем лучше оценка . Если задать неравенство , то в силу статистической природы вопроса мы не можем утверждать, что такое неравенство выполняется категорически; мы можем лишь утверждать, что оно выполняется с некоторой вероятностью :

.

Геометрически это неравенство следует трактовать так: если на числовой оси находится истинное значение , то оно накрывается интервалом с вероятностью

(см. рис.):


При этом интервал называется доверительным интервалом, а величина

доверительной вероятностью. Концы интервала в силу случайности случайные – это доверительные границы. Они меняются от выборки к выборке. Уровень доверительной вероятности обычно выбирают достаточно высоким и задают заранее: 0,9; 0,95; 0,99. Таким образом, – вероятность того, что доверительный интервал накрывает истинное значение , т.е. находится в случайном доверительном интервале. Интуитивно должно быть ясно, что чем большие значения требуются, тем более широким получается доверительный интервал.

2.3.5 Доверительный интервал для оценки математического ожидания

нормального распределения при известном

Пусть – выборка объема из нормальной генеральной совокупности, при этом среднеквадратическое отклонение будем считать известным. Как известно, величина

является несмещенной и состоятельной оценкой математического ожидания генеральной совокупности. Эта оценка позволяет легко отыскать доверительный интервал. Действительно:

а) как сумма нормальных величин также является нормальной случайной величиной, при этом

б) , где – функция Лапласа.

Обозначим и запишем

или .

Поскольку – доверительная вероятность, то

.

Таким образом, доверительной вероятности соответствует доверительный интервал

.

В практических ситуациях для нахождения доверительных интервалов требуется умение работать с таблицами.

Пример. По независимой выборке объема найти доверительные интервалы для оценки математического ожидания, если , а доверительная вероятность .

Решение. Сначала находим . Т.к. ; по таблицам (например, табл. II в [2]) находим . Теперь находим точность (полуинтервал) оценки :

.

Доверительный интервал: . Этот интервал соответствует доверительной вероятности .

2.4. Оценка параметров распределений с помощью метода

максимального правдоподобия

До сих пор мы научились оценивать:

а) закон распределения по выборке (гистограмма);

б) математическое ожидание и дисперсию распределения.

Существует общий подход к оценке любых других параметров распределения – метод максимального правдоподобия.

Пусть плотность распределения наблюдаемой случайной величины зависит от некоторого параметра . Обозначим через наблюдаемые независимые значения случайной величины в экспериментах (выборка).

Функцией правдоподобия называется функция

.

Оценкой максимального правдоподобия называется значение, при котором функция правдоподобия достигает максимума. Методы отыскания этой оценки основаны на стандартных методах математического анализа. В частности, приходится решать уравнение

, (*)

которое называется уравнением правдоподобия.

Наряду с функцией правдоподобия рассматривают также логарифмическую функцию правдоподобия

.

В этом случае оценку находят из решения уравнения

, (**)

которое часто также называют уравнением правдоподобия.

Пример. Найти методом максимального правдоподобия оценку параметра распределения Пуассона

где – выборка независимых наблюдаемых значений пуассоновской случайной величины. (Параметр , как известно, является математическим ожиданием пуассоновской случайной величины).

Решение. Составим функцию правдоподобия (в нашем случае ):

Найдем производную

Уравнение правдоподобия имеет вид:

Разрешив это уравнение относительно , получим

Остается выяснить, что мы нашли максимум, а не минимум. Проще всего это сделать по второй производной

Т.к. все значения пуассоновской случайной величины , то , так что вторая производная отрицательна и мы отыскали максимум, т.е. – оценка максимального правдоподобия.

Замечание. Отметим довольно знаменательный факт: оценка является средним арифметическим выборочных значений . Мы уже знаем, что такая оценка является несмещенной и состоятельной оценкой математического ожидания. Метод максимального правдоподобия дал этому еще одно подтверждение.

2.5 Статистическая проверка гипотез

Прежде, чем формулировать постановку задачи в общем виде, рассмотрим такой пример.

Пример. Имеется склад готовой продукции. Известно, что изделия (например, транзисторы одного типа) поступают на склад партиями с двух заводов, выпускающих продукцию разного качества, и такими же партиями отпускаются потребителю. Качество продукции завода характеризуется вероятностью того, что наугад выбранное изделие является бракованным. Для одного завода , для другого (). Потребитель наугад выбирает одну партию изделий. Нужно на основании контроля решить, на каком заводе изготовлена партия изделий.

Как решать такую задачу? Она явно отличается от задач оценки параметров распределений, обсуждаемых ранее. Фактически потребитель имеет два предположения (две гипотезы): контролируемая партия выпущена первым заводом (т.е. содержит повышенный процент брака) или вторым (процент брака более низкий). Располагая конкретной выборкой, он должен проверить, какая же из гипотез верна.

Предположим, что из партии для контроля отобраны изделий, а из них оказались бракованными. Ясно, что величина является случайной величиной с возможными значениями . Под решением поставленной задачи понимается выработка некоторого решающего правила, которое каждому из возможных значений сопоставляет одну из гипотез или .

Общая постановка задачи. Имеются две противоположные гипотезы и и некоторая связанная с ними случайная величина . Пусть – числовое значение , полученное в результате испытания, а – множество всех возможных значений случайной величины . Требуется на основании наблюдений произвести проверку нулевой гипотезы относительно альтернативной гипотезы .

В теории проверки статистических гипотез принято разбивать все множество возможных значений на два подмножества и . Если , принимается нулевая гипотеза , если же , то принимается альтернативная гипотеза.

В приведенном выше примере наблюдаемая величина (количество бракованных транзисторов в контрольной партии) – дискретная случайная величина. Множества , и содержат конечное число элементов. Это не является принципиальным: задача проверки статистических гипотез может быть сформулирована и применительно к случайной величине, принимающей бесконечное количество непрерывных значений.

Главный вопрос теории – каким образом множество разбить на подмножества и ? Ответ на этот вопрос зависит от наличия вероятностных данных в задаче.

2.5.1. Метод минимума среднего риска. Оптимальное решающее правило.

Ошибки первого и второго рода

Этот метод можно использовать только в том случае, когда известны следующие два условных распределения: – закон распределения случайной величины при условии, что справедлива гипотеза , и – аналогичный закон распределения при условии, что справедлива гипотеза .

В нашем примере вероятность того, что наугад выбранное изделие является бракованным, не зависит от результатов проверки других изделий и при условии истинности гипотезы равна . Величина , очевидно в этом случае подчинена биномиальному закону распределения и по формуле Бернулли

(*)

Аналогично, при условии истинности гипотезы

(**)

Для построения решающего правила нам понадобится еще одна величина: априорная (доопытная) вероятность того, что гипотеза имеет место. Иногда такая вероятность известна, иногда нет. В нашем случае эта вероятность, очевидно, определяется соотношением величин поставок транзисторов с двух заводов. Выберем для определенности .

Теперь рассмотрим следующие случайные события:

– верна гипотеза ;

– верна гипотеза ;

– при выбранном способе разбиения результат эксперимента попал в область ;

– результат эксперимента попал в область .

Тогда в результате принятия решения возможен один из следующих четырех случаев:

– верна гипотеза и принято решение о ее истинности;

– верна гипотеза , принято решение об истинности ;

– верна гипотеза , принято решение об истинности ;

– верна гипотеза и принято решение о ее истинности.

Очевидно, исходы и связаны с ошибочными решениями. В теории статистических гипотез все термины как бы «привязываются» к нулевой (основной) гипотезе. Так, ошибка, соответствующая исходу , предполагает, что верна основная гипотеза , а принята альтернативная гипотеза . Такую ошибку называют ошибкой первого рода. Ошибку, соответствующую исходу , называют ошибкой второго рода.





Дата публикования: 2015-03-26; Прочитано: 333 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.017 с)...