Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Статистический анализ одномерной случайной величины



Министерство образования и науки РФ

Федеральное агентство по образованию

Саратовский государственный

Технический университет

СТАТИСТИЧЕСКИЙ АНАЛИЗ

ОДНОМЕРНОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ

Методические указания по выполнению контрольной работы

по дисциплине «Статистика» для студентов са специальности «Реклама» заочной формы обучения

Часть I

Одобрено

Редакционно-издательским советом

Саратовского государственного

технического университета

Саратов - 2008


Введение

Во многих прикладных задачах необходимые характеристики случайных величин неизвестны исследователю и должны определяться по экспериментальным данным. Статистическое описание результатов эксперимента, построение и проверка математических моделей, использующих законы теории вероятностей, составляют основное содержание математической статистики.

Назначение настоящих методических указаний состоит в том, чтобы помочь студентам в изучении методов оценивания основных характеристик случайных величин: закона распределения вероятности, математического ожидания, дисперсии, среднего квадратического отклонения.

Статистический анализ одномерной случайной величины

1.1.Общие понятия

Генеральной совокупностью называется некоторая большая (конечная или бесконечная) совокупность однородных объектов, относительно которой необходимо сделать какие-нибудь утверждения на основе выборки.

Выборочной совокупностью или просто выборкой называют часть генеральной совокупности, выбранную для получения выводов о генеральной совокупности в целом.

Объёмом совокупности называют число объектов этой совокупности. Например, если из 500 деталей отобрано для обследования 25 деталей, то объём генеральной совокупности = 500, а объём выборки =25. Объём генеральной совокупности может быть как числом конечным, так и бесконечно большим; объём выборки всегда имеет конечное значение.

Выборка называется репрезентативной (представительной), если она достаточно полно характеризует генеральную совокупность. Для обеспечения репрезентативности выборки чаще всего используют случайный выбор элементов. При этом предполагается, что каждая выборка фиксированного объёма имеет одну и ту же вероятность выбора, а последовательные наблюдения взаимно независимы.

Основное достоинство статистических методов состоит в том, что они позволяют по выборке ограниченного объёма высказать обоснованное суждение о свойствах генеральной совокупности. Эти суждения формируются путём построения оценок (приближённых значений) параметров объективно существующих, но неизвестных вероятностных характеристик исследуемой величины. Оценки параметров выражаются в виде функциональных зависимостей от элементов выборки.

Поскольку оценка некоторого параметра есть функция элементов выборки, то её числовое значение изменится, если взять другую выборку; то есть оценка параметра есть случайная величина и в этом её принципиальное отличие от оцениваемого параметра, являющегося неслучайным. Чтобы подчеркнуть этот факт, как правило, оценку произвольного параметра обозначают через . Так, например, оценка математического ожидания случайной величины обозначается .

Несмещённой называют статистическую оценку , математическое ожидание которой равно оцениваемому параметру при любом объёме выборки, т.е. .

Эффективной называют статистическую оценку, которая при заданном объёме выборки имеет наименьшую возможную дисперсию.

Состоятельной называют статистическую оценку, которая при неограниченном возрастании объёма выборки стремится по вероятности к оцениваемому параметру. Это означает, что с ростом объёма выборки плотность распределения концентрируется вокруг .

1.2.Вариационный ряд

Пусть имеется выборка экспериментальных данных случайной величины . Для удобства дальнейшей работы с выборкой значения случайной величины располагают в порядке возрастания от до , т.е. строят вариационный ряд.

Пример 1.2.1.

Пусть дана выборка:

-1,3 -0,3 -1,4 2,3 -1,1 0,4 -0,5 1,0 0,3 0,6

Соответствующий ей вариационный ряд есть:

=-1,4 -1,3 -1,1 -0,5 -0,3 0,3 0,4 0,6 1,0 2,3=

1.3.Построение гистограммы выборки

При обработке статистических данных о случайной величине для большей наглядности строят различные графики статистического распределения, в частности, для непрерывной случайной величины строят гистограмму.

С целью построения гистограммы на оси абсцисс выбирают некоторый интервал полностью содержащий выборку. Этот интервал делят на равных частичных интервалов длиной .

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы, а высоты равны количеству попаданий значений исследуемой величины в частичный интервал .

Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы, а высоты равны:

,

где - число значений случайной величины в -м частичном интервале,

- объём выборки,

- длина частичного интервала.

Очевидно, что гистограмма относительных частот есть оценка функции плотности распределения величины и её площадь равна единице.

Порядок построения гистограммы может быть принят следующим:

-определяют предварительное число частичных интервалов. Это можно делать либо на основе суждения экспертов, либо с помощью оценочной формулы:

, (1.3.1)

где - объем выборки,

причем найденное значение округляют до ближайшего целого значения.

-если известны конечные левая - и правая - границы исследуемой величины, то интервал разбивается на частичных интервалов длиной:

; (1.3.2)

-если одна или обе границы имеют бесконечные значения или информация о границах отсутствует, то определяют длину частичных интервалов, как:

, (1.3.3)

причём полученную величину несколько округляют для удобства вычислений;

-если известна левая - граница исследуемой величины, то начиная с , откладывают столько частичных интервалов, чтобы в совокупности они покрыли всю выборку (в случае известной правой границы поступают аналогично);

-если обе границы неизвестны, то середину области изменения выборки - принимают за центр некоторого частичного интервала, от границ которого влево и вправо откладывают столько частичных интервалов, чтобы в совокупности они покрыли всю выборку;

-посчитывают количество значений исследуемой величины, попавшее в каждый частичный интервал;

-строят гистограмму частот (сумма ординат гистограммы частот равна объёму выборки);

-строят гистограмму относительных частот делением ординат гистограммы частот на величину .

Пример 1.3.1. Для величины , имеющей границы , , получена выборка из 10-ти значений. Вариационный ряд для этой выборки имеет вид:

-1,4 -1,3 -1,1 -0,5 -0,3 0,3 0,4 0,6 1,0 2,3

По формуле (1.3.1) получим

.

Округляем значение до ближайшего целого, получаем количество частичных интервалов .

Тогда размер каждого частичного интервала

.

Находим границы частичных интервалов:

-3 -1,5 0 1,5 3.

Считаем, сколько значений из выборки попадает в первый интервал от -3 до -1,5. Смотрим вариационный ряд, количество попаданий будет равно нулю, т.е. .

В интервал от -1,5 до 0 попадают значения:

-1,4 -1,3 -1,1 -0,5 -0,3

То есть, для второго интервала, количество попаданий (частота) будет .

Для третьего и четвертого интервалов частоты будут: и .

Теперь строим гистограмму. Гистограмма приведена на рис. 1.3.1. Гистограмма относительных частот получится из этой гистограммы, если разделить ординаты (высоты столбцов) на величину .

Пример 1.3.2. Пусть дана выборка из 100 значений величины , а соответствующий ей вариационный ряд начинается и заканчивается следующими значениями:

=0,4 и =7,6

По формуле (1.3.1) получим:

,

принимаем .

Тогда

.

Округляем до .

Находим середину области изменения выборки

.

После чего легко находятся границы частичных интервалов:

-0,5 0,5 1,5 2,5 3,5 4,5 5,5 6,5 7,5 8,5.

Обратим внимание, что в конечном итоге частичных интервалов получилось девять.

Для экономии места вариационный ряд выборки из 100 значений мы приводить не будем. Пусть получились следующие количества попаданий значений выборки в частичные интервалы:

.

Теперь строим гистограмму. Гистограмма приведена на рис. 1.3.2. Гистограмма относительных частот получится из этой гистограммы, если разделить ординаты (высоты столбцов) на величину .

1.4. Точечные оценки математического ожидания и дисперсии

Точечные оценки неизвестных параметров распределения представляют собой числа, полученные путём математических операций над элементами выборки. Математическое ожидание и дисперсию обычно оценивают с помощью формул:

, (1.4.1)

, (1.4.2)

где - оценка математического ожидания случайной величины (выборочное среднее);

- объём выборки (количество измерений случайной величины );

- -е измерение случайной величины ;

- оценка дисперсии случайной величины (исправленная выборочная дисперсия).

Оценка среднего квадратического отклонения или исправленное среднее квадратическое отклонение равно:

. (1.4.3)

Приведенные оценки являются несмещёнными и состоятельными. Если случайная величина имеет нормальный закон распределения, то оценка является также эффективной, а оценка стремится к эффективной при .

Пример 1.4.1. Пусть дана выборка из значений случайной величины :

.

Используя формулы (1.4.1), (1.4.2) и (1.4.3) найдём:

,

,

.

1.5.Проверка статистических гипотез. Критерии согласия.

Статистическая гипотеза есть некоторое предположение относительно свойств генеральной совокупности (о виде распределения или о параметрах известных распределений).

Критерий статистической гипотезы это правило, позволяющее принять или отвергнуть выдвинутую гипотезу по значениям элементов выборки. Для построения такого правила используют определённые функции от значений выборки, которые называют статистиками. Все возможные значения статистик делят на две области: область принятия гипотезы и критическую область. Если значение статистики, вычисленное по данным выборки, не попадает в критическую область, то нет оснований выдвинутую гипотезу отвергать; если значение статистики попадает в критическую область; то выдвинутая гипотеза отвергается.

При этом различают два вида ошибок:

Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза.

Ошибка второго рода состоит в том, что будет принята неправильная гипотеза.

Вероятность совершить ошибку первого рода принято обозначать через , её называют уровнем значимости. Обычно полагают =0,05.

Критерий согласия – это критерий, с помощью которого проверяют гипотезу о том, что генеральная совокупность имеет распределение предполагаемого типа.

Имеется несколько критериев согласия: , Колмогорова-Смирнова, и другие. Учитывая универсальность критерия (критерий применим для проверки на соответствие любому виду распределения), рассмотрим порядок проверки гипотезы о виде функции распределения с помощью этого критерия.

-находятся оценки для каждого из неизвестных параметров принятого гипотетического распределения;

строится гистограмма выборки, причём, если в каком-либо частичном интервале гистограммы частот окажется менее пяти значений величины , то его объединяют с соседним интервалом (или интервалами) так, чтобы в каждом исправленном частичном интервале число частот было больше или равно пяти. Пусть - число исправленных частичных интервалов;

-определяют теоретическую вероятность попадания исследуемой случайной величины в каждый исправленный частичный интервал;

-вычисляют значение по формуле:

, (1.5.1)

где - частота попадания в -ый интервал;

- объём выборки;

- теоретическая вероятность попадания в -ый интервал;

-по стандартным таблицам определяется критическое значение :

,

где - уровень значимости;

- число степеней свободы, определяемое по формуле:

,

где - число исправленных частичных интервалов;

- число оценок параметров выбранного гипотетического распределения.

- если , то гипотезу о виде функции распределения отклоняют, в противном случае гипотезу принимают.

Пример 1.5.1. Произведено 83 испытания случайной величины . В таблице 1.7.1 приведены данные гистограммы частот: указаны частичные интервалы и значения . Проверить гипотезу о согласии закона распределения случайной величины с нормальным законом распределения с параметрами равными и на уровне значимости =0,05.

1.Пусть в процессе обработки выборки получены следующие оценки математического ожидания и дисперсии: =24,92 и =38,27.

Закон распределения случайной величины обычно удобнее всего задавать в виде функции плотности распределения. Для случайной величины с нормальным законом распределения функция плотности распределения имеет такой общий вид:

, .

Как видно из формулы нормальный закон распределения имеет только два параметра: математическое ожидание и дисперсию . Подставив в эту формулу вместо математического ожидания и дисперсии их оценки получим следующую формулу:

или окончательно:

, . (1.5.2)

Гипотезу на соответствие именно такому закону распределения мы и будем проверять.

2.Так как =0 меньше 5, то два последних интервала объединим в один. Поэтому = 6.

3.Находим вероятности с помощью стандартных таблиц значений интегральной функции нормального распределения [2],[3] по формулам:

,

, =2,3,4,5,

.

Тогда:

;

и т.д. Найденные значения приведены в таблице 1.5.1.

По формуле 1.7.1 вычисляем расчётное значение :

=5,98.

  (8,30; 13,36)     0,03 2,59 2,41 2,25
  (13,36; 18,41)     0,12 9,86 -3,86 1,51
  (18,41; 23,47)     0,26 21,58 -1,58 0,12
  (23,47; 28,53)     0,31 25,73 5,27 1,04
  (28,53; 33,59)     0,20 16,6 -3,6 0,78
  (33,59; 38,64)     0,08 6,64 -1,36 0,26
  (38,64; 43,70)            
L=7   n=83 L’=6    

Таблица 1.5.1

4. По стандартным таблицам [2],[3] находим критическое значение . Для числа степеней свободы и критическое значение будет равно:

.

5. Так как вычисленное значение =5,98 не превышает критического значения =7,81, то наша исходная гипотеза о нормальном законе распределения с параметрами =24,92 и =38,27 не противоречит наблюдениям с вероятностью , то есть с вероятностью 95 процентов, и может быть принята.

6.Для визуального сопоставления эмпирических данных и найденной оценки закона распределения можно прямо на гистограмме относительных частот построить график оценённой функции плотности нормального распределения. Для этого надо протабулировать эту оценочную функцию (в нашем примере это формула (1.5.2)). Достаточно, например, найти значения функции на границах частичных интервалов и в серединах частичных интервалов. А также максимальное значение, которое будет в точке =24,92. В нашем примере получим 8 точек для границ частичных интервалов, 7 точек для середин интервалов и 1 точку максимума, итого 16 точек. Значения функции в этих точках строятся на гистограмме относительных частот и затем соединяются вручную плавной кривой (рис.1.5.1).





Дата публикования: 2015-01-09; Прочитано: 2270 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.026 с)...