![]() |
Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | |
|
Лекция 6. Математическая статистика
План лекции
6.1. Основные понятия математической статистики
6.2. Точечные оценки параметров
6.3. Примеры некоторых распределений
6.1. Основные понятия математической статистики
Математическая статистика – это раздел математики, посвящённый анализу статистических данных самой разнообразной природы. Есть определённая связь математической статистики с теорией вероятностей, которая не случайно изучается раньше. В теории вероятностей имеют дело с вероятностями случайных событий, а также со случайными величинами и их характеристиками. При этом предполагается, что интересующие нас вероятности либо известны, либо их можно рассчитать. Но в практических задачах положение иное. Во время проведения опытов фиксируются конкретные значения случайной величины, по которым затем нужно определить её числовые характеристики и закон распределения вероятностей. Особенностью задачи в подавляющем числе случаев является невозможность обследовать все объекты наблюдения, а значит, имея в наличие только ограниченное количество измерений, нам необходимо сделать вывод о поведении всей совокупности объектов.
Всё множество исследуемых объектов называется генеральной совокупностью. Число объектов называется объёмом генеральной совокупности. Объём генеральной совокупности является конечным в отличие от теоретических рассмотрений, где он предполагается бесконечным.
Множество случайным образом отобранных объектов исследования называется выборочной совокупностью или выборкой, а число объектов в выборке – её объёмом. Произведённая выборка должна достаточно полно отражать свойства всех объектов генеральной совокупности. Особенно это важно, когда генеральная совокупность имеет некоторую неоднородность объектов. Такое требование к выборке формулируется так: выборка должна быть репрезентативной (представительной). Репрезентативность выборки обеспечивается случайностью отбора при одинаковой вероятности любого объекта попасть в выборку.
Проиллюстрируем это понятие на примере. Допустим, что население города составляет 100 000 человек, среди которых 60% - бедняки, 30% - средний класс, а остальные - богачи. Требуется оценить среднегодовой доход на душу населения. Поскольку нет ни финансовых, ни физических возможностей опросить всех жителей города, то решили сделать выборку из 1000 человек, и по результатам опроса оценить среднегодовой доход. Чтобы выборка была репрезентативной, следует случайным образом выбрать для опроса приблизительно 600 бедняков, 300 человек со средним достатком и 100 богачей. Только в этом случае среднее арифметическое их годовых доходов будет хорошей оценкой среднегодового дохода жителей этого города.
Теперь перейдем к формальной стороне математической статистики, которая, как уже говорилось, определяется как раздел математики, посвящённый математическим методам систематизации, обработки и использования статистических данных для научных и практических выводов вне зависимости от природы изучаемых объектов.
Пусть имеется генеральная совокупность случайной величины Х (в приведённом выше примере - индивидуальные доходы 100 000 горожан), функция распределения F(x) которой нам неизвестна, либо известна с точностью до нескольких параметров. Тогда выборкой объёма n будет являться случайный n - мерный вектор, имеющий “координаты” { х1, х2,..., хn } (в примере – доходы случайным образом отобранных n горожан). Ставится задача: по имеющейся выборке оценить основные числовые характеристики случайной величины Х (математическое ожидание, дисперсию) или сделать вывод о виде функции распределения.
Поскольку выборка случайна, то координаты n - мерного вектора хi неупорядочены, т.е., во-первых, среди них могут встретиться одинаковые величины (равные доходы), а во-вторых, может выполняться любое из неравенств: хi+1 > > xi или хi+1 < xi. Для удобства работы с выборкой значения xi переставляют так, чтобы выполнялись нестрогие неравенства: х1 £ х2 £ х3 £ ... £ хn. Такая перестановка не приведет ни к потере информации, ни к её приобретению (просто опрос тех же горожан проводился бы в ином порядке).
Некоторые значения в выборке могут совпадать. Допустим, всего имеется k (1 £ k £ n) разных и расположенных в порядке возрастания значений ; их называют вариантами, а такую последовательность чисел – вариационным рядом. Разность
-
между наибольшим и наименьшим значениями выборки называют размахом выборки. Допустим, значение
повторяется ni раз (1 £ i £ k) при соблюдении равенства
. Величину ni называют частотой варианты
, а отношение ni / n относительной частотой Wi. Легко убедиться, что сумма относительных частот равна единице:
.
Данные вариационного ряда заносим в таблицу, верхнюю строку которой заполним вариантами ,
,...,
, а нижнюю - соответствующими относительными частотами
. Такая таблица называется таблицей статистического распределения выборки или просто статистической таблицей. Статистическая таблица в случае отсутствия повторяющихся значений в вариационном ряду имеет вид табл. 6.1, а для выборки с повторяющимися значениями - табл. 6.2.
![]() | ![]() | ![]() | ![]() | … | ![]() | ![]() |
Wi | 1/n | 1/n | 1/n | … | 1/n | 1/n |
![]() | ![]() | ![]() | … | ![]() |
Wi | ![]() | ![]() | … | ![]() |
Заметим, что таблицу статистического распределения выборки можно считать таблицей распределения некоторой гипотетической случайной дискретной величины, принимающей значения ,
,...,
с вероятностями
. В силу этой аналогии можно по тем же формулам, которые использовались для дискретного распределения в теории вероятностей, по известному эмпирическому распределению найти выборочные аналоги математического ожидания, дисперсии и эмпирической функции распределения.
Если объём выборки из генеральной совокупности некоторой случайной непрерывной величины велик, то прибегают к предварительной группировке данных: интервал значений этой величины разбивают на k интервалов (при этом их длины не обязательно должны быть одинаковы). При выборе количества интервалов руководствуются формулой k = log2 n + 1. Подсчитывают, сколько значений n1 , n2,..., nk попало в каждый из k интервалов (n1 + n2 +... + nk = = n). Вариантами для группированной выборки считают середины этих интервалов ,
,...,
. Эти данные заносят в статистическую таблицу распределения выборки (табл. 6.2).
Для наглядного представления статистического распределения пользуются графическими изображениями вариационных рядов: полигоном (для случайной дискретной величины) и гистограммой (для непрерывной). Полигон получают, соединяя отрезками прямых точки с координатами (,
), i = 1 ,..., k. Он является аналогом многоугольника распределения случайной дискретной величины в теории вероятностей. Гистограмма - это ряд прямоугольников, основаниями которых являются отрезки длиной
-
, а их высоты равны
. При таком выборе сторон прямоугольников достигается равенство единице площади всей этой ступенчатой фигуры. Гистограмма является аналогом плотности вероятностей случайной непрерывной величины. Примеры полигона и гистограммы приведены соответственно на рис. 5.1 и 5.2.
Wi
x1 x2 x3 x4 х5 x6 x7 x
Рис. 6.1
Wi
![]() |
![]() | |||
![]() | |||
х
Рис. 6.2
Рассматривая эти графики, можно высказать предположение, что в первом случае случайная величина имеет равномерное распределение, а во втором - нормальное. Оценка правомерности этих гипотез составляет отдельную главу математической статистики.
П р и м е р № 1. На приёмных экзаменах случайная выборка среди абитуриентов дала следующие набранные ими баллы: 12. 11, 12, 10, 10, 9, 14, 12, 13, 10, 11, 11, 15, 9, 12, 12, 11, 9, 9, 10, 11, 11, 14, 13, 9, 11, 12, 9, 11, 13. Построить для данной выборки вариационный ряд, полигон и эмпирическую функцию распределения, найти моду и медиану.
Р е ш е н и е. Расположим данные выборки в порядке их возрастания, или другими словами, составим вариационный ряд: 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 11, 11, 11, 11, 11, 11, 11, 11, 12, 12, 12, 12, 12, 12, 1, 13, 13, 14, 14, 15. Числа являются вариантами с числом повторений соответственно n1 = 6, n2 = 4, n3 = 8, n4 = 6, n5 = 3, n6 = 2, n7 = 1. Объём выборки равен n =
. Данные занесём в статистическую таблицу распределения выборки (табл. 6.3).
![]() | |||||||
Wi | 6/30 | 4/30 | 8/30 | 6/30 | 3/30 | 2/30 | 1/30 |
Построим полигон выборочного распределения (рис. 6.3).
Wi
![]() |
![]() |
… x
0 1 8 9 10 11 12 13 14 15
Рис. 6.3
Модой распределения Мо является варианта 11, для которой относительная частота наибольшая. Медиана Ме вычисляется по формуле:
Ме = .
1
0,5
![]() | |||||||
![]() | |||||||
![]() | |||||||
![]() |
....
0 1 8 9 10 11 12 13 14 15 x
Рис. 6.4
Эмпирическая функция распределения (рис. 6.4), соответствующая полученной статистической таблице распределения, строится по той же методике, что и в теории вероятностей. Она имеет ступенчатый вид: в точках
(i = 1, 2,..., 7) имеются ”скачки” величиной Wi, причём
= 0 для x <
и
= 1 для x >
.
П р и м е р № 2. Измерения толщины (в мм) слюдяных прокладок дали следующие результаты: 0,042; 0,030; 0,039; 0,031; 0,042; 0,034; 0,036; 0,030; 0,033; 0,024; 0,031; 0,040; 0,031; 0,033; 0,031; 0,022; 0,031; 0,034; 0,027; 0,032; 0,048; 0,030; 0,026; 0,031; 0,043; 0,030; 0,033; 0,028; 0,028; 0,032; 0,039; 0,031; 0,034; 0,031; 0,035; 0,037; 0,025; 0,029; 0,027; 0,031; 0,028; 0,030; 0,029; 0,045; 0,033; 0.046; 0,036; 0,049; 0,021; 0,037. Построить гистограмму.
Р е ш е н и е. Объём выборки равен n = 50. Сгруппируем данные в интервалы, число которых найдём по формуле: k = log 250 + 1 = 6,6. Округлим это число до ближайшего целого, превышающего полученное: k = 7. Поскольку размах выборки равен xmax – xmin = 0,049 – 0,021 = 0,028 мм, то каждый из интервалов составляет 0,004 мм. Посчитаем, сколько измеренных значений попало в соответствующие интервалы, и составим статистическую таблицу распределения группированных данных (табл. 6.4), дополнив её необходимой для построения гистограммы строкой, содержащей значения (по условию Dx = 0,004).
Заметим, что объем выборки .
В качестве вариант возьмём середины промежутков:
Dхi | [0.021- 0.025) | [0.025-0.029) | [0.029-0.033) | [0.033-0.037) | [0.037-0.041) | [0.041-0.045) | [0.045-0.049] |
Wi | 3/50 | 7/50 | 18/50 | 10/50 | 5/50 | 3/50 | 4/50 |
Wi/Dx |
Wi /Dx
![]() | |||||
![]() | |||||
![]() |
0,021 0,025 … 0,049 х
Рис. 6.5
Гистограмма, соответствующая полученной статистической таблице, изображена на рис. 6.5. Она является аналогом плотности вероятности случайной непрерывной величины Х - толщины слюдяной прокладки.
6.2. Точечные оценки параметров
Пусть имеется выборка (x1, x2,..., xn) из некоторой генеральной совокупности. Записав некое математическое выражение, содержащее эти значения, получим функцию выборки Zn (x1, x2,..., xn), которая сама будет случайной величиной в силу того, что в выборку отбираются случайные элементы из генеральной совокупности. Например, можно рассмотреть среднее арифметическое значение выборки (аналог математического ожидания в теории вероятностей), которое называется выборочным средним: (x1+ x2+...+ xn) / n. Разброс же значений в выборке можно характеризовать исправленной выборочной дисперсией:
.
Задача оценки неизвестного параметра l (например, М(Х) или D(Х)), который как-либо связан с генеральной совокупностью, порождённой функцией распределения случайной величины Х, на основании полученной выборки (х1, х2,..., хn), означает следующее. Надо задать (придумать!) такую функцию выборки Zn, реализация которой Zn = Z (х1, х2,..., хn) в некотором смысле могла бы рассматриваться как «хорошее» приближенное значение параметра l, т.е. должно выполняться условие l» Zn.
Такая функция выборки Zn = Z (х1, х2,..., хn) называется точечной оценкой параметра l. Реализовавшееся значение функции выборки Zn будем называть выборочным (или эмпирическим) значением параметра l.
Точечная оценка Zn = Z (х1, х2,..., хn) параметра l называется несмещенной, если М (Zn) = l.
Точечная оценка Zn параметра l называется состоятельной, если Р (| Zn - l| < e) ® 1, при n ® ¥, где e - сколь угодно малое положительное число. То есть состоятельность оценки означает, что при очень большой выборке и сколь угодно малом e > 0, вероятность события (| Zn - l| < e) сколь угодно близка к 1.
Нас будут интересовать оценки Р (Х = А) - вероятности события А, математического ожидания М(Х), дисперсии D(Х) и коэффициента корреляции Gxy. Основные требования, предъявляемые к их оценкам, состоят в несмещённости и состоятельности.
Мы будем использовать следующие оценки четырех, перечисленных выше параметров М (Х), D(Х), Р(Х = А), G ху:
1) - выборочное среднее;
2) - исправленная выборочная дисперсия;
3) - частота события А, где
, если событие А произошло в i - ом опыте, и
, если оно не произошло. Величину
можно рассматривать как оценку вероятности Р в схеме испытаний Бернулли.
Если в генеральной совокупности содержится две интересующие нас случайные величины Х и Y, то выборка объема n состоит из последовательности пар В этом случае оценка коэффициента корреляции случайных величин Х и Y производится по формуле:
где
Можно доказать, что приведенные выше оценки являются несмещёнными и состоятельными точечными оценками.
Приведенные формулы для вычисления соответствуют не группированным выборкам. Если проведена группировка выборки объема n и получена статистическая таблица в виде табл. 6.2, то расчет проводят по формулам:
З а м е ч а н и е. На практике часто пользуются для оценки дисперсии D (X) выборочной дисперсией . Но
оказывается оценкой смещённой, т.е. М (
) ¹ D (X). При больших значениях n значения исправленной выборочной дисперсии
и выборочной дисперсии
практически совпадают
. Поэтому при небольших объемах выборки лучше использовать оценку
, которую получают по формуле
. А про точечную оценку
можно сказать, что она является несмещенной только асимптотически (при n >> 1).
З а д а ч а. Вернёмся к выборке для толщины слюдяных прокладок, приведенной в примере № 2 п.6.1. Необходимо найти оценки параметров М (Х), D (Х) и - математического ожидания, дисперсии и среднеквадратического отклонения для толщины слюдяной прокладки.
Р е ш е н и е. Вначале вычисляем выборочное среднее:
= (0,023 × 3 + 0,027 × 7 + 0,031 × 18 + 0,035 × 10 + 0,039 × 5 + 0,043 × 3 + 0,047 × 4)/50 =
= 0,03356 мм.
Теперь находим выборочную дисперсию:
=
= (0,0232 × 3 + 0,0272 × 7 + 0,0312 × 18 + 0,0352 × 10 + 0,0392 × 5 + 0.0432 × 3 +
+ 0,0472 × 4) / 50 – 0,033562 = 3,82464 × 10-5 мм 2.
Исправленная выборочная дисперсия легко находится:
=
× 3,82464 × 10-5 = 3,9027 × 10-5 мм 2.
Выборочное среднеквадратическое отклонение толщины прокладки равно
Из-за того, что в группированной выборке участвуют уже только середины интервалов разбиения, группировка выборки приводит к некоторой потере информации, содержащейся в исходной выборке. Поэтому, исходя из опыта, объем выборки n берут достаточно большим (не менее нескольких десятков), а число интервалов разбиения k – в пределах от 5 до 15. В этом случае разница в оценках параметров распределения, полученных по группированной и не группированной выборкам, оказывается незначительной. Так, в только что рассмотренном примере оценки М (Х) и s, вычисленные по группированной выборке, оказались равными: А если выборку не группировать, то для оценок М (Х) и s получатся соответственно значения 0,0331 мм и 6,25 мк, что весьма незначительно отличается от значений оценок по группированной выборке.
З а м е ч а н и е. В случае малых или, наоборот, больших значений для упрощения вычисления
полезно использовать формулу, позволяющую оперировать с привычными числами:
,
где числа C 1 и C выбираются, исходя из удобств вычислений.
Например, вычисление в предыдущем примере проще осуществить по формуле:
.
В заключение отметим, что возможность вычисления значений предусмотрена в “инженерных” и “научных” калькуляторах.
6.3. Примеры некоторых распределений
В лекции 2 описано нормальное распределение случайной непрерывной величины. Плотность вероятности нормального распределения величины Х, имеющей математическое ожидание М (Х) = а и дисперсию D (Х) = s2 имеет вид
.
Множество нормально распределенных случайных величин с параметрами а и s2 обозначается N (а, s2). В теории вероятностей доказывается, что сумма нормально распределенных случайных величин имеет нормальное распределение. Поэтому случайная величина , где
- независимые случайные величины, будет нормально распределена с параметрами а и
. Иными словами,
З а м е ч а н и е. Равенства были получены в конце п. 6.3 (задача № 2).
Пусть (х1, х2,..., хn) - математическая выборка из генеральной совокупности, порожденной распределением или из генеральной совокупности, образованной независимыми случайными величинами с математическим ожиданием а и дисперсией
. Тогда можно доказать несколько следующих утверждений.
1. Случайная величина имеет стандартизированное нормальное распределение N (0; 1) или асимптотически стандартизированное нормальное распределение, плотность вероятности которого
.
В п. 2.6.2.2 было показано, что если x > 0, то , где
- функция Лапласа. Для любого
имеем
.
Заметим, что функция - чётная:
, а функция Лапласа – нечётная:
.
Таблицы значений функций и
для x > 0 приводятся в Приложении (табл. 1 и 2).
2. Рассмотрим схему испытаний Бернулли, где в каждом из n опытов событие А реализуется с вероятностью р. Введём случайные величины: хi = 1, если в i -ом опыте произошло событие А, и хi = 0, если в i -ом опыте событие А не произошло. Образуем случайную величину .
Доказывается, что случайная величина имеет асимптотически стандартизированное распределение, т.е. при достаточно большом числе опытов
.
3. Случайная величина , где
, называется отношением Стьюдента с (n - 1) степенью свободы. Поясним последнее обстоятельство. Величина Т зависит от случайных величин
(в силу того, что
) и S, т.е. Т зависит от (n + 1) случайной величины. Но среди этих случайных величин есть две функциональные связи:
и
. Поэтому независимых случайных величин, участвующих в формировании случайной величины Т, будет
, что и является её числом степеней свободы.
Заметим, что в теории вероятностей доказывается, что и S - независимые случайные величины.
Обозначим плотность вероятности случайной величины Т с степенями свободы через
. Распределение величины Т называется распределением Стьюдента с k степенями свободы. Известно, что эта плотность вероятности – функция чётная:
, а также, что
.
Таблицы при заданных значениях m, g, a для определения значений x > 0, удовлетворяющих равенствам
и
,
приводятся в Приложении (табл.4).
4. Случайная величина имеет распределение Стьюдента с числом степеней свободы m = n - 2, если
. Здесь
- коэффициент корреляции случайных величин X и Y, а
- его выборочное значение, равное
.
5. Случайная величина имеет распределениехи-квадрат с m = n - 1 степенью свободы. Обозначим плотность вероятности величины c2 как
. Тогда для x > 0 имеем
Если , то вероятность случайной величине принять значение между х 1 и х 2 равна
Таблица при заданных параметрах m = n – 1, 0 < a < 1 для значений х, удовлетворяющих равенству , приводится в Приложении (табл. 5).
Математическое ожидание и дисперсия для хи-квадрат распределения равны ; мода распределения, т.е. значение варианты, для которой плотность вероятности максимальна, равна xо = m – 2.
Таблицы для определения х, удовлетворяющего уравнению , обычно приводятся для числа степеней свободы m в диапазоне:
. Если же m > 30, то используется тот факт, что случайная величина
распределена асимптотически нормально, т.е.
Î
, m >> 1. Это позволяет получить приближенное решение уравнения
в виде
, где Ka - квантиль порядка a нормального стандартизированного распределения (квантиль порядка a случайной величины Х определяется как корень уравнения F (K a) =
, что нормальной случайной величины выглядит так:
, где
- функция Лапласа). Если величина a близка к 0 или 1, то следует пользоваться приближением
.
З а д а ч а № 1. Найти значение х, удовлетворяющее уравнению
, где m = 100, a = 0,01.
Р е ш е н и е. Т.к. число степеней свободы m = 100 > 30, то использовать табл. 5 нельзя. Воспользуемся формулой , где К a - корень уравнения
, т.е.
. По табл. 2 значений функции Лапласа Ф (х) получим: (- Кa) = 2,33, т.е. К a = -2,33. Затем вычисляем
.
Если же воспользоваться формулой , то получим
. Т.е. оба приближения дают практически одинаковые значения х: 69,3 и 70.
З а д а ч а № 2. В предыдущем примере возьмём a = 0,001 и найдём х.
Р е ш е н и е. Значение х следующее: , где величина К a удовлетворяет уравнению
. По табл.2 находим: (- Кa) = 3,08, т.е. Кa = - 3,08, и поэтому
Дата публикования: 2014-11-29; Прочитано: 517 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!