![]() |
Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | |
|
1.1. Выборка. Эмпирическая функция распределения. Гистограмма.
Выборочные числовые характеристики
В математической статистике имеют дело со стохастическими экспериментами, состоящими в проведении повторных независимых наблюдений над некоторой случайной величиной , имеющей неизвестное распределение вероятностей, т.е. неизвестную функцию распределения
. В этом случае множество
всех возможных значений наблюдаемой случайной величины
называют генеральной совокупностью, имеющей функцию распределения
. Числа
, являющиеся результатом
независимых наблюдений над случайной величиной
, называют выборкой из генеральной совокупности или выборочными (статистическими) данными. Число наблюдений
называется объемом выборки.
Основная задача математической статистики состоит в том, как по выборке , извлекая из нее максимум информации, сделать обоснованные выводы относительно вероятностных характеристик наблюдаемой случайной величины
.
Замечание: Выборка является исходной информацией для статистического анализа и принятия решений о неизвестных вероятностных характеристиках наблюдаемой случайной величины
. Однако на основе конкретной выборки обосновать качество статистических выводов принципиально невозможно. Для этого на выборку следует смотреть априорно как на случайный вектор
, координаты которого являются независимыми, распределенными так же как и
, случайными величинами, и который еще не принял конкретного значения в результате эксперимента. Переход от выборки конкретной
к выборке случайной
будет неоднократно использоваться далее при решении теоретических вопросов и задач для получения выводов, справедливых для любой выборки из генеральной совокупности.
В зависимости от дальнейших целей существует несколько способов представления статистических данных. Простейший из них - в виде статистического ряда:
Номер наблюдения ![]() | 1 2 … ![]() |
Результат наблюдения ![]() | ![]() ![]() ![]() |
Если среди выборочных значений имеются совпадающие, то статистический ряд удобнее записывать в виде таблицы, называемой таблицей частот:
Выборочные значения ![]() | ![]() | ![]() | … | ![]() |
Частоты ![]() | ![]() | ![]() | … | ![]() |
Относительные частоты
![]() | ![]() | ![]() | … | ![]() |
где - различные значения среди
;
- частота значения
;
- относительная частота значения
. Очевидно, что
. Поэтому совокупность пар
называют эмпирическим законом распределения.
Выборочные значения , упорядоченные по возрастанию, носят название вариационного ряда:
,
где ,
.
Величина называется размахом выборки.
Эмпирической функцией распределения, соответствующей выборке
, называется функция
,
где - индикатор множества
, а
- число выборочных значений, не превосходящих
.
Для заданной выборки эмпирическая функция распределения
обладает всеми свойствами обычной функции распределения: принимает значения между 0 и 1, является неубывающей и непрерывной слева. График
имеет ступенчатый вид, причем:
если все значения различны, то
при
,
,
;
если - различные значения среди
, то
.
Принципиальное отличие эмпирической функции распределения от обычной функции распределения состоит в том, что она может изменяться от выборки к выборке и притом случайным образом. Важнейшим свойством эмпирической функции распределения
как случайной функции (см. замечание выше) является то, что она для любого
при увеличении объема выборки
сближается (в смысле сходимости по вероятности) с истинной функцией распределения
. Поэтому говорят, что эмпирическая функция распределения
является статистическим аналогом (оценкой) неизвестной функции распределения
, которую называют при этом теоретической.
Если - выборка объема
из генеральной совокупности, имеющей непрерывное распределение с неизвестной плотностью вероятностей
, то для получения статистического аналога
следует предварительно произвести группировку данных. Она состоит в следующем:
1. По данной выборке строят вариационный ряд
.
2. Промежуток
разбивают точками
на
непересекающихся интервалов
(на практике
).
3. Подсчитывают частоты попадания выборочных значений в
-ый интервал
.
4. Полученную информацию заносят в следующую таблицу, которую называют интервальным статистическим рядом:
Интервалы ![]() | ![]() | ![]() | … | ![]() |
Частоты ![]() | ![]() | ![]() | … | ![]() |
Относительные частоты ![]() |
![]() |
![]() | … |
![]() |
Очевидно, что . Поэтому совокупность пар
, где
- середина интервала
,
называют эмпирическим законом распределения, полученным по сгруппированным данным.
Далее в прямоугольной системе координат на каждом интервале как на основании длиной
строят прямоугольник с высотой
. Получаемую при этом ступенчатую фигуру называют гистограммой.
Поскольку при больших в соответствии с теоремой Бернулли
, где
- истинная вероятность попадания случайной величины
в интервал
, а
, то справедливо приближенное равенство
. Поэтому верхняя граница гистограммы является статистическим аналогом (оценкой) неизвестной плотности вероятностей
.
Ломаная с вершинами в точках называется полигоном частот и для гладких плотностей является более точной оценкой, чем гистограмма. Пример гистограммы и полигона частот приведен на рис.1.
На практике при группировке данных обычно берут интервалы одинаковой длины соnst, а число интервалов группировки определяют с помощью так называемого правила Стургерса, согласно которому полагается
.
![]() |
Рис. 1. Гистограмма и полигон частот
Пусть - выборка из генеральной совокупности, имеющей функцию распределения
. Аналогично тому, как теоретической функции распределения
ставят в соответствие эмпирическую функцию распределения
, любой теоретической характеристике
можно поставить в соответствие ее статистический аналог - выборочную (эмпирическую) числовую характеристику g*, определяемую как среднее арифметическое значений функции g (х) для элементов выборки
:
.
В частности, выборочный начальный момент -го порядка есть величина
.
При k = 1 величину называют выборочным средним и обозначают
:
.
Выборочный центральный момент -го порядка есть величина
.
При величину
называют выборочной дисперсией и обозначают
:
.
Между выборочными начальными и выборочными центральными моментами сохраняются те же соотношения, что и между теоретическими. Например, справедливо равенство
,
являющееся аналогом известного равенства
.
Являясь для заданной выборки числами, в общем случае выборочные числовые характеристики являются случайными величинами и обозначаются соответствующими заглавными буквами:
;
;
;
;
.
В связи с этим можно ставить вопрос о нахождении закона распределения выборочных числовых характеристик и их числовых характеристиках.
Располагая только сгруппированными данными, можно определить аналог эмпирической функции распределения следующим образом:
.
Для вычисления выборочных моментов -го порядка по сгруппированным данным используются формулы:
.
В частности, выборочное среднее и выборочная дисперсия по сгруппированным данным определяются с помощью формул:
.
Дата публикования: 2015-01-09; Прочитано: 481 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!