Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Распределение выборки. Эмпирическая функция распределения



Предположим, что мы изучаем некоторую с.в. X и с этой целью производим ряд независимых наблюдений. В результате статистического наблюдения получена реализация выборки из n значений (вариант)

x 1, x 2,..., xn, (1)

изучаемого количественного признака X.

Определение 6. Последовательность вариант xi, где , записанная в порядке неубывания значений, то есть

, (2)

где , - второе по величине значение среди x 1, x 2,..., xn, …, , называется вариационным рядом. Ясно, что в вариационном ряду представлены все значения реализации выборки, включая повторяющиеся.

Изучаемый признак X может быть дискретным, то есть его значения отличаются на конечную, заранее известную величину (год рождения, тарифный разряд, число людей), или непрерывным, то есть его значения отличаются на сколь угодно малую величину (время, вес, объем, стоимость).

Пусть X – дискретная с.в. и (2) - её вариационный ряд, полученный по реализации выборки (1). Очевидно, что в нём одинаковые варианты расположены подряд. Варианты, имеющие одинаковые значения, снабдим одним и тем же индексом. Так перенумерованный вариационный ряд (2) будет иметь вид:

  (3)

Определение 7. Частотами называются числа , каждое из которых показывает, сколько раз встречается варианта в нашей серии из n наблюдений (i = 1,2,…, k n). Относительными частотами называются отношения частот к объему выборки : .

Очевидно, что и .

Определение 8. Таблицу, в первой строке которой указаны k различных значений x ( i ) изучаемого признака, а во второй строке – соответствующие этим значениям частоты ni или относительные частоты , где (k n) называют статистическим (выборочным) распределением.

Пример 2. Для данной реализации выборки 7, 17, 14, 17, 10, 7, 7, 14, 7, 14 построить статистическое распределение частот и относительных частот.

x ( i )        
4/10 1/10 3/10 2/10
x ( i )        
ni        

Решение. Объём выборки n =10. Вначале построим по имеющейся реализации выборки вариационный ряд . Тогда соответствующее статистическое распределение частот и относительных частот (, k =4) имеет вид:

Пусть теперь изучаемая с.в. X непрерывна. Статистическое распределение для непрерывного признака X принято представлять интервальным рядом. Для его построения необходимо определить величину частичных интервалов, на которые разбивается весь интервал значений с.в. X, полученных в результате наблюдения. Длину частичного интервала нужно выбрать таким образом, чтобы построенный ряд, с одной стороны, не был громоздким, а с другой – позволял выявить характерные черты изменения изучаемой с.в. По формуле Стерджесса [1] оптимальное число интервалов m и длина h частичного интервала определяются по формуле:

, , (4)

где – разность между наибольшим и наименьшим наблюдаемыми значениями. При этом за начало первого интервала принимается .

Определение 9. Для непрерывного признака X частота ni – число вариант xj из реализации выборки (1), попавших в соответствующий интервал (i =1,2,…, m).

Тогда статическое распределение выборки - это таблица, в первой строке которой указаны m интервалов значений изучаемого признака X, начиная с
[ xнач, xнач + h), а во второй строке – соответствующие этим интервалам частоты ni , где .

Если число различных значений дискретного признака очень велико, то для удобства дальнейших вычислений и наглядности статистическое распределение такого дискретного признака также может быть представлено в виде интервального ряда.

Пример 3. В результате трех экзаменов группа из 30 наудачу выбранных абитуриентов набрала следующую сумму баллов: 157, 175, 170, 166, 159, 173, 182, 167, 171, 169, 172, 164, 173, 175, 171, 158, 179, 156, 165, 179, 155, 178, 160, 154, 183, 153, 155, 167, 186, 163. Построить интервальный ряд.

Решение. Сначала упорядочим полученные данные по возрастанию:

153, 154, 155, 155, 156, 157, 158, 159, 160, 163, 164, 165, 166, 167, 167, 169, 170, 171, 171, 172, 173, 173, 175, 175, 178, 179, 179, 182, 183, 186.

Ясно, что 153, 186. Найдем число частичных интервалов и длину интервала по формуле Стерджесса (4): , . Возьмем h =6, тогда xнач =153-0,5×6=150.

Разобьем весь ряд на 6 интервалов: [150, 156), [156,162), [162,168), [168,174), [174,180), [180,186]. Подсчитаем число абитуриентов, попавших в каждый из полученных интервалов, и получим интервальный ряд:

Сумма баллов [150, 156) [156, 162) [162, 168) [168, 174) [174, 180) [180, 186]
Частота            
Относит. частота

Обратно, если в вариационном интервальном ряду каждый интервал заменить лежащим в его середине числом, то получим дискретный вариационный ряд. Такая замена вполне естественна, так как, например, при измерении размера детали с точностью до одного миллиметра всем размерам из промежутка [49,5; 50,5) будет соответствовать одно число, равное 50.

Рассмотрим вариационный ряд (3).

Определение 10. Функция

(5)

называется эмпирической функцией распределения, где n – объём выборки; nk – частота появления варианты x ( k); – число выборочных значений < x, k≤n.

Эмпирическая функция распределения по её вариационному ряду строится так:

  (6)

Значениями являются так называемые накопленные частости. График эмпирической функции распределения строят так же, как и график функции распределения дискретной с.в.

Если вариационный ряд составлен по интервалам значений и вкачестве представителя интервала берется его середина, то эмпирическая функция составляется так же, как по вариационному ряду по значениям. В качестве представителя интервала можно также брать правый конец интервала.

В отличие от эмпирической функции распределения функцию распределения генеральной совокупности называют теоретическо й функцией распределения. Функция играет фундаментальную роль в математической статистике. Важнейшее её свойство состоит в том, что при увеличении объёма выборки п происходит сближение этой функции с теоретической.





Дата публикования: 2015-01-09; Прочитано: 942 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.007 с)...