Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Выборочная совокупность и ее характеристики



Перед построением и анализом модели, описывающей исследуемое массовое явление или некоторый процесс, необходим сбор опытных данных результатов обследования объектов, отображающих массовое явление. Пусть произведено n независимых испытаний, в результате которых получены некоторые значения X1, X2, X3,………Xn. Совокупность, состоящая из всех возможных в данных условиях наблюдений, обладающих качественной общностью и подлежащих исследованию, называется генеральной совокупностью. Генеральная совокупность содержит достаточно большое количество элементов, поэтому обычно производится анализ некоторого ограниченного количества элементов взятых из генеральной совокупности. На основе анализа делаются выводы о генеральной совокупности или, другими словами, о всей вероятной ситуации. Таким образом, задачи математической статистики практически сводятся к обоснованному суждению об объективных свойствах генеральной совокупности по результатам случайной выборки.

Выборочной совокупностью (выборкой) называется множество наблюдений, отобранных из генеральной совокупности.

Выборка должна правильно отражать пропорции генеральной совокупности (быть репрезентативной), то есть все объекты генеральной совокупности должны иметь одинаковую вероятность попасть в выборку. Репрезентативность выборки обеспечивается случайностью отбора объектов. Принципиально, что при отборе объектов в выборочную совокупность возможны два варианта.

1. Объект возвращается в генеральную совокупность. Выборочная совокупность, полученная таким образом, называется случайной выборкой с возвратом (или повторной выборкой).

2. Объект, включенный в выборку, не возвращается назад в генеральную совокупность. Такая выборка называется случайной выборкой без возврата (или бесповторной выборкой).

Очевидно, что в повторной выборке возможна ситуация, когда один и тот же объект будет обследован несколько раз. Если объем генеральной совокупности велик, то различие между повторной и бесповторной выборками (которые составляют небольшую часть генеральной совокупности) незначительно, что практически не сказывается на результатах. В таких случаях, как правило, используют выборку без возврата. Если генеральная совокупность имеет не очень большой объем, то различие между указанными выборками будет существенным.

Отдельные значения генеральной совокупности X1, X2, X3, ………Xn называются вариантами признака. Если – функция распределения генеральной совокупности X, то у каждой случайной величины Xi функция распределения также равна . Понятно, что получить значений случайной величины X все равно, что получить одно значение - мерной случайной величины (X1, X2, X3,………Xn). Поэтому каждую выборку x1, x2, x3,………xn объема мы можем рассматривать как одно значение - мерной случайной величины (X1, X2, X3,………Xn).

Числа, показывающие сколько раз наблюдается определенная варианта, называют частотами (m1, m2……..m n). Расположив варианты в возрастающем или убывающем порядке (ранжирование ряда) и поставив в соответствии с этими вариантами их частоты, получим упорядоченный ряд. Такой ряд называется вариационным рядом.

Все возможные значения признака, принимающие изолированные значения, отличающиеся на некоторую конечную величину, называются дискретными. Значения признака, принимаемые в некотором числовом интервале, называют непрерывными. Помимо частоты в статистике используется понятие накопленной частоты, показывающей, сколько наблюдалось элементов со значением признака меньшим или равным Xi. . Отношение частоты (накопленной частоты) к общему числу наблюдений называется частостью (накопленной частостью) и обозначается , , т.е.

.

Накопленные частоты выражаются в относительных числах или в процентах. В дискретном вариационном ряду накопленные частоты и частости являются результатом последовательного суммирования частот и частостей, начиная от первой варианты.

¨Пример 2.1. [2] На телефонной станции проводились исследование качества ее работы. Для исследования измеряли число неправильных соединений в минуту. В течение часа были получены следующие 60 значений наблюдаемого признака:

                       
                       
                       
                       
                       

Очевидно, что X является дискретной случайной величиной, и полученные данные являются значениями этой случайной величины.

В результате группировки получено семь значений случайной величины (варианты): 0; 1; 2; 3; 4; 5; 7. При этом значение 0 в этой группе встречается 8 раз, значение 1 – 17 раз, значение 2 – 16 раз, значение 3 – 10 раз, значение 4 – 6 раз, значение 5 – 2 раза, значение
7 – 1 раз. Вычисленные значения частот и частостей приведены в табл. 2.1.

Таблица 2.1

Индекс 1, 2, 3, 4, 5, 6, 7
Варианта 0, 1, 2, 3, 4, 5, 7
Частота 8, 17, 16, 10, 6, 2, 1
Частость

Полученный дискретный ряд представлен в таблице 2.2.

Таблица 2.2

             
             

где во второй строке указаны соответствующие частоты. В отличие от исходных данных этот ряд позволяет делать некоторые выводы о статистических закономерностях.

Если число возможных значений дискретной случайной величины достаточно велико или наблюдаемая случайная величина является непрерывной, то строят интервальный вариационный ряд. Под интервальным вариационным рядом понимают упорядоченную совокупность интервалов варьирования значений случайной величины и соответствующие частоты или частости попаданий в каждый интервал значений случайной величины.

Как правило, частичные интервалы, на которые разбивается весь интервал варьирования, имеют одинаковую длину и представимы в виде

,

где L - число интервалов, h – длина интервала.

Длину h следует выбирать так, чтобы построенный ряд не был громоздким, но в то же время позволял выявлять характерные изменения случайной величины. Рекомендуется для h использовать формулу Стерджеса:

,

где – наибольшее и наименьшее значения случайной величины. Величина ()- называется размахом ряда. Если при вычислении h необходимо округлить результат, следует помнить, что последний интервал группирования будет меньше ширины h при округлении в большую сторону и больше h при округлении в меньшую сторону. При этом необходимо выполнение условий:

.

После нахождения частичных интервалов определяется сколько значений случайной величины попадает в каждый конкретный интервал. При этом в интервал включают значения большие или равные нижней границе и меньшие верхней границы.

Одной из основных характеристик выборки является выборочная (эмпирическая) функция распределения:

,

где – количество элементов выборки меньших . Другими словами, есть относительная частота появления события в независимых испытаниях. По теореме Бернулли относительная частота появления события в независимых испытаниях сходится при увеличении к вероятности этого события. Следовательно, при больших объемах выборки выборочная функция распределения близка к теоретической функции . Главное различие между и состоит в том, что определяет вероятность события , а выборочная функция распределения – относительную частоту этого события.

Из определения следует, что функция обладает следующими свойствами:

1. ;

2. – неубывающая функция;

3.

Как известно, аналогичными свойствами обладает и функция распределения .

Для приближенного представления теоретической функции распределения случайной величины X, которую наблюдаем в эксперименте, целесообразно использовать эмпирическую функцию распределения выборки .

¨Пример 2.2. Используя дискретный вариационный ряд, полученный в примере 2.1, вычислим значения . Результаты представлены в таблице 2.2.

Таблица 2.2.

Значения x Накопленная частость
x £ 0  
0 < x £ 1
1 < x £ 2
2 < x £ 3
3 < x £ 4
4 < x £ 5
5 < x £ 7
x > 7

Графическое изображение вариационных рядов дает наглядное представление о распределении.

По данным таблицы 2.2 построим график выборочной функции распределения (рис. 2.1).

Рис. 2.1. График выборочной функции распределения (накопленных частот).

Характер изменения значений частот (частостей) наглядно представляется в виде графического изображения вариационных рядов. Наиболее простым способом графического изображения вариационных рядов является точечная диаграмма. Кроме точечной диаграммы применяются следующие формы: полигон, гистограмма, кумулята, огива.

Полигон - графическое изображение вариационного ряда в виде многоугольника, при этом по горизонтальной оси откладываются значения признака, а по вертикальной - частота встречаемости соответствующего значения признака.

Гистограмма - ряд прямоугольников, основания которых равны ширине интервала, а высоты частоте или частости. Гистограмма позволяет "зрительно" определить нормальность эмпирического распределения. Гистограмма позволяет качественно оценить различные характеристики распределения. Например, на ней можно увидеть, что распределение бимодально (имеет 2 пика). Это может быть вызвано, например, тем, что выборка неоднородна, возможно, извлечена из двух разных генеральных совокупностей, каждая из которых более или менее нормальна.

Кумулята – графическое изображение вариационного ряда с накопленными частотами.

Огива – графическое изображение вариационного ряда с накопленными частотами, но в отличие от кумуляты по вертикальной оси откладываются значения признака, а по горизонтальной накопленные частоты (частости).

¨Пример 2.3. [8]. Распределение предприятий по издержкам обращения (млн руб.), полученным в отчетном периоде, представлено в ранжированном виде интервалами объема издержек обращения xj и количеством nj предприятий, издержки которых попадают в j интервал.

Таблица 2.3.

xj -xj+1 2-6 6-10 10-14
nj      
nx      
3/20 = 0.15 13/20 = 0.65 20/20 = 1

Общее количество предприятий .

По данным таблицы 2.3 построим график выборочной функции распределения или график накопленных частот (рис. 2.2) и полигон частот (рис. 2.3).

Рис. 2.2. График выборочной функции распределения (накопленных частот).

 
 


Рис. 2.3. Полигон частот случайной величины.

Также для данных примера 2.3

xj-xj+1 2-6 6-10 10-14
ωi ¾=0,75 10/4=2,5 7/4=1,75

построим гистограмму частот (рис. 2.4).

 
 


Рис. 2.4. Гистограмма частот случайной величины.

Рассмотренная выборочная функция распределения и гистограмма позволяют делать выводы о закономерностях исследуемого массового явления, но при анализе данных возникает вопрос об описании их положения, разброса, характере разброса. Для этого используются числовые характеристики выборочной совокупности, из которых сначала рассмотрим выборочное среднее и выборочную дисперсию.

Выборочным средним называется случайная величина, определяемая формулой

.

Выборочное среднее называют также выборочным математическим ожиданием. Оно характеризует положение распределения случайной величины на оси x.

Если данные представлены в виде вариационного ряда, то целесообразно для вычисления выборочного среднего использовать одно из следующих соотношений:

· для дискретного вариационного ряда

;

· для интервального вариационного ряда

,

где – частость (относительная частота), соответствующая i -й варианте или i -му частичному интервалу; – середина i -го частичного интервала, т.е.

¨Пример 2.4. Вычислим значение выборочного среднего по выборке примера 2.1 (табл. 2.1).

.

К другим характеристикам положения распределения случайной величины относятся медиана Ме и мода Мo.

Медиана (Ме) - среднее (серединное) значение вариационного ряда.

· при четном числе вариант -

· при нечетном числе вариант - ,

где и средние значения.

Медиана делит совокупность на две равные части. Ее приближенное значение можно получить по графику распределения.

Мода (М o) - наиболее часто встречающееся значение наблюдения. Мода имеет большое практическое значение. Она находит отражение при планировании производства товаров, при их распределении, при определении часов пик на станциях для оптимального планирования работы транспорта и т.д.

В вариационных рядах близких к нормальному закону распределения медиана (Мe), мода (Мо), математическое ожидание М(х) (среднее арифметическое) практически совпадают по своим численным значениям.

Рис. 2.5. Соотношение характеристик медиана Ме и мода Мo на графике плотности распределения вероятностей.

Для характеристики совокупности признака по необходимости применяют ряд других характеристик: квартили, децили, перцентили. Квартили – значение изучаемой величины, полученное при делении совокупности на четыре части, децили - на десять, перцентили - на сто частей.

Дисперсия и среднеквадратическое отклонение являются характеристиками рассеяния или разброса распределения случайной величины, и чем больше разброс, тем сильнее варьируются значения случайной величины:

.

Число полученное для отдельной выборки является одним из значений случайной величины

,

которая называется выборочной дисперсией.

Если данные представлены в виде вариационного ряда, то целесообразно для вычислений использовать одно из следующих соотношений:

· для дискретного вариационного ряда

;

· для интервального вариационного ряда

,

где – те же, что и в предыдущих формулах.

Рис. 2.6. Графики плотности распределения вероятностей с различными значениями дисперсии и одинаковыми математическими ожиданиями.

Выборочная дисперсия обладает одним существенным недостатком: если среднее арифметическое выражается в тех же единицах, что и значения случайной величины, то, как следует из формул, задающих дисперсию, последняя выражается уже в квадратных единицах. Этого недостатка можно избежать, взяв в качестве меры рассеивания арифметический квадратный корень из дисперсии. Выборочным средним квадратическим отклонением называется арифметический квадратный корень из выборочной дисперсии (σв).

¨Пример 2.5. Используя выборку примера 2.1. вычислить значение выборочной дисперсии.

Используя дискретный вариационный ряд (табл. 2.1), получим

.

Так как значение было вычислено в примере 2.4 (), то по формуле для вычисления дисперсии получим

.

В качестве характеристики формы распределения, отражающей его асимметрию, служит коэффициент асимметрии Аs ( иногда обозначается βi), который рассчитывается по формуле:

.

Коэффициент асимметрии Аs изменяется в пределах (). Для симметричного распределения Аs равен 0. Например, для модели нормального распределения Аs = 0. При Аs < 0 распределение имеет левостороннюю асимметрию, при Аs > 0 - правостороннюю. Например, правосторонняя асимметрия характеризуется тем, что середина ряда сдвинута влево от вершины распределения, т.е. частоты сначала быстро возрастают, а достигнув наибольшего значения, в дальнейшем убывают значительно медленнее. Аналогично определяется левосторонняя асимметрия.

Рис. 2.7. Зависимость формы плотности распределения вероятности
от коэффициента асимметрии (Аs =βi).

Неприведенный коэффициент эксцесса Ех также является характеристикой формы распределения, а именно его островершинности, и определяется из выражения:

.

Неприведенный коэффициент эксцесса Ех изменяется в пределах . Для нормального распределения Ех =0. Величина γ = Ех -3 называется приведенным коэффициентом эксцесса. На рисунке 2.8. приводятся графики плотности распределения в зависимости от различных значений γ.

Рис. 2.8. Зависимость формы плотности распределений вероятности от приведенного коэффициента эксцесса.





Дата публикования: 2015-01-09; Прочитано: 938 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.023 с)...