Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
n=3+10+12=20 Σ Wi=1 Σ ni=n
x | |||
ni |
x | |||
Wi | 3/20 | 10/20 | 7/20 |
Для визуальной оценки выборочного распределения производится группировка данных. Для этого:
располагают значения xi по возрастанию;
весь интервал разбивают на k последовательных непересекающихся интервалов;
подсчитывают числа ni – количество попавших значений xi в каждый интервал. Такая таблица называется группированным статистическим рядом.
5.2.2 Эмпирическая функция распределения
Эмпирической функцией распределения (функция распределения выборки) называетсяF*(x), определяющую для каждого значения x относительную частоту события X<x.
F*(x)>nx/n; nx – число вариант, меньше x, n – объем выборки.
Свойства:
1) значения F*(x)Î [0;1]
2)F*(x) – функция неубывающая: F*(x2)> F*(x1), если x2> x1
если x1 – наименьшая варианта, F*(x1)=0, если x£ x1
если xk – наибольшая, то F*(x)=1, если x> xk.
В отличие от эмпирической функции, функцию F(x) генеральной совокупности называется теоретической. Различия между ними состоят в том, что F(x) определяет вероятность события X<x, а F*(x) – относительную частоту.
Наглядным изображением статистического ряда распределения служат полигон и гистограмма. Полигон – ломаная линия, соединяющая точки (xi;ni). Гистограмма – ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат интервалы, длиной n, а высотой – величины ni/n. Если гистограмма является гистограммой частот, то ее площадь равна сумме всех частот, т.е. объему выборки. Если гистограмма является гистограммой относительных частот, то ее площадь равна сумме всех относительных частот, т.е. единице.
Рядом распределения называется упорядоченное распределение единиц совокупности на группы по какому- либо признаку. Виды рядов распределения:
Иными словами, ряд распределения - результат группировки. Под атрибутивным рядом понимается ряд распределения по атрибутивному признаку, не имеющему количественной меры. Например, атрибутивный ряд можно составить по признаку «Социальное положение», «Профессия», «Пол» и.т.д.
Пример. Атрибутивный ряд распределения. На Предприятии провели группировку работников ПО признаку «Категория»
Категория | Частота | Частость (в процентах) |
рабочие | 58,3 | |
служащие | 16,7 | |
ИТР | 12,5 | |
прочие | 12,5 | |
ВСЕГО |
Частота – количество элементов совокупности, которые имеют данное значение признака.
Частость – отношение частоты к общему количеству исследуемых элементов, т. е. к объему совокупности. Частоту обозначим n или f, Частость – p или j.
Пример дискретного ряда.
Успеваемость в группе студентов-экономистов из 15 человек по одному из предметов:
Оценки | частота | Частость |
13,3 | ||
26,7 | ||
33,3 | ||
26,7 | ||
итого |
В интервальном ряду значение признака представляется в виде интервалов.
Пример интервального ряда.
Заработная плата | Частота | Частость |
100-200 | ||
200-300 | ||
300-400 | ||
400-500 | ||
500-600 | ||
итого |
В интервальном ряду в качестве основного показателя интервала используется середина интервала .
Для наглядного представления вариационных рядов используют графические методы.
Линейчатые и круговые диаграммы строятся для отображения структуры совокупности.
Наряду с диаграммами для наглядного представления распределения признака применяют линяй: полигон, кумулята, огива.
Полигон- ломаная кривая, строящаяся на основе прямоугольной системы координат, когда по оси X откладываются значения признака, а по оси Y - частоты.
Гладкая кривая, соединяющая точки- эмпирическая плотность распределения.
Кумулята - ломаная кривая, строящаяся на основе прямоугольной системы координат, когда, по оси X откладываются значения признака, а по оси Y — накопленные частоты.
Для дискретных радов на оси откладываются сами значения признака, а для интервальных - середины интервалов.
На основе гистограмм можно строить диаграммы накопленных частот, с последующим построением интегральной эмпирической распределения.
Мода, медиана, коэффициент вариации, эксцесс, асимметрия.
Мода для дискретного ряда определяется непосредственно как вариант (x), имеющий наибольшую частоту и ли частость. Для интервального ряда с равными интервалами мода рассчитывается по формуле
где - начальная (нижняя) граница модального интервала; - частота модального интервала; - частота интервала, предшествующего модальному; - частота интервала, следующего за модальным.
Пример. Определить моду по данным таблицы.
месячная заработная плата, руб. | Число рабочих f, | Середина интевала xi | xi, fi, |
24000-25000 | 24 5000 | ||
25000-26000 | |||
26000-27000 | 127 2000 | ||
27000-28000 | 165 0000 | ||
28000-29000 | 119 7000 | ||
29000-30000 | 59 0000 | ||
Итого | — | 546 4000 |
Наибольшую заработную частоту (60) имеет интервал 2700-2800. Отсюда
, т.е. наиболее часто встречается заработная плата .
В ряду с неравными интервалами мода определяется в интервале, имеющим наибольшую плотность распределения, и в формуле вместо , , принимаются соответствующие плотности распределения.
Для нахождения медианы (значение признака у средней величины ранжированного ряда) сначала определяется ее порядковый номер , а затем по накопленным частотам определяется либо сама медиана (для дискретных рядов) либо медианный интервал (для интервальных рядов), в котором путем простой интерполяции рассчитывается значение медианы по формуле
где - нижняя граница медианного интервала; - порядковый номер медианы; -накопленная частота до медианного интервала; - частота медианного интервала, h величина модального интервала.
Пример. Для приведенного распределения рабочих по размеру заработной платы определить медиану.
Месячная заработная плата, руб. | Число рабочих, | Накопленные частоты S |
24000-25000 | ||
25000-26000 | ||
26000-27000 | ||
27000-28000 | ||
28000-29000 | ||
29000-29000 | ||
итого |
Определяем порядковый номер медианы:
По накопленным частотам видно, что сотая единица находится в интервале (27000-28000), ее значение определяем по формуле
т.е. делаем вывод по медиане, что половина рабочих получает заработную плату ниже 27036,7 руб., а половина — выше.
Мода и медиана могут быть определены графически: первая — по гистограмме, а вторая — по кумуляте.
Рассмотрим это на примере.
Построим гистограмму распределения 200 рабочих по размеру заработной платы, для чего на оси абсцисс построим ряд сомкнутых прямоугольников у каждого из которых основанием служит величина интервала признака (размер заработной платы в рублях), а высотой — частота каждого интервала (число рабочих). (Для рядов с неравными интервалами в качестве высоты прямоугольников принимается плотность распределения.)
Рис. 2. Гистограмма распределения 200 рабочих по размеру заработной платы (графическое определение моды).
В прямоугольнике, имеющем наибольшую высоту, проводим две линии, как показано на рис. 2, и из точки их пересечения опускаем перпендикуляр на ось абсцисс. Значение х на оси абсцисс в этой точке есть мода (Мо).
Для графического отыскания медианы по накопленным частотам там строим кумуляту (рис. 3). Для этого из верхней границы каждого интервала на оси абсцисс восстанавливаем перпендикуляр, соответствующий по высоте накопленной частоте с начала ряда по данный интервал. Соединив последовательно вершины перпендикуляров и получим кривую, называемую кумулятой. Из точки на оси ординат, соответствующей половине всех частот (порядковому номеру медианы), проводим прямую, параллельную оси абсцисс, до пересечения ее с кумулятой. Опустив из этой точки перпендикуляр на ось абсцисс, находим значение медианы (Me).
Пользуясь кумулятой, можно определить значение признака у любой единицы ранжированного ряда.
Аналогично рассчитываются показатели, именуемые квартилями. Первая квартиль (Q1) — значение признака у единицы, делящей ранжированный ряд в соотношении 1/4 и 3/4 вторая квартиль равна медиане (Q2 = Me), третья квартиль (Q3) — значение признака у единицы, делящей ранжированный ряд в соотношении 3/4 и 1/4. Порядковый номер Q1, определяется как , для Q3 — соответственно как .
Представляет интерес и расчет показателей, именуемых децилями (значение признака у единицы, делящей ранжированный ряд в соотношении 1/10 и 9/10 (первая дециль — D1), 2/10 и 8/10 (вторая дециль — D2) и т.д.).
Для симметричных распределений характерно совпадение значений средней арифметической, моды и медианы. Если Мо > х, то ряд будет иметь левостороннюю асимметрию (вытянутость), а если Мо < х, то правостороннюю асимметрию. В умеренно асимметричных рядах соотношение между указанными показателями выражается следующим образом:
Выборочный эксцесс определяется следующим образом:
- выборочный центральный момент 4-го порядка.
Коэффициент ассиметрии вычисляется по формуле:
- выборочный центральный момент 3-го порядка
5.2.3 Статистические оценки параметров распределения
Для того, чтобы статистические оценки давали хорошее приближение оценивающих параметров, они должны удовлетворять условиям:
объем выборки должен быть достаточным для оценивания
оценка интересующего нас параметра есть случайная величина.
Статистические оценки:
Несмещенные – есть оценка мат.ожидания, которая равна оценивающему параметру;
Смещенные – оценка M(x)≠ оценивающему параметру;
Эффективные – оценка, имеющая при заданном объеме выборки n наименьшую дисперсию;
Состоятельные – оценка, стремящаяся при n→0 по вероятности к оцениваемому параметру.
Точечные оценки
Точечной называют оценку, определяющую одним числом.
Пусть требуется изучить количественный признак генеральной совокупности. Допустим, удалось установить, какое имеется распределение. Тогда возникает задача оценки параметров данного распределения.
Пример
Пусть имеется нормальное распределение. Тогда нужно оценить, найти M(x) и σ. Для показательного распределения нужно оценить параметр λ.
Однако чаще всего экспериментатору не известен вид распределения, т.к. он обладает только данными выборки и тогда для оценки параметров нужно найти зависимость этих параметров от наблюдаемых величин.
Дата публикования: 2015-01-09; Прочитано: 1645 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!