Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Статистический анализ вариационных (интервальных) данных (изложение данного раздела с использованием аппарата математической статистики, см. Приложение 1)



Совокупность значений изучаемого признака с указанием числа их различных значений называется распределением признака. Распределение представляют в форме вариационного ряда. В соотношении значений признака (вариантов) и числа единиц (частот) проявляется закономерность распределения. Она описывается различными статистическими показателями в частности:

· частотные показатели;

· показатели центра распределения;

· показатели степени вариации;

· показатели формы распределения.

Частотными показателями любого ряда распределения являются абсолютная численность i- и группы — частота fi и относительная частота — частость di, где , а , или 100%.

Кумулятивная (накопленная) частота Si (частость Sd) характеризует объем совокупности со значениями вариантов, не превышающих Xi,. Кумулятивные частотные показатели образуются последовательным суммированием абсолютных или относительных частот, например: S1=fi; S2=f1+f2; S3=f1+f2+f3 и т. д.

Плотность частоты (частости) представляет собой частоту, приходящуюся на единицу интервала, т.е. qi=fi/hi или qi=di/hi, где hi, - величина i -го интервала. Данный показатель используют, если интервалы вариационного ряда неравные и необходимо графически изобразить этот ряд в виде гистограммы, а так же при расчете моды.

(1) Показатели центра распределения. К показателям центра распределения относят среднюю, моду и медиану, дециль, перцентиль.

Средняя величина характеризует типичный уровень признака в совокупности. По данным вариационного ряда распределения средняя рассчитывается как арифметическая взвешенная:

· на основе частот:

. (1.14)

· на основе частостей

. (1.15)

Если используется интервальный ряд распределения то, допуская, что распределение в границах i -го интервала является равномерным, как вариант хi, - используют середину интервала (х '). При этом величину открытого интервала условно считают такой же, как и величину соседнего закрытого интервала.

Мода (Мо) — значение признака, наиболее часто встречающееся в исследуемой совокупности, т.е. это одна из вариант признака, которая в ряду распределения имеет наибольшую частоту (частость).

В дискретном ряду мода определяется визуально по максимальной частоте или частости.

В интервальном ряду по наибольшей частоте определяется модальные интервал а конкретное значение моды в модальном интервале определяется:

(1.16)

где - начальное значение интервала, содержащего моду;

- величина модального интервала;

- частота модального интервала;

- частота интервала, предшествующего модальному;

- частота интервала, следующего за модальным.

Графическое отображение используемых в формуле 1.16 обозначений представлены на рис. 1.5.

 
 


Рис. 1.5. Гистограмма и полигон

Медиана (Ме) — значение признака (варианта), приходящееся на середину ранжированной (упорядоченной) совокупности, т.е. это вариант, который делит ряд распределения на две равные по объему части. Например, стаж пяти рабочих составил 2, 4, 7, 8, 10 лет. В таком упорядоченном ряду медиана - 7 лет. По обе стороны от нее находится одинаковое число рабочих.

Медиана, как и мода, не зависит от крайних значений вариантов, поэтому применяется для характеристики центра в ряду распределения с неопределенными границами.

Для определения медианы в ранжированном ряду необходимо вначале найти номер медианы: N=(n+1)/2 (в нашем случае N=(100+1)/2=50.5%, см. рис. 1.6.). Затем по накопленным (кумулятивным) частотам Si дискретного ряда определяется медиальный интервал (в нашем случае интервал совпадает с модальным интервалом.

В дискретном ряду распределения медианы находится непосредственно по накопленной частоте, соответствующей номеру медианы.

В случае интервального (вариационного) ряда распределения конкретного значение медианы вычисляется по формуле:

, (1.17)

где — начальное значение интервала, содержащего медиану;

— величина медианного интервала;

— сумма частот ряда;

— сумма накопленных частот, предшествующих медианному интервалу;

— частота медианного интервала.

 
 


Рис. 1.6. Кумулята

В симметричных рядах распределение значения моды и медианы совпадают со вредней величиной , а в умеренно асимметричных рядах они соотносятся: .

Кроме медианы в анализе закономерностей распределения используются также квартели и децели, при расчете которых в формуле расчета медиального значения Ме множитель ½ заменяется на 0,25 и 0,1 соответственно.

Показатели степени вариации

Различие индивидуальных значений признака внутри изучаемой совокупности в статистике называется вариацией признака. Вариация возникает в следствии того, что индивидуальные значения складываются под совокупным влиянием разнообразных факторов, которые по-разному сочетаются в каждом конкретном случае.

Как уже говорилось средняя величина — это абстрактная, обобщающая характеристика признака изучаемой совокупности, но она не показывает строения совокупности, которое весьма существенно для ее познания. Средняя величина не дает представления о том, как отдельные значения изучаемого признака группируются вокруг средней, сосредоточены ли они вблизи или значительно отклоняются от нее.

Под вариацией в статистике понимают такие количественные изменения величины исследуемого признака в пределах однородной совокупности, которые обусловлены перекрещивающимся влиянием действия различных факторов. Различают вариацию признака: случайную и систематическую.

Анализ систематической вариации позволяет оценить степень зависимости изменений в изучаемом признаке от определяющих ее факторов. Например, изучая силу и характер вариации в выделяемой совокупности, можно оценить, насколько однородной является данная совокупность в количественном, а иногда и качественном отношении, а следовательно, насколько характерной является исчисленная средняя величина. Степень близости данных отдельных единиц хi к средней измеряется рядом абсолютных, средних и относительных показателей.

Для измерения и оценки вариации используют абсолютные и относительные характеристики.

Размах вариации (R) является наиболее поверхностной оценкой рассеяния (вариации) совокупности распределения, которая показывает, насколько велико различие между единицами совокупности, имеющими самое маленькое и самое большое значение признака: R=xmax-xmin.

Среднее линейное отклонение является обобщающей мерой вариации индивидуальных значений признака от средней арифметической величины. Она дает абсолютную меру вариации.

Для интервальных (вариационных) рядов:

не взвешенная:

взвешенная средняя определяется:

Дисперсия (s)2 — это средний квадрат отклонений индивидуальных значений признака от средней величины. Дисперсию используют не только для оценки вариации, но и при измерении взаимосвязей, а также для проверки статистических гипотез.

В зависимости от исходных данных дисперсия может вычисляться по:

средней арифметической (простая):

;

средней арифметической взвешенной:

.

Свойства дисперсии.

Уменьшение или увеличение весов (частот) варьирующего признака в определенное число раз дисперсии не изменяет.

Уменьшение или увеличение каждого значения признака на одну и ту же постоянную величину А дисперсии не изменяет.

Уменьшение или увеличение каждого значения признака в какое-то число раз к соответственно уменьшает или увеличивает дисперсию в раз, а среднее квадратическое отклонение - в к раз.

Дисперсия признака относительно произвольной величины всегда больше дисперсии относительно средней арифметической на квадрат разности между средней и произвольной величиной: . Если А равна нулю, то приходим к следующему равенству: , т.е. дисперсия признака равна разности между средним квадратом значений признака и квадратом средней.

Каждое свойство при расчете дисперсии может быть применено самостоятельно или в сочетании с другими.

Среднее квадратическое отклонение - s - это обобщающая характеристика абсолютных размеров вариации признака. Оно в совокупности представляет собой корень второй степени из среднего квадрата отклонений отдельных значений признака от их средней, т.е. оно исчисляется путем извлечения квадратного корня из дисперсии и измеряется в тех же единицах, что и варьирующий признак. Отклонение выражается оно в тех же единицах измерения, что и признак (в метрах, тоннах, процентах, гектарах и т.д.).

Среднее квадратическое отклонение является мерилом надежности средней. Чем меньше среднее квадратическое отклонение, тем лучше средняя арифметическая отражает собой всю представляемую совокупность.

.

Показатели относительного рассеивания

Для характеристики меры колеблемости изучаемого признака исчисляются показатели колеблемости в относительных величинах. Они позволяют сравнивать характер рассеивания в различных распределениях (различные единицы наблюдения одного и того же признака в двух совокупностях, при различных значениях средних, при сравнении разноименных совокупностей). Расчет показателей меры относительного рассеивания осуществляют как отношение абсолютного показателя рассеивания к средней арифметической, умножаемое на 100%.

Коэффициент осцилляции VR - отражает относительную колеблемость крайних значений признака вокруг средней.

Относительное линейное отклонение Кло характеризует долю усредненного значения абсолютных отклонений от средней величины.

.

Коэффициент вариации .

.

Учитывая, что среднеквадратическое отклонение дает обобщающую характеристику колеблемости всех вариантов совокупности, коэффициент вариации является наиболее распространенным показателем колеблемости, используемым для оценки типичности средних величин. При этом исходят из того, что если V больше 40 %, то это говорит о большой колеблемости признака в изучаемой совокупности.

Показатели симметрии распределения

Симметричным называется распределение у которого частоты равноотстоящие от моды равны между собой, следовательно выполняется соотношение =Мо=Ме. Соответственно наиболее простой мерой асимметрии является (xср-Мо).

Коэффициент асимметрии Пирсона:

При Ка>0 скошенность ряда правосторонняя (т.е. >Mo), при Ка<0 скошенность ряда левосторонняя (т.е. <Mo).

Нормальный коэффициент асимметрии третьего порядка. Часто используется в прикладных расчетах. Коэффициент не зависит от масштаба, выбранного при измерении варианта, так как является отвлеченной величиной и определяется по формуле:

,

где - центральный момент третьего порядка и определяется:

Нормальный коэффициент асимметрии четвертого порядка. Используется для определения «крутизны» («заостренности») графика распределения частот. Определяется по формуле:

,

где - центральный момент третьего порядка и определяется:

При нормальном распределении А4=3. Для измерении асимметрии эталоном служит симметричное (нормальное) распределение, для которого А3=0.

Показатель эксцесса распределения:

.

При Еk>0 распределение островершинное, при Еk <0 – плосковершинное.

Пример. По данным о возрастной структуре производственного оборудования в промышленности приведенным в таблице 12 необходимо определить средний возраст оборудования.

Таблица 1.7

Возрастная структура производственного оборудования в промышленности





Дата публикования: 2014-11-04; Прочитано: 1160 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.014 с)...