Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Способы группировки первичных данных



Зафиксированные в документах учета сведения об изучаемом объекте (или объектах) представляют тот первичный фактический материал, который нуждается в соответствующей обработке. Обработка начинается с упорядочения или систематизации собранных данных. Процесс систематизации результатов массовых наблюдений, объединения их в относительно однородные группы по некоторому признаку называется группировкой.

Группировка - это не просто технический прием, позволяющий представить первичные данные в комплексном виде, но и глубоко осмысленное действие, направленное на выявление связей между явлениями. Ведь от того, как группируется исходный материал, во многих случаях зависят выводы о природе изучаемого явления. Один и тот же материал дает диаметрально противоположные выводы при разных приемах группировки. Нельзя группировать в одну и ту же совокупность неоднородные по составу данные, необдуманно выбирать способ группировки. Группировка должна отвечать требованию поставленной задачи и соответствовать содержанию изучаемого явления.

Наиболее распространенной формой группировки являются статистические таблицы.

Особую форму группировки представляют так называемые статистические ряды. Статистическим называется ряд числовых значений признака, расположенных в определенном порядке. В зависимости от того, какие признаки изучаются, статистические ряды делят на атрибутивные, вариационные, ряды динамики и регрессии, а также ряды ранжированных значений признаков и ряды накопленных частот, являющихся производными вариационных рядов.

Вариационным рядом или рядом распределенияназывают двойной ряд чисел, показывающий, каким образом числовые значения признака связаны с их повторяемостью в данной статистической совокупности. Например, из урожая картофеля, собранной на одной из опытных делянок, случайным способом, т.е. наугад, отобрано 25 клубней, в которых подсчитывали число глазков. Результаты подсчета оказались следующие: 6,9,5,7,10,8,9,10,8,11,9,12,9,8,10,11,9,10,8,10,7,9,11,9,10.

Чтобы разобраться в этих данных, расположим их в ряд (а порядке регистрации результатов наблюдений) с учетом повторяемости вариант в этой совокупности:

Варианты х.....6 9 5 7 10 8 11 12

Число вариант f ……1 7126431

Это и есть вариационный ряд. Числа, показывающие, сколько раз отдельные варианты встречаются в данной совокупности, называются частотами или весами вариант и обозначаются строчной латинской буквой f. Общая сумма ()частот вариационного ряда равна объему данной совокупности, т.е.:

K

f i = n

I

Где:

K

F i

I

обозначает действие суммирования, в данном
случае суммирование частот вариационного ряда от первого (i= 1)
до k - класса, а п - общее число наблюдений, или объем
совокупности.

Частоты (веса) выражают не только абсолютными, но и относительными числами - в долях единицы или в процентах от общей численности вариант, составляющих данную совокупность. В таких случаях веса называют относительными частотами или частостями. Общая сумма частостей равна единице, т.е.

∑ f i / n = 1; ∑ (f i / n) 100 = 100%

Если частоты выражены в процентах от общего числа наблюдений п. Замена частот частостями не обязательна, но иногда оказывается полезной и даже необходимой в тех случаях, когда приходится сопоставлять друг с другом вариационные ряды, сильно отличающиеся по их объемам.

Распределение исходных данных вариационный ряд преследует определенные цели. Одна из них - ускорение работы при вычислении по вариационному ряду обобщающих числовых характеристик - средней величины и показателей вариации. Другая сводится к выявлению закономерности варьирования учитываемого признака. Приведенный ряд удовлетворяет первой, но не удовлетворяет достижению второй цели. Чтобы ряд распределения полностью удовлетворял предъявляемым к нему требованиям, его нужно строить по ранжированным значениям признака.

Под ранжированием (от франц. Ranger -выстраивать в ряд по ранжиру, т.е. по росту) понимают расположение членов ряда в возрастающем (или убывающем) порядке.

В зависимости от того, как варьирует признак - дискретно или непрерывно, в широком или узком диапазоне, - статистическая совокупность распределяется в безынтервальный или интервальный вариационные ряды. В первом случае частоты относятся непосредственно к ранжированным значениям признака, которые приобретают положение отдельных групп или классов вариационного ряда, во втором - подсчитывают частоты, относящиеся к отдельным промежуткам или интервалам, на которые разбивается общая вариация признака в пределах от минимальной до максимальной варианты данной совокупности. Эти промежутки, или классовые интервалы, могут быть равными и не равными по ширине. Отсюда различают равно - и неравноинтервальные вариационные ряды.

В неравноинтервальных рядах характер распределения частот меняется по мере изменения ширины классовых интервалов. Поэтому в качестве числовых характеристик таких рядов используют особые показатели.

Неравноинтервальную группировку применяют сравнительно редко. Как правило, биометрические данные распределяются в равноинтервальные ряды, что позволяет не только выявлять закономерность варьирования, но и облегчает вычисление сводных числовых характеристик вариационного ряда, сопоставление рядов распределения друг с другом.

Приступая к построению равноинтервального вариационного ряда, важно правильно наметить ширину классового интервала. Дело в том, что грубая группировка искажает точности числовых характеристик ряда. При выборе чрезмерно узких интервалов точность обобщающих числовых характеристик повышается, но ряд получается слишком растянутым и не дает четкой картины варьирования.

Для получения хорошо обозримого вариационного ряда и обеспечения достаточной точности вычисляемых по нему числовых характеристик следует разбить вариацию признака на такое число групп или классов, которое удовлетворяло бы обоим требованиям. Эту задачу решают делением размаха варьирования признака на число групп или классов, намечаемых при построении вариационного ряда:

L= Xmax-Xmin

Где L - величина классового интервала; Х тах X min- максимальная и минимальная варианты совокупности; К число классов, на которые следует разбить вариацию признака.

Более точно величину К можно определить по формуле Стерджеса:

К = 1+3,32 lg n

При наличии в совокупности большого числа членов (n > 100) можно использовать формулу К = 5 lg n





Дата публикования: 2014-12-11; Прочитано: 951 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.008 с)...