Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Тема 2. Обобщающие характеристики совокупностей



Анализ статистических совокупностей включает в себя: построение рядов распределения; графическое представление распределения; определение характеристик центра распределения, показателей вариации.

Рядами распределения называют числовые ряды, характеризующие структуру совокупности по некоторому признаку. Ряд распределения может быть получен в результате структурной группировки. Ряд распределения, образованный по количественному признаку (он называется вариационным рядом), может быть дискретным, если значения признака выражены целыми числами и каждая варианта представлена в вариационном ряде отдельной группой, или интервальным (непрерывным), если значения признака выражены вещественными числами или число вариант признака достаточно велико.

Ряд распределения состоит из следующих элементов:

xi - варианта - отдельное, возможное значение признака i =1,2,..., n, где n – число значений признака;

Ni - частоты - численность отдельных групп соответствующих значений признаков;

N - объём совокупности - общее число элементов совокупности;

q1 - частость - доля отдельных групп во всей совокупности;

Di - величина интервала.

Если вариационный ряд представлен неравными интервалами, то рассчитывается абсолютная и относительная плотности распределения.

Абсолютная плотность h – это отношение частоты к величине интервала, а относительная плотность `h – это отношение частости к величине интервала:

Полученный вариационный ряд оформляется в виде таблицы, где в первой графе указываются варианты (интервалы) значений признака, а в следующих графах частота, частость, или, если необходимо, абсолютная или относительная плотность распределения.

Ряд распределения по частоте (частости) в целом характеризует структуру совокупности по данному признаку. Однако для описания распределения совокупность могут использоваться и кумулятивные ряды, т.е. ряды накопленных частот (или частостей), которые иногда имеют даже некоторые преимущества.

Накопленная частота (частость) данного значения признака – это число (доля) элементов совокупности, индивидуальные значения признака которых не превышают данного.

Обозначим: F(x) - накопленная частота для данного значения x;

G(x) - накопленная частость для данного значения x.

Эти характеристики обладают следующими свойствами:

0 £ F(x) £ N; 0 £ G(x) £ 1

Рассмотрим интервалы [ xi -xi+1 ], i =1,2,..., n:

.

Первым этапом изучения вариационного ряда является его графическое изображение. Способы построения графиков для разных видов рядов распределения различны.

Изображением дискретного ряда распределения является полигон. В системе координат по оси абсцисс откладываются варианты (xi), по оси ординат - частоты (частости), затем отмечают точки с координатами (xi;fi), которые последовательно соединяются отрезками прямой.

Интервальный ряд распределения изображается графически в виде гистограммы. При её построении на оси абсцисс откладывают интервалы ряда. Над осью абсцисс строятся прямоугольники, основанием которых является интервал, а высота - соответствующая этому интервалу частота плотность распределения (или частота, частость - если ряд равноинтервальный).

Изображением ряда накопленных частот служит кумулята. Накопленные частоты наносятся в системе координат в виде ординат для границ интервалов; соединяя нанесенные точки отрезками прямых, получаем кумуляту.

Вторым этапом изучения вариационного ряда является определение характеристик центра распределения. Характеристика центра распределения представляет собой такую величину, которая в некотором отношении характерна для данного распределения и является его центральной величиной.

К характеристикам центра распределения относятся: средняя арифметическая, медиана, мода.

Для сгруппированных данных, представленных в вариационном ряду средняя арифметическая () определяется как:

,

т.е. в качестве веса при усреднении берётся частота Ni, соответствующая групповым значениям xi. Если ряд дискретный, то каждое значение признака представлено. Если же ряд интервальный, то его нужно превратить в условно дискретный: в качестве группового значения xi для каждого интервала вычисляется его середина.

Медиана (Me[x]) - это такое значение признака, которое делит объём совокупности пополам в том смысле, что число элементов совокупности с индивидуальными значениями признака, меньшими медианы, равна числу элементов совокупности с индивидуальными значениями больше медианы.

Численное значение медианы можно определить по ряду накопленных частот. Накопленная частота для Me[x] равна половине объёма совокупности (F(Me[x]) = N/2); имея ряд накопленных частот, можно вычислить, при каком значении признака накопленная частота равна половине объёма совокупности. Для интервального ряда в этом случае определяется только интервал в котором будет находиться Me[x], само значение приближённо можно определить как:

,

где x0 - начало интервала, содержащего медиану;

DMe - величина интервала, содержащего медиану;

F(x0) - накопленная частота на начало интервала, содержащего медиану;

N - объём совокупности;

NMe - частота того интервала, в котором расположена медиана.

Мода (Mo[x]) - наиболее часто встречающееся значение признака в совокупности.

Для дискретного ряда — это то значение, которому соответствует наибольшая частота распределения. Для интервального ряда в начале определяется интервал, содержащий моду, - тот, которому соответствует наибольшая плотность распределения. Затем приближённо определяется численное значение моды.

Если ряд равноинтервальный, то используется формула:

,

где x0 - начало интервала, содержащего моду,

D Mo - величина интервала, содержащего моду,

NMo - частота того интервала, в котором расположена мода,

NM0-1 - частота интервала, предшествующего модальному,

NMo+1 - частота интервала, следующего за модальным.

Средняя величина характеризует только уровень, закономерный для данной совокупности. В ряде случаев одно и то же численное значение средней может характеризовать совершенно различные совокупности. Поэтому для того чтобы судить о типичности средней для данной совокупности, её следует дополнить показателями, характеризующими вариацию (колеблемость) признака. Наиболее распространёнными из них являются дисперсия, среднее квадратичное отклонение, коэффициент вариации.

Дисперсия () - это среднее из квадратов отклонений от средней величины, для вариационного ряда она определяется по формуле:

,

Если ряд интервальный, то в качестве варианты (xI), также как при расчете средней, берётся середина интервала.

При использовании калькулятора, а также для дискретных рядов распределения более удобной может быть другая формула вычисления дисперсии:

где

Наиболее широко в статистике применяется такой показатель вариации, как среднее квадратичное отклонение (), который представляет собой квадратный корень из дисперсии.

Относительным показателем колеблемости признака в данной совокупности, является коэффициент вариации (V):

Коэффициент вариации позволяет сравнивать вариации различных признаков, а также одноименных признаков в разных совокупностях. Если величина коэффициента вариации , то исследуемую совокупность можно считать однородной по усредняемому признаку.

Задание N2

1. На основе структурной группировки построить вариационные частотные и кумулятивные ряды распределения, оформить в таблицы, изобразить графически.

2. Проанализировать вариационные ряды распределения, вычислив для каждого из них:

· среднее арифметическое значение признака;

· медиану и моду;

· среднее квадратичное отклонение;

· коэффициент вариации.

3. Сделать выводы


.

Тема 3. СТАТИСТИЧЕСКИЕ МЕТОДЫ АНАЛИЗА ВЗАИМОСВЯЗИ

Различают два типа связей между различными явлениями и их признаками: функциональную, то есть жестко детерминированную, с одной стороны, и корреляционную, статистическую - с другой.

При функциональной связи изменение признака-результата полностью обусловлено изменением признака-фактора.

При корреляционной связи изменение признака-результата обусловлено влиянием признака-фактора не полностью, а лишь в некоторой мере, так как существует еще влияние других причин, многие из которых неизвестны. Особенно это относится к взаимосвязям между социально-экономическими явлениями. Характерной особенностью корреляционной взаимосвязи является то, что она проявляется лишь на совокупности в целом и может не выполняться для отдельных ее элементов. Поэтому корреляционные зависимости изучаются по эмпирическим данным, полученным при статистическом наблюдении, так как в них отражается совокупное действие всех причин и условий на изучаемый признак.

Если исследуется зависимость признака-результата от одного фактора, то такая корреляционная связь называется парной, если факторов много, то такая корреляционная связь называется множественной. В данной курсовой работе рассматривается пример только парной корреляции. При этом признак-результат обозначим y, а признак-фактор - x.

Порядок изучения корреляционной зависимости может быть следующим:

¨ во-первых, на основе анализа имеющихся данных устанавливается, существует ли какая либо зависимость между рассматриваемыми признаками;

¨ во-вторых, устанавливается форма, характер зависимости и мера тесноты связи;

¨ в-третьих, выявленная взаимосвязь описывается аналитической зависимостью.

На первом этапе анализ зависимости осуществляется на основе аналитической группировки. Так как при выполнении задания по данной теме используются те же исходные данные, то выводы, полученные в результате аналитической группировки, произведенной при выполнении задания № 1 данной курсовой работы, являются исходными для более глубокого изучения зависимости между признаками.

Так если между рядом значений признака-фактора ` x и относящихся к ним групповых средних признака-результата `y существует характерная зависимость, то таким образом можно представить в табличной форме эмпирическую функцию регрессии. Если в системе координат, где по оси (y) указываются значения признака-результата, а по оси (x) - значения признака-фактора, отметить групповые средние и соединить их прямолинейными отрезками, то полученная ломаная будет графически представлять ту же функцию. Эта линия называется эмпирической линией регрессии, которая отражает главную тенденцию рассматриваемой зависимости.

Для измерения тесноты связи применяется несколько показателей. При парной корреляции теснота связи измеряется, прежде всего, коэффициентом детерминации и корреляционным отношением, основанных на измерении вариации результирующего признака и ее составляющих. По теореме о разложении дисперсии:

где - полная дисперсия (вариация) признака-результата;

- внутригрупповая дисперсия;

- межгрупповая дисперсия.

Внутригрупповая дисперсия характеризует ту часть общей дисперсии признака-результата, которая не зависит от изменения величины признака-фактора. Тем самым она отражает влияние неучтенных причин вариации признака-результата, то есть показывает степень неопределенности. В корреляционном анализе она называется остаточной дисперсией и определяется по формуле:

, k=1,2....K

где - дисперсия признака-результата в пределах отдельной группы по признаку-фактору;

Ni - численность отдельной группы.

Межгрупповая дисперсия отражает ту часть общей дисперсии признака-результата, которая объясняется влиянием рассматриваемого признака-фактора. Она определяется по формуле:

где `yk - среднее групповое среднее k -й группы.

Межгрупповая дисперсия в корреляционном анализе называется объясненной (факторной) дисперсией.

Коэффициент детерминации определяется как доля объясненной дисперсии в общей дисперсии признака-результата. Он показывает, какая часть общей вариации признака-результата y объясняется влиянием изучаемого фактора x:

,

Корреляционное отношение определяется как отношение средних квадратичных отклонений:

Максимально тесная связь - это связь функциональная, когда каждое значение признака-результата y может быть однозначно определено значением x, при этом остаточная дисперсия равна нулю, а коэффициент детерминации равен 1. Если связь между признаками отсутствует, то объясненная дисперсия равна 0, а следовательно, и коэффициент детерминации равен 0. Таким образом, чем ближе значение показателя к единице, тем сильнее связь между признаками.

При линейной форме зависимости (а именно линейная зависимость между признаками предполагается при выполнении задания по этой теме для упрощения расчетов) для измерения тесноты связи кроме корреляционного отношения используется также другой показатель, который называется коэффициентом корреляции. Он может быть исчислен по следующей формуле:

.

Коэффициент корреляции может быть рассчитан на основе корреляционной таблицы по формуле:

Коэффициент корреляции может принимать значения от -1 до +1.

Отрицательные значения указывают на наличие обратной (убывающей) линейной зависимости, положительные - прямой (возрастающей) линейной зависимости. Если коэффициент корреляции равен нулю, то можно сделать вывод, что линейная связь отсутствует.

Наиболее точный результат при расчете статистических показателей может быть получен на основе обработки исходных данных, однако это значительно увеличивает объем вычислений, если объем совокупности значительный. При выполнении курсовой работы точностью расчетов можно пожертвовать ради упрощения вычислений на основе сгруппированных данных, так как целью работы является выработка навыков использования статистических методов. Однако право выбора метода расчета остается за студентом. Так, при расчете коэффициента корреляции расчеты значительно упрощаются, если осуществлять их, используя корреляционную таблицу. Она строится на основе комбинационной таблицы, полученной при выполнении задания № 1.

Следующий этап исследования корреляционной связи заключается в том, чтобы описать зависимость признака-результата от признака- фактора некоторым аналитическим выражением. Так как исследуемая зависимость является корреляционной, то функция, описывающая зависимость (аналитическое уравнение регрессии) должна быть "ближайшей" к рассматриваемой корреляционной связи. Эта задача решается на основе метода наименьших квадратов (МНК), который позволяет по исходным данным оценить параметры функции, относящейся к заданному классу. Так, если считать, что связь между исследуемыми признаками – линейная, то нужно определить параметры линейного уравнения регрессии

на основе системы нормальных уравнений:

Решение системы дает следующие значения параметров:

Однако определить параметры линейного уравнения регрессии можно по-другому. Существует взаимосвязь между коэффициентом (b) линейного уравнения регрессии и коэффициентом корреляции:

Помня, что средние значения признаков и их средние квадратичные отклонения были определены в предыдущем задании, коэффициент корреляции уже вычислен, можно довольно просто определить значения параметров a и b.

Задание N3

С помощью корреляционного анализа изучить связь между признаками, указанными в Вашем варианте. Для этого:

1. Построить эмпирическую линию регрессии.

2. Оценить тесноту связи между признаками, рассчитав коэффициент детерминации, коэффициент корреляции.

3. Найти линейное уравнение связи, график которого представить в той же системе координат, что и эмпирическая линия регрессии.

4. Интерпретировать полученные результаты, сделать выводы.





Дата публикования: 2015-01-09; Прочитано: 763 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.018 с)...