Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Методы регрессионного и корреляционного анализа



Основной целью изучения причинно-следственной зависимости является выявление связей, закономерностей и тенденций развития. Причинно-следственная зависимость выражает соотношение между функцией (следствием) и аргументом (причиной).

Различают две основные формы причинных зависимостей: статистическую и функциональную. При функциональной зависимости каждому возможному значению аргумента поставлено в однозначное соответствие определенное значение функции, т.е. Y = f(X).

Но такого рода однозначные (функциональные) связи между переменными величинами встречаются не всегда. Известно, например, что между ростом (длиной тела) и массой человека существует положительная связь: более высокие индивиды имеют обычно и большую массу, чем индивиды низкого роста. То же наблюдается и в отношении качественных признаков: блондины, как правило, имеют голубые, а брюнеты — карие глаза. Однако из этого правила имеются исключения, когда сравнительно низкорослые индивиды оказываются тяжелее высокорослых, и среди населения хотя и нечасто, но встречаются кареглазые блондины и голубоглазые брюнеты. Причина таких “исключений” в том, что каждый биологический признак, выражаясь математическим языком, является функцией многих переменных; на его величине сказывается влияние и генетических и средовых факторов, в том числе и случайных, что вызывает варьирование признаков, т.е. в реальности на производимые наблюдения (признаки) действуют многочисленные факторы. В этом случае связи теряют свою однозначность и речь при этом идет о статистических связях. Отсюда зависимость между признаками приобретает не функциональный, а статистический характер. Статистическая связь состоит в том, что одна случайная переменная реагирует на изменение другой изменением своего закона распределения. Такого рода зависимость между переменными величинами называется корреляционной или корреляцией (термин “корреляция” происходит от лат. correlatio — соотношение, связь).

Статистические связи между переменными можно изучать методами корреляционного и регрессионного анализа. Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения xi и yi. Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение результативного признака обуславливается влиянием одного или нескольких факторных признаков, а множество всех прочих факторов применяется за постоянные (или усредненные) величины.

Основная задача корреляционного анализа - выявление связи между случайными переменными путем точечной и интервальных оценок. Метод корреляции применяется для того, чтобы при сложном взаимодействии посторонних влияний выяснить какой должна была быть зависимость между величинами, если бы посторонние факторы не изменялись и своим изменением не искажали основную зависимость.

Теория корреляции решает три основные задачи:

· определение корреляционных уравнений связи между двумя и более случайными величинами;

· определение тесноты связи и вероятности получаемых характеристик;

· обоснование методики проведения исследований по выявлению корреляционных связей.

Показателем тесноты между двумя случайными наблюдениями х и y являются коэффициент корреляции:

N - количество независимых наблюдений. Коэффициент корреляции не изменяется при изменении начала отсчета и масштаба измерения величин х и y. Он удовлетворяет неравенству Если r = ±1, то между величинами существует тесная линейная связь, если r=0, нет линейной корреляционной зависимости (но может быть нелинейная).

Таблица 6.1.

Количественные критерии оценки тесноты связи
(шкала Чеддока)

Для оценки значимости r применяется t-критерий Стьюдента. При этом определяется фактическое значение критерия tr:

.

Исчисленное tr сравнивается с критерием tк, которое берется из таблицы значений t-Стьюдента с учетом заданного уровня значения a и числа степеней свободы k (см. прил. 5). Если tr>tк, то величина коэффициента корреляции признается существенной.

К уравнениям регрессионного анализа относятся прямая, гипербола, парабола, экспонента, логарифмическая функция и др.

Применение метода наименьших квадратов позволяет получить достаточно точные теоретические значения линии однофакторной регрессии и, соответственно, ее графическое изображение. Подобранной считается та модель расчетов теоретической линии, для которой квадрат отклонений эмпирических данных у от теоретической линии регрессии минимальный, т.е. . Для определения параметров уравнения на основе требований метода наименьших квадратов составляется система нормальных уравнений:

.

Решая систему линейных уравнений получим:

,

.

Множественные уравнения регрессии позволяют вычислить теоретические значения результативного признака в зависимости от всех включенных в множественное уравнение факторов (без графического его изображения одной теоретической линией).

Различный подход к истолкованию результатов регрессионного анализа исходит из разного понимания смысла параметров уравнений регрессии, полученных методом наименьших квадратов. Например считается, что в уравнении однофакторной линейной регрессии , параметр b означает среднее изменение величины результативного признака у, в зависимости от изменения значений факторного признака х, если все остальные факторы, влияющие на результативный признак у и не связанные с факторным, рассматриваются как неизменные (т.е. этот параметр показывает, насколько в среднем величина одного признака (Y) изменяется при изменении на единицу меры другого корреляционно связанного с Y признака X). При исследованиях это требование трудно учесть. Параметр а (свободный член) отражает усредненное влияние всех неучтенных факторов. Если первое требование трудно учесть, то второе - истолковать, особенно в тех случаях, когда он имеет отрицательное значение.

Критерием правильного применения регрессионного и корреляционного анализа при изучении взаимосвязей между наблюдениями является наличие нормального распределения совокупности, которое наблюдается только в том случае, если на эту взаимосвязь действует множество случайных, независимых или же слабо зависимых факторов и отсутствуют факторы, играющие в общем итоге преобладающую роль.

При исследовании корреляции между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (рубли, секунды, килограммы и т.д.) очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель г рафически отображает зависимость между переменными величинами xi и yi в системе прямоугольных координат. Эту графическую зависимость называют также диаграммой рассеивания или корреляционным полем.

¨Пример 6.1. [10]

В результате комбинационной группировки 100 рабочих по общему стажу работы и месячной заработной плате получена следующая корреляционная таблица:

Группы рабочих по общему стажу работы (лет) Группы рабочих по размеру заработной платы (руб.)  
               
100-120 120-140 140-160 160-180 180-200 200-220 220-240 Итого
0-5                
5-10                
10—15                
15-20                
20—25                
25—30                
Итого                

Для характеристики связи между рассматриваемыми показателями необходимо вычислить:

1) уравнение прямой регрессии между заработной платой и трудовым стажем рабочих;

2) коэффициент корреляции;

3) среднюю ошибку коэффициента корреляции.





Дата публикования: 2015-01-09; Прочитано: 988 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.007 с)...