Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Корреляционно – регрессионный анализ)



Современная наука исходит из взаимосвязи всех явлений природы и общества. Объем продукции предприятия связан с численностью работников, мощностью двигателей, стоимостью производственных фондов и еще многими признаками.

Невозможно управлять явлениями, предсказывать их развитие без изучения характера, силы и других особенностей связей. Поэтому методы исследования, измерения связей составляют чрезвычайно важную часть методологии научного исследования, в том числе и статистического.

Различают два типа связей между различными явлениями и их признаками:

I. функциональную или жестоко детерминированную, и

II. статистическую или стохастически детерминированную.

Строго определить различие этих типов связи можно тогда, когда они получают математическую формулировку. Для простоты будем говорить о связи двух явлений или двух признаков, математически отображаемой в форме уравнения связи двух переменных.

Если с изменением значения одной из переменных вторая изменяется строго определенным образом, т.е. значению одной переменной обязательно соответствует одно или несколько точно заданных значений другой переменной, связь между ними является функциональной.

Нередко говорят о строгом соответствии лишь одного значения второй из переменных каждому значению первой из них, но это неверно. Например, связь между y и x является строго функциональной, если ; но значению х = 4 соответствует не одно, а два значения: у1 = +2; у2 = -2. Уравнения более высоких степеней могут иметь несколько корней, связь, разумеется, останется функциональной.

Функциональная связь двух величин возможна лишь при условии, что вторая из них зависит только от первой и ни от чего более. В реальной природе (и тем более в обществе) таких связей нет; они являются лишь абстракциями, полезными и необходимыми при анализе явлений, но упрощающими реальность. Функциональная зависимость данной величины у от многих факторов возможна только в том случае, если величина у всегда зависит только от перечисленного набора факторов и ни от чего более. Между тем все явления и процессы безграничного реального мира связаны между собой, и нет такого конечного числа переменных k, которые абсолютно полно определяли бы собою зависимую величину у. Следовательно, множественная функциональная зависимость переменных есть тоже абстракция, упрощающая реальность.

Однако такие науки, как механика, электротехника, акустика, политическая экономия и другие, успешно используют представление связей как функциональных не только в аналитических целях, но нередко и в целях прогнозирования. Это возможно потому, что в простых системах интересующая нас переменная величина зависит в основном (скажем на 99%) от немногих других переменных или только от одной переменной. То есть связь в такой несложной системе является хотя и не абсолютно функциональной, но практически очень близкой к таковой. Например, длина года (период обращения Земли вокруг Солнца) почти функционально зависит только от массы Солнца и расстояния Земли от него. На самом деле она зависит в очень слабой степени и от масс, и расстояния других планет от Земли, но вносимые ими (и тем более в миллионы раз более далекими звездами) искажения функциональной связи для всех практических целей, кроме космонавтики, пренебрежительно малы.

Стохастически детерминированная связь не имеет ограничений и условий, присущих функциональной связи. Если с изменением значения одной из переменных вторая может в определенных пределах принимать любые значения с некоторыми вероятностями, но ее среднее значение или иные статистические (массовые) характеристики изменяются по определенному закону -–связь является статистической. Иными словами, при статистической связи разным значениям одной переменной соответствуют разные распределения значений другой переменной.

В настоящее время наука не знает более широкого определения связи. Все связи, которые могут быть измерены и выражены численно, подходят под определение «статистические связи», в том числе и функциональные. Последние представляют собой частный случай статистических связей, когда значениям одной переменной соответствуют «распределения» значений второй, состоящие из одного или нескольких значений и имеющие вероятность, равную единице. Конечно, качественное различие действительно вероятностных распределений и отдельных значений, имеющих вероятность единицы (достоверных), настолько велико, что хотя функциональные связи и подходят в широком смысле под определение статистической связи, все же с полным основанием можно говорить о двух типах связей.

Корреляционной связью называют важнейший частный случай статистической связи, состоящий в том, что разным значениям одной переменной соответствуют различные средние значения другой. С изменением значения признака х закономерным образом изменяется среднее значение признака у; в то время как в каждом отдельном случае значение признака у (с различными вероятностями) может принимать множество различных значений.

Если же с изменением значения признака х среднее значение признака у не изменяется закономерным образом, но закономерно изменяется другая статистическая характеристика (показатели вариации, ассиметрии, эксцесса и т.п.), то связь является не корреляционной, хотя и статистической.

Статистическая связь между двумя признаками (переменными величинами) предполагает, что каждый из них имеет случайную вариацию индивидуальных значений относительно средней величины. Если же такую вариацию имеет лишь один из признаков, а значения другого являются жестко детерминированными, то говорят лишь о регрессии, но не о статистической (тем более корреляционной) связи. Например, при анализе динамических рядов можно измерять регрессию уровней ряда урожайности (имеющих случайную колеблемость) на номера лет. Но нельзя говорить о корреляции между ними и применять показатели корреляции с соответствующей им интерпретацией.

Само слово корреляция ввел в употребление в статистику английский биолог и статистик Френсис Гальтон в конце XIX в. Тогда оно писалось как “corelation” (соответствие), но не просто «связь» (relation), а «как бы связь», т.е. связь, но не в привычной в то время функциональной форме.

Корреляционная связь между признаками может возникать разными путями. Важнейший путь - причинная зависимость результативного признака (его вариации) от вариации факторного признака. Например, признак х – балл оценки плодородия почв, признак у – урожайность сельскохозяйственной культуры. Здесь совершенно ясно логически, какой признак выступает как независимая переменная (фактор) х, какой – как зависимая переменная (результат) у.

Совершенно иная интерпретация необходима при изучении корреляционной связи между двумя следствиями общей причины. Известен классический пример, приведенный крупнейшим статистиком России начала XX в. А.А. Чупровым: если в качестве признака х взять число пожарных команд в городе, а за признак у – сумму убытков за год в городе от пожаров, то между признаками х и у в совокупности городов России существенна прямая корреляция; в среднем, чем больше пожарников в городе, тем больше и убытков от пожаров! Уж не занимались ли пожарники поджигательством из боязни потерять работу? Но дело в другом. Данную корреляцию нельзя интерпретировать как связь причины и следствия; оба признака – следствия общей причины – размера города. Вполне логично, что в крупных городах больше пожарных частей, но больше и пожаров, и убытков от них за год, чем в мелких городах.

Третий путь возникновения корреляции – взаимосвязь признаков, каждый из которых и причина, и следствие. Такова, например, корреляция между уровнями производительности труда рабочих и уровнем оплаты 1ч труда (тарифной ставкой). С одной стороны, уровень зарплаты – следствие производительности труда: чем она выше, тем выше и оплата. Но с другой стороны, установленные тарифные ставки и расценки играют стимулирующую роль: при правильной системе оплаты они выступают в качестве фактора, от которого зависит производительность труда. В такой системе признаков допустимы обе постановки задачи: каждый признак может выступать и в роли независимой переменной х, и в качестве зависимой переменной у.

По направлению выделяют связь прямую и обратную. При прямой связи с увеличением или уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного. Например, увеличение степени механизации труда способствует росту рентабельности строительного производства. В случае обратной связи значения результативного признака изменяются в противоположном направлении по сравнению с изменением факторного признака. Так, с увеличением уровня фондоотдачи снижается себестоимость единицы производимой продукции.

По аналитическому выражению выделяют связи прямолинейные (или просто линейные) и нелинейные (криволинейные). Если статистическая связь между явлениями приближенно выражена уравнением прямой линии, то ее называют линейной связью; если же она выражена уравнением какой-либо кривой линии (параболы, гиперболы: степенной, показательной, экспоненциальной и т.д.), то такую связь называют нелинейной или криволинейной.

Для выявления наличия связи, ее характера и направления в статистике используются методы: приведения параллельных данных, аналитических группировок, графический, корреляции и регрессии.

Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получить представление о ее характере. Сравним изменения двух величин:

Таблица 8.1.

х                  
у                  

Мы видим, что с увеличением величины х величина у также возрастает. Можно сделать предположение, что связь между ними прямая и что ее можно описать или уравнением прямой, или уравнением параболы второго порядка.

Статистическую связь между двумя признаками можно изобразить графически и по графику судить о наличии, направлении и форме связи. На оси абсцисс откладываются значения факторного признака, на оси ординат - результативного. На графике откладываются все единицы, обладающие определенными значениями х и у.

Соединив полученные точки нанесенных на график значений х и у прямыми линиями, получается ломаная, называемая «Ломаная регрессии». Число точек ломаной регрессии строго должно соответствовать числу единиц наблюдения, по которым даны значения обоих признаков. Кривая позволит судить о форме связи, об аналитическом ее выражении.

П арная регрессия характеризует связь между двумя признаками: результативным и факторным. Аналитически связь между ними описывается уравнениями:

прямой ;

параболы ; (8.1)

гиперболы и т.д.

Определить тип уравнения можно, исследуя зависимость графически. Однако существуют более общие указания, позволяющие выявить уравнение связи, не прибегая к графическому изображению. Если результативный и факторный признаки возрастают одинаково, примерно в арифметической прогрессии, то это свидетельствует о наличии линейной связи между ними, а при обратной связи – гиперболической. Если результативный признак увеличивается в арифметической прогрессии, а факторный значительно быстрее, то используется параболическая или степенная функции.

Оценка параметров уравнения регрессии (а 2 – в уравнении параболы второго порядка) осуществляется методом наименьших квадратов, в основе которого лежит предположение о независимости наблюдений исследуемой совокупности и нахождении параметров модели (), при котором минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по уравнению регрессии:

.

Система нормальных уравнений для нахождения параметров линейной парной регрессии методом наименьших квадратов имеет следующий вид:

; (8.2)

,

где n – объем исследуемой совокупности (число единиц наблюдения).

В уравнениях регрессии параметр а 0 показывает усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов; параметр а 1 (а в уравнении параболы и а 2) – коэффициент регрессии показывает, насколько изменяется в среднем значение результативного признака при изменении факторного на единицу его собственного измерения.

Пример. По данным о сумме активов и кредитных вложений коммерческих банков Белоруссии необходимо определить направление и тесноту связи между признаками. Данные в таблице 9.2 представлены после предварительной их обработки методом приведения параллельных данных. Сопоставив полученные ряды данных х и у, можно наблюдать наличие прямой зависимости между признаками, когда увеличение кредитных вложений увеличивает сумму активов коммерческих банков. Исходя из этого можно сделать предположение, что связь между признаками прямая и ее можно описать уравнением прямой. Этот же вывод подтверждается и на основе графического анализа:

 
 

Рис. 8.1. Зависимость суммы активов коммерческих банков от кредитных вложений.

Анализ данного рисунка показывает наличие близкой к прямолинейной зависимости, так как точки расположены практически по прямой линии.

Определим параметры уравнения прямой на основе метода наименьших квадратов, решив систему нормальных уравнений (8.2). Исходные данные и расчетные показатели представим в табл. 8.2.

;

; .

Отсюда: .

Таб. 8.2. Расчетная таблица для определения

параметров уравнения регрессии зависимости

суммы активов и кредитных вложений

коммерческих банков Белоруссии

Банк Кредитные вложения, млрд.нац.руб. х Сумма активов, млрд.нац. руб.у ху
  Комплексбанк         1140,6
  Белорусбанк         1502,5
  Приорбанк         1632,9
  Белбизнесбанк         2007,3
  Белпромстрой-банк         2191,9
  Белагропром-банк         2862,4
  Белкомбанк         3419,4
Итого         14757,0

Следовательно, с увеличением кредитных вложений на 1 млрд. нац.руб. сумма активов возрастает в среднем на 1,0429 млрд нац.руб.

Модель регрессии может быть построена как по индивидуальным значениям признака (табл. 8.2), так и по сгруппированным данным (табл. 8.3). Для выявления связи между признаками по достаточно большому числу наблюдений используется корреляционная таблица. В корреляционной таблице можно отобразить только парную связь, т.е. связь результативного признака с одним фактором, и на ее основе построить уравнение регрессии и определить показатели тесноты связи. Само уравнение регрессии может иметь линейную, параболическую и другие формы. При определении параметров модели регрессии и коэффициентов связи по корреляционной таблице не теряется информация о связи, обусловленная усреднением данных. Для составления корреляционной таблицы парной связи статистические данные необходимо предварительно сгруппировать по обоим признакам (х и у), затем построить таблицу, по строкам в которой отложить группы результативного, а по столбцам – группы факторного признаков.

Корреляционная таблица (пример табл. 8.3) дает общее представление о направлении связи. Если оба признака (х и у) располагаются в возрастающем порядке, а частоты (fху) сосредоточены по диагонали сверху вниз направо, то можно судить о прямой связи между признаками. В противном случае – об обратной. О тесноте связи между признаками х и у по корреляционной таблице можно судить по кучности расположения частот вокруг диагонали (насколько заполнены клетки таблицы в стороне от нее). Если клетки заполнены большими цифрами, то связь слабая. Чем ближе частоты (fху) располагаются к одной из диагоналей, тем теснее связь. Если в расположении частот (fху) нет системности, то можно судить об отсутствии связи.

Рассмотрим анализ статистических данных по корреляционной таблице на следующем примере.

Пример. По данным группировки 40 предприятий легкой промышленности по величине балансовой прибыли и объему произведенной продукции построим уравнение связи (табл. 8.3).

Решение. Анализ таблицы показывает, что частоты (fху) расположены по диагонали сверху вниз, что свидетельствует о наличии прямой связи между объемом произведенной продукции и балансовой прибылью. Также наблюдаются концентрация частот (fху) вокруг главной диагонали и незаполненность оставшихся клеток, поэтому можно предположить достаточно тесную связь между рассматриваемыми признаками.

Расчет и анализ средних значений по группам факторных признаков х подтверждает наличие прямолинейной зависимости между х и у.

Считая, что зависимость описывается уравнением прямой, коэффициенты а 0 и а 1 определим из системы нормальных уравнений вида:

;

.

Так как значения признаков у и х заданы в определенных интервалах, то для каждого интервала сначала необходимо определить середину интервала (х и у), а затем уже по ним строить уравнение регрессии.

Таблица 8.3.

Балансовая прибыль, млн руб.у Объем произведенной продукции, млн руб., х
  300-400 400-500 500-600 600-700 700-800
         
10-20                  
20-30                  
30-40                  
40-50                  
50-60                  
-                
-             - -
-             - -
- 25,0 37,2 42,6 51,7 55,0 - - -

Покажем промежуточные расчеты:

По первой группе: ;

;

;

;

.

По второй группе: ;

;

;

;

.

Аналогичным образом получены все остальные расчетные значения в таблице.

Таким образом, подставив в систему уравнений итоговые значения из табл. 8.3, получим:

;

.

Отсюда: а 0= -0,9; а 1= 0,08.

Следовательно: .

Параметр уравнения регрессии показывает, что с увеличением объема выпускаемой продукции на 1 млн руб. балансовая прибыль возрастает на 80 тыс. руб.

Если связь между признаками у и х криволинейная и описывается уравнением параболы второго порядка:

,

то система нормальных уравнений имеет вид:

;

;

.

Оценка обратной зависимости между х и у, когда с увеличением (уменьшением) х уменьшается (увеличивается) значение результативного признака у, может быть осуществлена на основе уравнения гиперболы вида:

.

Система нормальных уравнений для нахождения параметров гиперболы следующая:

;

.

Множественная (многофакторная) регрессия. Изучение связи между тремя и более связанными между собой признаками носит название множественной (многофакторной) регрессии, описываемой функцией вида:

.

Построение моделей множественной регрессии включает этапы:

· выбор формы связи (уравнения регрессии);

· отбор факторных признаков;

· обеспечение достаточного объема совокупности для получения несмещенных оценок.

Выбор типа уравнения затрудняется тем, что для любой формы зависимости можно выбрать целый ряд уравнений, которые в определенной степени будут описывать эти связи. Поскольку уравнение регрессии строится главным образом для объяснения и количественного выражения взаимосвязей, оно должно хорошо отражать сложившиеся между исследуемыми факторами фактические связи.

Практика построения многофакторных моделей взаимосвязи показывает, что все реально существующие зависимости между социально-экономическими явлениями можно описать, используя пять типов моделей:

1. линейная: ;

2. степенная: ;

3. показательная: ;

4. параболическая: ;

5. гиперболическая: .

Основное значение имеют линейные модели в силу простоты и логичности их экономической интерпретации. Нелинейные формы зависимости приводятся к линейным путем линеаризации.

Важным этапом построения уже выбранного уравнения множественной регрессии являются отбор и последующее включение факторных признаков.

Проблема отбора факторных признаков для построения моделей взаимосвязи может быть решена на основе эвристических (интуитивно-логических) или многомерных статистических методов анализа.

Наиболее приемлемым способом отбора факторных признаков является шаговая регрессия (шаговый регрессионный анализ). Сущность метода шаговой регрессии заключается в последовательном включении факторов в уравнение регрессии и последующей проверке их значимости. Факторы поочередно вводятся в уравнение так называемым «прямым методом». При проверке значимости введенного фактора определяется, насколько уменьшается сумма квадратов остатков и увеличивается величина множественного коэффициента корреляции (R2). Одновременно используется и обратный метод, т.е. исключение факторов, ставших незначимыми на основе t-критерия Стьюдента.

При построении моделей регрессии можно столкнуться и с проблемой мультиколлинеарности, под которой понимается тесная зависимость между факторными признаками, включенными в модель. Мультиколлинеарность существенно искажает результаты исследования.

Одним из индикаторов определения наличия мультиколлинеарности между факторными признаками является превышение величины парного коэффициента корреляции 0,8 ().

Устранение мультиколлинеарности может реализовываться через исключение из корреляционной модели одного или нескольких линейно-связанных факторных признаков или преобразованием исходных факторных признаков в новые, укрупненные факторы.

Пример. По данным о сумме активов (у), кредитных вложений (х 1) и величине собственного капитала (х 2) коммерческих банков Белоруссии построить множественное уравнение связи. Связь предполагается линейной. Расчетная таблица для определения параметров уравнения регрессии представлена в таблице 9.4.

Решение.

Таблица 8.4

банк åактивов млрд нац. руб. у Кредит.вложения,млрд нац. руб. х1 Собствен. Капитал, млрд.нац. руб. х2
                     
                     
                     
                     
                     
                     
                     
Итого                    

.

Система нормальных уравнений имеет вид:

;

;

;

;

;

.

Отсюда: ; ; ;

.

Расчеты показали, что с увеличением кредитных вложений на 1 млрд нац. руб. и собственного капитала коммерческих банков Белоруссии на 1 млрд нац. руб. стоимость их активов возрастает соответственно на 0,0368 и 16,77 млрд нац. руб.

Оценка существенности связи. Принятие решений на основе уравнения регрессии.

Проверка адекватности моделей, построенных на основе уравнений регрессии, начинается с проверки значимости каждого коэффициента регрессии.

Значимость коэффициента регрессии осуществляется с помощью t-критерия Стьюдента:

,

где - дисперсия коэффициента регрессии.

Параметр модели признается статистически значимым, если (a; v=n-k-1), где a - уровень значимости, v=n-k-1 – число степеней свободы.

Величина может быть определена по выражению

,

где - дисперсия результативного признака;

k – число факторных признаков в уравнении.

Более точную оценку величины дисперсии можно получить по формуле:

,

где - величина множественного коэффициента корреляции по фактору х i с остальными факторами.

Проверка адекватности всей модели осуществляется с помощью расчета F-критерия и величины средней ошибки аппроксимации ().

Значение средней ошибки аппроксимации, определяемой по формуле

,

не должно превышать 12 – 15%.

Интерпретация моделей регрессий осуществляется методами той отрасли знаний, к которой относятся исследуемые явления. Но всякая интерпретация начинается со статистической оценки уравнения регрессии в целом и оценки зависимости входящих в модель факторных признаков, т.е. с выяснения, как они влияют на величину результативного признака. Чем больше величина коэффициента регрессии, тем значительнее влияние данного признака на моделируемый. Особое значение при этом имеет знак перед коэффициентом регрессии. Знаки коэффициентов регрессии говорят о характере влияния на результативный признак. Если факторный признак имеет знак плюс, то с увеличением данного фактора результативный признак возрастает. Если факторный признак имеет знак минус, то с его увеличением результативный признак уменьшается. Анализ модели по данным табл. 8.4 свидетельствует о том, что увеличение кредитных вложений и собственного капитала влечет рост стоимости активов коммерческих банков.

С целью расширения возможностей экономического анализа используются частные коэффициенты эластичности, определяемые по формуле:

,

где - среднее значение соответствующего факторного признака;

- среднее значение результативного признака;

- коэффициент регрессии при соответствующем факторном признаке.

Коэффициент эластичности показывает, на сколько процентов в среднем изменится значение результативного признака при изменении факторного признака на 1%.

Рассчитаем коэффициент эластичности по данным табл.8.4:

;

.

Это означает, что при увеличении кредитных вложений и собственного капитала на 1% стоимость активов возрастает соответственно на 0,02 и 1,19 %.

Частный коэффициент детерминации показывает, насколько процентов вариация результативного признака объясняется вариацией i-го признака, входящего в множественное уравнение регрессии. Он рассчитывается по формуле

,

где - парный коэффициент корреляции между результативным и i-м факторным признаком;

- соответствующий коэффициент уравнения множественной регрессии в стандартизованном масштабе.

По данным табл. 8.4. рассчитаем частный коэффициент детерминации для фактора хi – кредитные вложения (млрд нац. руб.):

;

;

;

; ;

;

;

;

;

, что свидетельствует о том, что 2 % вариации стоимости активов объясняются изменением величины кредитных вложений.

Для фактора (собственный капитал): ;

; ; .

На 88% изменение стоимости активов объясняется изменением собственного капитала коммерческих банков Белоруссии.

Множественный коэффициент детерминации (R2), представляющий собой множественный коэффициент корреляции в квадрате, показывает, какая доля вариации результативного признака обусловлена изменением факторных признаков, входящих в многофакторную регрессионную модель.

Для более точной оценки влияния каждого факторного признака на моделируемый используется Q-коэффициент, определяемый по формуле

,

где - коэффициент вариации соответствующего факторного признака.

По данным таблицы 8.4:

- для фактора - кредитные вложения –

;

; ;

.

- для фактора - собственный капитал:

; ;

.

Вывод: наиболее существенно влияние фактора .





Дата публикования: 2015-01-09; Прочитано: 775 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.042 с)...