Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Оценка существенности параметров линейной регрессии и корреляции



Корреляционный и регрессионный анализ обычно проводится для ограниченной по объёму совокупности. Поэтому показатели регрессии и корреляции - параметры уравнения регрессии, коэффициенты корреляции и детерминации могут быть искажены действием случайных факторов. Чтобы проверить, насколько эти показатели характерны для всей генеральной совокупности, не являются ли они результатом стечения случайных обстоятельств, необходимо проверить адекватность построенных статистических моделей.

После построения уравнения линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров. Проверить значимость уравнения регрессии - значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Методы оценки тесноты связи подразделяются на корреляционные (параметрические) и непараметрические. Параметрические методы основаны на использовании, как правило, оценок нормального распределения и применяются в случаях, когда изучаемая совокупность состоит из величин, которые подчиняются закону нормального распределения. Непараметрические методы не накладывают ограничений на закон распределения изучаемых величин. Значение линейного коэффициента корреляции важно для исследования социально-экономических явлений и процессов, распределение которых близко к нормальному. Он принимает значения в интервале: -1≤ r ≤ 1.

По степени тесноты связи различают количественные критерии оценки тесноты связи. Оценка линейного коэффициента корреляции может быть произведена по таблице 1, либо укрупненно по таблице 2.

Таблица 1 Количественные критерии оценки тесноты связи

Величина коэффициента корреляции Характер связи
| ± 0,01| - | 0,15| Отсутствует связь
| ± 0,16| - |± 0,20| Практически отсутствует связь
|±0,21| - |±0,30| Слабая связь
|±0,31| - |± 0,40| Умеренная связь
|±0,41| - |± 0,60| Средняя связь
|± 0,61| - |± 0,80| Высокая связь
|±0,81| - |± 0,90| Очень высокая связь
|±0,91| - |± 1,00| Полная связь

Таблица 2 Укрупненные критерии оценки тесноты связи

Величина коэффициента корреляции Характер связи
до | ± 0,3| Практически отсутствует
|±0,3| - |±0,5| Слабая
|± 0,5| - |± 0,7| Умеренная
|± 0,7| - | ±1,0| Сильная

Отрицательные значения указывают на обратную связь, положительные - на прямую. При r = 0 линейная связь отсутствует. Чем ближе коэффициент корреляции по абсолютной величине к единице, тем теснее связь между признаками. И, наконец, при r = ±1 - связь функциональная.

По направлению выделяют связь прямую и обратную. При прямой связи с увеличением или уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного. В случае обратной связи значения результативного признака изменяются под воздействием факторного, но в противоположном направлении по сравнению с изменением факторного признака.

По аналитическому выражению выделяют связи прямолинейные и криволинейные. Если статистическая связь между явлениями может быть приближенно выражена уравнением прямой линии, то ее называют линейной связью; если же она выражается уравнением какой-либо кривой линии (параболы, гиперболы, показательной и др.), то такую связь называют криволинейной.

Графически взаимосвязь двух признаков отображается с помощью поля корреляции. В системе координат по оси абсцисс откладываются значения факторного признака, а на оси ординат - результативного. Каждое пересечение линий, проводимых через эти оси, обозначается точкой. Чем сильнее связь между признаками, тем теснее будут группироваться точки вокруг определенной линии, выражающей форму связи.

Квадрат линейного коэффициента корреляции r2 называется линейным коэффициентом детерминации. Из определения коэффициента детерминации очевидно, что его числовое значение всегда заключено в пределах от 0 до 1, то есть 0 ≤ r2 ≤ 1. Степень тесноты связи полностью соответствует теоретическому корреляционному отношению, которое является более универсальным показателем тесноты связи по сравнению с линейным коэффициентом корреляции. Факт совпадений и несовпадений значений теоретического корреляционного отношения η и линейного коэффициента корреляции r используется для оценки формы связи.

Для оценки значимости коэффициента корреляции r используют t-критерий Стьюдента, который применяется при t-распределении, отличном от нормального. Полученное значение tрасч сравнивают с табличным значением t-критерия (для α = 0,05 и 0,01). Если рассчитанное значение tрасч превосходит табличное значение критерия tтабл, то практически невероятно, что найденное значение обусловлено только случайными колебаниями (то есть отклоняется гипотеза о его случайности).

Оценка значимости уравнения регрессии в целом дается с помощью F-критерия Фишера. При этом выдвигается нулевая гипотеза, что коэффициент регрессии равен нулю, следовательно, фактор х не оказывает влияния на результат у. Величина F-отношения (F-критерий) получается при сопоставлении факторной и остаточной дисперсии в расчете на одну степень свободы.

F = Dфакт / Dост.

F-критерий проверки для нулевой гипотезы Н0: Dфакт = Dост.

Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Для Н0 необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз. Английским статистиком Снедекором разработаны таблицы критических значений F-отношений при разных уровнях существенности нулевой гипотезы и различном числе степеней свободы. Табличное значение F-критерия - это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение F-отношения признается достоверным (отличным от 1), если оно больше табличного. В этом случае нулевая гипотеза об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи: Fфакт > Fтабл Н0 отклоняется.

Если же величина оказалась меньше табличной Fфакт < Fтабл, то вероятность нулевой гипотезы меньше заданного уровня (например, 0, 05) и она не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым и не отклоняется.

Проверка адекватности регрессионной модели может быть дополнена корреляционным анализом. Для этого необходимо определить тесноту корреляционной связи между переменными х и у.

Теоретическое корреляционное отношение η представляет собой относительную величину, получающуюся в результате сравнения среднего квадратического отклонения выравненных значений результативного признака δ, то есть рассчитанных по уравнению регрессии, со средним квадратическим отношением эмпирических (фактических) значений результативности признака σ. Изменение значения η объясняется влиянием факторного признака.

Проверка значимости уравнения регрессии производится на основе дисперсионного анализа. В математической статистике дисперсионный анализ рассмотрен как самостоятельный инструмент (метод) статистического анализа. В эконометрике он применяется как вспомогательное средство для изучения качества модели. Центральное место в анализе дисперсии занимает разложение общей суммы квадратов отклонений переменной у от среднего значения у на две части - «объясненную» и «необъясненную».

Общая сумма квадратов отклонений = Сумма квадратов отклонений, объясненная регрессией + Остаточная сумма квадратов отклонений

9. Интервалы прогноза по линейному уравнению регрессии. Проверка значимости оценок параметров регрессии

Интервалы прогноза

Оценка статистической значимости параметров регрессии проводится с помощью t-статистики Стьюдента и путем расчета доверительного интервала для каждого из показателей. Выдвигается гипотеза Н0 о статистически значимом отличие показателей от 0 a = b = r = 0. Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что параметры a и b находясь в указанных границах не принимают нулевых значений, т.е. не является статистически незначимыми и существенно отличается от 0.

10 Влияние неучтенных факторов на коэффициент корреляции

Далее мы обсудим некоторые важные факторы, которые могут при известных обстоятельствах оказывать влияние на величину коэффициента корреляции, снижая точность его оценки. В конечном итоге это может привести к ошибочным выводам, особенно при сравнении результатов нескольких обследований.

Один из таких факторов — географический. Например, при изучении зависимости урожайности от показателей качества почвы необходимо учитывать, производились ли исследования в масштабах округа или района. Коэффициент корреляции, вычисленный по результатам наблюдений в районе, в общем, больше коэффициента корреляции, вычисленного по результатам исследования в округе, так как некоторые факторы при этом либо отсутствуют, либо они не так сильно варьируют. Как правило, при сравнительном анализе могут сопоставляться только такие коэффициенты корреляции, которые относятся к однородным единицам обследования, например к округам или районам.

С осторожностью нужно подходить и к обобщению результатов обследования, выполненного в рамках небольшой области. Не всегда правомерно распространять вывод на более крупные территориальные единицы. Например, коэффициент корреляции между доходом и расходами

на определенные потребительские товары в расчете на душу населения будет сильно варьировать остеографического признака.

Величина коэффициента корреляции зависит также от фактора времени. Так, при изучении связи между прибылью и себестоимостью следует учитывать, за какой период вычисляется по экономическим показателям коэффициент корреляции — за месяц, квартал или год.

Коэффициент корреляции только тогда является достоверным показателем связи, когда исследуемые единицы однородны в отношении этой связи. Одно из условий однородности — близость значений количественного признака. Так, при изучении зависимости себестоимости от объема продукции сначала необходимо произвести группировку предприятий, например на крупные, средние и мелкие, а затем по группам вычислять коэффициенты корреляции. В связи с этим возникают задачи формирования однородных многомерных комплексов. Исследователь должен располагать теоретически обоснованным критерием определения статистической однородности, чтобы отбрасывать или относить к другой группе те значения, которые не типичны для данной связи. Построение критерия группировки социально-экономических явлений по комплексу признаков — дело достаточно сложное.

Далее мы покажем, что из факта линейной корреляционной связи между абсолютными величинами, по которым вычислены относительные показатели, вовсе не вытекает с необходимостью корреляционная связь между этими относительными показателями. В таких случаях часто возникает нонсенс-корреляция, или псевдокорреляция (ложная корреляция).

Особенно сильное влияние на величину коэффициента корреляции оказывает неоднородность исходного материала, например производственные предприятия, на которых производится исследование связи между производительностью труда и уровнем механизации работ, могут очень сильно различаться между собой. При одном и том же уровне механизации работ одно предприятие может быть оснащено современным оборудованием, а другое — устаревшим. Благодаря этому обстоятельству отдельные значения экономических показателей могут более или менее сильно рассеиваться. Связь между явлениями, в общем, интенсивнее, если исследования производятся на большом числе предприятий. Выводы, основанные на большом числе наблюдений, значительно достовернее. Чем меньше объем наблюдений, тем сильнее подвержена колебаниям интенсивность связи от исследования к исследованию. Иногда коэффициенты корреляции, вычисленные по различным частям одной и той же совокупности, различаются даже по своему знаку. В [72] приведены рекомендации по вычислению коэффициента корреляции, свободного от случайных воздействий.

11. РАСПРЕДЕЛЕНИЕ КОЭФФИЦИЕНТОВ РЕГРЕССИИ И КОРРЕЛЯЦИИ

Пусть выполняются следующие предпосылки: соотношение между переменными в генеральной совокупности вы­ражается линейной регрессией;

возмущающая переменная и имеет нормальное распределение с математическим ожиданием и дисперсией ;

значения зависимой переменной yi при фиксированных значениях объясняющих переменных xk (k = 1,..., т) распределены нормально или приблизительно нормально. Тогда оценки параметров регрессии bk (k = 1,..., т) распределены нормально с математическим ожида­нием и дисперсией . Отсюда следует, что величина

(2.1)

имеет стандартное нормальное распределение.

Поскольку дисперсия возмущающей переменной а также дис­персии оценок параметров регрессии неизвестны, вместо них ис­пользуем выборочные дисперсии и . Формула (2.1)'приобрета­ет вид:

r wsp:rsidR="00000000"><w:pgSz w:w="12240" w:h="15840"/><w:pgMar w:top="1134" w:right="850" w:bottom="1134" w:left="1701" w:header="720" w:footer="720" w:gutter="0"/><w:cols w:space="720"/></w:sectPr></w:body></w:wordDocument>"> (2.2)

Статистика (2.2) имеет t-распределение с п—т— 1 степенями сво­боды. Это следует учитывать особенно при малом объеме выборки.

Коэффициент корреляции вычисляется по результатам выборки. Поэтому его часто называют выборочным коэффициентом корреляции. Итак, коэффициент корреляции является функцией от выборки. Его значе­ния, вычисленные по результатам различных выборок, отличаются друг от друга. Следовательно, выборочный коэффициент корреляции представляет собой случайную величину с определенным распределе­нием вероятностей. Распределение коэффициента парной корреляции можно считать приближенно нормальным при выполнении следующих условий:

случайные переменные у и х имеют совместное нормальное или приближенно нормальное распределение;

корреляционная связь между переменными не очень тесная, т. е. коэффициент корреляции не слишком близок ± 1;

3) объем выборки достаточно велик.

Первое условие приводит к так называемой нормальной корреля­ции, при которой переменные соединены линейным соотношением. Плотность двумерного нормального распределения изображается в си­стеме координат поверхностью, называемой поверхностью нормаль­ного распределения (см. рис. 20, а). На рис. 20, а и 20, б параметры генеральной совокупности обозначены греческими буквами. В сече­нии нормальной поверхности распределения плоскостями, параллель­ными координатной плоскости xOz, получаются кривые распределения случайной переменной х, соответствующие определенным значениям у. Аналогично в сечении нормальной поверхности распределения плоско­стями, параллельными координатной плоскости yOz, получаются кри­вые распределения переменной у, соответствующие определенным зна­чениям х. Кривые распределения отличаются друг от друга лишь своей крутизной. Они являются графическими изображениями условных рас­пределений соответственно переменных х и у при фиксированных зна­чениях у их. Если спроецировать на плоскость хОу средние значения условных распределений переменной х и соединить линией полученные точки, то образованная таким образом линия будет называться линией регрессии х на у. Сопряженная с ней линия регрессии у на х является множеством точек, соответствующим средним значениям условных рас­пределений переменной у.

Пересекая поверхность распределения плоскостями, параллельны­ми координатной плоскости хОу, в проекции на этой плоскости полу­чаем семейство концентрических эллипсов различных размеров с оди­наковой ориентацией главных осей и с общим центром в точке с коор­динатами и . Их называют эллипсами рассеяния. Точка пересече­ния линий регрессии у на х и х на у совпадает с центром эллипсов рас­сеяния. Вследствие симметричности нормального распределения линии регрессии делят площадь эллипсов пополам (см. рис. 20, б).

Точное распределение выборочного коэффициента частной корре­ляции такое же, как и обычного коэффициента парной кор­реляции, вычисленного по выборке объема п — k, где k — число ис­ключенных переменных. При перечисленных выше условиях его мож­но также аппроксимировать нормальным. Распределения коэффициен­та множественной корреляции, корреляционного отношения и ин­декса корреляции, напротив, даже при выборках сравнительно боль­шого объема сильно отличаются от нормального.

По второму условию с увеличением интенсивности корреляционной связи сходимость распределения выборочного коэффициента корре­ляции к нормальному уменьшается. Распределение выборочного ко­эффициента корреляции становится все более асимметричным. Р. Фи­шер указал нормализующее преобразование случайной величины z, благодаря которому распределение г может быть приближенно приве­дено к нормальному:

ar w:top="1134" w:right="850" w:bottom="1134" w:left="1701" w:header="720" w:footer="720" w:gutter="0"/><w:cols w:space="720"/></w:sectPr></w:body></w:wordDocument>"> , (2.3)

где In — (натуральный) логарифм с основанием е (е = 2,71828...); lg — десятичный логарифм (логарифм с основанием 10). При r = ± \ соответственно z = ± ∞. При r = 0 получаем z = 0.

Р. Фишер показал, что распределение величины z, отдельные реа­лизации которой определяются соотношением (2.3), при п → ∞ асимптотически нормально с параметрами

(2.4)

(2.5)

Даже при небольших п приближение достаточно хорошее. Как видно из (2.5), стандартное отклонение зависит не от величины параметра р (коэффициента корреляции генеральной совокупности), а только от объема выборки п. С увеличением объема выборки становится мень­ше. Значения z-преобразования Фишера могут быть определены с помо­щью таблицы логариф­мов. Обратный пересчет z в r проводят с помо­щью соотношения , (2.6)

где tanh z — гиперболи­ческий тангенс от аргу­мента z, его можно опре­делить по таблице лога­рифмов либо с помощью соотношения

(2.7)

При невыполнении третьего условия, т. е. когда объем выборки n мал, распределение выборочного коэффициента корреляции сильно отличается от нормального, что видно из рис. 21. Если р ≠ 0, то с уменьшением объема выборки увеличивается асимметричность распределения r. Это осложняет проверку надежности выборочного коэффициента корреляции.

Если коэффициент корреляции р двумерного нормального распределения равен нулю (р = 0), то в этом случае статистика

(2.8)

имеет t - распределение с n - 2степенями свободы.

12. Множественная регрессия.

Функция , оп исывающая зависимость показателя от параметров, называется уравнением (функцией) регрессии [1]. Уравнение регрессии показывает ожидаемое значение зависимой переменной при определенных значениях зависимых переменных .

В зависимости от количества включенных в модель факторов Х модели делятся на однофакторные (парная модель регрессии) и многофакторные (модель множественной регрессии).

В зависимости от вида функции модели делятся на линейные и нелинейные.

Модель множественной линейной регрессии имеет вид:

y i = a0 + a1x i 1 +a2x i 2 +…+ ak x i k + ei (2.1)

- количество наблюдений.

коэффициент регрессии a j показывает, на какую величину в среднем изменится результативный признак , если переменную xj увеличить на единицу измерения, т. е. a j является нормативным коэффициентом.

Коэффициент может быть отрицательным. Это означает, что область существования показателя не включает нулевых значений параметров. Если же а 0>0, то область существования показателя включает нулевые значения параметров, а сам коэффициент характеризует среднее значение показателя при отсутствии воздействий параметров.

Анализ уравнения (2.1) и методика определения параметров становятся более наглядными, а расчетные процедуры существенно упрощаются, если воспользоваться матричной формой записи:

(2.2).

Где – вектор зависимой переменной размерности п ´ 1, представляющий собой п наблюдений значений .

- матрица п наблюдений независимых переменных , размерность матрицы равна п ´ (k+1). Дополнительный фактор , состоящий из единиц, вводится для вычисления свободного члена. В качестве исходных данных могут быть временные ряды или пространственная выборка.

- количество факторов, включенных в модель.

a — подлежащий оцениванию вектор неизвестных параметров размерности (k+1) ´ 1;

— вектор случайных отклонений (возмущений) размерности п ´ 1. отражает тот факт, что изменение будет неточно описываться изменением объясняющих переменных , так как существуют и другие факторы, неучтенные в данной модели.

Таким образом,

Y = , X = , , a = .

Уравнение (2.2) содержит значения неизвестных пара­метров a0,a1,a2,…,ak . Эти величины оцениваются на основе выборочных наблюдений, поэтому полученные расчетные показатели не являются истинными, а представляют собой лишь их статистические оценки. Модель линейной регрес­сии, в которой вместо истинных значений параметров под­ставлены их оценки (а именно такие регрессии и приме­няются на практике), имеет вид

, (2.3)

где A — вектор оценок параметров; е — вектор «оценен­ных» отклонений регрессии, остатки регрессии е = Y - ХА; —оценка значе­ний Y, равная ХА.

Построение уравнения регрессии осуществляется, как правило, методом наименьших квадратов (МНК), суть которого состоит в минимизации суммы квадратов отклонений фактических значений результатного признака от его расчетных значений, т.е.:

.

13. Линейная модель множественной регрессии. Проверка линейности модели

Рассмотрим линейную модель множественной регрессии:

1)

2) , , , ,

Значения признака Матрица объясняющих Вектор Вектор Вектор переменных, столбцами регрессора j случайных коэфф-тов которой являются Xj ошибок регрессии

3) ,

В классической модели компоненты вектора возмущений некоррелированы М( ) = 0 при , а дисперсии компонент постоянны , ковариационная матрица возмущений

Суть обобщения регрессионной модели состоит в том, что ковариации и дисперсии объясняющих переменных могут быть произвольными (т.о. обобщенная модель множественной регрессии отличается от классической только видом ковариационной матрицы). - положительно определенная матрица (АТ = А и хТАх > 0). В классической модели множественной регрессии обычным МНК был получен вектор оценок параметров, он является несмещенной и состоятельной оценкой для . Рассмотрим ковариационную матрицу

В классической модели и К = . В качестве выборочной оценки ковариационной матрицы К была взята матрица

,

где , причем M(S2) = и = К, т.е. - несмещенная оценка К.

В обобщенной модели и К = . Если в качестве оценки матрицы К взять ту же матрицу, то , т.е. - смещенная оценка для К. Т.о., обычный МНК в обобщенной линейной регрессионной модели дает смещенную оценку ковариационной матрицы К вектора оценок параметров. Следовательно, оценка не будет оптимальной в смысле теоремы Гаусса-Маркова. Для получения наиболее эффективной оценки ковариационной матрицы К нужно использовать оценку, получаемую так называемым обобщенным МНК.

Теорема Айткена: в классе линейных несмещенных оценок вектора для обобщенной регрессионной модели оценка

имеет наименьшую ковариационную матрицу.

Для применения обобщенного МНК надо знать ковариационную матрицу вектора возмущений , что встречается крайне редко в практике эконометрического моделирования. Если считать все n(n+1)/2 элементов матрицы неизвестными параметрами обобщенной модели (в дополнение к (р+1) параметрам регрессии), то общее число параметров превысит число наблюдений n, что сделает оценку этих параметров неразрешимой задачей.

Для практической реализации обобщенного МНК вводятся дополнительные условия на структуру матрицы .

В экономике причинно-следственные отношения между явлениями часто описываются с помощью линейных или линеаризуемых зависимостей. Разработаны статистические критерии, позволяющие либо подтвердить факт непротиворечивости линейной формы зависимости опытным данным, либо отвергнуть предложенный вид зависимости как не соответствующий этим данным. Для проверки линейности регрессии применяется следующий метод. Пусть каждому значению объясняющей переменной соответствует несколько значений зависимой переменной, по которым вычисляют частные средние и т.д. Обозначим через частное среднее, соответствующее значению объясняющей переменной:

где — число значений у, относящихся к

Найдем теперь средний квадрат отклонений значений от их частных средних:

Показатель (8.72) является мерой рассеяния опытных данных около своих частных средних, т. е. мерой, не зависящей от выбранного вида регрессии. В качестве меры рассеяния опытных данных вокруг эмпирической регрессионной прямой выбирается средний квадрат отклонений:

Оба показателя представляют собой независимые статистические оценки одной и той же дисперсии в у. Если несущественно больше то в качестве гипотетической зависимости может быть принята линейная.

Если в генеральной совокупности существует линейная регрессия и условные распределения переменной у хотя бы приблизительно нормальны, то отношение средних квадратов отклонений (8.72) и (8.73)

имеет -распределение степенями свободы. Значение подсчитанное по формуле (8.74), сравнивается с критическим найденным по табл. 4 приложения при заданном уровне значимости а и степенях свободы. Если то разница между обоими средними квадратами отклонений статистически незначима и выбранная нами линейная регрессионная зависимость может быть принята как правдоподобная, не противоречащая опытным данным. Если а, то различие между обоими средними квадратами отклонений существенно, неслучайно, и гипотеза о линейной зависимости между переменными несостоятельна. Разработаны также другие критерии проверки гипотезы о линейности регрессии. Заинтересованный читатель может найти их в соответствующей литературе [122], [76].

14. Спецификация модели. Коэффициент множественной детерминации. Коэффициент частной детерминации. Коэффициент частной детерминации между объясняющими переменными





Дата публикования: 2015-01-10; Прочитано: 2308 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.023 с)...