Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Корреляционный анализ. Помимо предположения о форме уравнения регрессионной зависимости между случайными величинами и нахождения параметров уравнения исследователю необходимо



Помимо предположения о форме уравнения регрессионной зависимости между случайными величинами и нахождения параметров уравнения исследователю необходимо оценить, насколько удачно выбранная регрессионная модель объясняет существующую зависимость между исследуемыми с. в.

Коэффициент корреляции. Основной числовой характеристикой, определяющей тесноту линейной связи (1) между двумя случайными величинами, является коэффициент корреляции

, (8)

где M [ XY ] – математическое ожидание произведения с. в. X и Y.

Коэффициент корреляции является безразмерной величиной и может принимать значения из интервала: –1 £ r £ 1. Для линейно независимых случайных величин Х и Y коэффициент корреляции равен нулю. Чем теснее линейная зависимость между двумя с. в., тем больше коэффициент корреляции отличается от нуля. Экстремальные значения 1 или –1 коэффициента корреляции соответствуют линейной функциональной зависимости между двумя с. в. (положительной и отрицательной соответственно). Положительная зависимость указывает на увеличение значения одной величины при увеличении значения другой величины. Например, стаж и производительность труда рабочих; время подготовки к экзамену и полученная оценка. Для отрицательной зависимости характерно уменьшение значения одной из величин при увеличении значения другой величины. Например, скорость модемного соединения и время, необходимое для передачи файла.

Таким образом, можно говорить, что коэффициент корреляции характеризует тесноту линейной регрессионной зависимости между двумя с. в., т.е. близость ее к линейной функциональной зависимости. По заданной двумерной выборке оценку коэффициента корреляции можно найти по формуле

. (9)

Коэффициент детерминации. Для характеристики качества описания зависимости между двумя с. в. произвольным уравнением регрессии используется коэффициент детерминации R 2. Чем лучше линия регрессии аппроксимирует точки на диаграмме рассеяния, тем больше значение R 2, и тем надежнее уравнение регрессии может быть применено для практических расчетов.

Оценка коэффициента детерминации определяется выражениями (10) –(11) и может принимать значения в интервале от нуля до единицы (0 £ R 2 £ 1):

, (10)

, (11)

где n – объем выборки;

– значение с. в. Y, предсказываемое уравнением регрессии для заданного xi (условное среднее);

– безусловное среднее с. в. Y;

yii -е выборочное значение с. в. Y;

ei = yi – отклонения наблюденных значений с. в. Y = yi от расчетных, полученных по уравнению регрессии .

В формуле (10) числитель характеризует рассеяние условных средних , определяемых уравнением регрессии, около безусловного среднего , в знаменателе – рассеяние (дисперсию) опытных данных yi около безусловного .

Отметим, что коэффициент детерминации не является мерой какой-либо зависимости априорно (как это справедливо для коэффициента корреляции, который всегда характеризует степень линейной зависимости между двумя с. в.), он лишь оценивает степень приближения выбранного уравнения регрессионной зависимости к действительной зависимости между двумя с. в.

Близость коэффициента детерминации к нулю указывает на то, что выбранное уравнение регрессии (модель зависимости) незначимо объясняет существующую зависимость между с. в. Равенство же коэффициента детерминации единице указывает на то, что зависимость между случайными величинами является функциональной, описываемой уравнением регрессии, т. е. выбранное уравнение регрессии полностью (однозначно) определяет зависимость между с. в.

Если значение коэффициента детерминации больше 0,7, то считают, что выбранное уравнение регрессии хорошо описывает зависимость, существующую между случайными величинами. Если же коэффициент детерминации меньше 0,3, то уравнение регрессии незначительно описывает зависимость между случайными величинами, если таковая существует.

Замечание – При анализе связи между случайными величинами Х и Y, для которых значение одной из с. в. (обычно X) задаются исследователем, коэффициент корреляции (или детерминации) нельзя рассматривать как строгую меру взаимосвязи явлений (как в случае, где Х – неконтролируемая величина), поскольку здесь большую роль играет выбор самих значений xi. В этом случае коэффициент корреляции (детерминации) характеризует лишь меру близости эмпирических точек к линии регрессии.

6 Проверка значимости оценок
коэффициентов корреляции и детерминации

Оценки коэффициентов корреляции и детерминации сами являются случайными величинами, так как для различных выборок из одной и той же генеральной совокупности могут принимать различные значения. При малых объемах выборок эти различия будут особенно существенными. Поэтому при нахождении оценок коэффициентов корреляции и детерминации используется проверка значимости этих оценок, которая позволяет сделать вывод о существенности описания действительной зависимости выбранным уравнением регрессии.

Фактически, проверка значимости оценки коэффициента корреляции/детерминации заключается в статистической проверке параметрической гипотезы о том, что действительное значение коэффициента равно нулю (r = 0 или R 2 = 0), а отличие от нуля соответствующей оценки ( или ) вызвано лишь случайностью выборки.

Проверка значимости . Чтобы сделать статистический вывод о значимости оценки коэффициента корреляции (при проверке линейной регрессионной зависимости) выдвигается нулевая гипотеза об отсутствии линейной зависимости между исследуемыми с. в. (т. е. H 0: r = 0; H a: r ¹ 0). Если гипотеза H 0 отклоняется, то считается, что уравнение регрессии Y на X действительно имеет линейный вид (1) – (2).

Для проверки гипотезы H 0 вычисляется t -статистика

.(12)

При условии справедливости гипотезы H 0 рассчитанная t -статистика имеет распределение Стьюдента с n – 2 степенями свободы. Найденное по формуле (12) значение сравнивается с критическим значением t a,n при n = n – 2 степенях свободы (см. приложение Б). Если расчетное значение по абсолютной величине превосходит табличное для заданного уровня значимости a, то нулевая гипотеза H 0 о линейной независимости двух с. в. отклоняется, и с вероятностью ошибки a можно утверждать, что между исследуемыми величинами существует линейная зависимость.

Проверка значимости . При выполнении процедуры проверки значимости оценки коэффициента детерминации выдвигается нулевая гипотеза о том, что предложенное уравнение регрессии никак не отражает реальную зависимость между с. в., т. е. H 0: R 2 = 0. Альтернативная гипотеза заключается в том, что выбранная модель зависимости (уравнение регрессии) в достаточной степени объясняет действительную зависимость между случайными величинами, т. е. H a: R 2 > 0.

Для проверки значимости оценки коэффициента детерминации используется статистика

, (13)

имеющая F -распределение Фишера с n1 = m – 1 и n2 = nm степенями свободы. Здесь m – число неизвестных параметров предполагаемого уравнения регрессии (b0, b1,…, bm–1 ). Значение статистики, вычисленное по формуле (13) сравнивается с критическим значением Fn 1, n 2, a, найденным по таблицам квантилей распределения Фишера (приложение Д) при заданном уровне значимости и соответствующем числе степеней свободы. Если F > Fn 1, n 2, a, то нулевая гипотеза отклоняется, вычисленный коэффициент детерминации значимо отличается от нуля, и с вероятностью ошибки a можно утверждать, что между исследуемыми величинами существует зависимость предложенного вида, и полученное уравнение регрессии может использоваться в дальнейших исследованиях.

Пример 1 По результатам десяти совместных измерений скорости движения локомотива X, км/ч, и соответствующего расхода топлива Y, л/100 км, представленных в таблице 1, следует исследовать зависимость между данными величинами с целью определения «крейсерской» скорости локомотива и прогнозирования величины расхода топлива при заданной скорости движения поезда.

Таблица 1Исходные данные

X 40,23 19,63 29,01 89,14 74,96 57,89 34,33 21,01 16,69 9,24
Y 50,66 67,82 60,95 65,53 46,84 52,91 43,71 70,52 67,02 89,96

Решение. На величину расхода топлива локомотивом Y, помимо скорости движения X, влияние оказывает масса состава, профиль и качество железнодорожного полотна, качество подвижного состава, направление и скорость ветра и другие факторы. Поэтому зависимость между величиной расхода топлива локомотивом Y и скоростью движения поезда X является статистической: на одной скорости движения при различных дополнительных условиях расход топлива может принимать различные значения. Для решения поставленной задачи определения «крейсерской» скорости локомотива и прогнозирования величины расхода топлива при заданной скорости движения поезда ограничимся отысканием регрессионной зависимости.

Диаграмма рассеяния, построенная по результатам наблюдений исследуемых величин, представлена на рисунке 4.

Рисунок 4 – Диаграмма рассеяния
случайных величин X и Y

Характер расположения точек на диаграмме рассеяния позволяет сделать предположение о параболической регрессионной зависимости

. (14)

Оценки параметров b0 , b1 и b2 найдем методом наименьших квадратов. Для этого составим функцию S (b0 , b1 , b2) (см. (3)), которая в случае параболической регрессии примет вид

. (15)

Для отыскания оценок параметров b0 , b1 и b2, минимизирующих функцию S (b0 , b1 , b2), составим и решим систему нормальных уравнений (4):

Þ Þ

Þ (16)

Для вычисления значений сумм, входящих в систему уравнений (16), составим расчетную таблицу 2.

Таблица 2Результаты промежуточных вычислений

N xi yi xi 2 xi yi xi 3 xi 4 xi 2 yi
  40,23 50,66 1618,45 2038,05 65110,36 2619389,79 81990,82
  19,63 67,82 385,34 1331,31 7564,16 148484,53 26133,55
  29,01 60,95 841,58 1768,16 24414,24 708257,06 51294,31
  89,14 65,53 7945,94 5841,34 708301,06 63137956,13 520697,42
  74,96 46,84 5619,00 3511,13 421200,36 31573178,98 263194,03
  57,89 52,91 3351,25 3062,96 194003,98 11230890,64 177314,75
  34,33 43,71 1178,55 1500,56 40459,58 1388977,51 51514,37
  21,01 70,52 441,42 1481,63 9274,24 194851,70 31128,95
  16,69 67,02 278,56 1118,56 4649,10 77593,50 18668,83
  9,24 89,96 85,38 831,23 788,89 7289,33 7680,57
S 392,13 615,92 21745,5 22484,9   111086869,2 1229617,6

После подстановки значений система уравнений (16) примет вид:

(17)

Решив систему уравнений (17) известными методами или с помощью MAthCAD, получим следующее решение: ; ; , а уравнение регрессии примет вид

. (18)

На рисунке 5 представлена диаграмма рассеяния случайных величин X и Y с нанесённой линией регрессии.

Рисунок 5 – Диаграмма рассеяния случайных
величин X и Y с нанесённой линией регрессии

Оценим качество описания зависимости между величиной расхода топлива локомотивом (Y) и скоростью его движения (Х) полученным уравнением регрессии с помощью коэффициента детерминации (10), где – значение расхода топлива, предсказываемое уравнением регрессии, при скорости локомотива xi (см. последний столбец таблицы 3); л/100км – среднеарифметическое наблюденных значений расхода топлива.

Таблица 3Значения расхода топлива локомотивом

N Скорость xi Наблюденное (фактическое) значение расхода топлива, yi Значение, предсказываемое уравнением регрессии (xi) = b0 + b1 xi + b2 xi 2
  40,23 50,66 49,036
  19,63 67,82 69,091
  29,01 60,95 57,986
  89,14 65,53 65,152
  74,96 46,84 51,248
  57,89 52,91 44,510
  34,33 43,71 53,154
  21,01 70,52 67,250
  16,69 67,02 73,250
  9,24 89,96 85,241
S 392,13 615,92  

Расчётное значение коэффициента детерминации указывает на удовлетворительность описания зависимости между величиной скорости (Х) и расхода топлива (Y), выбранным уравнением регрессии. Проверим, однако, значимость оценки коэффициента детерминации с помощью статистики Фишера

.

Вывод. Критическое значение статистики Фишера для степеней свободы n1 = 3 – 1 = 2 и n2 = 10 – 3 = 7 и уровня значимости a = 0,05 составляет . Поскольку расчётное значение статистики Фишера больше критического (), то вычисленный коэффициент детерминации значимо отличается от нуля, и выбранное уравнение регрессионной зависимости (18) между величинами скорости и расхода топлива локомотивом может быть использовано в практических целях.

Например, при движении локомотива со скоростью 70 км/ч можно ожидать в среднем расход литров топлива на каждые 100 км пути. Следовательно, можно контролировать фактический расход топлива локомотивом.

Для определения «крейсерской» скорости локомотива (которой соответствует минимальный расход топлива) необходимо решить задачу минимизации функции (см. рисунок 5). Для этого приравняем к нулю производную функции и решим полученное уравнение:

;

Þ .

Таким образом, «крейсерская» скорость локомотива составляет 55,897 км/ч (см. рисунок 5).

Пример 2 По десяти предприятиям лёгкой промышленности были получены следующие данные об объёмах вкладываемых в предприятие инвестиций X, млрд руб., и соответствующих размерах прибыли Y, млрд руб. (таблица 4).

Таблица 4Исходные данные

X 1,0 1,5 4,0 2,5 1,0 0,5 3,0 2,0 0,5 5,0
Y 7,34 11,46 15,35 16,02 3,50 4,95 13,43 7,31 –0,87 17,54

Требуется исследовать зависимость между величинами инвестиций и прибылью, получаемой предприятиями лёгкой промышленности, с целью оптимизации вложения средств.

Решение. Естественно, что на величину прибыли предприятия, помимо величины инвестиций, влияние оказывает большое количество дополнительных факторов (эффективность расходования средств, конъюнктура рынка, величина основных фондов предприятия и др.). Поэтому при исследовании зависимости между величиной инвестиций и прибылью ограничимся отысканием регрессионной зависимости между ними.

Диаграмма рассеяния, построенная по результатам наблюдений исследуемых величин, представлена на рисунке 6.

Рисунок 6 – Диаграмма рассеяния случайных величин X и Y

Характер расположения точек на диаграмме рассеяния позволяет сделать предположение о логарифмической регрессионной зависимости вида

. (19)

Оценки параметров b0 и b1 найдём методом наименьших квадратов. Для этого составим функцию S (см. (3)), которая в случае логарифмической регрессии примет вид

. (20)

Для отыскания оценок параметров b0 и b1, минимизирующих функцию S (b0 , b1), составим и решим систему нормальных уравнений:

Þ Þ

Þ (21)

Результаты вычислений сведём в таблицу 5.

Таблица 5Результаты промежуточных вычислений

N xi yi ln xi ln2 xi yi ln xi (xi) = b0 + b1 ln xi
  1,0 7,34 0,0000 0,0000 0,000 6,383
  1,5 11,46 0,4055 0,1644 4,648 9,148
  4,0 15,35 1,3863 1,9218 21,286 15,835
  2,5 16,02 0,9163 0,8396 14,678 12,631
  1,0 3,50 0,0000 0,0000 0,000 6,383
  0,5 4,95 –0,6931 0,4805 –3,433 1,657
  3,0 13,43 1,0986 1,2069 14,749 13,874
  2,0 7,31 0,6931 0,4805 5,065 11,109
  0,5 –0,87 –0,6931 0,4805 0,600 1,657
  5,0 17,54 1,6094 2,5903 28,224 17,357
S   96,04 4,7230 8,1644 85,815  

После подстановки значений система уравнений (21) примет вид:

Þ

Выразив b0 из первого уравнения и подставив во второе, получим:

откуда ;

.

Таким образом, оценки параметров уравнения регрессии ; .

На рисунке 7 представлена диаграмма рассеяния значений случайных величин X и Y с нанесённой линией регрессии.

Рисунок 7 – Диаграмма рассеяния случайных
величин X и Y с нанесённой линией регрессии

Оценим качество описания зависимости между величиной инвестиций Х и прибыли Y полученным уравнением регрессии с помощью коэффициента детерминации (10),

,

где – значение величины прибыли, предсказываемое уравнением регрессии, соответствующее значению xi инвестиции (см. таблицу 5);

– среднее значение величины прибыли;

Расчётное значение коэффициента детерминации указывает на удовлетворительность описания зависимости между величиной инвестиций Х и прибыли Y, выбранным уравнением регрессии. Проверим, однако, значимость оценки коэффициента детерминации с помощью статистики Фишера

.

Критическое значение статистики Фишера для степеней свободы
n1 = 2 – 1= 1 и n2 = 10 – 2 = 8 и уровня значимости a = 0,05 составляет . Поскольку расчётное значение статистики Фишера больше критического (), то вычисленный коэффициент детерминации значимо отличается от нуля, и выбранное уравнение регрессионной зависимости между величинами инвестиций и прибыли может быть использовано в экономических исследованиях (в частности, для предсказания величины прибыли).





Дата публикования: 2015-01-10; Прочитано: 432 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.034 с)...