![]() |
Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | |
|
- если между переменными не наблюдается статистической связи, то коэффициент корреляции равен нулю.
Из вышесказанного следует, что чем ближе значение к
, тем вероятнее наличие корреляционной связи между факторным и результирующим признаком.
Значимость корреляционной связи оценивают, проверяя статистическую гипотезу при альтернативной гипотезе
на заранее выбранном уровне значимости
. Критерием для принятия нулевой гипотезы является выполнение следующего условия:
, (4.2)
где критическая точка распределения Стьюдента с
степенями свободы при уровнем значимости
(Приложение). В случае если нулевая гипотеза отвергается и считается, что коэффициент корреляции значимо отличается от нуля, то для коэффициента корреляции в генеральной совокупности значений факторного и результирующего признака указывается доверительный интервал с уровнем доверительной вероятности
:
. (4.3)
Проведем расчет указанных величин по данным рассматриваемого примера. Для проведения расчета составим и заполним вспомогательную таблицу 4.3, выполняя следующие действия:
- в столбцы 1, 2 заносим значения факторного признака и результирующего признака
;
- определяем среднее арифметическое значений факторного признака - (сумма значений столбца 2, деленная на общее количество значений):
;
- определяем среднее арифметическое значений результирующего признака - (сумма значений столбца 3, деленная на общее количество значений):
.
- используя значения и
, последовательно заполняем столбцы 4 – 8.
Рассчитываем значение выборочного коэффициента корреляции между величинами и
(сумма значений столбца 8, деленная на квадратный корень из произведения сумм значений столбцов 6 и 7):
.
Значение коэффициента корреляции очень близко к +1, что указывает на наличие очень тесной линейной связи между исследуемыми переменными.
Проверим гипотезу о значимости коэффициента корреляции. Выберем уровень значимости и рассчитаем значение величины
(4.2):
.
По таблице значений критических точек распределения Стьюдента (Приложение 2) при 18 степенях свободы и уровне значимости находим значение
. Условие (4.2) не выполняется, следовательно рассчитанное значение коэффициента корреляции не может быть объяснено только случайными причинами и связь необходимо признать значимой.
Рассчитаем - й доверительный интервал для коэффициента корреляции в генеральной совокупности значений факторного и результирующего признаков (4.3):
.
Таким образом, интервал 0,966 – 0,999 с вероятностью 95% содержит в себе значение коэффициента корреляции в генеральной совокупности значений факторного и результирующего признака.
Таблица 4.3 - Вспомогательная таблица для расчета коэффициента корреляции
№ | x | y | ![]() | ![]() | ![]() | ![]() | ![]() |
658,0 | 11,9 | -332,825 | -4,97 | 110772,5 | 24,7009 | 1654,14 | |
700,4 | 12,1 | -290,425 | -4,77 | 84346,68 | 22,7529 | 1385,327 | |
740,6 | 12,1 | -250,225 | -4,77 | 62612,55 | 22,7529 | 1193,573 | |
774,4 | 12,5 | -216,425 | -4,37 | 46839,78 | 19,0969 | 945,7773 | |
816,2 | 12,8 | -174,625 | -4,07 | 30493,89 | 16,5649 | 710,7238 | |
853,5 | 13,6 | -137,325 | -3,27 | 18858,16 | 10,6929 | 449,0528 | |
876,8 | 14,4 | -114,03 | -2,47 | 13001,7 | 6,1009 | 281,6418 | |
900,0 | 14,8 | -90,825 | -2,07 | 8249,181 | 4,2849 | 188,0078 | |
951,4 | 15,7 | -39,425 | -1,17 | 1554,331 | 1,3689 | 46,12725 | |
1007,9 | 16,9 | 17,075 | 0,03 | 291,5556 | 0,0009 | 0,51225 | |
1004,8 | 17,6 | 13,975 | 0,73 | 195,3006 | 0,5329 | 10,20175 | |
1010,8 | 17,9 | 19,975 | 1,03 | 399,0006 | 1,0609 | 20,57425 | |
1056,2 | 18,0 | 65,375 | 1,13 | 4273,891 | 1,2769 | 73,87375 | |
1105,4 | 19,2 | 114,575 | 2,33 | 13127,43 | 5,4289 | 266,9598 | |
1162,3 | 18,6 | 171,475 | 1,73 | 29403,68 | 2,9929 | 296,6518 | |
1200,7 | 20,1 | 209,875 | 3,23 | 44047,52 | 10,4329 | 677,8963 | |
1209,5 | 21,5 | 218,675 | 4,63 | 47818,76 | 21,4369 | 1012,465 | |
1248,6 | 22,0 | 257,775 | 5,13 | 66447,95 | 26,3169 | 1322,386 | |
1254,4 | 22,4 | 263,575 | 5,53 | 69471,78 | 30,5809 | 1457,57 | |
1284,6 | 23,3 | 293,775 | 6,43 | 86303,75 | 41,3449 | 1888,973 | |
![]() | 19816,5 | 337,4 | 738509,4 | 269,722 | 13882,44 |
После установления факта наличия линейной корреляционной связи осуществляют процедуру регрессионного анализа, сущность которого заключается в построении уравнения, характеризующего закон изменения значений условных средних ,
, …,
при изменении значений факторных переменных. В случае парной корреляции, если методами корреляционного анализа установлено, что между факторной и результирующей переменной существует линейная связь, то закон изменения условных средних ищется в виде следующего уравнения (уравнения парной линейной регрессии):
, (4.4)
где и
неизвестные параметры, значения которых определяются по данным, полученным в результате наблюдений (т.е. по данным таблицы 4.1). Для определения параметров
и
наиболее часто используется метод наименьших квадратов, сущность которого заключается в минимизации суммы квадратов отклонений наблюдаемых значений от значений, рассчитанных по формуле (3.4). Данная сумма как функция неизвестных параметров
и
имеет следующий вид:
. (4.5)
Для минимизации данной функции необходимо взять частные производные данной функции по параметрам и
и приравнять их к нулю в точке (
):
;
.
После преобразований получаем систему из двух уравнений с двумя неизвестными:
. (4.6)
Из первого уравнения данной системы получаем:
. (4.7)
Откуда видно, что искомое уравнение проходит через точку с координатами (). Подставляя полученное выражение для
во второе уравнение системы (4.6) имеем:
. (4.8)
Выражение (4.8) имеет смысл только в том случае, если его знаменатель не равен нулю. Т.к. знаменатель представляет собой не что иное, как выражение для дисперсии факторного признака , то можно сделать следующий важный вывод: уравнение линейной регрессии не может быть построено, если значение выборочной дисперсии факторной переменной равно нулю.
Таким образом, уравнение линейной регрессии после определения значений параметров и
приобретает вид:
. (4.9)
Разность фактических и расчетных значений результирующей переменной:
, (4.10)
при определенном называется остатком или случайной составляющей в
- м наблюдении. При проведении регрессионного анализа предполагается, что случайная составляющая в каждом из
-х наблюдений подчиняется нормальному закону распределения с параметрами
и
.
Оценку дисперсии случайной составляющей рассчитывают по следующей формуле:
. (4.11)
Т. к. параметры уравнения регрессии и
оцениваются по выборочным данным, то очевидно, данные значения сами по себе являются случайными величинами, поэтому необходимо проводить оценку значимости данных параметров и указывать доверительные интервалы для значений данных параметров в генеральной совокупности значений факторного и результирующего признака.
Значимость параметров регрессии обычно оценивают, проверяя статистические гипотезы и
при альтернативных гипотезах
и
с использованием следующих соотношений (
критериев):
,
. (4.12)
,
, (4.13)
распределенных по закону Стьюдента с степенями свободы. Критерием принятия соответствующей нулевой гипотезы является выполнение условий:
; (4.14)
, (4.15)
где - критическая точка распределения Стьюдента с
степенями свободы, соответствующая уровню значимости
. При невыполнении какого-либо из соотношений (4.14 – 4.15) соответствующий параметр признается незначимым. В случае значимости параметров
и
для их значений в генеральной совокупности значений факторной и результирующей переменной указываются доверительные интервалы с уровнем доверия
в следующем виде:
- для параметра :
; (4.16)
. (4.17)
В качестве показателя, характеризующего качество разработанной модели в целом, используется коэффициент детерминации , равный:
(4.18)
который показывает, какая доля вариации значений результирующего признака объясняется влиянием факторного признака. Коэффициент детерминации изменяется от нуля до единицы, и чем ближе его значение к единице, тем лучше модель описывает результаты наблюдений.
Основной целью разработки регрессионных моделей является оценка уровня возможных изменений результирующего признака при изменении значений факторного признака, т. е. научно обоснованное прогнозирование развития изучаемого явления. При известном значении факторного признака прогноз значений результирующего признака "в среднем" осуществляется подстановкой данного значения в полученное уравнение регрессии:
. (4.19)
Кроме того, с вероятностью может быть дан интервальный прогноз величины
:
, (4.20)
Разработаем уравнение линейной регрессии расходов на медицинские услуги на величину личного дохода по данным рассматриваемого примера. Для проведения расчетов сформируем вспомогательную таблицу 4.4. Используя данные столбцов 2–5 определяем значения параметров уравнения линейной регрессии и
:
;
.
Таким образом, уравнение линейной регрессии затрат на медицинские услуги на величину личных доходов приобретает вид:
.
С использованием полученного уравнения последовательно рассчитаем значения ,
,
и заполним столбцы 6 – 8 таблицы 4.4.
С использованием суммы столбца 8 рассчитаем оценку дисперсии случайной составляющей:
.
Таблица 4.4.
Вспомогательная таблица для разработки уравнения линейной регрессии
№ | x | y | x2 | xy | ![]() | e | E2 | ![]() | ![]() |
658,0 | 11,9 | 7830,2 | 10,62 | -1,28 | 1,65 | 10,28809 | 10,94271 | ||
700,4 | 12,1 | 490560,2 | 8474,84 | 11,41 | -0,69 | 0,47 | 11,08525 | 11,73979 | |
740,6 | 12,1 | 548488,4 | 8961,26 | 12,17 | 0,07 | 0,005 | 11,84105 | 12,49551 | |
774,4 | 12,5 | 599695,4 | 12,80 | 0,30 | 0,09 | 12,47651 | 13,13093 | ||
816,2 | 12,8 | 666182,4 | 10447,36 | 13,59 | 0,79 | 0,62 | 13,26238 | 13,91674 | |
853,5 | 13,6 | 728462,3 | 11607,6 | 14,29 | 0,70 | 0,48 | 13,96363 | 14,61797 | |
876,8 | 14,4 | 768778,2 | 12625,92 | 14,73 | 0,33 | 0,11 | 14,40168 | 15,056 | |
900,0 | 14,8 | 15,17 | 0,37 | 0,13 | 14,83785 | 15,49215 | |||
951,4 | 15,7 | 14936,98 | 16,13 | 0,43 | 0,19 | 15,80418 | 16,45846 | ||
1007,9 | 16,9 | 17033,51 | 17,19 | 0,29 | 0,09 | 16,86638 | 17,52066 | ||
1004,8 | 17,6 | 17684,48 | 17,14 | -0,46 | 0,22 | 16,8081 | 17,46238 | ||
1010,8 | 17,9 | 18093,32 | 17,25 | -0,65 | 0,43 | 16,9209 | 17,57518 | ||
1056,2 | 18,0 | 19011,6 | 18,10 | 0,10 | 0,01 | 17,77442 | 18,4287 | ||
1105,4 | 19,2 | 21223,68 | 19,03 | -0,17 | 0,03 | 18,69936 | 19,35368 | ||
1162,3 | 18,6 | 21618,78 | 20,10 | 1,50 | 2,24 | 19,76906 | 20,42342 | ||
1200,7 | 20,1 | 24134,07 | 20,82 | 0,72 | 0,52 | 20,49095 | 21,14537 | ||
1209,5 | 21,5 | 26004,25 | 20,98 | -0,52 | 0,27 | 20,65639 | 21,31081 | ||
1248,6 | 22,0 | 27469,2 | 21,72 | -0,28 | 0,08 | 21,39144 | 22,04592 | ||
1254,4 | 22,4 | 28098,56 | 21,83 | -0,57 | 0,33 | 21,50047 | 22,15497 | ||
1284,6 | 23,3 | 29931,18 | 22,40 | -0,90 | 0,82 | 22,06821 | 22,72275 | ||
![]() | 19816,5 | 337,4 | 348186,8 | 337,45 | 0,05 | 8,76 | 10,28809 | 10,94271 |
Проверим значимость параметров регрессии. Выберем уровень значимости и рассчитаем значения
критериев (4.12, 4.13) (при расчетах значение
взято из столбца 6 таблицы 4.3):
;
.
Оба значения существенно больше критической точки распределения Стьюдента и, следовательно, нулевая гипотеза отвергается, и параметры уравнения регрессии необходимо считать значимыми.
Доверительные интервалы для параметров регрессии во всей генеральной совокупности значений факторного и результативного признака с уровнем доверительной вероятности 0,95 рассчитываем по формулам (4.16 – 4.17):
;
;
;
.
Таким образом, указанные интервалы с вероятностью 0,9 будут содержать в себе истинные значения параметров линейной регрессии.
Оценим качество модели с помощью коэффициента детерминации (4.18) (при расчетах значение величины взято из столбца 7 таблицы 4.3):
.
Таким образом, 97% вариации значений расходов на медицинские услуги обусловлены влиянием объема личного дохода.
Предположим, что в 1984 предполагается изменение совокупного личного дохода граждан до 1350 млрд. $. Дадим прогноз расходов на медицинские услуги с использованием разработанной модели. Значение расходов "в среднем" составит (4.19):
,
а истинное значение расходов будет содержаться в 95% - м доверительном интервале (3.20):
.
Таким образом, с вероятностью 0,95 указанный интервал будет содержать в себе истинное значение расходов на медицинские услуги. Аналогичным образом рассчитываем доверительные интервалы для всех значений и заполняем столбцы 9, 10 таблицы 4.4. Результаты расчетов представлены на рисунке 4.2
Рисунок 4.2 График регрессионной зависимости расходов на медицинское обслуживание от величины личного дохода.
Индивидуальные задания к теме "Анализ парной корреляции"
На стр. 64 – 70 приведены данные о функционировании ряда экономических систем за период в 15 лет. В качестве данных представлены: L - затраты на фактор труда; K - затраты на фактор капитала; Y - произведенный продукт. Каждая из переменных, приведена в млрд. долл. США.
Для своего варианта исходных данных:
· провести анализ парной корреляции между величиной производительности труда ( - результирующая переменная) и его фондовооруженности (
- факторная переменная);
Дата публикования: 2015-04-07; Прочитано: 388 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!