Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Исходные данные для выполнения задания №1. 4 страница



- если между переменными не наблюдается статистической связи, то коэффициент корреляции равен нулю.

Из вышесказанного следует, что чем ближе значение к , тем вероятнее наличие корреляционной связи между факторным и результирующим признаком.

Значимость корреляционной связи оценивают, проверяя статистическую гипотезу при альтернативной гипотезе на заранее выбранном уровне значимости . Критерием для принятия нулевой гипотезы является выполнение следующего условия:

, (4.2)

где критическая точка распределения Стьюдента с степенями свободы при уровнем значимости (Приложение). В случае если нулевая гипотеза отвергается и считается, что коэффициент корреляции значимо отличается от нуля, то для коэффициента корреляции в генеральной совокупности значений факторного и результирующего признака указывается доверительный интервал с уровнем доверительной вероятности :

. (4.3)

Проведем расчет указанных величин по данным рассматриваемого примера. Для проведения расчета составим и заполним вспомогательную таблицу 4.3, выполняя следующие действия:

- в столбцы 1, 2 заносим значения факторного признака и результирующего признака ;

- определяем среднее арифметическое значений факторного признака - (сумма значений столбца 2, деленная на общее количество значений):

;

- определяем среднее арифметическое значений результирующего признака - (сумма значений столбца 3, деленная на общее количество значений):

.

- используя значения и , последовательно заполняем столбцы 4 – 8.

Рассчитываем значение выборочного коэффициента корреляции между величинами и (сумма значений столбца 8, деленная на квадратный корень из произведения сумм значений столбцов 6 и 7):

.

Значение коэффициента корреляции очень близко к +1, что указывает на наличие очень тесной линейной связи между исследуемыми переменными.

Проверим гипотезу о значимости коэффициента корреляции. Выберем уровень значимости и рассчитаем значение величины (4.2):

.

По таблице значений критических точек распределения Стьюдента (Приложение 2) при 18 степенях свободы и уровне значимости находим значение . Условие (4.2) не выполняется, следовательно рассчитанное значение коэффициента корреляции не может быть объяснено только случайными причинами и связь необходимо признать значимой.

Рассчитаем - й доверительный интервал для коэффициента корреляции в генеральной совокупности значений факторного и результирующего признаков (4.3):

.

Таким образом, интервал 0,966 – 0,999 с вероятностью 95% содержит в себе значение коэффициента корреляции в генеральной совокупности значений факторного и результирующего признака.

Таблица 4.3 - Вспомогательная таблица для расчета коэффициента корреляции

x y
               
  658,0 11,9 -332,825 -4,97 110772,5 24,7009 1654,14
  700,4 12,1 -290,425 -4,77 84346,68 22,7529 1385,327
  740,6 12,1 -250,225 -4,77 62612,55 22,7529 1193,573
  774,4 12,5 -216,425 -4,37 46839,78 19,0969 945,7773
  816,2 12,8 -174,625 -4,07 30493,89 16,5649 710,7238
  853,5 13,6 -137,325 -3,27 18858,16 10,6929 449,0528
  876,8 14,4 -114,03 -2,47 13001,7 6,1009 281,6418
  900,0 14,8 -90,825 -2,07 8249,181 4,2849 188,0078
  951,4 15,7 -39,425 -1,17 1554,331 1,3689 46,12725
  1007,9 16,9 17,075 0,03 291,5556 0,0009 0,51225
  1004,8 17,6 13,975 0,73 195,3006 0,5329 10,20175
  1010,8 17,9 19,975 1,03 399,0006 1,0609 20,57425
  1056,2 18,0 65,375 1,13 4273,891 1,2769 73,87375
  1105,4 19,2 114,575 2,33 13127,43 5,4289 266,9598
  1162,3 18,6 171,475 1,73 29403,68 2,9929 296,6518
  1200,7 20,1 209,875 3,23 44047,52 10,4329 677,8963
  1209,5 21,5 218,675 4,63 47818,76 21,4369 1012,465
  1248,6 22,0 257,775 5,13 66447,95 26,3169 1322,386
  1254,4 22,4 263,575 5,53 69471,78 30,5809 1457,57
  1284,6 23,3 293,775 6,43 86303,75 41,3449 1888,973
19816,5 337,4     738509,4 269,722 13882,44

После установления факта наличия линейной корреляционной связи осуществляют процедуру регрессионного анализа, сущность которого заключается в построении уравнения, характеризующего закон изменения значений условных средних , , …, при изменении значений факторных переменных. В случае парной корреляции, если методами корреляционного анализа установлено, что между факторной и результирующей переменной существует линейная связь, то закон изменения условных средних ищется в виде следующего уравнения (уравнения парной линейной регрессии):

, (4.4)

где и неизвестные параметры, значения которых определяются по данным, полученным в результате наблюдений (т.е. по данным таблицы 4.1). Для определения параметров и наиболее часто используется метод наименьших квадратов, сущность которого заключается в минимизации суммы квадратов отклонений наблюдаемых значений от значений, рассчитанных по формуле (3.4). Данная сумма как функция неизвестных параметров и имеет следующий вид:

. (4.5)

Для минимизации данной функции необходимо взять частные производные данной функции по параметрам и и приравнять их к нулю в точке ():

;

.

После преобразований получаем систему из двух уравнений с двумя неизвестными:

. (4.6)

Из первого уравнения данной системы получаем:

. (4.7)

Откуда видно, что искомое уравнение проходит через точку с координатами (). Подставляя полученное выражение для во второе уравнение системы (4.6) имеем:

. (4.8)

Выражение (4.8) имеет смысл только в том случае, если его знаменатель не равен нулю. Т.к. знаменатель представляет собой не что иное, как выражение для дисперсии факторного признака , то можно сделать следующий важный вывод: уравнение линейной регрессии не может быть построено, если значение выборочной дисперсии факторной переменной равно нулю.

Таким образом, уравнение линейной регрессии после определения значений параметров и приобретает вид:

. (4.9)

Разность фактических и расчетных значений результирующей переменной:

, (4.10)

при определенном называется остатком или случайной составляющей в - м наблюдении. При проведении регрессионного анализа предполагается, что случайная составляющая в каждом из -х наблюдений подчиняется нормальному закону распределения с параметрами и .

Оценку дисперсии случайной составляющей рассчитывают по следующей формуле:

. (4.11)

Т. к. параметры уравнения регрессии и оцениваются по выборочным данным, то очевидно, данные значения сами по себе являются случайными величинами, поэтому необходимо проводить оценку значимости данных параметров и указывать доверительные интервалы для значений данных параметров в генеральной совокупности значений факторного и результирующего признака.

Значимость параметров регрессии обычно оценивают, проверяя статистические гипотезы и при альтернативных гипотезах и с использованием следующих соотношений ( критериев):

, . (4.12)

, , (4.13)

распределенных по закону Стьюдента с степенями свободы. Критерием принятия соответствующей нулевой гипотезы является выполнение условий:

; (4.14)

, (4.15)

где - критическая точка распределения Стьюдента с степенями свободы, соответствующая уровню значимости . При невыполнении какого-либо из соотношений (4.14 – 4.15) соответствующий параметр признается незначимым. В случае значимости параметров и для их значений в генеральной совокупности значений факторной и результирующей переменной указываются доверительные интервалы с уровнем доверия в следующем виде:

- для параметра :

; (4.16)

. (4.17)

В качестве показателя, характеризующего качество разработанной модели в целом, используется коэффициент детерминации , равный:

(4.18)

который показывает, какая доля вариации значений результирующего признака объясняется влиянием факторного признака. Коэффициент детерминации изменяется от нуля до единицы, и чем ближе его значение к единице, тем лучше модель описывает результаты наблюдений.

Основной целью разработки регрессионных моделей является оценка уровня возможных изменений результирующего признака при изменении значений факторного признака, т. е. научно обоснованное прогнозирование развития изучаемого явления. При известном значении факторного признака прогноз значений результирующего признака "в среднем" осуществляется подстановкой данного значения в полученное уравнение регрессии:

. (4.19)

Кроме того, с вероятностью может быть дан интервальный прогноз величины :

, (4.20)

Разработаем уравнение линейной регрессии расходов на медицинские услуги на величину личного дохода по данным рассматриваемого примера. Для проведения расчетов сформируем вспомогательную таблицу 4.4. Используя данные столбцов 2–5 определяем значения параметров уравнения линейной регрессии и :

;

.

Таким образом, уравнение линейной регрессии затрат на медицинские услуги на величину личных доходов приобретает вид:

.

С использованием полученного уравнения последовательно рассчитаем значения , , и заполним столбцы 6 – 8 таблицы 4.4.

С использованием суммы столбца 8 рассчитаем оценку дисперсии случайной составляющей:

.

Таблица 4.4.

Вспомогательная таблица для разработки уравнения линейной регрессии

x y x2 xy e E2
  658,0 11,9   7830,2 10,62 -1,28 1,65 10,28809 10,94271
  700,4 12,1 490560,2 8474,84 11,41 -0,69 0,47 11,08525 11,73979
  740,6 12,1 548488,4 8961,26 12,17 0,07 0,005 11,84105 12,49551
  774,4 12,5 599695,4   12,80 0,30 0,09 12,47651 13,13093
  816,2 12,8 666182,4 10447,36 13,59 0,79 0,62 13,26238 13,91674
  853,5 13,6 728462,3 11607,6 14,29 0,70 0,48 13,96363 14,61797
  876,8 14,4 768778,2 12625,92 14,73 0,33 0,11 14,40168 15,056
  900,0 14,8     15,17 0,37 0,13 14,83785 15,49215
  951,4 15,7   14936,98 16,13 0,43 0,19 15,80418 16,45846
  1007,9 16,9   17033,51 17,19 0,29 0,09 16,86638 17,52066
  1004,8 17,6   17684,48 17,14 -0,46 0,22 16,8081 17,46238
  1010,8 17,9   18093,32 17,25 -0,65 0,43 16,9209 17,57518
  1056,2 18,0   19011,6 18,10 0,10 0,01 17,77442 18,4287
  1105,4 19,2   21223,68 19,03 -0,17 0,03 18,69936 19,35368
  1162,3 18,6   21618,78 20,10 1,50 2,24 19,76906 20,42342
  1200,7 20,1   24134,07 20,82 0,72 0,52 20,49095 21,14537
  1209,5 21,5   26004,25 20,98 -0,52 0,27 20,65639 21,31081
  1248,6 22,0   27469,2 21,72 -0,28 0,08 21,39144 22,04592
  1254,4 22,4   28098,56 21,83 -0,57 0,33 21,50047 22,15497
  1284,6 23,3   29931,18 22,40 -0,90 0,82 22,06821 22,72275
19816,5 337,4   348186,8 337,45 0,05 8,76 10,28809 10,94271

Проверим значимость параметров регрессии. Выберем уровень значимости и рассчитаем значения критериев (4.12, 4.13) (при расчетах значение взято из столбца 6 таблицы 4.3):

;

.

Оба значения существенно больше критической точки распределения Стьюдента и, следовательно, нулевая гипотеза отвергается, и параметры уравнения регрессии необходимо считать значимыми.

Доверительные интервалы для параметров регрессии во всей генеральной совокупности значений факторного и результативного признака с уровнем доверительной вероятности 0,95 рассчитываем по формулам (4.16 – 4.17):

;

;

;

.

Таким образом, указанные интервалы с вероятностью 0,9 будут содержать в себе истинные значения параметров линейной регрессии.

Оценим качество модели с помощью коэффициента детерминации (4.18) (при расчетах значение величины взято из столбца 7 таблицы 4.3):

.

Таким образом, 97% вариации значений расходов на медицинские услуги обусловлены влиянием объема личного дохода.

Предположим, что в 1984 предполагается изменение совокупного личного дохода граждан до 1350 млрд. $. Дадим прогноз расходов на медицинские услуги с использованием разработанной модели. Значение расходов "в среднем" составит (4.19):

,

а истинное значение расходов будет содержаться в 95% - м доверительном интервале (3.20):

.

Таким образом, с вероятностью 0,95 указанный интервал будет содержать в себе истинное значение расходов на медицинские услуги. Аналогичным образом рассчитываем доверительные интервалы для всех значений и заполняем столбцы 9, 10 таблицы 4.4. Результаты расчетов представлены на рисунке 4.2

Рисунок 4.2 График регрессионной зависимости расходов на медицинское обслуживание от величины личного дохода.

Индивидуальные задания к теме "Анализ парной корреляции"

На стр. 64 – 70 приведены данные о функционировании ряда экономических систем за период в 15 лет. В качестве данных представлены: L - затраты на фактор труда; K - затраты на фактор капитала; Y - произведенный продукт. Каждая из переменных, приведена в млрд. долл. США.

Для своего варианта исходных данных:

· провести анализ парной корреляции между величиной производительности труда ( - результирующая переменная) и его фондовооруженности ( - факторная переменная);





Дата публикования: 2015-04-07; Прочитано: 380 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.024 с)...