Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Вигляд рівняння регресії в статистиці вибирають такими способами



Теоретичний аналіз. Цей спосіб базується на професійних знаннях дослідника про досліджуваний зв'язок. Щоб правильно застосувати кореляційний метод, потрібно глибоко розуміти сутність взаємозв'язків у сфері економічної діяльності. Кореляційні методи не дають змогивиявити причини зв'язків між явищами та характер їх взаємодії. Їx роль зводиться до визначення кількісної закономірності між досліджуваними ознаками.

Але перш ніж визначити кількісну залежність досліджуваних ознак, потрібно виявити, який із досліджуваних показників факторний, а який — результативний. Наприклад, досліджуючи зв'язок між терміном посіву зернових і врожайністю, потрібно враховувати оптимальний термін посіву, який забезпечує максимальну врожайність. Надмірно ранній або пізній посів призводить до зниження врожайності. Отже, зі зростанням факторної ознаки (терміни посіву) урожайність спочатку зростає, а потім (після оптимального терміну) спадає. Тому залежність можна подати рівнянням параболи.

У ході теоретичного аналізу показників економічної чи соціальної діяльності потрібно врахувати діапазон можливих значень факторної ознаки. Якщо в досліджуваній сукупності факторна ознака змінюється у вузьких межах, то в інтервалі її фактичної варіації відрізок кривої можна наблизити лінійним рівнянням.

Графічний аналіз зв'язку за допомогою кореляційного поля. У ході побудови графіка на осі абсцис відкладають значення факторної ознаки, а на осі ординат — результативної. Кожну одиницю сукупності позначають на графіку точкою. Коли є багато одиниць сукупності, доцільно попередньо побудувати аналітичне групування, нанести на графіку групові середні та з'єднати їх ламаною лінією. Побудована так лінія групових середніх називається емпіричною лінією регресії.

Вибір функцій. Можна задавати рівняння регресії різних видів, а потім вибирати те з них, яке найбільше відповідає емпіричним даним.

Набір функцій, які можна використовувати для побудови регресії, досить обмежений. Для цього слід брати функції, лінійні щодо параметрів.

Розглянемо деякі функції, які частіше за інші застосовують у ході аналізу економічних і соціальних явищ.

Лінійна функція . Параметр лінійного рівняння регресії дорівнює значенню у разі . Якщо нуль перебуває в межах фактичної варіації ознаки , то — одне з теоретичних значень ; якщо ж ознака у досліджуваній сукупності не набуває значень, близьких до 0, то параметр не має реального економічного змісту. Параметр називається коефіцієнтом регресії й показує, на скільки одиниць у середньому зміниться значення ознаки зі зміною на одиницю. Рівняння регресії будь-якого вигляду доцільно розглядати тільки в межах фактичної варіації факторної ознаки.

Степенева функція Параметр степеневого рівняння називається коефіцієнтом еластичності. Він показує, на скільки відсотків зміниться значення результативної ознаки зі зміною факторної ознаки на 1 %. Параметр дорівнює значенню у разі

· Показникова функція

· Гіпербола

· Парабола другого порядку Параметр характеризує ступінь кривини параболи. У разі парабола має мінімум, а в разі — максимум.

Степеневу та показникову функції зводять до лінійного вигляду логарифмуванням із подальшою заміною змінних

Гіперболу та параболу перетворюють заміною змінних та

Обчислення параметрів рівняння регресії. Параметри рівняння регресії обчислюють методом найменших квадратів. Основна умова застосування цього методу полягає в тому, що сума квадратів відхилень теоретичних значень від емпіричних має бути мінімальною:

Параметри рівняння регресії, які відповідають цій умові, визначають за допомогою розв'язання системи нормальних рівнянь. Наприклад, для лінійної функції (у разі обчислення за незгрупованими даними) ця система має такий вигляд:

Розв'язавши її, одержимо:

За допомогою зазначеної методики, визначимо параметри лінійного рівняння між розміром доходів (результативною ознакою ) й обсягом кредитів (факторною ознакою ), значення яких наведено в табл. 4.

Таблиця 10.4

Вихідні показники для побудови регресійних моделей показників банківської діяльності

Номер дирекції банку Дохід, мли грн. Чисельність клієнтів банку Осяг кредитів, м.ін гри.
У Xz  
  40,8   12,9
  41,3   14,8
  32,5   10,7
  40,0   12,0
  34,7   14,5
  38,9   11,3
  45,7   15,0
  38,8   17,1
  35,9   10,5
  36,9   11,6
  38,0   12,0
  31,1   9,5
  28,5   8,2
  25,6   10,4
  24,4   9,6
  30,0   10,5
  17,0   7,5
  29,0   10,7
  34,0   7,3
  25,0   7,7

Результати обчислень наведено в табл. 5

Таблиця 5

Результати обчислення сум для визначення параметрів рівняння однофакторної та багатофакторної регресійних моделей

Номер дирекції банку Дохід, мли гри. Обсяг кредитів, млн. гри. х1у у2
y x1
  40,8 12,9 526,32 166,41 1664,64 36,76 11,26
  41,3 14,8 611,24 219,04 1705,69 40,48 50,06
  32,5 10,7 347,75 114,49 1056,25 32,44 0,93
  40,0 12,0 480,00 144,00 1600,00 34,99 2,51
  34,7 14,5 503,15 210,25 1204,09 39,89 42,06
  38,9 11,3 439,57 127,69 1513,21 33,62 0,05
  45,7 15,0 685,50 225,00 2088,49 40,87 55,73
  38,8 17,1 663,48 292,41 1505,44 44,99 134,21
  35,9 10,5 376,95 110,25 1288,81 32,05 1,84
  36,9 11,6 428,04 134,56 1361,61 34,21 0,65
  38,0 12,0 456,00 144,00 1444,00 34,99 2,51
  31,1 9,5 295,45 90,25 967,21 30,09 10,99
  28,5 8,2 233,70 67,24 812,25 27,54 34,40
  25,6 10,4 266,24 108,16 655,36 31,85 2,42
  24,4 9,6 234,24 92,16 595,36 30,28 9,77
  30,0 10,5 315,00 110,25 900,00 32,05 1,84
  17,0 7,5 127,50 56,25 289,00 26,17 52,35
  29,0 10,7 310,30 114,49 841,00 32,44 0,93
  34,0 7,3 248,20 53,29 1156,00 25,77 58,30
  25,0 7,7 192,50 59,29 625,00 26,56 46,85
Усього 668,1 223,8 7741,13 2639,48 23273,41 668,04 519,66

Чисельність клієнтів банку x1x2 x2y
x2
  2709,0 8568,0   36,75 16,36 11,19
  2930,4 8177,4   38,45 0,67 25,45
  1915,3 5817,5   30,30 0,00 9,64
220 ' 2640,0 8800,0   36,37 25,10 8,79
  3088,5 7391,1   39,49 26,97 37,03
  2938,0 10114,0   39,28 27,91 34,52
  4125,0 12567,5   46,42 23,30 169,39
  3420,0 7760,0   42,16 38,33 76,65
  2037,0 6964,6   31,49 14,83 3,67
  2610,0 8302,5   36,25 7,26 8,09
  2520,0 7980,0   35,37 9,06 3,86
  2166,0 7090,8   33,35 1,02 0,00
  1713,8 5956,5   29,47 0,93 15,48
  1643,2 4044,8   27,76 39,09 31,87
  1296,0 3294,0   24,25 34,62 83,81
  1995,0 5700,0   31,09 4,20 5,36
  1387,5 3145,0   26,02 84,02 54,54
  1926,0 5220,0   30,40 11,84 9,03
  1350,5 6290,0   25,71 67,68 59,21
  1532,3 4975,0   27,71 2,43 32,43
  45943,5 138158,7   668,09 435,62 680,01

Розв'язавши систему нормальних рівнянь

одержимо . Рівняння регресії має вигляд

Параметри рівняння регресії можна одержати й за допомогою визначників:

Коефіцієнт регресії показує, що збільшення обсягів кредитів на 1 мли гри зумовлює зростання рівня доходів у середньому на 1,961 мли грн. Оскільки в досліджуваній сукупності факторна ознака, не набуває значення 0 або близьких до нього, то параметр не має реального економічного змісту.

Щоб визначити очікувані теоретичні значення результативної ознаки , підставимо в одержане рівняння регресії значення факторної ознаки для кожної дирекції банку.

Виконуючи обчислення па основі комбінаційного розподілу, як варіанти та використовують середини інтервалів, а всі величини, що входять до системи нормальних рівнянь, зважують за частотами комбінаційного розподілу. У ході обчислення параметрів рівняння регресії на основі аналітичного групування зважування проводять за частотами розподілу за факторною ознакою (частоти розподілу за немає). Щоб підвищити точність обчислення, доцільно як факторну ознаку використовувати середні значення показників у групах, а не середину інтервалів. Коли групування дискретне, результати обчислення за згрупованими та незгрупованими даними збігаються.

Визначення щільності зв'язку між показниками Вимірювання щільності зв'язку в кореляційно-регресійному аналізі базується, як і в методі розкладання аналітичних групувань, на правилі розкладання варіації. Але як умовні середні, що характеризують кореляційний зв'язок, використовують не групові середні, а теоретичні значення Тому факторна дисперсія являє собою дисперсію теоретичних значень :

Для її визначення зручно користуватися формулою

бо тоді не потрібно обчислювати теоретичні значення Y.

Залишкова дисперсія характеризує відхилення емпіричних значень результативної ознаки у від теоретичних :

Для даних із табл. 5 вона дорівнює 435,62 / 20 = 21,81.

Чим менше значення цієї дисперсії, тим ближче емпіричні значення до лінії регресії. Сума цих двох дисперсій дорівнює загальній:

Залишкову дисперсію часто обчислюють як різницю загальної та факторної.

Для оцінки щільності зв'язку між показниками, що характеризують явища та процеси, у кореляційно-регресійному аналізі використовують аналогічний кореляційному відношенню коефіцієнт детермінації :

Цей коефіцієнт показує частку варіації, пов'язану з досліджуваним фактором, якщо задано відповідне рівняння регресії. Наприклад, якщо у разі вирівнювання за лінійним рівнянням одержано значення = 0,8, то це означає, що 80 % варіації результативної ознаки пов'язано з факторною ознакою.

Якщо рівняння регресії задано за аналітичним групуванням, то рівність виконується тоді, коли лінія регресії проходить через усі групові середні. У разі обчислення за незгрупованими даними ця нерівність може не виконуватися через варіацію факторної ознаки всередині груп.

Коефіцієнт детермінації , як і , коливається від 0 до 1. Якщо, то ; тоді лінія регресії перетворюється в пряму, паралельну осі абсцис. Зі зміною значень факторної ознаки х значення результативної ознаки у не змінюється, й ознаки не пов'язані. Але в цьому разі йдеться про зв'язок, який має певне функціональне вираження, а не про кореляційний зв'язок узагалі. Можливо, у ході використання в рівнянні регресії іншої функції буде виявлено велику щільність зв'язку.

Коли, залишкова дисперсія. Тоді емпіричні й теоретичні значення збігаються (), лінія регресії встановлює точну відповідність між та, і зв'язок функціональний. На практиці разом із коефіцієнтом детермінації для оцінки щільності зв'язку інколи використовують квадратний корінь із нього, який називається індексом кореляції R і виражається формулою

Розглянемо застосування цієї методики для даних із табл. 5. Для оцінки щільності зв'язку використаємо коефіцієнт детермінації, обчислення якого, як уже було зазначено, базується па розкладенні загальної дисперсії результативної ознаки на дві складові: факторну та залишкову.

Загальна дисперсія результативної ознаки

Факторна дисперсія за фактором

Коефіцієнт детермінації за фактором

Це означає, що 54,4 % варіації обсягу доходу банку лінійно пов'язані із показником обсягу кредитів. Індекс кореляції за фактором

У разі вирівнювання за лінійною функцією інколи зручно використовувати ще один показник щільності зв'язку — лінійний коефіцієнт кореляції.

для незгрупованих даних;

для згрупованих;

Значення лінійного коефіцієнта кореляції коливається від -1 до 1. Від'ємний коефіцієнт свідчить про наявність оберненого зв'язку, додатний — прямого. Отже, лінійний коефіцієнт кореляції дає змогу не тільки оцінити щільність зв'язку, а і його напрямок. За абсолютною величиною цей коефіцієнт дорівнює індексу кореляції:

Щоб одержати висновки про практичну значущість, значенням щільності зв'язку дають якісну оцінку. її визначають за шкалою Чеддока (табл. 6):

Таблиця 6

Шкала Чеддока

Рівень щільності зв'язку 0,10-0,30 0,30-0,50 0,50-0,70 0,70-0,90 0,90-0,99
Характеристика сили зв'язку слабкий помірний помітний сильний дуже сильний

Отже, чим ближчий лінійний коефіцієнт кореляції до 0, тим менша щільність зв'язку, а чим він ближчий до 1,тим зв'язок щільніший.

Якщо щільність зв'язку між показниками перевищує 0,7, залежність від сильна, а для значень понад 0,9 — дуже сильна. Якщо лінійний коефіцієнт кореляції дорівнює 0, то ознаки не пов'язані, якщо він дорівнює 1 — зв'язок між ними функціональний. Обчислимо лінійний коефіцієнт кореляції

за даними табл.5:

Як уже обчислено раніше, , тому

тому

Отже,

і щільність зв'язку між показниками обсягу доходу й обсягу кредитів дирекцій банків () досить велика.

Побудова довірчих інтервалів. У ході кореляційно-регресійного аналізу поряд з оцінкою суттєвості зв'язків велике значення має побудова довірчих інтервалів для обчислюваних показників. Це стосується й коефіцієнта регресії. У невеликих за обсягом сукупностях значення цього коефіцієнта випадково коливається, і можливу зміну зі зміною на одиницю можна задати тільки у вигляді певного інтервалу. Обчислення меж цього інтервалу базується на тих самих принципах, що й визначення довірчих інтервалів для середніх і частостей у вибірковому методі. Середня помилка коефіцієнта регресії

і межі інтервалу дорівнюють , де —коефіцієнт довіри.

Для даних таблиці 10.5

Годі гранична помилка з імовірністю 0,954 дорівнює 2*0,423=0,846, а нижня та верхня межі довірчого інтервалу— відповідно 1,961 -0,846 = 1,115 і 1,961 + 0,846 = 2,807.

Отже, з імовірністю 0,954 можна твердити, що обсяг доходу в дирекціях банку зі зростанням показника обсягу кредиту на 1 млн гри може досягти значень від 1,115 до 2,807 млн грн.

Суттєвість зв'язку між показниками економічної діяльності в кореляційному аналізі перевіряють за допомогою тих самих критеріїв, що й в аналітичних групуваннях. Кількість степенів вільності визначають за формулами, наведеними раніше (), але в цьому разі — кількість параметрів у рівнянні регресії. Наприклад, для лінійного рівняння з табл. 5 і .Перевіряючи суттєвість зв'язку за допомогою коефіцієнта детермінації, критичні значення визначають за тими самими таблицями, що й . Користуючись таблицями -критерію, застосовують формулу

Перевіримо суттєвість зв'язку між показниками табл. 5 за допомогою -критерію. Для цього визначимо кількість степенів вільності:

Обчислимо фактичне значення -критерію за фактором :

Критичне значення -критерію для рівня значущості і степенів вільності та становить . Отже, фактичне значення -критерію більше критичного (21,47 > 4,41), і з імовірністю 0,954 можна твердити, що між обсягом доходу досліджуваних дирекцій банку існує лінійний зв'язок. Аналогічного висновку можна дійти, перевіряючи суттєвість зв'язку за допомогою коефіцієнта детермінації . Його критичне значення (дод. 3)значно менше фактичного значення 0,544. Тому висновок про суттєвість зв'язку такий самий, як і за -критерієм.

За допомогою -критерію можна перевірити також правильність вибору вигляду рівняння регресії. Ця перевірка ґрунтується на зіставленні коефіцієнта детермінації , обчисленого на основі аналітичного групування, та кореляційного відношення . Як уже зазначалося, якщо лінія регресії проходить через усі групові середні, то ці показникизбігаються й у генеральній сукупності: . Фактичні значення •критерію в цьому разі обчислюють за формулою

іе — кількість груп; — кількість параметрів.

Якщо фактичні значення цього показника більші від критичних, є о це свідчить про неправильний вибір рівняння регресії.

Множинна та часткова кореляції. Розглянуті методи побудови рівняння регресії характеризують зв'язок між двома ознаками та . Але практичній діяльності здебільшого застосовують методи множинної чореляції, за допомогою яких досліджують зв'язок між результативною ознакою у і двома й більше факторними ознаками

Параметри рівняння множинної кореляції обчислюють також за юпомогою системи нормальних рівнянь. Наприклад, для лінійного рівняння ця система має вигляд:

Коефіцієнти регресії множинного рівняння показують, на скільки одиниць зміниться результативна ознака зі зміною відповідноїфакторної ознаки на одиницю за фіксованих (середніх) значень інших факторних ознак, що входять у рівняння регресії. Ці коефіцієнти показують вплив кожного фактора, очищеного від впливу інших факторів, що увійшли в рівняння. У цьому їх відмінність від коефіцієнтів парної регресії, які можуть бути викривлені впливом взаємопов'язаних факторів.

Якщо ж факторні ознаки незалежні, то коефіцієнти множинної та парної регресії збігаються. Тому будувати рівняння множинної регресії доцільно лише за наявності взаємозв'язку факторних ознак. Щільність зв'язку між результативною ознакою та всіма факторними оцінюють за допомогою сукупного коефіцієнта детермінації обчисленого за тією самою формулою, що й у разі парної кореляції.

Цей коефіцієнт характеризує частку варіації результативної ознаки , пов'язаної з усіма включеними в рівняння ознаками і відповідає вибраній формі зв'язку (наприклад, пов'язану лінійно).

Оскільки розрахунок теоретичних значень у у разі множинної кореляції досить громіздкий, для обчислення факторної дисперсії зручно користуватися формулою, аналогічною формулі для визначення в разі парної кореляції:

У ході аналізу показників економічної чи соціальної діяльності поряд з оцінкою щільності зв'язку з усіма факторами в разі множинної кореляції оцінюють водночас щільність зв'язку з кожною факторною ознакою окремо за допомогою часткового коефіцієнта детермінації. Обчислюють його, наприклад, для фактора , за такою схемою.

Нехай відомий сукупний коефіцієнт детермінації, у рівнянні зв'язку між результативним () і всіма факторними показниками, окрім Частка варіації , не пояснена факторами дорівнює , а частка варіації , додатково пояснена включенням у рівняння регресії фактора , дорівнює

У разі включення в рівняння додаткової змінної коефіцієнт детермінації не може зменшуватися, тому ця різниця завжди невід'ємна. Частка варіації результативної ознаки , додатково поясненої включенням у рівняння цього фактора, у варіації, не поясненій іншими факторами, називається частковим коефіцієнтом детермінації.

Наприклад, для фактора формула цього коефіцієнта мас вигляд

Перевірка суттєвості сукупного коефіцієнта детермінації нічим не відрізняється від перевірки суттєвості коефіцієнта детермінації парної регресії. Особливість перевірки суттєвості часткових коефіцієнтів детермінації полягає в обчисленні кількості степенів вільності.

Для залишкової дисперсії кількість степенів вільності визначають за формулою , а для факторної вона дорівнює кількості параметрів при певній змінній.

Наприклад, якщо даний фактор входить у рівняння лінійно, то; якщо у вигляді параболи другого порядку, то Для даних табл. 10.5 викопаємо такі завдання:

· обчислимо параметри лінійного рівняння регресії, що характеризує залежність рівня обсягу доходу () від обсягу наданих кредитів () і чисельності клієнтів банку ();

· визначимо щільність зв'язку між цими показниками за допомогою часткових і сукупного коефіцієнтів детермінації;

· перевіримо суттєвість цих коефіцієнтів для рівня значущості

Запишемо систему нормальних рівнянь

Розв'язавши її, одержимо такі параметри: =-3,840041; = 1,526744; = 0,0994857. Тоді рівняння регресії, що характеризує залежність обсягу доходів від обсягу наданих кредитів і чисельності клієнтів банку, має вигляд

Часткові коефіцієнти регресії при факторах та показують, що зі збільшенням обсягу наданих кредитів на 1 млн. грн. обсяг доходівзростає в середньому на 1.527 мли гри, а зі збільшенням чисельностіклієнтів банку в обласних його дирекціях на одиницю обсяг доходів зростає на 0,099 млн. грн.

Проаналізувавши параметри однофакторного та багатофакторного рівнянь регресії, бачимо, що частковий коефіцієнт при , який дорівнює 1,527, значно менший, ніж коефіцієнт при тій самій змінній у рівнянні парної регресії, значення якого — 1,961. Таку розбіжність можна пояснити взаємозв'язком факторних ознак та .

Так, у рівнянні парної регресії не виключено впливу обсягу наданихкредитів па обсяг доходу банку. Але в цьому разі на обсяг доходів впливає як обсяг наданих кредитів, так і чисельність клієнтів у філіяхдирекціях банку. Загальний їх вплив ефективніший; він сприяє підвищенню доходу. Зі зростанням чисельності клієнтів банку збільшується й обсяг наданих кредитів.

У рівнянні багатофакторної регресії частковий коефіцієнт регресії враховує вплив обсягу доходів на обсяг наданих кредитів, а вплив чисельності клієнтів уважається незмінним, зафіксованим на середньому рівні.

Аналогічно, коефіцієнт регресії показує вплив чисельності клієнтів банку па обсяг одержаного доходу, але не враховує впливу обсягу наданих кредитів.

Визначимо сукупний коефіцієнт детермінації Для цього використаємо попередньо обчислене значення загальної дисперсії результативної ознаки
() і визначимо факторну дисперсію

Сукупний коефіцієнт детермінації за ознаками

Цей показник свідчить, що 71,2% коливань обсягу одержаного доходу досліджуваної сукупності лінійно пов'язані з розбіжностями в показниках обсягу наданих кредитів і чисельності клієнтів банку.

Побудуємо алгоритм обчислення часткового коефіцієнта детермінації для ознаки Використаємо попередні розрахунки, які стосуються побудови однофакторної моделі.

Обчислений сукупний коефіцієнт детермінації, як було зазначено, показує, що обидві факторні ознаки пояснюють 71,2% варіації результативної ознаки . У парній моделі ознака пояснює 54,4 % варіації (). Отже, включення в рівняння фактора дало можливість пояснити 16,8 % варіації результативної ознаки

Оскільки факторна ознака пояснює 54,4% варіації результативної ознаки , то максимально можлива частка варіації, яку можна обґрунтувати включенням в рівняння, дорівнює 45,6 %:

Тоді частковий коефіцієнт детермінації за ознакою

Отже, розбіжності в чисельності населення областей пояснюють 36,8% варіації рівня обсягу одержаного доходу, яку не пояснено розбіжностями показника обсягу наданих кредитів.

Суттєвість зв'язку перевіримо за допомогою -критерію Фішера:

, де — кількість параметрів рівняння регресії; — кількість одиниць сукупності. Тоді фактичне значення -критерію

Отже, фактичне значення -критерію більше критичного = 3,59. Це підтверджує, що лінійний зв'язок між факторними ознаками (обсягом наданих кредитів і чисельністю клієнтів обласних дирекцій байку) та результативною ознакою (обсягом одержаних доходів) суттєвий.

Беручи до уваги взаємозв'язок факторних показників, доцільно врахувати в регресійній моделі їх комплексний вплив. Для цього слід ввести змінну взаємодії факторних ознак

У цьому рівнянні параметр враховує ефект сумісного впливу дикторів.





Дата публикования: 2015-01-09; Прочитано: 2798 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.034 с)...