Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Фиктивные переменные в моделях множественной регрессии



Как известно, одним из условий, лежащих в основе стандартных регрессионных моделей, является то, что переменные должны быть непрерывного типа. Значительная часть переменных в социально-экономических исследованиях таковыми не является. Так, например, среди переменных, имеющих значительное влияние на величину заработной платы, мы анализируем пол, образование, профессию и ряд других переменных дискретного типа. Обойти это препятствие в регрессионной модели позволяет введение двоичных или, как еще называют, фиктивных (dummy) переменных. При введении таких переменных в модель мы преобразуем их в атрибутивные и присваиваем значение единицы в случае наличия признака и нуля – при его отсутствии.

Поясним наш подход на следующем простом примере. Пусть y i – заработная плата i -го работника (или функция от заработной платы), x i – пол работника. Предположим, что заработная плата распределена согласно нормальному закону с дисперсией s 2 и средней m0 в случае если работник - женщина, и m1, если работник - мужчина. Эта ситуация описывается регрессионной моделью, в которой зависимая переменная – заработная плата (Y), а пол работника (X) – объясняющая переменная.

(3.13),

где , если работник мужчина,

, в других случаях,

e – случайная переменная, удовлетворяющая основным условиям классической нормальной регрессионной модели.

Средняя оценка y корреспондирует с двумя оценками x так, что:

e(y ê x =0) = a,

e (y ê x =1) = a+b.

Отсюда a =m0 и a+b =m 1 или b =m1-m0.

Это означает, что свободный член модели – мера средней заработной платы при условии, что работник – женщина, а коэффициент b – разница между заработной платой мужчины и женщины.

Коэффициенты регрессионного уравнения (3.13) оцениваются методом наименьших квадратов. Напомним:

,.

Пусть - число мужчин в выборке,

- число женщин.

- средняя заработная плата мужчин,

- средняя заработная плата женщин.

Тогда

Следовательно,

и

,

и

.

То есть оценка МНК коэффициентов регрессии равна разности между выборочной средней заработной платой мужчин и женщин, а свободный член, полученный МНК равен средней заработной плате женщин. Проверка гипотезы о равенстве эквивалентна t-статистике о равенстве двух средних.

Если нам необходимо ввести в уравнение в качестве объясняющей переменной полихотомические характеристики такие, например, как образование, профессия и так далее, то необходимо каждую из категорий преобразовать в двоичную переменную. Например, если шкала видов образования работника имеет следующие характеристики: высшее, среднее и неполное среднее, то необходимые для модели двоичные переменные будут иметь вид x i1=1, если работник имеет высшее образование, и равна 0 во всех других случаях, x i2=1, если работник имеет среднее образование, и равна 0 во всех других случаях, xi 3=1, если у работника неполное среднее образование, равна 0 во всех других случаях.

Обозначим среднюю заработную плату работников с различным типом образования m1, m2, m3 соответственно. Подходящее регрессионное уравнение может быть записано так:

y i= b 1+ b 2 x i2+ b 3 x i3+ e i, (3.14)

где Y - заработная плата.

Заметим, что когда x i2=0, x i3 должен быть равен 1 и наоборот. Средняя оценка y i корреспондирует с различными оценками регрессора как

e (y i ê x i2=1, x i3=0) = b1+b2,

e (y i ê x i2=0, x i3=1) = b1+b3,

e (y i ê x i2=0, x i3=0) = b1.

Из этого следует, что

b1 =m1,

b2 =m2-m1,

b3 =m3-m1.

Такой результат аналогичен полученному для дихотомической переменной в уравнении (3.13). Модели, описанные в уравнениях (3.13) и (3.14), аналогичны моделям дисперсионного анализа, но более компактны и легки в интерпретации.

Модели довольно просто расширить на случай нескольких качественных объясняющих переменных. Для пояснения воспользуемся предыдущими переменными, описанными в уравнениях (3.13) и (3.14). Предположим, что заработная плата работника зависит не только от его пола, но и от того какое он имеет образование. Мы вновь допускаем, что заработная плата – нормально распределенная величина с дисперсией d2 и наблюдения независимы. Пусть:

m11 – средняя заработная плата в случае, если работник – мужчина с высшим образованием;

m10 – средняя заработная плата в случае, если работник – женщина с высшим образованием;

m21 – средняя заработная плата в случае, если работник – мужчина со средним образованием;

m20 – средняя заработная плата в случае, если работник – женщина со средним образованием;

m31 – средняя заработная плата в случае, если работник – мужчина с неполным средним образованием;

m30 – средняя заработная плата в случае, если работник – женщина с неполным средним образованием.

Регрессионная модель формулируется так:

y i= b1+b2x i2+ b3x i3+ gz i+ e i, (3.15)

где y i, x i2, x i3 – определены как в уравнениях (3.13) и (3.14), а z i=1, если работник мужчина, z i=0, если – женщина. Заметим вновь, что когда x i2=0, то x i3=1 и наоборот. Средние оценки y i, корреспондирующие с различными оценками регрессора, следующие:

e (y i ê x i2=1, x i3=0, z i=1) = b1+b2+g,

e (y i ê x i2=1, x i3=0, z i=1) = b1+b3+g,

e (y i ê x i2=1, x i3=0, z i=1) = b1+g,

e (y i ê x i2=1, x i3=0, z i=0) = b1+b 2,

e (y i ê x i2=1, x i3=0, z i=0) = b1+b 3,

e (y i ê x i2=1, x i3=0, z i=0) = b1.

Вследствие чего:

b1 = m10,

b2 = m20-m10 = m21-m11,

b3 = m30-m10 = m31-m11,

g = m11-m10 = m21-m20 = m31-m30.

Это значит, что b1 – мера средней заработной платы, если работник – женщина с высшим образованием, b2 – разница между средними заработками в случае, если работник имеет высшее или среднее образование независимо от пола, b3 – разница между средней заработной платой в случае, если работник имеет неполное среднее образование и если работник с высшим образованием независимо от пола, g – разница между средними заработками в зависимости от того мужчина это или женщина.

Увеличение числа объясняющих переменных не меняет принципа интерпретации результатов регрессионных моделей с двоичными переменными. Необходимо лишь строго соблюдать ряд правил. Так, мы не можем представить трихотомическую переменную тремя двоичными переменными, необходимо использовать две переменные, иначе мы пропустим константу в регрессионном уравнении. Например, если мы запишем уравнение (3.14) в виде:

y i= b1+b2x i2+ b3x i3+ b4x i4+ e i,

где x i4=1, если работник имеет высшее образование, а x i4=0 во всех других случаях, то решение для 1, 2, 3, 4 будут неопределенными. Причина этого в том, что x i4=1- x i2- x i3 и система нормальных уравнений не будет независима. Таким образом, когда объясняющие характеристики предполагают классификацию по G типам, мы используем (G-1) двоичных переменных для их представления.

Следующее обстоятельство связано с интерпретацией эффекта двоичных переменных в полулогарифмических уравнениях. Это уравнения, зависимая переменная в которых представлена в логарифмической форме. Как правило, при оценке заработной платы мы исходим из того, что она подчиняются логарифмически-нормальному распределению, поэтому во всех уравнениях мы используем значение логарифма заработной платы. Общая форма уравнения может быть записана в следующем виде:

, (3.16)

где x i – представляет непрерывные (количественные) переменные, а Dj представляет двоичные переменные. Коэффициенты количественных переменных:

(3.17)

Следовательно, bi, умноженное на сто, показывает на сколько процентов изменяется y при малых изменениях в x, то есть интерпретируется как коэффициент эластичности.

Поскольку двоичные переменные входят в уравнение в дихотомической форме, то производная от зависимой переменной по отношению к двоичной переменной не существует. Подходящую интерпретацию коэффициента двоичных переменных можно продемонстрировать путем трансформации регрессионного уравнения. Предположим для простоты, что в уравнении одна двоичная переменная. Уравнение запишется так:

,

где g – относительный эффект присутствия фактора, представленного двоичной переменной. Тогда g =(y 1- y 0)/ y 0, где y 1 и y 0 – оценки зависимой переменной, когда двоичная переменная равна 1 или 0 соответственно. Отсюда коэффициент при двоичной переменной g =Ln(1+ g). Относительный эффект на y: g =exp(g)-1, а процентный эффект: 100 g =100(exp(g)-1). Для малых g g приблизительно равно g. Когда g положительно, g меньше, чем g, а когда g отрицательно, то g алгебраически меньше, чем g, но больше по абсолютной величине.

Модель множественной регрессии может включать в себя и переменные, называемые “интерактивными терминами”. В предыдущем примере мы обсуждали зависимость заработной платы от пола и образования работника. Мы условно предполагали, что средняя заработная плата зависела от уровня образования работника и его пола и что разница между средней заработной платой мужчин и женщин – одинакова для всех уровней образования. Предположим, что мы не уверены в правильности такого допущения. Тогда регрессионная модель (3.15) может быть модифицирована так:

(3.18),

где все переменные определены как в (3.14). Среднее значение , корреспондирующее с различными значениями регрессора есть:

Это означает, что мы можем определить регрессионные коэффициенты в терминах средней заработной платы следующим образом:

b 1 =m 10

b 2 =m 20 -m 10

b 3= m 30 -m 10

g=m 11 -m 10

d 2 = (m 31 -m 30) (m 11 -m 0)

d 3 = (m 21 -m 20) (m 11 -m 0)

Различия в средней заработной плате для мужчин и женщин, имеющих различный уровень образования составит:

Высшее образование m 11- m 10= g
Среднее образование m 21- m 20= g + d 3
Не имеет среднего образования m 31- m 30= g + d 2

В эконометрических моделях не так часты ситуации, когда к качестве объясняющих переменных выступают только фиктивные или только количественные переменные. Чаще в модели присутствуют и те, и другие переменные. Традиционный пример – функция потребления, оцениваемая из данных, которые включают различные периоды времени, например, военное и мирное время. В этой модели предполагается, что среднее потребление зависит от дохода и от того какой период мы рассматриваем: войну или мир. Простой путь представления такой модели есть:

где С представляет потребление, Y – доход, а Z – фиктивная переменная, такая, что

Zt = 1, если период войны,

Zt= 0, в другом случае.

Тогда мы имеем:

- война,

- мир.

Таким образом, мы фактически постулируем, что в военное время пересечение (свободный член модели) функции потребления изменяется от до . Графическая иллюстрация этого дана на рисунке 9

Мирное время
Военное время
Потребление


Рис. 9

Если представить свободный член модели как прожиточный минимум, то эта модель показывает, как прожиточный минимум изменяется в период войны. Существенность этих изменений можно проверить, выдвигая гипотезу:

H0: g=0

H1: g¹0.

Эффект войны можно учесть в функции потребления различно, например, если мы постулируем, что военные условия влияют на наклон линии регрессии, но не на пересечение с функцией потребления (то есть прожиточный минимум). В соответствии с такой теоретической формулировкой регрессионная модель есть:

(3.19).

где переменные определены так же. В этом случае мы имеем:

- война

- мир.

Уравнение (3.19) показывает, что эффект войны изменяет предельную склонность к потреблению, как показано на рисунке 10.

Военное время
Потребление


Рис. 10

Это значение может быть проверено при помощи гипотезы о равенстве нулю .

Третья, последняя возможность оценки различий между потреблением в военное и мирное время состоит в предположении, что и свободный член и наклон линии регрессии изменяются для военного времени. Регрессионное уравнение примет вид:

(3.20).

Тогда имеем:

- война

- мир.

Эти взаимоотношения иллюстрируются рисунком 11. Интересным в уравнении является то, что оценка МНК регрессионных коэффициентов совершенно та же как и те, что были бы получены из двух отдельных регрессий Ct и Yt, одна из которых получена для данных военного времени, а другая для данных мирного времени. Это можно доказать путем преобразования формул МНК, но мы не будем это делать. Разница в двух подходах заключается только оценке относительно . Если мы предполагаем нормальное распределение, то вариация не изменяется в течение периода, тогда их оценка из (3.19?) основанная на всех наблюдениях, будет эффективной. Тогда как две оценки, полученные из двух различных подвыборок не будут таковыми. Это происходит вследствие того, что оценка основана на любой повыборке и не использует информацию о , содержащуюся в другой подвыборке.

Военное время


Потребление


Ðèñ. 11





Дата публикования: 2015-10-09; Прочитано: 675 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.018 с)...