Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Часто бывает, что вы не можете найти данных по переменной, которую хотелось бы включить в уравнение регрессии. Некоторые переменные, относящиеся к социально-экономическому положению или к качеству образования, имеют такое расплывчатое определение, что их в принципе даже невозможно измерить. Другие могут поддаваться измерению, но оно требует столько времени и энергии, что на практике их приходится отбрасывать. Иногда вы можете быть расстроены тем, что пользуетесь какими-то данными, собранными другим человеком, в которых (с вашей точки зрения) опущена важная переменная.
Независимо от причины обычно бывает полезно вместо отсутствующей переменной использовать некоторый ее заменитель (proxy), а не пренебрегать ею совершенно. В качестве показателя общего социально-экономического положения вы можете использовать его заменитель — показатель дохода, если данные о нем имеются. В качестве показателя качества образования можно использовать отношение числа преподавателей и сотрудников к числу студентов или расходы на одного студента. Вместо переменной, опущенной в каком-либо обзоре, вы можете обратиться к другим, уже фактически собранным данным, если в них имеется подходящая замещающая переменная.
Имеются две причины для поиска такой переменной. Во-первых, если вы просто опустите важную переменную, то регрессия может пострадать от смещения оценок, и статистическая проверка будет неполноценной. Во-вторых, результаты оценки регрессии с включением замещающей переменной могут дать косвенную информацию о той переменной, которая замещена данной переменной.
Пример. Замещающая переменная для показателя дохода в функции спроса
Рассмотрим модель, связывающую расходы потребителя на питание (у) с располагаемым личным до ходом (х) и с относительной ценой продовольствия (p):
, (12)
и предположим, что по какой-то причине мы не имеем доступа к данным о располагаемом личном доходе. Допустим, что нам, тем не менее, хотелось бы получить оценку ценовой эластичности спроса. Как мы видели в разделе 2, парная регрессия между ln у и ln p дает смещенную оценку величины , при этом тестовые статистики оказываются некорректными. Пусть, однако, мы считаем (и считаем правильно), что ln x имеет ярко выраженный временной тренд. В этом случае мы могли бы частично решить проблему путем использования времени в качестве замещающей переменной для х, построив регрессию:
(13)
Таблица 2
Объясняющие переменные | Оценки коэффициентов (стандартные ошибки) | R2 | ||
b1 | b2 | b3 | ||
ln x, ln p | 0,64 (0,03) | -0,48 (0,12) | - | 0,99 |
ln p | - | 2,04 (0,33) | - | 0,63 |
ln p, t | - | -0,47 (0,13) | 0,023 (0,001) | 0,98 |
В табл. 2 даны результаты, полученные: 1) для правильно специфицированной регрессии между ln у, ln x и ln p; 2) для неправильно специфицированной парной регрессии только между ln y и ln p; 3) для множественной регрессии при использовании t в качестве замещающей переменной для ln х (с указанием стандартных ошибок в скобках).
Во второй регрессии при невключении в уравнение ln x оценка ценовой эластичности спроса настолько сильно смещается вверх, что становится положительной, а уровень коэффициента R2 значительно ниже, чем в первой регрессии. В третьей регрессии введение t явно устраняет смещение в оценке ценовой эластичности, а коэффициент R2 восстанавливается до предшествующего высокого уровня. Устранение смещения вызывается тем, что t в этом случае берет на себя роль замещающей переменной для отсутствующего ln x, оставляя для ln p выполнение только собственных функций. Почти полное восстановление коэффициента R2 до предыдущего уровня можно объяснить тем, что величина t значительно лучше выполняет роль замещающей переменной для отсутствующего показателя ln x, чем ln p.
Обобщение
Теперь мы можем обобщить сделанные выводы. Предположим, что истинной моделью является
(14)
и допустим, что мы не имеем данных по переменной х 1 но другая переменная (z) выступает идеальным заменителем для нее в том смысле, что имеется строгая линейная связь между величинами х 1 и z:
, (15)
где и являются постоянными, но неизвестными величинами. (Заметьте, что если бы и были известными, то мы могли бы вычислить х 1 по величине z и тогда не было бы необходимости использовать z в качестве замещающей переменной для нее. Заметьте также, что мы не можем оценить величины и посредством регрессионного анализа, поскольку для этого потребовались бы данные по величине х 1.) Если мы построим регрессию
, (16)
то оценки величин b2,..., bk, их стандартные ошибки и коэффициент R2 будут такими же, какими они были бы при наличии возможности построения регрессии с использованием x 1. Единственным недостатком является то, что нет оценок коэффициента при самой величине х 1, а величина а не является оценкой . Коэффициент с будет оценкой величины . Для того чтобы получить оценку , нужно разделить величину с на . Зачастую вы можете не иметь представления о величине , и тогда на этом дело будет закончено. Но иногда вы сможете сделать о ней субъективное предположение на основе опыта, интуиции или логики.
Например, предположим, что вы исследуете вопрос об «утечке мозгов» из страны А в страну В и используете (весьма наивную) модель:
, (17) где у — показатель относительного уровня миграции определенного вида трудовых ресурсов из страны А в страну В; х — показатель отношения уровня заработной платы в стране В к заработной плате в стране А. Вы полагаете, что при более высокой разнице в заработной плате будет более высокой и миграция. Однако предположим, что у вас есть данные только по валовому внутреннему продукту (ВВП) на душу населения, но не по заработной плате. В этом случае можно ввести замещающую переменную p, которая является отношением ВВП страны В к ВВП страны А.
В этом случае в качестве первого приближения было бы разумно предположить, что относительные уровни заработной платы пропорциональны относительным величинам ВВП. Если бы эта зависимость была строгой, то уравнение (15) можно было бы записать с величиной , равной нулю, и величиной , равной единице. Отсюда с — коэффициент при относительном ВВП дал бы не посредственную оценку величины — коэффициента при относительной заработной плате. Поскольку переменные в регрессионном анализе зачастую определяются в относительной форме, то этот частный случай в действительности имеет широкое применение.
В данном рассуждении мы приняли, что z является идеальной замещающей переменной для х, и справедливость всех приведенных выше результатов зависит именно от этого условия. На практике обычно невозможно найти замещающую переменную, имеющую строгую линейную связь с недостающей переменной. Но если связь близка к линейной, то результаты будут приблизительно на том же уровне. Основной проблемой является отсутствие средств для проверки того, удовлетворительно или нет выполняется указанное условие. Здесь приходится оправдывать использование замещающей переменной на основе субъективных критериев.
Непреднамеренное использование замещающих переменных.
Иногда случается, что вы используете замещающую переменную, не осознавая этого. Вы полагаете, что у зависит от z, а в действительности эта величина зависит от х. Если корреляция между величинами z и х незначительна, то результаты будут плохими, и вы поймете, что тут что-то неладно. Но если корреляция тесная, то результаты окажутся удовлетворительными (коэффициент R2 будет близок к желаемому уровню и т. п.), и вы можете даже не подозревать, что полученное соотношение неверно. Имеет ли это какое-то значение? Это, во-первых, зависит от того, с какой целью вы строите данную регрессию. Если целью оценивания регрессии является предсказание будущих значений величины у, то использование замещающей переменной не будет иметь большого значения при условии, конечно, что корреляция тесная и не является в то же время статистической счастливой случайностью. Однако если вы намерены использовать объясняющую переменную в качестве инструмента экономической политики для оказания влияния на по ведение зависимой переменной, то последствия могут оказаться катастрофическими. Если только не будет функциональной связи между замещающей переменной и истинной объясняющей переменной, манипулирование замещающей переменной не окажет никакого влияния на зависимую переменную. Если мотивом построения регрессии является чисто научное любопытство, то исход будет столь же неудовлетворительным. Непреднамеренное использование замещающих переменных особенно распространено при анализе временных рядов, в частности в макроэкономических моделях. Если истинная объясняющая переменная имеет временной тренд, то вы, вероятно, получите хорошую оценку формулы, если замените (преднамеренно или нет) ее на любую другую переменную с временным трендом. Даже если вы связываете приращения зависимой переменной с приращениями объясняющей переменной, вы, вероятно, получите аналогичные результаты независимо от того, используется ли правильная объясняющая переменная или же замещающая переменная, поскольку макроэкономические переменные обычно изменяются взаимосвязано, в соответствии с экономическим циклом.
Контрольные вопросы
1. Каковы последствия неправильной спецификации модели?
2. К чему приводит отсутствие в уравнении существенной независимой переменной?
Дата публикования: 2015-11-01; Прочитано: 941 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!