Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Теоретические положения. Мультиколлинеарность– этосильная линейная зависимость между двумя и более объясняющими переменными х [1–5]



Мультиколлинеарность – этосильная линейная зависимость между двумя и более объясняющими переменными х [1–5].

Мультиколлинеарность не позволяет разделить вклады объясняющих переменных х 1 и х 2 в их влиянии на зависимую переменную у и делает оценки коэффициентов множественной регрессии ненадежными, а стандартные ошибки и большими.

Мультиколлинеарность может возникать в силу разных причин:

– из-за неправильной спецификации модели;

– из-за небрежного проведения сбора статистических данных (использование повторных наблюдений, использование идентичных данных среди наблюдаемых значений независимых переменных);

– если две переменные используются для представления третьей переменной в виде суммы последних двух;

– если несколько независимых переменных могут иметь одинаковый временной тренд, относительно которого они совершают малые колебания.

Последствия мультиколлинеарности [1, с. 273]:

1) большие дисперсии (стандартные ошибки оценок коэффициентов), что затрудняет нахождение истинных значений определяемых величин и ухудшает их точность;

2) уменьшаются t -статистики коэффициентов, что может привести к неоправданному выводу о существенности влияния соответствующего фак-

тора на у;

3) оценки коэффициентов по МНК и их стандартные ошибки становятся очень чувствительными к малейшим изменениям данных, т. е. они становятся неустойчивыми;

4) затрудняется определение вклада каждого из факторов в объясняемую уравнением регрессии дисперсию зависимой переменной у.

Признаки мультиколлинеарности:

1) коэффициент детерминации R 2 достаточно высок, но некоторые из коэффициентов регрессии статистически незначимы, т. е. они имеют низкие t- статистики;

2) парная корреляция между малозначимыми факторами достаточно высока. Данный признак будет надежным лишь в случае двух факторов х. При большем их количестве более целесообразным является использование частных коэффициентов корреляции;

3) высокие значения коэффициентов парной корреляции, а именно, > 0,8 [4, с. 55];

4) определитель матрицы коэффициентов парной корреляции между факторами близок к нулю.

В ряде случаев мультиколлинеарность не является таким уж серьезным «злом», чтобы прилагать существенные усилия по ее выявлению и устранению. Все зависит от целей исследования.

Если задача модели – прогноз будущих значений зависимой переменной, то при достаточно большом значения коэффициента детерминации R 2 (≥ 0,9) наличие мультиколлинеарности обычно не сказывается на прогнозных качествах модели.

Если задачей исследования является определение влияния каждой из объясняющих переменных на зависимую, то наличие мультиколлинеарности, приводящее к увеличению стандартных ошибок, скорее всего исказит истинные зависимости между переменными и будет являться проблемой.

Единого метода устранения мультиколлинеарности, годного в любом случае, нет, т. к. причины и последствия мультиколлинеарности неоднозначны и во многом зависят от результатов выборки.

Методы устранения мультиколлинеарности:

1) исключение из модели одной или ряда коррелированных переменных;

2) получение дополнительных данных или новой выборки. Если ряды данных сформированы из небольшого количества наблюдений (п < 10). то рекомендуется включение дополнительных членов до числа (п > 15) так, чтобы случайные аналогии, по возможности, были исключены;

3) изменение спецификации модели: либо изменяется форма модели, либо добавляются объясняющие переменные, не учтенные в первоначаль-

ной модели, но существенно влияющие на зависимую переменную.

Рассмотрим более подробно первый метод. Отсев факторов можно проводить, например, по t -критерию Стьюдента для коэффициентов регрессии: из уравнения исключаются факторы с величиной t -критерия меньше табличного.

Наиболее широко в процедуре отсева используется матри­ца парных корреляций между факторами.

Коэффициенты парной корреляции между объясняющими переменными используются для выявления дублирующих факторов. Линейная зависимость между объясняющими переменными xi и xj считается установленной, если выполняется условие > 0,8, а сами факторы называются явно коллинеарными. Один из факторов должен быть исключен из модели. Предпочтение при этом отдается тому фактору, который при достаточно тесной связи с результатом у имеет наименьшую тесноту связи с другими факторами х.

Наряду с парной коллинеарностью, может иметь место линейная зависимость между более чем двумя переменными. Для оценки мультиколлинеарности факторов в этом случае может использоваться величина определителя матрицы парных коэффициентов корреляции между факторами либо ее минимального собственного значения. Чем ближе к нулю определитель матрицы парных коэффициентов корреляции, тем сильнее мультиколлинеарность между факторами и ненадежнее результаты множественной регрессии.

Пример –По данным n = 20 сельскохозяйственных предприятий требуется построить линейную множественную регрессионную модель урожайности на основе показателей, представленных на рисунке 3.1, где приняты следующие обозначения: у – урожайность зерновых культур, ц/га; – число колесных тракторов на 100 га; – число прицепных орудий тракторов на 100 га почвы; – количество химических средств оздоровления растений, расходуемых на 1 га; – количество удобрений на 1 га. Необходимо устранить мультиколлинеарность в случае ее наличия.

С целью анализа взаимосвязи показателей построена матрица парных коэффициентов корреляции, для чего выполнена команда Сервис – Анализ данных – Корреляция (рисунок 3.1).

Анализ матрицы парных коэффициентов корреляции (рисунок 3.2) показывает, что зависимый признак у наиболее тесно связан с показателем – количеством удобрений на 1 га ().

В то же время связь между факторами достаточно тесная. Так, существует практически функциональная связь между и . О наличии мультиколлинеарности свидетельствуют также коэффициенты и .

Рисунок 3.1 – Исходные данные к расчету и заполнение диалогового окна Корреляция

Рисунок 3.2 – Матрица парных коэффициентов корреляции

Определитель матрицы парных коэффициентов корреляции между факторами можно рассчитать с помощью функции МОПРЕД(), при этом в ячейку вводится формула = МОПРЕД(B24:F28). Близость определителя к нулю (0,00648), а также проведенный выше анализ позволяют сделать вывод о наличии мультиколлинеарности.

Далее необходимо построить регрессионное уравнение с использованием надстройки «Пакет анализа» (пункты меню Сервис – Анализ данных – Регрессия).

Анализ вывода итогов (рисунок 3.3) свидетельствует о том, что полученные стандартные ошибки больше самих расчетных коэффициентов.

Табличное значение t -критерия Стьюдента (k = 15, α = 0,05) составляет 2,13. Таким образом, «нулевая» гипотеза о статистической незначимости коэффициентов регрессии принимается для всех коэффициентов регрессии, кроме коэффициента при переменной .

В то же время сравнение расчетного значения F- критерия с табличным = 3,06 (, , α = 0,05) позволяет сделать вывод о статистической значимости рассматриваемой модели.

Рисунок 3.3 – Вывод итогов

Таким образом, одной из причин противоречивости результатов модели является мультиколлинеарность.

С учетом того, что в уравнение должна войти только одна из тесно связанных переменных , и и переменная является ведущей, в уравнение регрессии войдут факторы и . На рисунке 3.4 представлен вывод итогов для полученной регрессии.

После исключения мультиколлинеарных факторов значения стандартных ошибок не превышают значений коэффициентов регрессии.

Так как табличное значение t -критерия Стьюдента (k = 17, α = 0,05) составляет 2,11, то коэффициенты регрессии будут статистически значимыми. Коэффициент при переменной следует признать значимым из экономических соображений, при этом = 2,087 отличается незначительно от = 2,11.

Сравнение расчетного значения F- критерия с табличным = 3,59 (, , α = 0,05) позволяет сделать вывод о статистической значимости и надежности полученного уравнения регрессии.

Анализ вновь полученной матрицы парных коэффициентов корреляции (рисунок 3.5) показывает, что в матрице отсутствуют высокие значения коэффициентов парной корреляции (свыше 0,8). Определитель данной матрицы равен 0,524.

Рисунок 3.4 – Вывод итогов

Рисунок 3.5 – Матрица парных коэффициентов корреляции





Дата публикования: 2015-02-18; Прочитано: 452 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.008 с)...