Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Как уже отмечалось, оценки параметров уравнения регрессии вычисляются по выборочным данным и лишь приближенно оценивают эти параметры. В связи с этим появляется необходимость оценить точность как уравнения регрессии в целом, так и его параметров в отдельности. При решении первой задачи используют процедуру дисперсионного анализа, основанную на разложении общей суммы квадратов отклонений зависимой переменной: на две составляющие, источниками которых являются отклонения за счёт регрессионной зависимости (SSR) и за счёт случайных ошибок (SSE), причём
Как известно, SST = SSR + SSE или
Аналогичное разложение имеет место и для степеней свободы соответствующих сумм:
dfT = dfR + dfE,
где dfT = n – 1 – общее число степеней свободы;
dfR = m – число степеней свободы, соответствующее регрессии (m – число независимых переменных в уравнении регрессии);
dfE = n – m – 1 – число степеней свободы, соответствующее остаткам.
Разделив соответствующие суммы квадратов на степени свободы, получим средние квадраты или оценки дисперсии , которые сравниваются по критерию Фишера (). При этом проверяется гипотеза о равенстве нулю одновременно всех коэффициентов регрессии против альтернативной гипотезы: не все коэффициенты регрессии равны нулю. Если F /2,m,n-m-1 > F, т. е. табличное значение критерия больше расчётного, то уравнение регрессии значимо, т.е. не все коэффициенты уравнения регрессии равны нулю, в противном случае уравнение регрессии незначимо. В этом случае уравнение регрессии ничего не дает для предсказания зависимой переменной и не может быть использовано в анализе.
При компьютерных расчётах вместе со статистикой Фишера рассчитывается р-величина, которую сравнивают с фиксированным уровнем значимости и на этой основе делают вывод о значимости уравнения регрессии. Если р-величина меньше фиксированного уровня значимости, то уравнение регрессии значимо.
Дисперсионный анализ регрессии проводится в таблице 4.1:
Таблица 4.1
Таблица дисперсионного анализа регрессии
Источник | Сумма квадратов | Степени свободы | Средние квадраты | F- отношение | р-величина |
Модель ошибки | SSR SSE | m n – m – 1 | MSR MSE | F= | |
Общая | SST | n – 1 |
Если нулевая гипотеза отклонена, встаёт вопрос о значимости каждого коэффициента регрессии в отдельности, т.е. необходимо выяснить, какие из коэффициентов регрессии равны нулю, а какие значимо отличны от нуля?
Такая проверка осуществляется на основе статистик Стьюдента, вычисленных для свободного члена и для каждого коэффициента регрессии.
Статистика Стьюдента для свободного члена уравнения регрессии вычисляется по формуле
ta = a / Sa,
где Sa – стандартная ошибка свободного члена уравнения регрессии:
Для коэффициентов регрессии t-статистики равны:
= bk / ,
где – стандартные ошибки коэффициентов регрессии:
Вычисленные статистики Стьюдента сравниваются с критическими значениями , найденными по таблице t-распределения с фиксированным и степенями свободы n = n – 1.
Если, например, > , то это означает, что коэффициент при переменной xk в уравнении регрессии значимо отличен от нуля и влияние переменной xk на моделируемый показатель можно признать значимым. При компьютерных расчётах вместе со статистикой Стьюдента вычисляется и выборочный уровень значимости или р-величина. По её значению и определяется значимость каждого параметра уравнения регрессии.
Показатель MSE является одной из характеристик точности уравнения регрессии и называется остаточной дисперсией. Корень квадратный из MSE называется стандартной ошибкой оценки регрессии (Sy,x) и показывает, какую ошибку в среднем мы будем допускать, если значение зависимой переменной будем оценивать по уравнению регрессии на основе известных значений независимых переменных. Итак:
Кроме того, этот показатель в неявном виде участвует в определении коэффициента множественной детерминации (R2), т. к.
=
Отсюда следует смысл коэффициента множественной детерминации. Он показывает долю вариации результирующего показателя, обусловленную вариацией включённых в уравнение регрессии независимых переменных. Коэффициент множественной детерминации обычно выражают в процентах, поэтому, например, если R2 = 75 %, то это означает, что изменение зависимой переменной на 75 % объясняется изменением включённых в уравнение регрессии независимых переменных, а остальные 25 % – это изменения, обусловленные неучтёнными факторами, в том числе и случайными отклонениями (ошибками).
Корень квадратный из коэффициента множественной детерминации называется коэффициентом множественной корреляции:
Коэффициент множественной корреляции показывает тесноту линейной корреляционной связи между зависимой переменной и всеми независимыми переменными. По сути дела, это коэффициент корреляции между фактическими и расчётными значениями зависимой переменной.
Ясно, что R2 изменяется от нуля до единицы и равен единице, если SSE = 0, т. е. когда связь линейная функциональная, и равен нулю, если SST = SSE, т. е. когда связь отсутствует.
Значимость коэффициента множественной детерминации определяется на основе критерия Фишера:
с m степенями свободы числителя и (n – m – 1) степенями свободы знаменателя.
Известно, что коэффициент множественной детерминации является завышенной оценкой точности уравнения регрессии, поэтому разработана преобразованная форма этого коэффициента, имеющая вид
,
где – исправленное (adjusted) (c учётом степеней свободы) значение коэффициента множественной детерминации.
В отличие от будет убывать, если в уравнение регрессии будут добавляться незначимые независимые переменные.
Исправленный коэффициент детерминации всегда меньше неисправленного и является несмещённой оценкой для коэффициента множественной детерминации.
Как уже отмечалось, одной из предпосылок МНК является независимость отклонений e = y – друг от друга. Если это условие нарушено, то говорят об автокорреляции остатков.
Разработано несколько методов проверки на автокорреляцию остатков. Большинство статистических пакетов прикладных программ используют метод Дарбина – Уотсона. Он основан на гипотезе о существовании автокорреляции остатков между соседними членами ряда. Этот критерий использует статистику
Для d-статистики найдены критические границы (du – верхняя и dl – нижняя), позволяющие принять или отклонить нулевую гипотезу об отсутствии автокорреляции при фиксированном уровне значимости , известном числе независимых переменных m и объёме выборки n.
Процедура принятия и непринятия гипотезы об отсутствии автокорреляции в остатках изображена ниже.
Критическая область (есть автокорреля-ция) | Область неопределён-ности | Область принятия гипотезы (нет автокорр.) | Область неопределён-ности | Критическая область (есть автокорреля-ция) |
dl du 4-du 4-dl
Рис. 4.1. Процедура принятия решения об автокорреляции остатков
Если вычисленное значение d–статистики попало в область неопределённости критерия, то это означает, что нет статистических оснований ни отклонить, ни принять нулевую гипотезу об отсутствии автокорреляции в остатках.
Если с помощью критерия Дарбина – Уотсона обнаружена существенная автокорреляция остатков, то необходимо признать наличие проблемы в определении спецификации уравнения и либо вернуться к набору включаемых в уравнение регрессий переменных, либо к форме регрессионной зависимости.
Дата публикования: 2015-10-09; Прочитано: 2136 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!