Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Оценка точности уравнения регрессии



Как уже отмечалось, оценки параметров уравнения регрессии вычисляются по выборочным данным и лишь приближенно оценивают эти параметры. В связи с этим появляется необходимость оценить точность как уравнения регрессии в целом, так и его параметров в отдельности. При решении первой задачи используют процедуру дисперсионного анализа, основанную на разложении общей суммы квадратов отклонений зависимой переменной: на две составляющие, источниками которых являются отклонения за счёт регрессионной зависимости (SSR) и за счёт случайных ошибок (SSE), причём

Как известно, SST = SSR + SSE или

Аналогичное разложение имеет место и для степеней свободы соответствующих сумм:

dfT = dfR + dfE,

где dfT = n – 1 – общее число степеней свободы;

dfR = m – число степеней свободы, соответствующее регрессии (m – число независимых переменных в уравнении регрессии);

dfE = n – m – 1 – число степеней свободы, соответствующее остаткам.

Разделив соответствующие суммы квадратов на степени свободы, получим средние квадраты или оценки дисперсии , которые сравниваются по критерию Фишера (). При этом проверяется гипотеза о равенстве нулю одновременно всех коэффициентов регрессии против альтернативной гипотезы: не все коэффициенты регрессии равны нулю. Если F /2,m,n-m-1 > F, т. е. табличное значение критерия больше расчётного, то уравнение регрессии значимо, т.е. не все коэффициенты уравнения регрессии равны нулю, в противном случае уравнение регрессии незначимо. В этом случае уравнение регрессии ничего не дает для предсказания зависимой переменной и не может быть использовано в анализе.

При компьютерных расчётах вместе со статистикой Фишера рассчитывается р-величина, которую сравнивают с фиксированным уровнем значимости и на этой основе делают вывод о значимости уравнения регрессии. Если р-величина меньше фиксированного уровня значимости, то уравнение регрессии значимо.

Дисперсионный анализ регрессии проводится в таблице 4.1:

Таблица 4.1

Таблица дисперсионного анализа регрессии

Источник Сумма квадратов Степени свободы Средние квадраты F- отношение р-величина
Модель ошибки SSR SSE m n – m – 1 MSR MSE F=  
Общая SST n – 1      

Если нулевая гипотеза отклонена, встаёт вопрос о значимости каждого коэффициента регрессии в отдельности, т.е. необходимо выяснить, какие из коэффициентов регрессии равны нулю, а какие значимо отличны от нуля?

Такая проверка осуществляется на основе статистик Стьюдента, вычисленных для свободного члена и для каждого коэффициента регрессии.

Статистика Стьюдента для свободного члена уравнения регрессии вычисляется по формуле

ta = a / Sa,

где Sa – стандартная ошибка свободного члена уравнения регрессии:

Для коэффициентов регрессии t-статистики равны:

= bk / ,

где – стандартные ошибки коэффициентов регрессии:

Вычисленные статистики Стьюдента сравниваются с критическими значениями , найденными по таблице t-распределения с фиксированным и степенями свободы n = n – 1.

Если, например, > , то это означает, что коэффициент при переменной xk в уравнении регрессии значимо отличен от нуля и влияние переменной xk на моделируемый показатель можно признать значимым. При компьютерных расчётах вместе со статистикой Стьюдента вычисляется и выборочный уровень значимости или р-величина. По её значению и определяется значимость каждого параметра уравнения регрессии.

Показатель MSE является одной из характеристик точности уравнения регрессии и называется остаточной дисперсией. Корень квадратный из MSE называется стандартной ошибкой оценки регрессии (Sy,x) и показывает, какую ошибку в среднем мы будем допускать, если значение зависимой переменной будем оценивать по уравнению регрессии на основе известных значений независимых переменных. Итак:

Кроме того, этот показатель в неявном виде участвует в определении коэффициента множественной детерминации (R2), т. к.

=

Отсюда следует смысл коэффициента множественной детерминации. Он показывает долю вариации результирующего показателя, обусловленную вариацией включённых в уравнение регрессии независимых переменных. Коэффициент множественной детерминации обычно выражают в процентах, поэтому, например, если R2 = 75 %, то это означает, что изменение зависимой переменной на 75 % объясняется изменением включённых в уравнение регрессии независимых переменных, а остальные 25 % – это изменения, обусловленные неучтёнными факторами, в том числе и случайными отклонениями (ошибками).

Корень квадратный из коэффициента множественной детерминации называется коэффициентом множественной корреляции:

Коэффициент множественной корреляции показывает тесноту линейной корреляционной связи между зависимой переменной и всеми независимыми переменными. По сути дела, это коэффициент корреляции между фактическими и расчётными значениями зависимой переменной.

Ясно, что R2 изменяется от нуля до единицы и равен единице, если SSE = 0, т. е. когда связь линейная функциональная, и равен нулю, если SST = SSE, т. е. когда связь отсутствует.

Значимость коэффициента множественной детерминации определяется на основе критерия Фишера:

с m степенями свободы числителя и (n – m – 1) степенями свободы знаменателя.

Известно, что коэффициент множественной детерминации является завышенной оценкой точности уравнения регрессии, поэтому разработана преобразованная форма этого коэффициента, имеющая вид

,

где – исправленное (adjusted) (c учётом степеней свободы) значение коэффициента множественной детерминации.

В отличие от будет убывать, если в уравнение регрессии будут добавляться незначимые независимые переменные.

Исправленный коэффициент детерминации всегда меньше неисправленного и является несмещённой оценкой для коэффициента множественной детерминации.

Как уже отмечалось, одной из предпосылок МНК является независимость отклонений e = y – друг от друга. Если это условие нарушено, то говорят об автокорреляции остатков.

Разработано несколько методов проверки на автокорреляцию остатков. Большинство статистических пакетов прикладных программ используют метод Дарбина – Уотсона. Он основан на гипотезе о существовании автокорреляции остатков между соседними членами ряда. Этот критерий использует статистику

Для d-статистики найдены критические границы (du – верхняя и dl – нижняя), позволяющие принять или отклонить нулевую гипотезу об отсутствии автокорреляции при фиксированном уровне значимости , известном числе независимых переменных m и объёме выборки n.

Процедура принятия и непринятия гипотезы об отсутствии автокорреляции в остатках изображена ниже.

Критическая область (есть автокорреля-ция) Область неопределён-ности Область принятия гипотезы (нет автокорр.)   Область неопределён-ности Критическая область (есть автокорреля-ция)

dl du 4-du 4-dl

Рис. 4.1. Процедура принятия решения об автокорреляции остатков

Если вычисленное значение d–статистики попало в область неопределённости критерия, то это означает, что нет статистических оснований ни отклонить, ни принять нулевую гипотезу об отсутствии автокорреляции в остатках.

Если с помощью критерия Дарбина – Уотсона обнаружена существенная автокорреляция остатков, то необходимо признать наличие проблемы в определении спецификации уравнения и либо вернуться к набору включаемых в уравнение регрессий переменных, либо к форме регрессионной зависимости.





Дата публикования: 2015-10-09; Прочитано: 2136 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.008 с)...