Главная \| Случайная страница \| Контакты \| Мы поможем в написании вашей работы!

Оценка точности уравнения регрессии

⇐ Предыдущая 6 7 8 9 101112 13 14 15 Следующая ⇒

Как уже отмечалось, оценки параметров уравнения регрессии вычисляются по выборочным данным и лишь приближенно оценивают эти параметры. В связи с этим появляется необходимость оценить точность как уравнения регрессии в целом, так и его параметров в отдельности. При решении первой задачи используют процедуру дисперсионного анализа, основанную на разложении общей суммы квадратов отклонений зависимой переменной: на две составляющие, источниками которых являются отклонения за счёт регрессионной зависимости (SSR) и за счёт случайных ошибок (SSE), причём

Как известно, SST = SSR + SSE или

Аналогичное разложение имеет место и для степеней свободы соответствующих сумм:

df_T = df_R + df_E,

где df_T = n – 1 – общее число степеней свободы;

df_R = m – число степеней свободы, соответствующее регрессии (m – число независимых переменных в уравнении регрессии);

df_E = n – m – 1 – число степеней свободы, соответствующее остаткам.

Разделив соответствующие суммы квадратов на степени свободы, получим средние квадраты или оценки дисперсии , которые сравниваются по критерию Фишера (). При этом проверяется гипотеза о равенстве нулю одновременно всех коэффициентов регрессии против альтернативной гипотезы: не все коэффициенты регрессии равны нулю. Если F_/2,_m_,_n_-_m_-1 > F, т. е. табличное значение критерия больше расчётного, то уравнение регрессии значимо, т.е. не все коэффициенты уравнения регрессии равны нулю, в противном случае уравнение регрессии незначимо. В этом случае уравнение регрессии ничего не дает для предсказания зависимой переменной и не может быть использовано в анализе.

При компьютерных расчётах вместе со статистикой Фишера рассчитывается р-величина, которую сравнивают с фиксированным уровнем значимости и на этой основе делают вывод о значимости уравнения регрессии. Если р-величина меньше фиксированного уровня значимости, то уравнение регрессии значимо.

Дисперсионный анализ регрессии проводится в таблице 4.1:

Таблица 4.1

Таблица дисперсионного анализа регрессии

Источник	Сумма квадратов	Степени свободы	Средние квадраты	F- отношение	р-величина
Модель ошибки	SSR SSE	m n – m – 1	MSR MSE	F=
Общая	SST	n – 1

Если нулевая гипотеза отклонена, встаёт вопрос о значимости каждого коэффициента регрессии в отдельности, т.е. необходимо выяснить, какие из коэффициентов регрессии равны нулю, а какие значимо отличны от нуля?

Такая проверка осуществляется на основе статистик Стьюдента, вычисленных для свободного члена и для каждого коэффициента регрессии.

Статистика Стьюдента для свободного члена уравнения регрессии вычисляется по формуле

t_a = a / S_a,

где S_a – стандартная ошибка свободного члена уравнения регрессии:

Для коэффициентов регрессии t-статистики равны:

= b_k / ,

где – стандартные ошибки коэффициентов регрессии:

Вычисленные статистики Стьюдента сравниваются с критическими значениями , найденными по таблице t-распределения с фиксированным и степенями свободы n = n – 1.

Если, например, > , то это означает, что коэффициент при переменной x_k в уравнении регрессии значимо отличен от нуля и влияние переменной x_k на моделируемый показатель можно признать значимым. При компьютерных расчётах вместе со статистикой Стьюдента вычисляется и выборочный уровень значимости или р-величина. По её значению и определяется значимость каждого параметра уравнения регрессии.

Показатель MSE является одной из характеристик точности уравнения регрессии и называется остаточной дисперсией. Корень квадратный из MSE называется стандартной ошибкой оценки регрессии (S_y,x) и показывает, какую ошибку в среднем мы будем допускать, если значение зависимой переменной будем оценивать по уравнению регрессии на основе известных значений независимых переменных. Итак:

Кроме того, этот показатель в неявном виде участвует в определении коэффициента множественной детерминации (R²), т. к.

Отсюда следует смысл коэффициента множественной детерминации. Он показывает долю вариации результирующего показателя, обусловленную вариацией включённых в уравнение регрессии независимых переменных. Коэффициент множественной детерминации обычно выражают в процентах, поэтому, например, если R² = 75 %, то это означает, что изменение зависимой переменной на 75 % объясняется изменением включённых в уравнение регрессии независимых переменных, а остальные 25 % – это изменения, обусловленные неучтёнными факторами, в том числе и случайными отклонениями (ошибками).

Корень квадратный из коэффициента множественной детерминации называется коэффициентом множественной корреляции:

Коэффициент множественной корреляции показывает тесноту линейной корреляционной связи между зависимой переменной и всеми независимыми переменными. По сути дела, это коэффициент корреляции между фактическими и расчётными значениями зависимой переменной.

Ясно, что R² изменяется от нуля до единицы и равен единице, если SSE = 0, т. е. когда связь линейная функциональная, и равен нулю, если SST = SSE, т. е. когда связь отсутствует.

Значимость коэффициента множественной детерминации определяется на основе критерия Фишера:

с m степенями свободы числителя и (n – m – 1) степенями свободы знаменателя.

Известно, что коэффициент множественной детерминации является завышенной оценкой точности уравнения регрессии, поэтому разработана преобразованная форма этого коэффициента, имеющая вид

где – исправленное (adjusted) (c учётом степеней свободы) значение коэффициента множественной детерминации.

В отличие от будет убывать, если в уравнение регрессии будут добавляться незначимые независимые переменные.

Исправленный коэффициент детерминации всегда меньше неисправленного и является несмещённой оценкой для коэффициента множественной детерминации.

Как уже отмечалось, одной из предпосылок МНК является независимость отклонений e = y – друг от друга. Если это условие нарушено, то говорят об автокорреляции остатков.

Разработано несколько методов проверки на автокорреляцию остатков. Большинство статистических пакетов прикладных программ используют метод Дарбина – Уотсона. Он основан на гипотезе о существовании автокорреляции остатков между соседними членами ряда. Этот критерий использует статистику

Для d-статистики найдены критические границы (d_u – верхняя и d_l – нижняя), позволяющие принять или отклонить нулевую гипотезу об отсутствии автокорреляции при фиксированном уровне значимости , известном числе независимых переменных m и объёме выборки n.

Процедура принятия и непринятия гипотезы об отсутствии автокорреляции в остатках изображена ниже.

Критическая область (есть автокорреля-ция)

Область неопределён-ности

Область принятия гипотезы (нет автокорр.)

Область неопределён-ности

Критическая область (есть автокорреля-ция)

d_ld_u4-d_u4-d_l

Рис. 4.1. Процедура принятия решения об автокорреляции остатков

Если вычисленное значение d–статистики попало в область неопределённости критерия, то это означает, что нет статистических оснований ни отклонить, ни принять нулевую гипотезу об отсутствии автокорреляции в остатках.

Если с помощью критерия Дарбина – Уотсона обнаружена существенная автокорреляция остатков, то необходимо признать наличие проблемы в определении спецификации уравнения и либо вернуться к набору включаемых в уравнение регрессий переменных, либо к форме регрессионной зависимости.

⇐ Предыдущая 6 7 8 9 101112 13 14 15 Следующая ⇒

Дата публикования: 2015-10-09; Прочитано: 2136 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!

studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.008 с)...