Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Модель регрессии 2 страница



Обозначим через - элемент главной диагонали матрицы . Тогда оценка дисперсии оцениваемого параметра регрессии будет равна

. (5.33)

5.4 Коэффициент корреляции

Рассмотрим простую линейную модель регрессии . Помимо коэффициента детерминации на степень средней статистической связи между переменной x и функцией y указывает коэффициент корреляции, (коэффициент парной корреляции) [11],

.

Ввиду того, что измеренные значения и являются реализациями случайных величин, то и коэффициент корреляции является случайной величиной и её реализацией для конкретных выборок является величина

. (5.34)

5.5 Доверительный интервал

Оцениваемый параметр распределения в результате эксперимента примет случайное значение , зависящий от объема выборки . По всей видимости, можно указать некоторый интервал , в пределах которого находится истинное значение параметра .

Под доверительным интервалом понимают интервал , который с вероятностью накрывает истинное значение параметра . Границы интервала зависят от объема выборки и методов определения границ. На практике в качестве критерия определения границ доверительного интервала часто принимают величину

или (5.35)

- вероятность того, что абсолютное уклонение оценки от истинного значения параметра не превышает , должна быть равна . Вероятность называется доверительной вероятностью, а интервал - доверительным интервалом, (в этом случае , Рис.5.1).

Вероятность того, что ошибка не принадлежит доверительному интервалу равна

(5.36)

Величина называется уровнем значимости. Если плотность распределения - симметричная функция, то

. (5.37)

Если известно среднеквадратическое отклонение , то можно записать

(5.38)

Выражение (5.38) может быть записано как

, (5.39)

где .

Для наиболее распространенных распределений составлены таблицы, по которым при известной доверительной вероятности Р можно найти величину .

Пример. 5.1. Пусть величина распределена по нормальному закону (дисперсия - известна) и . Тогда по таблице 1.1 нормального закона [4] находим = 1.96.

Пример. 5.2. Пусть величина распределена по закону Стьюдента, число степеней свободы n = 10. По таблице 3.1а функции распределения Стьюдента [4] определим = 2.2281. То же самое значение можно найти по таблице 3.2 процентных точек распределения Стьюдента [4, стр.178]. В данном случае процент определяется как .

5.6 Проверка значимости коэффициента корреляции

Для простой линейной модели регрессии после проведения эксперимента необходимо проверить существует ли статистическая связь между независимой переменной и зависимой переменной . Для этого производят оценку коэффициента корреляции (5.34) и проверяют значимость величины коэффициента корреляции . Положим, коэффициент корреляции генеральной совокупности равен . Если между переменным и отсутствует статистическая связь, то = 0. Тогда следует ожидать, что и будет близок к нулю. Если величина незначимо отклоняется от нуля, то следует, что = 0; если величина значима, то 0.

В результате возникает задача проверки гипотезы H0 о том, что = 0 против сложной гипотезы H1 о том, что 0. Решение об истинности той или иной гипотезы принимается на основе анализа оценки коэффициента корреляции .

Плотность распределения вероятностей оценки имеет сложный вид [4, стр.50]. Однако, если случайные величины х и у распределены по нормальному закону и не коррелированы ( = 0), то случайная величина

(5.40)

распределена по закону Стьюдента с степенью свободы.

Для проверки гипотезы H0, проводятся следующие вычисления.

1. По уровню значимости ищется порог , который определяет критическую область {(- , - ), (, )}, удовлетворяющую равенству, (Рис. 5.2):

, (5.41)

2. Вычисляется статистика , затем вычисляется статистика T.

3. Производится сравнение статистики T с порогом .

Если | T | > | |, тогда гипотеза H0 отвергается. При этом допускается ошибка в 100 случаях из 100 экспериментов. Если | T | < , гипотеза H0 не отвергается. При 0 применяется преобразование Фишера. В этом случае из физических соображений выбирается величина и проверяется гипотеза H0 о том, что , против односторонней альтернативной гипотезы H1 о том, что . Для проверки гипотезы H0 против альтернативной гипотезы H1 применяется статистика [9, стр.195]

,

которая имеет t – распределение с n-2 степенями свободы.

Критическое значение по требуемому уровню значимости ищется как решение уравнения``

где – плотность вероятности t – распределения.

Затем вычисляется статистика Т и сравнивается с порогом . Если Т > , гипотеза H0 отвергается.

При n 20 статистика

(5.42)

распределена по нормальному закону с математическим ожиданием и дисперсией , [4, стр. 50].

Порог ищется как решение уравнения

.

5.7 Значимость коэффициента детерминации

Ранее был введен коэффициент детерминации = , определяющий относительный вклад дисперсии оценки зависимой переменной в оценку общей дисперсии. Оценки и являются случайными величинами. Отношение этих величин будет также случайной величиной.

Проверим гипотезу Н0 о том, что все параметры (j=0,…,m). Это значит, ни одна из функций не оказывает влияния на зависимую переменную y.

Альтернативной гипотезой Н1 будет утверждение, что хотя бы один параметр оказывает влияние на зависимую переменную y. В этом случае проводится односторонняя процедура проверки гипотезы Н0 против альтернативной гипотезы Н1.

Для проверки значимости коэффициента детерминации используется статистика [3]

(5.43)

которая распределена по закону Фишера (F – распределение) с числом степеней свободы и , - количество учитываемых объясняющих переменных.

По уровню значимости и таблицам F – распределения определяется порог и критическая область отклонения гипотезы Н0, в то время, как она верна. Если вычисленная величина , гипотеза Н0 отвергается. Условие означает, что коэффициент детерминации значимо отличается от нуля, т.е. вклад хотя бы одного параметра в построение линии регрессии значителен.

5.8 Значимость оценок параметров регрессии

В предыдущем разделе проверялась гипотеза о значимости вкладов m независимых переменных в дисперсию зависимых переменных. Рассмотрим вклад каждой переменной в построение линии регрессии или значимость каждого параметра регрессии.

Положим параметр регрессии генеральной совокупности. Выдвинем гипотезу H0: , т.е. оценка параметра регрессии не отличается от истинного значения параметра регрессии; альтернативная гипотеза H1: , т.е. существует значимая разница между оценкой и истинным значением параметра регрессии. В этом случае мы будем строить двустороннюю критическую область.

Гипотеза H1 может быть трансформирована в предположение: или . Выбор гипотезы H1: или гипотезы H1: зависит от априорных сведений относительно поведения параметра . Тогда для проверки гипотезы H1: строится односторонняя критическая область, а также для проверки гипотезы H1: строится тоже односторонняя критическая область.

Из предыдущего видно, что гипотезы H1, могут быть рассмотрены как односторонние, так и двусторонние гипотезы в зависимости от выдвигаемых предположений относительно параметра .

Если случайная величина имеет нормальное распределение с и дисперсией, значения при фиксированных значениях распределены нормально, то оценки параметров распределены нормально с и дисперсией. В этом случае величина тоже распределена нормально с математическим ожиданием и дисперсией соответственно

, . (5.44)

Однако истинное значение неизвестно и вместо используется оценка . В результате получаем новую статистику

, (5.45)

которая имеет t – распределение с f = n-m-1 степенями свободы, m – количество объясняющих переменных, включенных в регрессию.

В то же время истинное значение тоже неизвестно. Поэтому будем проверять гипотезу H0: , т.е. выдвигаем предположение о том, что параметр , , не оказывает влияния на поведение линии регрессии.

Для проверки гипотезы H0: необходимо выбрать уровень значимости . Далее необходимо учесть какова гипотеза Н1 – двусторонняя или односторонняя, и найти путем расчетов или по таблицам t-распределения соответствующие пороги .

Если , то гипотеза Н0: , отвергается, т.е. параметр (и его оценка ) оказывает существенное влияние на линию регрессии.

Если , гипотеза Н0 не отвергается. В этом случае на основе оценок нельзя утверждать о значительном влиянии параметра на линию регрессии. Необходимо пересмотреть вид функции или отказаться от нее.

Положим, гипотеза Н1 – двусторонняя. Статистика для проверки гипотезы имеет вид

. (5.46)

Ввиду того, что гипотеза Н1 – двусторонняя, определяется критическое значение (а не ) по t-распределению с n-m степенями свободы. Если гипотеза Н0 не отвергается.

При проверке значимости оценок параметров регрессии может создаться такая ситуация, что несколько параметров регрессии каждая в отдельности не оказывает существенного влияния на линию регрессии, а в совокупности их влияние существенно. Для разрешения этого вопроса рекомендуется рассчитать коэффициент детерминации с исключенными параметрами [9] и сравнить его с коэффициентом детерминации с не исключенными параметрами.

Предположим, что оценки заданы в виде

(5.47)

и

(5.48)

Регрессия (5.47) содержит m объясняющих переменных, а регрессия (5.48) содержит m1 объясняющих переменных. Возникает вопрос, есть ли необходимость оценивать дополнительные объясняющие переменные. Эта постановка проблемы эквивалентна проверке гипотезы

H0: , при альтернативной гипотезе

H1: .

Для решения этой задачи вычисляются коэффициенты детерминации по объясняющим переменным и по объясняющим переменным соответственно, и используется статистика





Дата публикования: 2015-03-26; Прочитано: 171 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.017 с)...