![]() |
Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | |
|
Обозначим через - элемент главной диагонали матрицы
. Тогда оценка дисперсии оцениваемого параметра регрессии
будет равна
. (5.33)
5.4 Коэффициент корреляции
Рассмотрим простую линейную модель регрессии . Помимо коэффициента детерминации
на степень средней статистической связи между переменной x и функцией y указывает коэффициент корреляции, (коэффициент парной корреляции) [11],
.
Ввиду того, что измеренные значения и
являются реализациями случайных величин, то и коэффициент корреляции является случайной величиной и её реализацией для конкретных выборок является величина
. (5.34)
5.5 Доверительный интервал
Оцениваемый параметр распределения
в результате эксперимента примет случайное значение
, зависящий от объема выборки
. По всей видимости, можно указать некоторый интервал
, в пределах которого находится истинное значение параметра
.
Под доверительным интервалом понимают интервал , который с вероятностью
накрывает истинное значение параметра
. Границы интервала
зависят от объема выборки и методов определения границ. На практике в качестве критерия определения границ доверительного интервала часто принимают величину
или
(5.35)
- вероятность того, что абсолютное уклонение оценки от истинного значения параметра
не превышает
, должна быть равна
. Вероятность
называется доверительной вероятностью, а интервал
- доверительным интервалом, (в этом случае
, Рис.5.1).
Вероятность того, что ошибка не принадлежит доверительному интервалу равна
(5.36)
Величина называется уровнем значимости. Если плотность распределения
- симметричная функция, то
. (5.37)
Если известно среднеквадратическое отклонение , то можно записать
(5.38)
Выражение (5.38) может быть записано как
, (5.39)
где .
Для наиболее распространенных распределений составлены таблицы, по которым при известной доверительной вероятности Р можно найти величину
.
Пример. 5.1. Пусть величина распределена по нормальному закону (дисперсия
- известна) и
. Тогда по таблице 1.1 нормального закона [4] находим
= 1.96.
Пример. 5.2. Пусть величина распределена по закону Стьюдента, число степеней свободы n = 10. По таблице 3.1а функции распределения Стьюдента [4] определим
= 2.2281. То же самое значение можно найти по таблице 3.2 процентных точек распределения Стьюдента [4, стр.178]. В данном случае процент определяется как
.
5.6 Проверка значимости коэффициента корреляции
Для простой линейной модели регрессии
после проведения эксперимента необходимо проверить существует ли статистическая связь между независимой переменной
и зависимой переменной
. Для этого производят оценку коэффициента корреляции
(5.34) и проверяют значимость величины коэффициента корреляции
. Положим, коэффициент корреляции генеральной совокупности равен
. Если между переменным
и
отсутствует статистическая связь, то
= 0. Тогда следует ожидать, что и
будет близок к нулю. Если величина
незначимо отклоняется от нуля, то следует, что
= 0; если величина
значима, то
0.
В результате возникает задача проверки гипотезы H0 о том, что = 0 против сложной гипотезы H1 о том, что
0. Решение об истинности той или иной гипотезы принимается на основе анализа оценки коэффициента корреляции
.
Плотность распределения вероятностей оценки имеет сложный вид [4, стр.50]. Однако, если случайные величины х и у распределены по нормальному закону и не коррелированы (
= 0), то случайная величина
(5.40)
распределена по закону Стьюдента с степенью свободы.
Для проверки гипотезы H0, проводятся следующие вычисления.
|
, (5.41)
2. Вычисляется статистика , затем вычисляется статистика T.
3. Производится сравнение статистики T с порогом .
Если | T | > | |, тогда гипотеза H0 отвергается. При этом допускается ошибка в
100 случаях из 100 экспериментов. Если | T | <
, гипотеза H0 не отвергается. При
0 применяется преобразование Фишера. В этом случае из физических соображений выбирается величина
и проверяется гипотеза H0 о том, что
, против односторонней альтернативной гипотезы H1 о том, что
. Для проверки гипотезы H0 против альтернативной гипотезы H1 применяется статистика [9, стр.195]
,
которая имеет t – распределение с n-2 степенями свободы.
Критическое значение по требуемому уровню значимости
ищется как решение уравнения``
где – плотность вероятности t – распределения.
Затем вычисляется статистика Т и сравнивается с порогом . Если Т >
, гипотеза H0 отвергается.
При n 20 статистика
(5.42)
распределена по нормальному закону с математическим ожиданием и дисперсией
, [4, стр. 50].
Порог ищется как решение уравнения
.
5.7 Значимость коэффициента детерминации
Ранее был введен коэффициент детерминации =
, определяющий относительный вклад дисперсии оценки зависимой переменной в оценку общей дисперсии. Оценки
и
являются случайными величинами. Отношение этих величин будет также случайной величиной.
Проверим гипотезу Н0 о том, что все параметры (j=0,…,m). Это значит, ни одна из функций
не оказывает влияния на зависимую переменную y.
Альтернативной гипотезой Н1 будет утверждение, что хотя бы один параметр оказывает влияние на зависимую переменную y. В этом случае проводится односторонняя процедура проверки гипотезы Н0 против альтернативной гипотезы Н1.
Для проверки значимости коэффициента детерминации используется статистика [3]
(5.43)
которая распределена по закону Фишера (F – распределение) с числом степеней свободы и
,
- количество учитываемых объясняющих переменных.
По уровню значимости и таблицам F – распределения определяется порог
и критическая область отклонения гипотезы Н0, в то время, как она верна. Если вычисленная величина
, гипотеза Н0 отвергается. Условие
означает, что коэффициент детерминации
значимо отличается от нуля, т.е. вклад хотя бы одного параметра
в построение линии регрессии значителен.
5.8 Значимость оценок параметров регрессии
В предыдущем разделе проверялась гипотеза о значимости вкладов m независимых переменных в дисперсию зависимых переменных. Рассмотрим вклад каждой переменной в построение линии регрессии или значимость каждого параметра регрессии.
Положим параметр регрессии генеральной совокупности. Выдвинем гипотезу H0:
, т.е. оценка параметра регрессии не отличается от истинного значения параметра регрессии; альтернативная гипотеза H1:
, т.е. существует значимая разница между оценкой и истинным значением параметра регрессии. В этом случае мы будем строить двустороннюю критическую область.
Гипотеза H1 может быть трансформирована в предположение: или
. Выбор гипотезы H1:
или гипотезы H1:
зависит от априорных сведений относительно поведения параметра
. Тогда для проверки гипотезы H1:
строится односторонняя критическая область, а также для проверки гипотезы H1:
строится тоже односторонняя критическая область.
Из предыдущего видно, что гипотезы H1, могут быть рассмотрены как односторонние, так и двусторонние гипотезы в зависимости от выдвигаемых предположений относительно параметра .
Если случайная величина имеет нормальное распределение с и дисперсией, значения при фиксированных значениях распределены нормально, то оценки параметров распределены нормально с и дисперсией. В этом случае величина тоже распределена нормально с математическим ожиданием и дисперсией соответственно
,
. (5.44)
Однако истинное значение неизвестно и вместо
используется оценка
. В результате получаем новую статистику
, (5.45)
которая имеет t – распределение с f = n-m-1 степенями свободы, m – количество объясняющих переменных, включенных в регрессию.
В то же время истинное значение тоже неизвестно. Поэтому будем проверять гипотезу H0:
, т.е. выдвигаем предположение о том, что параметр
,
, не оказывает влияния на поведение линии регрессии.
Для проверки гипотезы H0: необходимо выбрать уровень значимости
. Далее необходимо учесть какова гипотеза Н1 – двусторонняя или односторонняя, и найти путем расчетов или по таблицам t-распределения соответствующие пороги
.
Если , то гипотеза Н0:
, отвергается, т.е. параметр
(и его оценка
) оказывает существенное влияние на линию регрессии.
Если , гипотеза Н0 не отвергается. В этом случае на основе оценок
нельзя утверждать о значительном влиянии параметра
на линию регрессии. Необходимо пересмотреть вид функции
или отказаться от нее.
Положим, гипотеза Н1 – двусторонняя. Статистика для проверки гипотезы имеет вид
. (5.46)
Ввиду того, что гипотеза Н1 – двусторонняя, определяется критическое значение (а не
) по t-распределению с n-m степенями свободы. Если
гипотеза Н0 не отвергается.
При проверке значимости оценок параметров регрессии может создаться такая ситуация, что несколько параметров регрессии каждая в отдельности не оказывает существенного влияния на линию регрессии, а в совокупности их влияние существенно. Для разрешения этого вопроса рекомендуется рассчитать коэффициент детерминации с исключенными параметрами [9] и сравнить его с коэффициентом детерминации с не исключенными параметрами.
Предположим, что оценки заданы в виде
(5.47)
и
(5.48)
Регрессия (5.47) содержит m объясняющих переменных, а регрессия (5.48) содержит m1 объясняющих переменных. Возникает вопрос, есть ли необходимость оценивать дополнительные объясняющие переменные. Эта постановка проблемы эквивалентна проверке гипотезы
H0: , при альтернативной гипотезе
H1: .
Для решения этой задачи вычисляются коэффициенты детерминации по
объясняющим переменным и
по
объясняющим переменным соответственно, и используется статистика
Дата публикования: 2015-03-26; Прочитано: 171 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!