Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Регрессионный анализ



Пусть изучается система признаков . В результате независимых испытаний получены значения признаков, изображенных в таблице

Требуется изучить связь между признаками и , а именно, коррелированность и линейную зависимость, а также найти выборочное уравнение прямой регрессии , где и выборочные коэффициенты регрессии на , которые являются оценками теоретических коэффициентов регрессии.

Для определения коррелированности признаков и необходимо проверить нулевую гипотезу о значимости выборочного коэффициента корреляции . Выдвигаем гипотезу . В качестве критерия рассматривается величина

,

где . Величина является случайной, так как зависит от результатов испытаний. При выполнении гипотезы она имеет распределение Стьюдента, которое зависит только от числа степеней свободы . По результатам испытаний вычисляем наблюдаемое значение , где

выборочный коэффициент корреляции (является оценкой теоретического коэффициента корреляции генеральной совокупности системы признаков ), и – выборочные средние по каждому признаку, и – выборочные среднеквадратические отклонения. Критические точки распределения Стьюдента находятся из специальных таблиц в зависимости от заданного уровня значимости и числа степеней свободы . Если , то нулевая гипотеза о равенстве нулю коэффициента корреляции принимается, выборочный коэффициент корреляции незначим, признаки и некоррелированы. Если , то нулевая гипотеза отвергается, следовательно, коэффициент корреляции не равен нулю, значит, признаки и коррелированны.

Для построения прямой регрессии требуется определить параметры и . Для их нахождения используем метод наименьших квадратов, т.е. ищем минимальное значение функции суммы квадратов отклонений

.

Точки экстремума функции двух переменных находим из системы уравнений:

или .

Решая систему, получаем искомые параметры

, .

Уравнение прямой линии регрессии на запишется в виде

.

Аналогично находим уравнение прямой линии регрессии на

.

Для определения значимости линейной зависимости от в виде уравнения регрессии используется критерий Фишера. Рассмотрим следующие величины:

регрессионная сумма квадратов отклонений

характеризует отклонения наблюдений от среднего значения, объясняемых моделью регрессии. Регрессионную сумму удобно считать по формуле

,

где – выборочная дисперсия признака .

Остаточная сумма квадратов отклонений

характеризует разброс значений в силу случайных причин, т.е. разброс, не объясненный линейной зависимостью.

Общая сумма квадратов отклонений

характеризует исходный разброс данных. Иначе

,

где – выборочная дисперсия признака .

Введенные три суммы должны удовлетворять основному тождеству дисперсионного анализа

.

Найдем исправленные регрессионную и остаточную дисперсии по формулам

, где ,

, где .

Для проверки нулевой гипотезы о значимости выборочного коэффициента регрессии рассмотрим величину

,

которая является случайной, так как зависит от заранее неизвестных испытаний. При выполнении гипотезы она распределена по закону Фишера с и степенями свободы (значение равно единице для двумерной случайной величины ). Если , то по данным задачи вычисляем наблюдаемое значение критерия . По таблице критических значений распределения Фишера в зависимости от уровня значимости и числа степеней свободы и находим . Если , то нулевая гипотеза принимается, выборочный коэффициент регрессии незначим, признаки и не связаны линейной зависимостью. Если , то нулевая гипотеза отвергается, следовательно, теоретический коэффициент регрессии не равен нулю, значит, признаки и можно связать линейной зависимостью в виде уравнения регрессии на .

Замечание. Если , то это означает, что разброс, вызванный случайными причинами, поглощает в себе разброс в силу влияния регрессионной модели, следовательно, модель линейной регрессии незначима, и нулевая гипотеза принимается без использования вычисления критерия .

Задача о зависимости системы случайных величин. Пусть известны результаты медосмотра восьми школьников: обхват груди X (см) и вес Y (кг), которые записаны в следующую таблицу

X                
Y                

Требуется записать уравнение линейной регрессии Y на X и проверить по критериям Стьюдента и Фишера наличие коррелированности и линейной зависимости при уровне значимости .

Решение

1. Составим выборочное уравнение линейной регрессии Y на X.

Вычислим выборочные средние

, .

Вычисляем выборочные дисперсии и среднеквадратические отклонения , ,

, .

Вычисляем выборочный коэффициент корреляции

.

Тогда выборочное уравнение линейной регрессии Y на X запишется в виде

или

.

На плоскости изобразим точками полученные в результате наблюдений пары значений и построим линию регрессии

 
 

2. Проверим коррелированность X и Y, используя критерий Стьюдента. Выдвигаем нулевую гипотезу . Вычисляем наблюдаемое значение критерия Стьюдента

.

По таблице критических точек распределения Стьюдента в зависимости от уровня значимости и числа степеней свободы находим . Так как , то нулевая гипотеза отвергается, , выборочный коэффициент корреляции значим, следовательно, X и Y – коррелированные величины.

3. Проверим значимость линейной модели, используя критерий Фишера.

Выдвигаем нулевую гипотезу о равенстве нулю коэффициента регрессии. Вычисляем общую сумму ,

регрессионную сумму

и остаточную сумму, используя основное тождество дисперсионного анализа .

Вычисляем исправленные регрессионную и остаточную дисперсии

, .

Так как , то вычисляем наблюдаемое значение критерия Фишера .

По таблице критических значений распределения Фишера в зависимости от уровня значимости и числа степеней свободы и находим . Так как , то нулевая гипотеза отвергается, значит, линейная модель значима, и вес школьников можно представить в виде линейной зависимости от обхвата груди. Отметим, что выводы по обоим критериям согласованы.





Дата публикования: 2015-01-09; Прочитано: 971 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.013 с)...