Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Если задачей корреляционного анализа является установление зависимости между величинами Х и Y, то задачей регрессионного анализа является установление формы зависимости между переменными.
В предыдущем пункте мы определили уравнение регрессии как уравнение вида
МХ(Y) = f(x). (*)
Уравнение (*) можно записать следующим образом
у = f(x) + e,
где f(х) – функция регрессии, e - случайная составляющая, характеризующая отклонение у от функции регрессии.
В дальнейшем будем полагать, что величина e удовлетворяет следующим условиям:
1) М(e) = 0;
2) выборочные значения e являются независимыми значениями;
3) величина e имеет нормальное распределение.
Регрессионный анализ не может самостоятельно по данной выборке предложить ту или иную форму регрессионной кривой. Вид регрессии должен быть выяснен с помощью иной теории, в которой рассматривалась бы суть данного явления. Например, утверждение о том, что энергия равновесного излучения пропорциональна четвертой степени температуры, было получено Стефаном и Больцманом из термодинамических соображений, а коэффициент s (U = s T4) был найден в результате обработки опытных данных.
На практике наиболее часто встречается одна из простейших моделей регрессии – линейная. Уравнение линейной регрессии имеет вид
y = а x + b + e.
Сформулируем задачу регрессионного анализа для данного случая.
По выборке объемом n, составленной из реализаций двумерной СВ (Х,Y), найти оценки параметров а и b и проверить, соответствует ли линейная модель экспериментальным данным.
Очевидно, что оценки а и b следует подобрать так, чтобы значения
= a xi + b как можно ближе находились к экспериментальным значениям. В качестве меры близости удобно взять сумму квадратов отклонений экспериментальных данных от теоретических. Можно показать, что в случае, когда e имеет нормальное распределение, наилучшие оценки параметров регрессии получают с помощью метода наименьших квадратов (МНК).
Применим МНК для отыскания оценок параметров а и b.
Составим сумму квадратов отклонений как функцию возможных, но неизвестных параметров а и b:
.
Для минимизации функции F приравняем к нулю ее частные производные по параметрам
Преобразуем полученную систему к более удобному виду
Учитывая, что , и (k = 1, 2), получим
Отсюда
(*)
Заметим, что, если искать уравнение линейной регрессии х от у, т.е.
x = c y + d, то
(**)
Учитывая, что , , rXY = rYX = r = , где SX и SY – выборочные средние квадратические отклонения, преобразуем уравнения (*) и (**) к следующему виду
Таким образом, уравнения линейной регрессии можно записать в виде:
,
или
,
,
где ух, ху – условные (групповые) средние, представляющие выборочные оценки MX(Y) и MY(X) соответственно.
Найдем тангенс угла между прямыми регрессии (см. рис. 35.1) с угловыми коэффициентами а и .
у
a
х |
Рис. 35.1.
.
Из полученной формулы видно, что при r = ± 1 уравнения регрессии совпадают. Если r = 0, то прямые регрессии перпендикулярны и их уравнения имеют вид: , .
Значимость уравнения регрессии проверяют, используя дисперсионный анализ. В данном случае общую дисперсию разбивают на дисперсию, которая обусловлена регрессией, и дисперсию, которая обусловлена действием случайных факторов, т.е.
.
Введем обозначения , , .
Дата публикования: 2015-01-23; Прочитано: 220 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!