Две переменные
и
могут быть связаны жесткой зависимостью. Например, так связаны площадь круга и его диаметр, количество купленного товара и его стоимость и т.д. Когда речь идет о случайных величинах, то
и
связаны статистически. В общем случае это означает, что каждому значению одной переменной (например,
) соответствует некоторое распределение вероятностей другой (
), причем с изменением
это распределение также изменяется.
На практике встречается ситуация, когда изучаемые переменные связаны приблизительно линейной зависимостью. Так чаще всего связаны урожайность и количество внесенных удобрений, рост человека и его масса и т.д. Поскольку линейная зависимость самая простая, в первую очередь пытаются установить между двумя изучаемыми случайными величинами
и
именно такую связь, т.е. представляют
в виде
.
Функцию
называют «наилучшим приближением»
в смысле наименьших квадратов, если коэффициенты
и
найдены из условия минимума математического ожидания
. Такую функцию называют среднеквадратической регрессией
на
. Можно показать, что она имеет вид:
. (1.8.4)
Здесь
– математические ожидания и среднеквадратические отклонения двух компонент случайной величины
, а
– их коэффициент корреляции. Коэффициент
называют коэффициентом регрессии
на
, а прямую
(*)
называют прямой среднеквадратической регрессии
на
.
Мерой точности приближения
является так называемая остаточная дисперсия величины
относительно случайной величины
, равная
.
При
эта остаточная дисперсия равна нулю, т.е. при крайних значениях коэффициента корреляции не возникает ошибки при представлении
в виде линейной функции от
:
и
связаны линейной зависимостью (см. рис. а)). Если же
, то линейная связь между
и
тем слабее, чем меньше
и при
эта связь исчезает (см. рис. б), в)).
Рис. а)
. Рис. б)
. Рис. в)
.
Аналогично можно найти прямую среднеквадратической регрессии
на
:
(**)
(
– коэффициент регрессии
на
) и остаточную дисперсию
величины
относительно
. Если
, то обе прямые регрессии, как видно из (*) и (**), совпадают.
Из уравнений (*) и (**) также видно, что обе прямые регрессии проходят через точку
, которую называют центром совместного двумерного распределения величин
и
.