Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Множественная регрессия. Обобщением линейной регрессионной модели с двумя переменными является многомерная регрессионная модель (или модель множественной регрессии)



Обобщением линейной регрессионной модели с двумя переменными является многомерная регрессионная модель (или модель множественной регрессии). Пусть n раз измерены значения факторов x 1, x 2 ,..., xk и соответствующие значения переменной y; предполагается, что

yi = b o + b1 xi 1 +... + b k xik+ e i, i = 1,..., n, (12)

(второй индекс у х относится к номеру фактора, а первый - к номеру наблюдения); предполагается также, что

M e i = 0, M = s2,

M (e i e j) = 0, i ¹ j, (12a)

т.е. e i - некоррелированные случайные величины. Соотношения (12) удобно записывать в матричной форме:

Y = X b + e, (13)

где Y = (y 1 ,..., yk) T - вектор-столбец значений зависимой переменной, Т - символ транспонирования, b = (b0, b1 ,..., b k) T - вектор-столбец (размерности k) неизвестных коэффициентов регрессии,e = (e1,..., e n) T - вектор случайных отклонений,

-матрица n´ (k + 1 ); в i - й строке (1, xi 1 ,...,xik) находятся значения независимых переменных в i -м наблюдении первая переменная - константа, равная 1.

Оценка коэффициентов регрессии. Построим оценку для вектора bтак, чтобы вектор оценок = Х зависимой переменной минимально (в смысле квадрата нормы разности) отличался от вектора Y заданных значений:

по .

Решением является (если ранг матрицы Х равен k +1) оценка

= (XTX)- 1 XTY (14)

Нетрудно проверить, что она несмещенная. Ковариационная (дисперсионная) матрица равна

D = ( - b) ( - b)T = s 2 (XTX)-1 = s 2 Z, (15)

где обозначено Z = (XTX)- 1.

Справедлива

теорема Гаусса - Маркова. В условиях (12а) оценка (14) является наилучшей (в смысле минимума дисперсии) оценкой в классе линейных несмещенных оценок.

Оценка дисперсии s2ошибок. Обозначим

e = Y - = Y - Х = [I - X (XTX)- 1 XT] Y = BY (16)

вектор остатков (или невязок); B = I - X (XTX)- 1 XT - матрица; можно проверить, что B 2 = B. Для остаточной суммы квадратов справедливо соотношение

M = M (n - k -1 ) s 2,

откуда следует, что несмещенной оценкой для s 2 является

s 2 = . (17)

Если предположить, что e i в (12) нормально распределены, то справедливы следующие свойства оценок:

1) (n - k - 1) имеет распределение хи квадрат с n-k -1 степенями свободы;

2) оценки и s 2независимы.

Как и в случае простой регрессии, справедливо соотношение:

или

Tss = Ess + Rss, (18)

в векторном виде:

,

где = (. Поделив обе части на полную вариацию игреков

Tss = , получим коэффициент детерминации

R 2 = (19)

Коэффициент R 2показывает качество подгонки регрессионной модели к наблюдённым значениям yi. Если R 2 = 0, то регрессия Y на x 1 ,..., xk не улучшает качество предсказания yi по сравнению с тривиальным предсказанием . Другой крайний случай R 2 = 1 означает точную подгонку: все ei = 0, т.е. все точки наблюдений лежат на регрессионной плоскости. Однако, значение R 2возрастает с ростом числа переменных (регрессоров) в регрессии, что не означает улучшения качества предсказания, и потому вводится скорректированный (adjusted) коэффициент детерминации

(20)

Его использование более корректно для сравнения регрессий при изменении числа переменных (регрессоров).

Доверительные интервалы для коэффициентов регрессии. Стандартной ошибкой оценки является величина , оценка для которой

sj = , j = 0, 1,..., k, (21)

где zjj - диагональный элемент матрицы Z. Если ошибки e i распределены нормально, то, в силу свойств 1) и 2), приведенных выше, статистика

(22)

распределена по закону Стьюдента с (n - k - 1) степенями свободы, и потому неравенство

£ tp sj, (23)

где tp - квантиль уровня ( 1 + PД) / 2 этого распределения, задает доверительный интервал для b j с уровнем доверия РД.

Проверка гипотезы о нулевых значениях коэффициентов регрессии. Для проверки гипотезы Н 0об отсутствии какой бы то ни было линейной связи между y и совокупностью факторов, Н 0: b1 = b2 =... = b k = 0, т.е. об одновременном равенстве нулю всех коэффициентов, кроме коэффициента b0при константе, используется статистика

F = = = , (24)

распределенная, если Н 0верна, по закону Фишера с k и n - k - 1 степенями свободы. Н 0отклоняется, если

F > Fa (k, n - k - 1), (25)

где Fa - квантиль уровня 1 - a.

Отбор наиболее существенных объясняющих переменных. Различные регрессии (с различным набором переменных) можно сравнивать по скорректированному коэффициенту детерминации (20): принять тот вариант регрессии, для которого максимален (подробнее см. в примере).

Пример [5]. Исследуется зависимость урожайности y зерновых культур (ц/га) от ряда факторов (переменных) сельскохозяйственного производства, а именно,

х 1 - число тракторов на 100 га;

х 2 - число зерноуборочных комбайнов на 100 га;

х 3 - число орудий поверхностной обработки почвы на 100 га;

х 4 - количество удобрений, расходуемых на гектар (т/га);

х 5 - количество химических средств защиты растений, расходуемых на гектар (ц/га).

Исходные данные для 20 районов области приведены в табл. 2.

Таблица 2

  y x 1 x 2 x 3 x 4 x 5
  9.7 1.59 .26 2.05 .32 .14
  8.4 .34 .28 .46 .59 .66
  9.0 2.53 .31 2.46 .30 .31
  9.9 4.63 .40 6.44 .43 .59
  9.6 2.16 .26 2.16 .39 .16
  8.6 2.16 .30 2.69 .32 .17
  12.5 .68 .29 .73 .42 .23
  7.6 .35 .26 .42 .21 .08
  6.9 .52 .24 .49 .20 .08
  13.5 3.42 .31 3.02 1.37 .73
  9.7 1.78 .30 3.19 .73 .17
  10.7 2.40 .32 3.30 .25 .14
  12.1 9.36 .40 11.51 .39 .38
  9.7 1.72 .28 2.26 .82 .17
  7.0 .59 .29 .60 .13 .35
  7.2 .28 .26 .30 .09 .15
  8.2 1.64 .29 1.44 .20 .08
  8.4 .09 .22 .05 .43 .20
  13.1 .08 .25 .03 .73 .20
  8.7 1.36 .26 .17 .99 .42

Здесь мы располагаем выборкой объема n = 20; число независимых переменных (факторов) k = 5. Матрица Х должна содержать 6 столбцов размерности 20; первый столбец состоит из единиц, а столбцы со 2-го по 6-й представлены соответственно столбцами 3¸7 таблицы (файл Harvest 2. sta.). Специальный анализ (здесь не приводимый) технологии сбора исходных данных показал, что допущения (12а) могут быть приняты в качестве рабочей гипотезы, поэтому можем записать уравнения статистической связи между yi и Xi = (xi 1, xi 2 ,..., xi 5 ), i = 1,..., n в виде (13).





Дата публикования: 2014-11-03; Прочитано: 386 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.011 с)...