Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Обобщением линейной регрессионной модели с двумя переменными является многомерная регрессионная модель (или модель множественной регрессии). Пусть n раз измерены значения факторов x 1, x 2 ,..., xk и соответствующие значения переменной y; предполагается, что
yi = b o + b1 xi 1 +... + b k xik+ e i, i = 1,..., n, (12)
(второй индекс у х относится к номеру фактора, а первый - к номеру наблюдения); предполагается также, что
M e i = 0, M = s2,
M (e i e j) = 0, i ¹ j, (12a)
т.е. e i - некоррелированные случайные величины. Соотношения (12) удобно записывать в матричной форме:
Y = X b + e, (13)
где Y = (y 1 ,..., yk) T - вектор-столбец значений зависимой переменной, Т - символ транспонирования, b = (b0, b1 ,..., b k) T - вектор-столбец (размерности k) неизвестных коэффициентов регрессии,e = (e1,..., e n) T - вектор случайных отклонений,
-матрица n´ (k + 1 ); в i - й строке (1, xi 1 ,...,xik) находятся значения независимых переменных в i -м наблюдении первая переменная - константа, равная 1.
Оценка коэффициентов регрессии. Построим оценку для вектора bтак, чтобы вектор оценок = Х зависимой переменной минимально (в смысле квадрата нормы разности) отличался от вектора Y заданных значений:
по .
Решением является (если ранг матрицы Х равен k +1) оценка
= (XTX)- 1 XTY (14)
Нетрудно проверить, что она несмещенная. Ковариационная (дисперсионная) матрица равна
D = ( - b) ( - b)T = s 2 (XTX)-1 = s 2 Z, (15)
где обозначено Z = (XTX)- 1.
Справедлива
теорема Гаусса - Маркова. В условиях (12а) оценка (14) является наилучшей (в смысле минимума дисперсии) оценкой в классе линейных несмещенных оценок.
Оценка дисперсии s2ошибок. Обозначим
e = Y - = Y - Х = [I - X (XTX)- 1 XT] Y = BY (16)
вектор остатков (или невязок); B = I - X (XTX)- 1 XT - матрица; можно проверить, что B 2 = B. Для остаточной суммы квадратов справедливо соотношение
M = M (n - k -1 ) s 2,
откуда следует, что несмещенной оценкой для s 2 является
s 2 = . (17)
Если предположить, что e i в (12) нормально распределены, то справедливы следующие свойства оценок:
1) (n - k - 1) имеет распределение хи квадрат с n-k -1 степенями свободы;
2) оценки и s 2независимы.
Как и в случае простой регрессии, справедливо соотношение:
или
Tss = Ess + Rss, (18)
в векторном виде:
,
где = (. Поделив обе части на полную вариацию игреков
Tss = , получим коэффициент детерминации
R 2 = (19)
Коэффициент R 2показывает качество подгонки регрессионной модели к наблюдённым значениям yi. Если R 2 = 0, то регрессия Y на x 1 ,..., xk не улучшает качество предсказания yi по сравнению с тривиальным предсказанием . Другой крайний случай R 2 = 1 означает точную подгонку: все ei = 0, т.е. все точки наблюдений лежат на регрессионной плоскости. Однако, значение R 2возрастает с ростом числа переменных (регрессоров) в регрессии, что не означает улучшения качества предсказания, и потому вводится скорректированный (adjusted) коэффициент детерминации
(20)
Его использование более корректно для сравнения регрессий при изменении числа переменных (регрессоров).
Доверительные интервалы для коэффициентов регрессии. Стандартной ошибкой оценки является величина , оценка для которой
sj = , j = 0, 1,..., k, (21)
где zjj - диагональный элемент матрицы Z. Если ошибки e i распределены нормально, то, в силу свойств 1) и 2), приведенных выше, статистика
(22)
распределена по закону Стьюдента с (n - k - 1) степенями свободы, и потому неравенство
£ tp sj, (23)
где tp - квантиль уровня ( 1 + PД) / 2 этого распределения, задает доверительный интервал для b j с уровнем доверия РД.
Проверка гипотезы о нулевых значениях коэффициентов регрессии. Для проверки гипотезы Н 0об отсутствии какой бы то ни было линейной связи между y и совокупностью факторов, Н 0: b1 = b2 =... = b k = 0, т.е. об одновременном равенстве нулю всех коэффициентов, кроме коэффициента b0при константе, используется статистика
F = = = , (24)
распределенная, если Н 0верна, по закону Фишера с k и n - k - 1 степенями свободы. Н 0отклоняется, если
F > Fa (k, n - k - 1), (25)
где Fa - квантиль уровня 1 - a.
Отбор наиболее существенных объясняющих переменных. Различные регрессии (с различным набором переменных) можно сравнивать по скорректированному коэффициенту детерминации (20): принять тот вариант регрессии, для которого максимален (подробнее см. в примере).
Пример [5]. Исследуется зависимость урожайности y зерновых культур (ц/га) от ряда факторов (переменных) сельскохозяйственного производства, а именно,
х 1 - число тракторов на 100 га;
х 2 - число зерноуборочных комбайнов на 100 га;
х 3 - число орудий поверхностной обработки почвы на 100 га;
х 4 - количество удобрений, расходуемых на гектар (т/га);
х 5 - количество химических средств защиты растений, расходуемых на гектар (ц/га).
Исходные данные для 20 районов области приведены в табл. 2.
Таблица 2
y | x 1 | x 2 | x 3 | x 4 | x 5 | |
9.7 | 1.59 | .26 | 2.05 | .32 | .14 | |
8.4 | .34 | .28 | .46 | .59 | .66 | |
9.0 | 2.53 | .31 | 2.46 | .30 | .31 | |
9.9 | 4.63 | .40 | 6.44 | .43 | .59 | |
9.6 | 2.16 | .26 | 2.16 | .39 | .16 | |
8.6 | 2.16 | .30 | 2.69 | .32 | .17 | |
12.5 | .68 | .29 | .73 | .42 | .23 | |
7.6 | .35 | .26 | .42 | .21 | .08 | |
6.9 | .52 | .24 | .49 | .20 | .08 | |
13.5 | 3.42 | .31 | 3.02 | 1.37 | .73 | |
9.7 | 1.78 | .30 | 3.19 | .73 | .17 | |
10.7 | 2.40 | .32 | 3.30 | .25 | .14 | |
12.1 | 9.36 | .40 | 11.51 | .39 | .38 | |
9.7 | 1.72 | .28 | 2.26 | .82 | .17 | |
7.0 | .59 | .29 | .60 | .13 | .35 | |
7.2 | .28 | .26 | .30 | .09 | .15 | |
8.2 | 1.64 | .29 | 1.44 | .20 | .08 | |
8.4 | .09 | .22 | .05 | .43 | .20 | |
13.1 | .08 | .25 | .03 | .73 | .20 | |
8.7 | 1.36 | .26 | .17 | .99 | .42 |
Здесь мы располагаем выборкой объема n = 20; число независимых переменных (факторов) k = 5. Матрица Х должна содержать 6 столбцов размерности 20; первый столбец состоит из единиц, а столбцы со 2-го по 6-й представлены соответственно столбцами 3¸7 таблицы (файл Harvest 2. sta.). Специальный анализ (здесь не приводимый) технологии сбора исходных данных показал, что допущения (12а) могут быть приняты в качестве рабочей гипотезы, поэтому можем записать уравнения статистической связи между yi и Xi = (xi 1, xi 2 ,..., xi 5 ), i = 1,..., n в виде (13).
Дата публикования: 2014-11-03; Прочитано: 389 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!