Главная \| Случайная страница \| Контакты \| Мы поможем в написании вашей работы!

Множественная регрессия. Обобщением линейной регрессионной модели с двумя переменными является многомерная регрессионная модель (или модель множественной регрессии)

⇐ Предыдущая 52 53 54 55 565758 59 60 61 Следующая ⇒

Обобщением линейной регрессионной модели с двумя переменными является многомерная регрессионная модель (или модель множественной регрессии). Пусть n раз измерены значения факторов x ₁, x ₂ ,..., x_k и соответствующие значения переменной y; предполагается, что

y_i = b _o + b₁ x_i ₁ +... + b _kx_ik+ e _i, i = 1,..., n, (12)

(второй индекс у х относится к номеру фактора, а первый - к номеру наблюдения); предполагается также, что

M e _i= 0, M = s²,

M (e _i e _j) = 0, i ¹ j, (12a)

т.е. e _i - некоррелированные случайные величины. Соотношения (12) удобно записывать в матричной форме:

Y = X b + e, (13)

где Y = (y ₁ ,..., y_k) ^T - вектор-столбец значений зависимой переменной, Т - символ транспонирования, b = (b₀, b₁ ,..., b _k) ^T - вектор-столбец (размерности k) неизвестных коэффициентов регрессии,e = (e₁,..., e _n) ^T - вектор случайных отклонений,

-матрица n´ (k + 1 ); в i - й строке (1, x_i ₁ ,...,x_ik) находятся значения независимых переменных в i -м наблюдении первая переменная - константа, равная 1.

Оценка коэффициентов регрессии. Построим оценку для вектора bтак, чтобы вектор оценок = Х зависимой переменной минимально (в смысле квадрата нормы разности) отличался от вектора Y заданных значений:

по .

Решением является (если ранг матрицы Х равен k +1) оценка

= (X^TX)^- ¹ X^TY (14)

Нетрудно проверить, что она несмещенная. Ковариационная (дисперсионная) матрица равна

D = ( - b) ( - b)^T = s ² (X^TX)^-¹ = s ² Z, (15)

где обозначено Z = (X^TX)^- ¹.

Справедлива

теорема Гаусса - Маркова. В условиях (12а) оценка (14) является наилучшей (в смысле минимума дисперсии) оценкой в классе линейных несмещенных оценок.

Оценка дисперсии s²ошибок. Обозначим

e = Y - = Y - Х = [I - X (X^TX)^- ¹ X^T] Y = BY (16)

вектор остатков (или невязок); B = I - X (X^TX)^- ¹ X^T - матрица; можно проверить, что B ² = B. Для остаточной суммы квадратов справедливо соотношение

M = M (n - k -1 ) s ²,

откуда следует, что несмещенной оценкой для s ² является

s ² = . (17)

Если предположить, что e _i в (12) нормально распределены, то справедливы следующие свойства оценок:

1) (n - k - 1) имеет распределение хи квадрат с n-k -1 степенями свободы;

2) оценки и s ²независимы.

Как и в случае простой регрессии, справедливо соотношение:

или

T_ss = E_ss + R_ss, (18)

в векторном виде:

где = (. Поделив обе части на полную вариацию игреков

T_ss = , получим коэффициент детерминации

R ² = (19)

Коэффициент R ²показывает качество подгонки регрессионной модели к наблюдённым значениям y_i. Если R ² = 0, то регрессия Y на x ₁ ,..., x_k не улучшает качество предсказания y_i по сравнению с тривиальным предсказанием . Другой крайний случай R ² = 1 означает точную подгонку: все e_i = 0, т.е. все точки наблюдений лежат на регрессионной плоскости. Однако, значение R ²возрастает с ростом числа переменных (регрессоров) в регрессии, что не означает улучшения качества предсказания, и потому вводится скорректированный (adjusted) коэффициент детерминации

(20)

Его использование более корректно для сравнения регрессий при изменении числа переменных (регрессоров).

Доверительные интервалы для коэффициентов регрессии. Стандартной ошибкой оценки является величина , оценка для которой

s_j = , j = 0, 1,..., k, (21)

где z_jj - диагональный элемент матрицы Z. Если ошибки e _i распределены нормально, то, в силу свойств 1) и 2), приведенных выше, статистика

(22)

распределена по закону Стьюдента с (n - k - 1) степенями свободы, и потому неравенство

£ t_p s_j, (23)

где t_p - квантиль уровня ( 1 + P_Д) / 2 этого распределения, задает доверительный интервал для b _j с уровнем доверия Р_Д.

Проверка гипотезы о нулевых значениях коэффициентов регрессии. Для проверки гипотезы Н ₀об отсутствии какой бы то ни было линейной связи между y и совокупностью факторов, Н ₀: b₁ = b₂ =... = b _k = 0, т.е. об одновременном равенстве нулю всех коэффициентов, кроме коэффициента b₀при константе, используется статистика

F = = = , (24)

распределенная, если Н ₀верна, по закону Фишера с k и n - k - 1 степенями свободы. Н ₀отклоняется, если

F > F_a (k, n - k - 1), (25)

где F_a - квантиль уровня 1 - a.

Отбор наиболее существенных объясняющих переменных. Различные регрессии (с различным набором переменных) можно сравнивать по скорректированному коэффициенту детерминации (20): принять тот вариант регрессии, для которого максимален (подробнее см. в примере).

Пример [5]. Исследуется зависимость урожайности y зерновых культур (ц/га) от ряда факторов (переменных) сельскохозяйственного производства, а именно,

х ₁ - число тракторов на 100 га;

х ₂ - число зерноуборочных комбайнов на 100 га;

х ₃ - число орудий поверхностной обработки почвы на 100 га;

х ₄- количество удобрений, расходуемых на гектар (т/га);

х ₅ - количество химических средств защиты растений, расходуемых на гектар (ц/га).

Исходные данные для 20 районов области приведены в табл. 2.

Таблица 2

y	x ₁	x ₂	x ₃	x ₄	x ₅
9.7	1.59	.26	2.05	.32	.14
8.4	.34	.28	.46	.59	.66
9.0	2.53	.31	2.46	.30	.31
9.9	4.63	.40	6.44	.43	.59
9.6	2.16	.26	2.16	.39	.16
8.6	2.16	.30	2.69	.32	.17
12.5	.68	.29	.73	.42	.23
7.6	.35	.26	.42	.21	.08
6.9	.52	.24	.49	.20	.08
13.5	3.42	.31	3.02	1.37	.73
9.7	1.78	.30	3.19	.73	.17
10.7	2.40	.32	3.30	.25	.14
12.1	9.36	.40	11.51	.39	.38
9.7	1.72	.28	2.26	.82	.17
7.0	.59	.29	.60	.13	.35
7.2	.28	.26	.30	.09	.15
8.2	1.64	.29	1.44	.20	.08
8.4	.09	.22	.05	.43	.20
13.1	.08	.25	.03	.73	.20
8.7	1.36	.26	.17	.99	.42

Здесь мы располагаем выборкой объема n = 20; число независимых переменных (факторов) k = 5. Матрица Х должна содержать 6 столбцов размерности 20; первый столбец состоит из единиц, а столбцы со 2-го по 6-й представлены соответственно столбцами 3¸7 таблицы (файл Harvest 2. sta.). Специальный анализ (здесь не приводимый) технологии сбора исходных данных показал, что допущения (12а) могут быть приняты в качестве рабочей гипотезы, поэтому можем записать уравнения статистической связи между y_i и X_i = (x_i ₁, x_i ₂ ,..., x_i ₅ ), i = 1,..., n в виде (13).

⇐ Предыдущая 52 53 54 55 565758 59 60 61 Следующая ⇒

Дата публикования: 2014-11-03; Прочитано: 427 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!

studopedia.org - Студопедия.Орг - 2014-2026 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.035 с)...