Главная \| Случайная страница \| Контакты \| Мы поможем в написании вашей работы!

Метод наименьших квадратов

⇐ Предыдущая 1 2 345 6 7 8 9 Следующая ⇒

В модели парной регрессии результативной переменной у от факторной переменной х неизвестными являются коэффициенты β₀ и β₁. Существуют определенные методы оценки неизвестных коэффициентов модели парной регрессии.

Метод наименьших квадратов (МНК), при котором рассчитывается сумма квадратов отклонений наблюдаемых значений результативной переменной у от теоретических значений , рассчитанных на основании функции регрессии f(х). Для определения оптимальных значений неизвестных коэффициентов β₀...β_n функционал F минимизируется по данным параметрам:

т.е. рассчитываются такие коэффициенты β₀..β_n, при которых сумма квадратов отклонений наблюдаемых значений результативной переменной у от теоретических значений была бы минимальной.

Достоинства МНК - сведение всех вычислительных процедур к простому вычислению неизвестных коэффициентов; доступность математических выводов.

Недостаток МНК - чувствительность оценок к резким выбросам, встречающимся в исходных данных. МНК является наиболее распространенным методом оценки неизвестных коэффициентов модели парной регрессии.

Классический метод наименьших квадратов для модели парной регрессии.

Предположим, что между результативной переменной х и факторной переменной у существует линейная связь, которая описывается равенством:

y_i = b₀ + b₁x_i. (1)

Суть метода наименьших квадратов состоит в том, что нужно рассчитать такие значения коэффициентов b₀ и b₁, которые минимизировали бы сумму квадратов отклонений наблюдаемых значений результативной переменной у от теоретических значений , т.е. доставляли минимум функции (1):

(2)

Значения результативной (у) и факторной (х) переменных известны из наблюдений. Следовательно, при минимизации функции (1) неизвестными являются только значения коэффициентов модели регрессии b₀ и b₁.

Для определения минимума функции двух переменных рассчитываются частные производные этой функции по каждому из оцениваемых параметров и приравниваются к нулю.

Полученная система уравнений называется стационарной системой уравнений для функции (1).

В результате преобразование стационарной системы уравнений получим систему двух нормальных линейных уравнений:

Решением системы нормальных уравнений являются оценки неизвестных коэффициентов модели парной регрессии:

где ` у - среднее значение результативной переменной; ` х - среднее значение факторной переменной; - среднее арифметическое значение произведения результативной и факторной переменных; S²_x - дисперсия факторной переменной; соv(х, у) - ковариация между результативной и факторной переменными.

Модель парной регрессии может быть записана в следующем виде:

где у - значение результативной переменной; х - значение факторной переменной; ` у - среднее значение результативной переменной, рассчитанное по выборочным данным.

Среднее арифметическое значение переменной:

у_i (i = 1, 2,... n) - значение результативной переменной;

n - объём выборочной совокупности; ` х - среднее значение факторной переменной, рассчитанное по выборочным данным.

С арифметическое значение переменной:

b_yx= b₁ - выборочный коэффициент регрессии у по х:

где S_y - выборочное среднеквадратическое отклонение результативной переменной y:

;

S_x - выборочное среднеквадратическое отклонение факторной переменной х:

Выборочный коэффициент регрессии b_yx показывает, насколько в среднем изменится результативная переменная у при изменении факторной переменной х на единицу своего измерения.

r_yx - выборочный парный коэффициент корреляции:

Выборочный парный коэффициент корреляции характеризует тесноту связи между изучаемыми переменными.

Можно выделить несколько особенностей парного корреляционного коэффициента:

1) коэффициент изменяется в пределах [-1; +1]. Если r_yx Î [0; +1], то связь между переменными прямая. Если r_yx Î [-1;0], то связь между переменными обратная. Если r_yx = 0, то линейная связь между переменными отсутствует. Если r_yx = 1 или r_yx = -1, то связь между изучаемыми переменными функциональная, т.е. характеризуется полным соответствием между х и у.

При таком значении парного коэффициента корреляции регрессионный анализ между изучаемыми переменными не проводится;

2) `` ху - среднее арифметическое значение произведения результативной и факторной переменных.

Несмещённая оценка дисперсии случайной ошибки линейной модели парной регрессии рассчитывается по формуле:

где n - объём выборочной совокупности; e_i - остатки модели регрессии:

e_i = y_i - = y_i – b₀ – b₁ x_i.

Несмещённая оценка дисперсии случайной ошибки для линейной модели множественной регрессии рассчитывается по формуле:

где к - число оцениваемых коэффициентов модели регрессии.

Оценка дисперсии случайной ошибки модели регрессии распределена по c² - закону распределения с (n - к - 1) степенями свободы.

Предположим, что МНК-оценка любого коэффициента модели регрессии состоит из:

1) истинного значение коэффициента, т.е. константы;

2) случайной ошибки соv(х,e), вызывающей вариацию коэффициента регрессии.

Свойства ковариации:

1) соv (х, А) = 0, где А = соnst, т.е. ковариация между переменной х и какой-либо константой А равна нулю;

2) соv (x, x) = S ²(x) т.е. ковариация переменной х с самой собой равна дисперсии этой переменной.

Состоятельность и несмещённость МНК-оценок.

Для того чтобы МНК-оценку принять за оценку параметра необходимо и достаточно, чтобы оценка удовлетворяла трём статистическим свойствам: несмещённости, состоятельности и эффективности.

1. называется несмещённой оценкой для параметра , если её выборочное математическое ожидание равно оцениваемому параметру генеральной совокупности, т.е. Е () = . При этом:

Е () - = φ_i.

где φ_i - смещение оценки.

2. является состоятельной оценкой для параметра , если она удовлетворяет закону больших чисел. Суть закона больших чисел состоит в том, что с увеличением выборки значение оценки стремится к значению параметра генеральной совокупности P(| - | < θ)→1 при n→¥.

3. Эффективность МНК-оценок доказывается с помощью теоремы Гаусса-Маркова.

Нормальная или классическая линейная модель парной регрессии строится на основании следующих условий:

1) переменная x_i - неслучайная (детерминированная) величина, не зависящая от распределения случайной ошибки модели регрессии e_i;

2) Е (e_i) = 0, где i = 1, 2, …, n, т.е. математическое ожидание случайной ошибки модели регрессии Е(e_i) равно нулю во всех наблюдениях;

3) D (e_i) = Е (e_i²) = σ² = const, т.е. дисперсия случайной ошибки модели регрессии D (e_i) постоянна для всех наблюдений;

4) соv (e_i, e_j) = Е(e_ie_j) = 0, где i ≠ j, т/е. случайные ошибки модели регрессии не коррелируют между собой. Это условие не выполняется для временных рядов;

5) e_i ~ N(0, σ²), т.е. случайная ошибка модели регрессии - случайная величина, подчиняющаяся нормальному закону распределения с нулевым математическим ожиданием и дисперсией σ².

Теорема Гаусса-Маркова. При выполнении перечисленных пяти условий оценки неизвестных коэффициентов модели регрессии, полученные классическим методом наименьших квадратов, имеют наименьшую дисперсию в классе всех линейных несмещённых оценок.

Можно сделать вывод, что оценки коэффициентов модели регрессии, полученные классическим методом наименьших квадратов, являются оптимальными оценками, т.е. несмещенными, состоятельными и эффективными.

⇐ Предыдущая 1 2 345 6 7 8 9 Следующая ⇒

Дата публикования: 2014-11-02; Прочитано: 4509 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!

studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.01 с)...