Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Метод наименьших квадратов. Наиболее распространенным методом оценки параметров является метод наименьших квадратов (МНК), который при определенных условиях дает состоятельные



Наиболее распространенным методом оценки параметров является метод наименьших квадратов (МНК), который при определенных условиях дает состоятельные эффективные и несмещенные оценки. Данный метод используют для оценивания не только параметров регрессии, но и других статистических характеристик (параметров), например, среднего значения.

Суть МНК:

Пусть имеются n наблюдений признаков х и y. Причем известен вид уравнения регрессии: f(x, bj) (известен вид функции -f), bj - параметры функции. Задача состоит в оценке параметров (т.е. определении значений оценок - ), которые подбираются таким образом, чтобы минимизировать сумму квадратов отклонений фактических значений результативного признака - yi от расчетных (теоретических) значений –f(xi) (рассчитанных по уравнению регрессии):

.

Проиллюстрируем суть данного метода графически (рис.1). Попытаемся подобрать прямую линию, которая ближе всего расположена к точкам корреляционного поля. Согласно методу наименьших квадратов прямая подбирается так, чтобы сумма квадратов расстояний по вертикали между точками корреляционного поля и этой линией была бы минимальной.

y


f(xi)

yi

X

x i

Рис.1. Линия регрессии с минимальной суммой квадратов отклонений.

Значения yi и xi i=1;n нам известны, это данные наблюдений. В функции S они представляют собой константы. Переменными в данной функции являются искомые оценки параметров – и . Чтобы найти минимум функции 2-ух переменных необходимо вычислить частные производные данной функции по каждому из параметров и приравнять их нулю, т.е. .

В результате получим систему из 2-ух нормальных линейных уравнений:

Решая данную систему, найдем искомые оценки параметров.

 
 

Правильность расчета параметров уравнения регрессии может быть проверена сравнением сумм (возможно некоторое расхождение из-за округления расчетов).

Оценка параметра b1 может быть рассчитана также через коэффициент корреляции: . Знак коэффициента регрессии b1 указывает направление связи (если b1>0, связь прямая, если b1<0, то связь обратная). Величина b1 показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.

Формально значение параметра b0 – среднее значение признака-результата y при значении признака-фактора х равном нулю. Если признак-фактор не имеет и не может иметь нулевого значения, то вышеуказанная трактовка параметра b0 не имеет смысла. Данный параметр имеет также смысл среднего значения результата, сформировавшегося под влиянием неучтенных в модели факторов.

МНК-оценки параметров являются «наилучшими» (состоятельными, несмещенными и эффективными) оценками параметров уравнения регрессии.

ПРИМЕР. Построим аналитическую линию регрессии, описывающего зависимость объема продаж, (y) от численности населения в торговой зоне (х) по данным о 12 магазинах.

=5,55; = 31,67 -5,55·2,325=18,8.

Окончательно аналитическое уравнение регрессии примет вид:

f(xi)= 18,8+5,55·хi(*)

Параметр b1 =5,55 показывает, что при увеличении численности населения в торговой зоне на 1 тыс.человек, объем продаж возрастает в среднем на 5,55 тыс.ден. ед.

Параметр b0 = 18,8 не интерпретируется, т.к. среди исходных данных нет предприятий с численностью населения в торговой зоне равной ил близкой к 0.

Оценка качества уравнения регрессии.

Оценка качества уравнения осуществляется в два этапа:

1) Оценивается адекватность уравнения регрессии данным наблюдений (т.е. степень близости рассчитанных по данному уравнению значений признака-результата f(x) к фактическим значениям y).

2) Оценивается надежность уравнения регрессии (т.е. возможность использовать данное уравнение для данных наблюдений другой выборки).

Оценка адекватности уравнения регрессии

Для оценки адекватности качества полученного уравнения регрессии используется ряд показателей.

1) Наиболее широкое применение из них получил теоретический коэффициент детерминации – R2yx. Теоретический коэффициент детерминации рассчитывается, как отношение объясненной уравнением дисперсии признака-результата - d2, к общей дисперсии признака-результата s2y: ,

где d*2 – объясненная уравнением регрессии дисперсия y: ;

s2y - общая (полная) дисперсия y.

В силу теоремы о сложении дисперсий общая дисперсия результативного признака равна сумме объясненной уравнением регрессии (d*2) и остаточной (необъясненной) (e*2) дисперсий: s2y=d*2+e*2. Поэтому коэффициент детерминации может быть рассчитан через остаточную и общую дисперсии: ,

где e*2- остаточная дисперсия y: .

Данный показатель характеризует долю вариации (дисперсии) результативного признака y, объясняемую уравнением связи (а, следовательно, и фактором х), в общей вариации (дисперсии) y. Коэффициент детерминации R2yx принимает значения от 0 до 1. Соответственно величина 1-R2yx характеризует долю дисперсии y, вызванную влиянием прочих неучтенных в уравнении факторов и ошибками измерений.

! При парной линейной регрессии R2yx=r2yx.

2) Средняя квадратическая ошибка уравнения регрессии представляет собой среднее квадратическое отклонение наблюдаемых значений результативного признака от теоретических значений, рассчитанных по модели, т.е.: se= , где h=число параметров в модели регрессии. В случае линейной парной регрессии h=2 (b0, b1). Величину средней квадртической ошибки можно сравнить с средним квадратическим отклонением результативного признака sy. Если se окажется меньше sy, то использование модели регрессии является целесообразным.

3) Средняя ошибка аппроксимации: A= . Чем меньше рассеяние эмпирических точек вокруг теоретической линии регрессии, тем меньше средняя ошибка аппроксимации. Ошибка аппроксимации меньше 7% свидетельствует о хорошем качестве модели.

Выбор вида уравнения регрессии (вида функции) обычно осуществляется методом сравнения величины показателя адекватности, рассчитанного при разных видах зависимости. Если показатели адекватности оказываются примерно одинаковыми для нескольких функций, то предпочтение отдается более простым видам функций, ибо они в большей степени поддаются интерпретации и требуют меньшего объема наблюдений.

ПРИМЕР. Оценим качество уравнения регрессии для данных нашего примера:

1) R2yx=r2yx=0,92=0,81. Это означает, что 81% вариации объема продаж предприятия объясняется уравнением регрессии (*). То есть уравнение достаточно качесвтенное.

Для расчета средней квадратической ошибки уравнения регрессии и средней ошибки аппроксимации заполним таблицу:

i xi yi f(xi)= -5,55+18,8·xi (yi-f(xi))2 │yi-f(xi)│/yi
  1,7   28,235   0,086
  2,8   34,34   0,041
      35,45   0,074
      29,9   0,003
  3,3   37,115   0,023
      29,9   0,035
  2,5   32,675   0,066
  1,9   29,345   0,048
  2,1   30,455   0,048
  1,9   29,345   0,053
  3,1   36,005   0,000
  1,6   27,68   0,025
Сумма 27,9   380,4   0,504

Se=[27,6/(12-2)]0,5=1 ,66. Величина средней квадратической ошибки меньше среднего квадратического отклонения признака-результата (sy=3,47), следовательно уравнение качественное.

A=100·[0,504/12]=4,2 %. Так как средняя ошибка аппроксимации меньше 7%, это свидетельствует о хорошем качестве уравнения регрессии.

Оценка надежности уравнения регрессии.

Предполагается, что мы имеем дело с выборкой, т.е. данные наших наблюдений неполные. При переходе от одной выборке наблюдений к другой значения оценок параметров и признака-результата будут меняться. Насколько сильна вариация этих оценок? Если вариация умеренная, то уравнение регрессии, полученное по данным конкретных наблюдений, можно использовать и для генеральной совокупности, т.е. уравнение надежно.

Для проверки гипотезы о надежности уравнения регрессии используют статистику, рассчитываемую по следующей формуле: , где n -число наблюдений; h – число оцениваемых параметров (в случае парной линейной регрессии h =2), R2y(x1,...,xm) - выборочный коэффициент детерминации.

Данная статистика имеет F -распределение (Фишера-Снедоккора). Поэтому для поиска критического значения - Fкр пользуются таблицами распределения Фишера-Снедоккора, задаваясь при этом уровнем значимости a (обычно его берут равным 0,05) и двумя числами степеней свободы k 1= h -1 и k 2= n-h.

Сравнивая фактическое значение F -статистики критерия, вычисленное по данным наблюдений - (F набл) с критическим - F кр(a; k 1; k 2). Если F набл< F кр(a; k 1; k 2), то основную гипотезу о незначимости уравнения регрессии не отвергают. Если F набл> F кр(a; k 1; k2), то основную гипотезу отвергают и принимают альтернативную гипотезу о статистической значимости уравнения регрессии. Для уверенных выводов отличие наблюдаемого и критического значений F-критерия должно быть по крайней мере в 4 раза.

ПРИМЕР. Оценим надежность уравнения регрессии для примера, рассмотренного выше.

Для этого рассчитаем наблюдаемое значение F-статистики:

=42,6.

По таблицам Фишера найдем критическое значение: Fкр(0,05; 1;10)=4,96.

Так как Fнабл>Fкр, то уравнение f(xi)= -5,55+18,8·xi можно признать значимым и надежным с вероятностью 0,95.

Контрольные вопросы.

1. Какие виды связей принято выделять в статистике.

2. Опишите порядок изучения парной статистической связи.

3. Какие показатели используют для измерения тесноты связи в статистике





Дата публикования: 2015-01-09; Прочитано: 434 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.009 с)...