Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Модель регрессии 1 страница



Рассмотрим задачу: случайная величина является некоторой функцией от случайных величин . Произведены наблюдения

, , ,
, , ,
, , ,

над случайными величинами и в результате по каждому наблюдению получена реакция случайной величины в виде . Требуется найти вид зависимости

. (5.1)

Такая зависимость называется регрессией по (на) , т.е. условное математическое ожидание при известных значениях . В этом случае величины называются независимыми переменными [9] (объясняющими переменными [7] и т. д.), величины называются зависимыми переменными. Возможна другая постановка задачи, когда величины принимаются за независимые переменные, а величины - за зависимые переменные. В этом случае необходимо определить зависимость

, (5.2)

которая называется регрессией по (на) . Выбор типа переменной зависит от решаемой задачи и здравого смысла.

Если бы не было случайных ошибок в результате эксперимента, зависимость можно было бы построить точно. Но с учетом ошибки имеем

, (5.3)

где U - случайная величина, обусловленная или неправильным выбором функции , или ошибкой записи, или другими случайными явлениями. В дальнейшем будем эти зависимости описывать через их реализации

, (5.4)

где - регистрируемая величина,

- ожидаемая величина (функциональная зависимость).

Обычно ,

Наиболее простая зависимость - линейная функция относительно параметра :

. (5.5)

Линейность понимается в том смысле, что коэффициенты входят в выражение для функции в первой степени. Функции считаются известными и выбираются самим экспериментатором на основе опыта и полученных данных.

Простейшая линейная модель: .

В этом случае уравнение регрессии примет вид

.

Более сложная модель: . В этом случае предполагается, что аргументы отражают различные величины. Модель регрессии будет иметь вид

. (5.6)

Этот вид регрессионной зависимости часто встречается в экономических задачах, когда переменные являются различными экономическими показателями предприятия. В результате анализа работы предприятия получают таблицу значений

, , ,
, , ,
, , ,

используемые в дальнейшем для определения коэффициентов регрессии .

Приведём другую модель регрессии, линейную относительно параметров , - степенную регрессию:

. (5.7)

На основе экспериментальных данных и необходимо определить величины . В качестве критерия выбора величины во всех приведенных моделях берётся критерий минимума среднеквадратической ошибки (критерий минимума СКО):

. (5.8)

Наблюдения и зависимые переменные удобно представить в виде таблицы

  y1 ...
  y2 ...
  y3 ...
n yn ...

За значения принимают те значения , которые минимизируют форму (5.8). Произведем дифференцирование по , выражения (5.8) и приравняем его нулю. В результате имеем систему линейных уравнений относительно параметров :

…………………………………………………………………

В свернутой форме эта система уравнений имеет вид

. (5.9)

Систему уравнений (5.9) в статистике называют системой нормальных уравнений и её можно представить в матричной форме.

Обозначим

. (5.10)

Тогда система (5.9) имеет вид

, (5.11)

.

Решением этой системы будет вектор оценки параметров

. (5.12)

В силу того, что наблюдения носят случайный характер, составляющие вектора будут случайными величинами с математическим ожиданием и корреляционной матрицей .

5.2 Анализ ошибок

1. Перепишем выражение в виде

(5.13)

На случайную величину накладываются условия:

случайные величины распределены по нормальному закону с математическими ожиданиями и ковариационными моментами, равными

(5.14)

2. На матрицу накладывается ограничение. Матрица - невырожденная матрица, т.е. существует обратная матрица . Это условие в свою очередь приводит к требованию: ранг матрицы должен быть равен . Из этого мы получаем ограничение на число экспериментов: , т.е. число параметров должно быть меньше числа испытаний.

3. Функции и случайные величины не коррелированы.

При выполнении этих условий оценки по методу наименьших квадратов (МНК) будут несмещенными, состоятельными и эффективными [2].

Как следствие, будем иметь

, . (5.15)

Дисперсия составляющих вектора равна диагональным элементам матрицы . Обычно дисперсия неизвестна. Поэтому пользуются её оценкой.

Из выражения (5.13) имеем , где предсказание величины по экспериментальным данным с помощью оценок . Из выражения (5.12) можно получить . Тогда оценка дисперсии шума будет равна

. (5.16)

Рассмотрим оценку дисперсии

, (5.17)

где , - результат измерений.

Выборочная дисперсия может быть представлена в виде суммы оценки дисперсии шума и оценки дисперсии значений регрессии . Распишем сумму в (5.17)

, (5.18)

где

.

Последний член в (5.18) можно представить как

. (5.19)

Как видно из (5.19) последний член в (5.18) представляет собой разность среднего значения произведения и среднего значения шума. В силу того, что и независимы при большом числе экспериментов, среднее значение произведения будет равно нулю. Так как , то и среднее значение шума будет равно нулю. Отсюда следует, что последний член в (5.18) равен нулю. Запишем (5.17) в виде

(5.20)

или

, (5.21)

где, ,

. (5.22)

Ввиду того, что , оценка будет иметь степень свободы. При оценке дисперсии используется независимых объясняющих переменных (модель (5.6)). Поэтому оценка дисперсии имеет степеней свободы (). Число степеней свободы оценки дисперсии равно разности .

Дисперсия зависит от случайных неучтенных факторов во время эксперимента и называется остаточной дисперсией (или необъясненной дисперсией).

Дисперсия зависит от значений независимых переменных и определяется также правильностью выбора функции . Поэтому дисперсию называют дисперсией, обусловленной регрессией, или объясненной регрессией [9]. Соотношение между дисперсиями и показывает, какой вклад в общую оценку дисперсии вносит случайность и функциональная зависимость . Чем больше , тем теснее связь между переменными y и x. Мерой влияния переменной x на y выбрана функция

, (5.23)

показывающая долю участия независимой переменной x в формировании зависимой переменной и называется коэффициентом детерминации [9]. Из формулы (5.21) очевидно, что

(5.24)

Чем ближе к 1, тем «более точно» экспериментальные значения отражают суть исследуемого явления. При соотношение между y и x будет строго линейным () в смысле формулы (5.5) относительно параметров . Если , т.е. , то статистическая связь между переменными y и x отсутствует.

Относительное влияние случайностей на регрессию учитывается соотношением

(5.25)

Величина может служить мерой неопределенности при построении модели регрессии. Чем больше , тем неопределеннее становится связь между y и x. Исходя из определений и , получим связь

. (5.26)

Формула (5.26) может быть применена для проверки правильности вычислений.

При вычислении оценок дисперсий использовался один и тот же множитель - . В результате оценки и будут смещенными оценками. Введем коэффициент детерминации

,

вычисленный по несмещенным оценкам остаточной дисперсии и выборочной дисперсии. Коэффициент детерминации используется при сравнении двух линий регрессии с разным количеством объясняющих переменных и . Предпочтение отдается той линии регрессии, для которой коэффициент детерминации больше [9].

5.3 Дисперсия оценок параметров регрессии

Оценки параметров регрессии являются случайными величинами. Средняя статистическая связь между оценками параметров регрессии описывается элементами ковариационной матрицы

, (5.27)

где - дисперсия оценки параметра , - ковариация (средняя статистическая связь) между центрированными оценками параметров регрессии и ; .

Матрица симметрическая по определению. Ковариационную матрицу можно записать как

, (5.28)

где - вектор, решение системы нормальных уравнений (5.19).

Матрица в (5.28) определена через усреднение по ансамблю и нет возможности найти все множество значений . Но элементы матрицы зависят от шума. Найдем элементы матрицы как функцию дисперсии шума.

Теоретически связь между и с учетом случайностей определяется равенством

. (5.29)

Подставим значение в решение системы нормальных уравнений и получим

(5.30)

Подставим значение в матрицу :

.

Но , где I - единичная матрица размерности .

Учитывая это, получим

. (5.31)

Ввиду того, что дисперсия неизвестна, то вместо используем её оценку и получим

(5.32)





Дата публикования: 2015-03-26; Прочитано: 212 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.02 с)...