Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Рассмотрим задачу: случайная величина является некоторой функцией от случайных величин . Произведены наблюдения
, | , | … | , |
, | , | … | , |
… | … | … | … |
, | , | … | , |
над случайными величинами и в результате по каждому наблюдению получена реакция случайной величины в виде . Требуется найти вид зависимости
. (5.1)
Такая зависимость называется регрессией по (на) , т.е. условное математическое ожидание при известных значениях . В этом случае величины называются независимыми переменными [9] (объясняющими переменными [7] и т. д.), величины называются зависимыми переменными. Возможна другая постановка задачи, когда величины принимаются за независимые переменные, а величины - за зависимые переменные. В этом случае необходимо определить зависимость
, (5.2)
которая называется регрессией по (на) . Выбор типа переменной зависит от решаемой задачи и здравого смысла.
Если бы не было случайных ошибок в результате эксперимента, зависимость можно было бы построить точно. Но с учетом ошибки имеем
, (5.3)
где U - случайная величина, обусловленная или неправильным выбором функции , или ошибкой записи, или другими случайными явлениями. В дальнейшем будем эти зависимости описывать через их реализации
, (5.4)
где - регистрируемая величина,
- ожидаемая величина (функциональная зависимость).
Обычно ,
Наиболее простая зависимость - линейная функция относительно параметра :
. (5.5)
Линейность понимается в том смысле, что коэффициенты входят в выражение для функции в первой степени. Функции считаются известными и выбираются самим экспериментатором на основе опыта и полученных данных.
Простейшая линейная модель: .
В этом случае уравнение регрессии примет вид
.
Более сложная модель: . В этом случае предполагается, что аргументы отражают различные величины. Модель регрессии будет иметь вид
. (5.6)
Этот вид регрессионной зависимости часто встречается в экономических задачах, когда переменные являются различными экономическими показателями предприятия. В результате анализа работы предприятия получают таблицу значений
, | , | … | , |
, | , | … | , |
… | … | … | … |
, | , | … | , |
используемые в дальнейшем для определения коэффициентов регрессии .
Приведём другую модель регрессии, линейную относительно параметров , - степенную регрессию:
. (5.7)
На основе экспериментальных данных и необходимо определить величины . В качестве критерия выбора величины во всех приведенных моделях берётся критерий минимума среднеквадратической ошибки (критерий минимума СКО):
. (5.8)
Наблюдения и зависимые переменные удобно представить в виде таблицы
y1 | ... | |||
y2 | ... | |||
y3 | ... | |||
n | yn | ... |
За значения принимают те значения , которые минимизируют форму (5.8). Произведем дифференцирование по , выражения (5.8) и приравняем его нулю. В результате имеем систему линейных уравнений относительно параметров :
…………………………………………………………………
В свернутой форме эта система уравнений имеет вид
. (5.9)
Систему уравнений (5.9) в статистике называют системой нормальных уравнений и её можно представить в матричной форме.
Обозначим
. (5.10)
Тогда система (5.9) имеет вид
, (5.11)
.
Решением этой системы будет вектор оценки параметров
. (5.12)
В силу того, что наблюдения носят случайный характер, составляющие вектора будут случайными величинами с математическим ожиданием и корреляционной матрицей .
5.2 Анализ ошибок
1. Перепишем выражение в виде
(5.13)
На случайную величину накладываются условия:
случайные величины распределены по нормальному закону с математическими ожиданиями и ковариационными моментами, равными
(5.14)
2. На матрицу накладывается ограничение. Матрица - невырожденная матрица, т.е. существует обратная матрица . Это условие в свою очередь приводит к требованию: ранг матрицы должен быть равен . Из этого мы получаем ограничение на число экспериментов: , т.е. число параметров должно быть меньше числа испытаний.
3. Функции и случайные величины не коррелированы.
При выполнении этих условий оценки по методу наименьших квадратов (МНК) будут несмещенными, состоятельными и эффективными [2].
Как следствие, будем иметь
, . (5.15)
Дисперсия составляющих вектора равна диагональным элементам матрицы . Обычно дисперсия неизвестна. Поэтому пользуются её оценкой.
Из выражения (5.13) имеем , где предсказание величины по экспериментальным данным с помощью оценок . Из выражения (5.12) можно получить . Тогда оценка дисперсии шума будет равна
. (5.16)
Рассмотрим оценку дисперсии
, (5.17)
где , - результат измерений.
Выборочная дисперсия может быть представлена в виде суммы оценки дисперсии шума и оценки дисперсии значений регрессии . Распишем сумму в (5.17)
, (5.18)
где
.
Последний член в (5.18) можно представить как
. (5.19)
Как видно из (5.19) последний член в (5.18) представляет собой разность среднего значения произведения и среднего значения шума. В силу того, что и независимы при большом числе экспериментов, среднее значение произведения будет равно нулю. Так как , то и среднее значение шума будет равно нулю. Отсюда следует, что последний член в (5.18) равен нулю. Запишем (5.17) в виде
(5.20)
или
, (5.21)
где, ,
. (5.22)
Ввиду того, что , оценка будет иметь степень свободы. При оценке дисперсии используется независимых объясняющих переменных (модель (5.6)). Поэтому оценка дисперсии имеет степеней свободы (). Число степеней свободы оценки дисперсии равно разности .
Дисперсия зависит от случайных неучтенных факторов во время эксперимента и называется остаточной дисперсией (или необъясненной дисперсией).
Дисперсия зависит от значений независимых переменных и определяется также правильностью выбора функции . Поэтому дисперсию называют дисперсией, обусловленной регрессией, или объясненной регрессией [9]. Соотношение между дисперсиями и показывает, какой вклад в общую оценку дисперсии вносит случайность и функциональная зависимость . Чем больше , тем теснее связь между переменными y и x. Мерой влияния переменной x на y выбрана функция
, (5.23)
показывающая долю участия независимой переменной x в формировании зависимой переменной и называется коэффициентом детерминации [9]. Из формулы (5.21) очевидно, что
(5.24)
Чем ближе к 1, тем «более точно» экспериментальные значения отражают суть исследуемого явления. При соотношение между y и x будет строго линейным () в смысле формулы (5.5) относительно параметров . Если , т.е. , то статистическая связь между переменными y и x отсутствует.
Относительное влияние случайностей на регрессию учитывается соотношением
(5.25)
Величина может служить мерой неопределенности при построении модели регрессии. Чем больше , тем неопределеннее становится связь между y и x. Исходя из определений и , получим связь
. (5.26)
Формула (5.26) может быть применена для проверки правильности вычислений.
При вычислении оценок дисперсий использовался один и тот же множитель - . В результате оценки и будут смещенными оценками. Введем коэффициент детерминации
,
вычисленный по несмещенным оценкам остаточной дисперсии и выборочной дисперсии. Коэффициент детерминации используется при сравнении двух линий регрессии с разным количеством объясняющих переменных и . Предпочтение отдается той линии регрессии, для которой коэффициент детерминации больше [9].
5.3 Дисперсия оценок параметров регрессии
Оценки параметров регрессии являются случайными величинами. Средняя статистическая связь между оценками параметров регрессии описывается элементами ковариационной матрицы
, (5.27)
где - дисперсия оценки параметра , - ковариация (средняя статистическая связь) между центрированными оценками параметров регрессии и ; .
Матрица симметрическая по определению. Ковариационную матрицу можно записать как
, (5.28)
где - вектор, решение системы нормальных уравнений (5.19).
Матрица в (5.28) определена через усреднение по ансамблю и нет возможности найти все множество значений . Но элементы матрицы зависят от шума. Найдем элементы матрицы как функцию дисперсии шума.
Теоретически связь между и с учетом случайностей определяется равенством
. (5.29)
Подставим значение в решение системы нормальных уравнений и получим
(5.30)
Подставим значение в матрицу :
.
Но , где I - единичная матрица размерности .
Учитывая это, получим
. (5.31)
Ввиду того, что дисперсия неизвестна, то вместо используем её оценку и получим
(5.32)
Дата публикования: 2015-03-26; Прочитано: 212 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!