![]() |
Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | |
|
Рассмотрим задачу: случайная величина является некоторой функцией
от случайных величин
. Произведены наблюдения
![]() | ![]() | … | ![]() |
![]() | ![]() | … | ![]() |
… | … | … | … |
![]() | ![]() | … | ![]() |
над случайными величинами и в результате по каждому наблюдению
получена реакция случайной величины
в виде
. Требуется найти вид зависимости
. (5.1)
Такая зависимость называется регрессией по (на)
, т.е. условное математическое ожидание
при известных значениях
. В этом случае величины
называются независимыми переменными [9] (объясняющими переменными [7] и т. д.), величины
называются зависимыми переменными. Возможна другая постановка задачи, когда величины
принимаются за независимые переменные, а величины
- за зависимые переменные. В этом случае необходимо определить зависимость
, (5.2)
которая называется регрессией по (на)
. Выбор типа переменной зависит от решаемой задачи и здравого смысла.
Если бы не было случайных ошибок в результате эксперимента, зависимость можно было бы построить точно. Но с учетом ошибки имеем
, (5.3)
где U - случайная величина, обусловленная или неправильным выбором функции , или ошибкой записи, или другими случайными явлениями. В дальнейшем будем эти зависимости описывать через их реализации
, (5.4)
где - регистрируемая величина,
- ожидаемая величина (функциональная зависимость).
Обычно ,
Наиболее простая зависимость - линейная функция относительно параметра
:
. (5.5)
Линейность понимается в том смысле, что коэффициенты входят в выражение для функции
в первой степени. Функции
считаются известными и выбираются самим экспериментатором на основе опыта и полученных данных.
Простейшая линейная модель: .
В этом случае уравнение регрессии примет вид
.
Более сложная модель: . В этом случае предполагается, что аргументы
отражают различные величины. Модель регрессии будет иметь вид
. (5.6)
Этот вид регрессионной зависимости часто встречается в экономических задачах, когда переменные являются различными экономическими показателями предприятия. В результате анализа работы предприятия получают таблицу значений
![]() | ![]() | … | ![]() |
![]() | ![]() | … | ![]() |
… | … | … | … |
![]() | ![]() | … | ![]() |
используемые в дальнейшем для определения коэффициентов регрессии .
Приведём другую модель регрессии, линейную относительно параметров , - степенную регрессию:
. (5.7)
На основе экспериментальных данных и
необходимо определить величины
. В качестве критерия выбора величины
во всех приведенных моделях берётся критерий минимума среднеквадратической ошибки (критерий минимума СКО):
. (5.8)
Наблюдения и зависимые переменные
удобно представить в виде таблицы
y1 | ![]() | ... | ![]() | |
y2 | ![]() | ... | ![]() | |
y3 | ![]() | ... | ![]() | |
![]() | ![]() | ![]() | ![]() | ![]() |
n | yn | ![]() | ... | ![]() |
За значения принимают те значения
, которые минимизируют форму (5.8). Произведем дифференцирование по
,
выражения (5.8) и приравняем его нулю. В результате имеем систему линейных уравнений относительно параметров
:
…………………………………………………………………
В свернутой форме эта система уравнений имеет вид
. (5.9)
Систему уравнений (5.9) в статистике называют системой нормальных уравнений и её можно представить в матричной форме.
Обозначим
. (5.10)
Тогда система (5.9) имеет вид
, (5.11)
.
Решением этой системы будет вектор оценки параметров
. (5.12)
В силу того, что наблюдения носят случайный характер, составляющие вектора будут случайными величинами с математическим ожиданием
и корреляционной матрицей
.
5.2 Анализ ошибок
1. Перепишем выражение в виде
(5.13)
На случайную величину накладываются условия:
случайные величины распределены по нормальному закону с математическими ожиданиями и ковариационными моментами, равными
(5.14)
2. На матрицу накладывается ограничение. Матрица
- невырожденная матрица, т.е. существует обратная матрица
. Это условие в свою очередь приводит к требованию: ранг матрицы
должен быть равен
. Из этого мы получаем ограничение на число экспериментов:
, т.е. число параметров должно быть меньше числа испытаний.
3. Функции и случайные величины
не коррелированы.
При выполнении этих условий оценки по методу наименьших квадратов (МНК) будут несмещенными, состоятельными и эффективными [2].
Как следствие, будем иметь
,
. (5.15)
Дисперсия составляющих вектора равна диагональным элементам матрицы
. Обычно дисперсия
неизвестна. Поэтому пользуются её оценкой.
Из выражения (5.13) имеем
, где
предсказание величины
по экспериментальным данным с помощью оценок
. Из выражения (5.12) можно получить
. Тогда оценка дисперсии шума будет равна
. (5.16)
Рассмотрим оценку дисперсии
, (5.17)
где ,
- результат измерений.
Выборочная дисперсия может быть представлена в виде суммы оценки дисперсии шума
и оценки дисперсии значений регрессии
. Распишем сумму в (5.17)
, (5.18)
где
.
Последний член в (5.18) можно представить как
. (5.19)
Как видно из (5.19) последний член в (5.18) представляет собой разность среднего значения произведения и среднего значения шума. В силу того, что
и
независимы при большом числе экспериментов, среднее значение произведения будет равно нулю. Так как
, то и среднее значение шума будет равно нулю. Отсюда следует, что последний член в (5.18) равен нулю. Запишем (5.17) в виде
(5.20)
или
, (5.21)
где,
,
. (5.22)
Ввиду того, что , оценка
будет иметь
степень свободы. При оценке дисперсии
используется
независимых объясняющих переменных
(модель (5.6)). Поэтому оценка дисперсии
имеет
степеней свободы (
). Число степеней свободы оценки дисперсии
равно разности
.
Дисперсия зависит от случайных неучтенных факторов во время эксперимента и называется остаточной дисперсией (или необъясненной дисперсией).
Дисперсия зависит от значений независимых переменных
и определяется также правильностью выбора функции
. Поэтому дисперсию
называют дисперсией, обусловленной регрессией, или объясненной регрессией [9]. Соотношение между дисперсиями
и
показывает, какой вклад в общую оценку дисперсии
вносит случайность и функциональная зависимость
. Чем больше
, тем теснее связь между переменными y и x. Мерой влияния переменной x на y выбрана функция
, (5.23)
показывающая долю участия независимой переменной x в формировании зависимой переменной и называется коэффициентом детерминации [9]. Из формулы (5.21) очевидно, что
(5.24)
Чем ближе к 1, тем «более точно» экспериментальные значения отражают суть исследуемого явления. При
соотношение между y и x будет строго линейным (
) в смысле формулы (5.5) относительно параметров
. Если
, т.е.
, то статистическая связь между переменными y и x отсутствует.
Относительное влияние случайностей на регрессию учитывается соотношением
(5.25)
Величина может служить мерой неопределенности при построении модели регрессии. Чем больше
, тем неопределеннее становится связь между y и x. Исходя из определений
и
, получим связь
. (5.26)
Формула (5.26) может быть применена для проверки правильности вычислений.
При вычислении оценок дисперсий использовался один и тот же множитель -
. В результате оценки
и
будут смещенными оценками. Введем коэффициент детерминации
,
вычисленный по несмещенным оценкам остаточной дисперсии и выборочной дисперсии. Коэффициент детерминации используется при сравнении двух линий регрессии с разным количеством объясняющих переменных
и
. Предпочтение отдается той линии регрессии, для которой коэффициент детерминации
больше [9].
5.3 Дисперсия оценок параметров регрессии
Оценки параметров регрессии являются случайными величинами. Средняя статистическая связь между оценками параметров регрессии описывается элементами ковариационной матрицы
, (5.27)
где - дисперсия оценки параметра
,
- ковариация (средняя статистическая связь) между центрированными оценками параметров регрессии
и
;
.
Матрица симметрическая по определению. Ковариационную матрицу можно записать как
, (5.28)
где - вектор, решение системы нормальных уравнений (5.19).
Матрица в (5.28) определена через усреднение по ансамблю и нет возможности найти все множество значений
. Но элементы матрицы
зависят от шума. Найдем элементы матрицы
как функцию дисперсии шума.
Теоретически связь между и
с учетом случайностей
определяется равенством
. (5.29)
Подставим значение в решение системы нормальных уравнений и получим
(5.30)
Подставим значение в матрицу
:
.
Но , где I - единичная матрица размерности
.
Учитывая это, получим
. (5.31)
Ввиду того, что дисперсия неизвестна, то вместо
используем её оценку
и получим
(5.32)
Дата публикования: 2015-03-26; Прочитано: 213 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!