Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Линейная регрессия от одного параметра



Пусть из опытов получена выборка точек (xi, yi) объемом n. Найдем методом наименьших квадратов коэффициенты линейного уравнения регрессии

. (8.1)

Система нормальных уравнений уравнений (7.43) с учетом того, что

,

принимает вид

,

, (8.2)

или после преобразования

,

. (8.3)

Решив систему уравнений, получим

, (8.4)

. (8.5)

Из системы уравнений (8.3) видно, что между коэффициентами b 0 и b 1 существует корреляционная зависимость, выражение для которой можно получить, например, из первого уравнения системы:

. (8.6)

Выборочный коэффициент корреляции с учетом (8.5) равен

(8.7)

и оценивает силу линейной связи между Y и Х.

8.2. Регрессионный анализ

Итак, уравнение линейной регрессии определено. Проведем статистический анализ полученных результатов, заключающийся в оценке значимости коэффициентов регрессии и проверки адекватности полученного уравнения экспериментальным данным. Подобный анализ и называется регрессионным.

Примем, что

1) входной параметр х измеряется с гораздо большей точностью по сравнению с выходной величиной y;

2) значения yi получены независимым образом и нормально распределены;

3) если при каждом заданном значении хi проводится серия параллельных опытов, то выборочные дисперсии однородны.


8.2.1. Проверка адекватности приближенного уравнения

регрессии эксперименту

Рассмотрим три наиболее часто встречающихся варианта проверки адекватности полученного уравнения регрессии.

1. Пусть при каждом значении хi проведена серия из m параллельных опытов. Тогда дисперсия воспроизводимости с числом степеней свободы f воспр. = n (m – 1) равна

. (8.8)

Дисперсия адекватности определяется формулой

, (8.9)

где l — число коэффициентов в уравнении регрессии (при линейной регреcсии l = 2),

. (8.10)

Число степеней свободы дисперсии адекватности равно f ад. = nl.

Адекватность уравнения проверяется по критерию Фишера

. (8.11)

Если вычисленное значение F окажется меньше табличной величины F 1‑ p (f 1, f 2) для уровня значимости р и числа степеней свободы f 1 = f ад. и f 2 = f воспр., то уравнение адекватно эксперименту.

2. Основная серия опытов проведена без параллельных, а дисперсия воспроизводимости определена в отдельной серии из m опытов, тогда

, (8.12)

. (8.13)

Адекватность уравнения проверяется по критерию Фишера (8.11), при этом f 2 = f воспр. = m – 1.

3. Основная серия опытов выполнена без параллельных, и нет данных для расчета дисперсии воспроизводимости. Тогда по критерию Фишера сравнивается дисперсия адекватности и дисперсия относительно среднего

, (8.14)

где

. (8.15)

Чем больше полученное F превышает табличное F 1‑ p (f 1, f 2) для уровня значимости р и чисел степеней свободы f 1 = n – 1 и f 2 = nl, тем эффективнее уравнение регрессии.

8.2.2. Оценка значимости коэффициентов

уравнения регрессии

Значимость коэффициентов уравнения регрессии оценивается по критерию Стъюдента

, (8.16)

где bjj -й коэффициент уравнения регрессии; s (bj) — среднее квадратичное отклонение j -го коэффициента. Если tj больше табличной величины t 1- p /2 для выбранного уровня значимости р и числа степеней свободы f дисперсии j -го коэффициента, то коэффициент bj значимо отличается от нуля.

В случае линейной регрессии средние квадратичные отклонения коэффициентов рассчитываются следующим образом:

, (8.17)

, (8.18)

где дисперсия s 2 в общем случае определяется как

. (8.19)

Число степеней свободы средневзвешенной дисперсии s 2 равно

.

Дисперсии воспроизводимости и адекватности рассчитываются по формулам (8.8) и (8.9) или (8.12) и (8.13). Если у экспериментатора нет оснований сомневаться в линейном характере изучаемой зависимости и опыты проведены без параллельных (т. е. m = 1), то и f = f ад. = nl. Дисперсия адекватности в этом случае определяется по формуле (8.12).

Для оценки случайных ошибок в определении коэффициентов приближенного уравнения регрессии можно также воспользоваться критерием Стъюдента. Рассмотрим величину

, (8.20)

где b0 — истинное значение коэффициента b 0. Произведя выкладки, аналогичные представленным в лекции 4, получим

, (8.21)

или

, (8.22)

где t 1- p /2 — квантиль t -распределения для числа степеней свободы f и выбранного уровня значимости р.

Аналогично можно построить доверительный интервал для коэффициента b 1:

, (8.23)

. (8.24)

С учетом (8.22) и (8.24), уравнение регрессии принимает следующий вид:

.

8.2.3. Оценка доверительного интервала

для искомой функции

На практике нередко возникает необходимость в оценке точек, резко выделяющихся из общей линейной закономерности. Подобную оценку легко произвести, построив доверительный интервал («коридор ошибок») искомой функции. Под «коридором ошибок» понимают границы, отсчитываемые по обе стороны от полученной прямой и показывающие пределы, в которых должны лежать экспериментальные точки. Точки, лежащие за пределами этого коридора, следует признать ошибочными и исключить из общей выборки.

Воспользуемся критерием Стъюдента и рассмотрим величину

, (8.25)

где my / x — условное математическое ожидание Y при заданном Х; — выборочное среднеквадратичное отклонение, соответствующее выборочной дисперсии

(8.26)

с числом степеней свободы f = nm – 2, если среднеквадратичные отклонения коэффициентов рассчитываются на основе средневзвешенной дисперсии s 2, определяемой по формуле (8.19), и f = n – 2, если . Тогда границы коридора ошибок для произвольного значения аргумента x определяются следующим выражением:

, (8.27)

где t 1- p /2 — квантиль t -распределения для числа степеней свободы f и выбранного уровня значимости р (обычно 0,05).

Процедура выделения из общей совокупности точек, содержащих грубые ошибки, заключается в следующем. Вначале методом наименьших квадратов обрабатываются все полученные экспериментальные данные, не выбрасывая ни одной точки. Далее по формуле (8.27) для каждой ординаты (для каждого заданного значения х) определяется доверительный интервал при выбранной доверительной вероятности. Если оказывается, что одна или несколько точек при этом выпадают из рассчитанных для них интервалов и величина отклонения превышает систематическую погрешность измерения, то их следует признать ошибочными и исключить из рассмотрения. Затем весь расчет коэффициентов, их случайных ошибок и коридора ошибок повторяется заново.

8.3. Оценка тесноты нелинейной связи

Если уравнение регрессии получено с достаточной точностью, то силу стохастической связи между величинами Y и Х можно охарактеризовать величиной

. (8.28)

Дисперсия адекватности (остаточная дисперсия) и дисперсия относительно среднего рассчитываются по формулам (8.12) и (8.15) соответственно. Связь тем сильнее, чем меньше g. Величина

(8.29)

называется корреляционным отношением, для которого справедливо

. (8.30)

Чем больше Q, тем сильнее связь.

В общем случае анализ силы связи по корреляционному отношению называют корреляционным анализом. Функциональная зависимость между случайными величинами существует, если Q = 1. Однако при Q = 0 однозначно говорить об отсутствии связи можно только в случае нормального распределения случайных величин.

При линейной регрессии корреляционное отношение равно коэффициенту корреляции:

. (8.31)

8.4. Аппроксимация. Параболическая регрессия

В общем случае при описании функциональной зависимости между двумя случайными величинами используют полиномы некоторой степени, коэффициенты которых могут и не иметь определенного физического смысла. Такая операция называется аппроксимацией экспериментальных данных. Полученная эмпирическая формула обычно справедлива только для сравнительно узкого интервала измерений и неприменима вне этого интервала. При использовании метода наименьших квадратов коэффициенты приближенного уравнения регрессии определяются решением системы линейных уравнений.

Допустим, что зависимость между величинами Х и Y описывается параболой второго порядка

. (8.32)

Тогда

, (8.33)

и система нормальных уравнений (7.43) принимает вид

,

, (8.34)

.

Решая систему (8.34), находят коэффициенты искомой квадратичной функции. При описании функциональных зависимостей полиномами большей степени коэффициенты определяются из аналогичных по структуре систем уравнений.

На практике адекватности уравнения регрессии эксперименту добиваются повышением степени аппроксимирующего полинома. При использовании полинома k ‑степени требуется определять k + 1 коэффициент. Увеличение степени полинома прекращают, если дисперсия адекватности (остаточная дисперсия) уравнения регрессии k + 1 степени () перестает быть значимо меньше дисперсии адекватности, вычисленной для полинома k -степени (). Значимость различия исследуется по критерию Фишера

,

где

, . (8.35)

Если полученное F меньше табличного F 1- p (f 1, f 2) для уровня значимости р и чисел степеней свободы f 1 = f k = nk – 1 и f 2 = f k+1 = nk – 2, то увеличение степени полинома нужно прекратить и в качестве приближенного уравнения регрессии использовать полином k -степени.

8.5. Приведение некоторых функциональных зависимостей

к линейному виду

При малых объемах выборки увеличение порядка полинома может иногда приводить к росту остаточной дисперсии. Чтобы избежать этого, при решении многих задач производят замену переменных. Например, зависимости типа

или (8.36)

сводятся к линейным следующим образом:

, (8.37)

. (8.38)

Коэффициенты уравнений (8.37) и (8.38) находятся методом наименьших квадратов.

Рассмотрим некоторые наиболее часто встречающиеся случаи линеаризации зависимостей при обработке результатов физико-химичес-ких экспериментов.

1. Температурная зависимость контанты равновесия реакции для небольшого интервала температур имеет вид

, (8.39)

где D S и D Н — энтропия и энтальпия реакции. Непосредственно измеряемыми величинами являются константа равновесия K и температура T. Произведем замену переменных:

, где .

Коэффициенты b 0 и b 1 определяются методом наименьших квадратов.

Энтальпия и энтропия реакции с учетом случайных ошибок равны

,

.

2. Температурная зависимость давления насыщенного пара вещества в узком интервале температур имеет вид

, (8.40)

где а — константа, D Н —энтальпия парообразования (испарения или сублимации). Непосредственно определяемыми величинами являются давление насыщенного пара Р и температура T. Произведем замену переменных:

, где .

Энтальпия парообразования с учетом случайной ошибки равна

.

3. Константа скорости реакции первого порядка описывается следующим уравнением:

, (8.41)

или

,

где k — константа скорости реакции, С 0 и С — исходная и текущая концентрация реагирующего вещества к моменту времени t соответственно. Произведем замену переменных:

, где .

Определив коэффициент b 1 методом наименьших квадратов, получим значение константы скорости реакции с учетом случайной ошибки:

.

8.6. Метод множественной корреляции

На практике часто бывает необходимым исследовать корреляционную связь между многими (а не только двумя) величинами. В случае, когда необходимо установить зависимость величины Y от более чем одного параметра, обычно используют уравнения множественной регрессии следующего вида

. (8.42)

Коэффициенты уравнения находят методом наименьших квадратов, т. е. определяют из условия

, (8.43)

где . Условия минимума функции S следующие:

. (8.44)

Коэффициенты уравнения приближенной регрессии находят из решения системы (k + 1) нормальных уравнений, полученных из условий (8.44).

Рассмотрим случай, когда величина Y линейно зависит от двух переменных X 1 и X 2. Пусть из опытов получена выборка точек (x 1 i , x 2 i , yi) объемом n. Найдем методом наименьших квадратов коэффициенты линейного уравнения регрессии

. (8.45)

Тогда

. (8.46)

Система нормальных уравнений, соответствующих условиям (8.44), принимает следующий вид:

,

, (8.47)

.

С учетом того, что и значений частных производных (8.46), после арифметических преобразований получаем

,

, (8.48)

.

Решая полученную систему уравнений относительно b 0, b 1 и b 2, находим наилучшую аппроксимацию для соотношения (8.45). Силу линейной связи между переменными Х 1 и Х 2 можно оценить на основании выборочного коэффициента корреляции

. (8.49)


ЛЕКЦИЯ 9





Дата публикования: 2014-10-20; Прочитано: 2050 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.02 с)...