Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Простая линейная регрессия



Пусть X и Y одномерные величины; обозначим их x и y, а функция f (x, q) имеет вид f (x, q) = A + bx, где q = (A, b). Относительно имеющихся наблюдений (xi, yi), i = 1,..., n, полагаем, что

yi = A + bxi + ei, (2)

где e1 ,..., e n - независимые (ненаблюдаемые) одинаково распределенные случайные величины. Можно различными методами подбирать “лучшую” прямую линию. Широко используется метод наименьших квадратов. Построим оценку параметра q = (A, b) так, чтобы величины

ei = yi - f (xi, q) = yi - A - bxi,

называемые остатками, были как можно меньше, а именно, чтобы сумма их квадратов была минимальной:

= min по (A, b) (3)

Чтобы упростить формулы, положим в (2) xi = xi - ; получим:

yi = a + b (xi - ) + ei, i = 1,..., n, (3)

где = , a = A + b . Сумму минимизируем по (a,b), приравнивая нулю производные по a и b; получим систему линейных уравнений относительно a и b. Ее решение () легко находится:

, где , (4)

. (5)

Свойства оценок. Нетрудно показать, что если M e i = 0, D e i = s2, то

1) M = а, М = b, т.е. оценки несмещенные;

2) D = s2 / n, D = s2 / ;

3) cov () = 0;

если дополнительно предположить нормальность распределения e i, то

4) оценки и нормально распределены и независимы;

5) остаточная сумма квадратов

Q 2 = (6)

независима от (, ), а Q 2 / s2 распределена по закону хи-квадрат с n -2 степенями свободы.

Оценка для s2 и доверительные интервалы. Свойство 5) дает возможность несмещенно оценивать неизвестный параметр s2 величиной

s 2 = Q 2 / (n -2). (7)

Поскольку s2 независима от и , отношения

и , где ,

имеют распределение Стьюдента с (n -2) степенями свободы, и потому доверительные интервалы для a и b таковы:

, , (8)

где tp - квантиль уровня (1 + PД) / 2 распределения Cтьюдента с n - 2 степенями свободы, PД - коэффициент доверия.

Проверка гипотезы о коэффициенте наклона. Обычно возникает вопрос: может быть, y не зависит от х, т.е. b = 0, и изменчивость y обусловлена только случайными составляющими e i? Проверим гипотезу Н: b = 0. Если 0 не входит в доверительный интервал (8) для b, т.е.

, (9)

то гипотезу Н следует отклонить; уровень значимости при этом a = 1 - PД.

Другой способ (в данном случае эквивалентный (9)) проверки гипотезы Н состоит в вычислении статистики

F = , (10)

распределенной, если Н верна, по закону F (1, n - 2) Фишера с числом степеней свободы 1 и n - 2. Если

F > F 1 -a, (11)

где F 1 -a - квантиль уровня 1 - a распределения F (1, n - 2), то гипотеза Н отклоняется с уровнем значимости a.

Вариация зависимой переменной и коэффициент детерминации. Рассмотрим вариацию (разброс) Tss (total sum of square) значений yi относительно среднего значения

Tss = .

Обозначим предсказанные с помощью функции регрессии значения yi: . Сумма Rss (regression sum of square)

Rss =

означает величину разброса, которая обусловлена регрессией (ненулевым значением наклона ). Сумма Ess (error sum of squares)

Ess =

означает разброс за счет случайных отклонений от функции регрессии. Оказывается,

Tss = Rss + Ess,

т.е. полный разброс равен сумме разбросов за счет регрессии и за счет случайных отклонений. Величина Rss / Tss - это доля вариации значений yi, обусловленной регрессией (т.е. доля закономерной изменчивости в общей изменчивости). Статистика

R 2 = Rss / Tss = 1 - Ess / Tss

называется коэффициентом детерминации. Если R 2 = 0, это означает, что регрессия ничего не дает, т.е. знание х не улучшает предсказания для y по сравнению с тривиальным . Другой крайний случай R 2 = 1 означает точную подгонку: все точки наблюдений лежат на регрессионной прямой. Чем ближе к 1 значение R 2, тем лучше качество подгонки.

Пример [5]. В табл. 1 приведены данные по 45 предприятиям легкой промышленности по статистической связи между стоимостью основных фондов (fonds, млн руб.) и средней выработкой на 1 работника (product, тыс. руб.); z - вспомогательный признак: z = 1 - федеральное подчинение, z = 2 - муниципальное (файл Product. Sta.).

Таблица 1

fonds product z fonds product z fonds product z
6,5 18,3   9,3 17,2   10,4 21,4  
10,3 31,1   5,7 19,0   10,2 23,5  
7,7 27,0   12,9 24,8   18,0 31,1  
15,8 37,9   5,1 21,5   13,8 43,2  
7,4 20,3   3,8 14,5   6,0 19,5  
14,3 32,4   17,1 33,7   11,9 42,1  
15,4 31,2   8,2 19,3   9,4 18,1  
21,1 39,7   8,1 23,9   13,7 31,6  
22,1 46,6   11,7 28,0   12,0 21,3  
12,0 33,1   13,0 30,9   11,6 26,5  
9,5 26,9   15,3 27,2   9,1 31,6  
8,1 24,0   13,5 29,9   6,6 12,6  
8,4 24,2   10,5 34,9   7,6 28,4  
15,3 33,7   7,3 24,4   9,9 22,4  
4,3 18,5   13,8 37,4   14,7 27,7  

Выполнение в пакете Statistica

Работаем в модуле Multiple Regression (множественная регрессия). Предварительно построим диаграмму рассеяния, чтобы убедиться, что предположение линейности регрессионной зависимости не лишено смысла.

Graphs - Stats 2 D Graphs - Scatter plots - Variables - X: fonds, Y: product, Graphs Type: Regular, Fit (подбор): Linear - OK - OK.

Наблюдаем диаграмму рассеяния с подобранной прямой регрессии, параметры которой отражены в ее заголовке.

Выполним регрессионный анализ:

Analysis - Startup Panel - кнопка Variables:, отбираем зависимую переменную Dependent var: product и независимую Independent var: fonds - OK - Input File (входной файл): Raw Data (необработанные данные) - OK. В окне Multiple Regression Results имеем основные результаты: коэффициент детерминации R 2: 0.597; гипотеза о нулевом значении наклона отклоняется с высоким уровнем значимости p = 0.000000 (т.е. p < 10-6). Кнопка Regression summary – на экране таблица результатов:

R =. 7757425 RІ =. 59687096 Adjusted RІ =. 58749587 F( 1, 43 ) = 63. 666 p<. 00000 Std.Error of estimate: 5. 0105
  B St. Err. of B t( 43 ) p-level
Intercpt 11. 49256 2. 127445 5. 402047 . 000003
Fonds 1. 43518 . 179868 7. 979073 . 000000

В ее заголовке повторены результаты предыдущего окна; в столбцах приведены: В - значения оценок неизвестных коэффициентов регрессии; St. Err. of B - стандартные ошибки оценки коэффициентов, t - значение статистики Стьюдента для проверки гипотезы о нулевом значении коэффициента; p - level - уровень значимости отклонения этой гипотезы. В данном случае, поскольку значения p-level очень малы (меньше 10-4), гипотезы о нулевых значениях коэффициентов отклоняются с высокой значимостью. Итак, имеем регрессию:

product = 11.5 + 1.43 fonds,

соответствующие стандартные ошибки коэффициентов: 2.1 и 0.18; значение s по (7): s = 5.01 (Std Error of estimate - ошибка прогноза выработки по фондам с помощью этой функции). Значение коэффициента детерминации R 2 = RI = 0.597 достаточно велико (доля R = 0.77 всей изменчивости объясняется вариацией фондов). Уравнение регрессии показывает, что увеличение основных фондов на 1 млн руб. приводит к увеличению выработки 1 работника в среднем на b1 = 1.43 тыс. руб. Для удобства интерпретации параметра пользуются коэффициентом эластичности

,

который показывает среднее изменение (в долях или %) зависимой переменной y при изменении фактора х:

.

Построим регрессию выработки по фондам для более однородной совокупности - для предприятий федерального подчинения (z =1). Можно ожидать, что качество подгонки улучшится. Предварительно визуально оценим данные процедурой Scatterplot (при отборе наблюдений использовать кнопку Select cases, условие отбора: include if: z = 1). Возвращаемся в окно Multiple Regression - Select cases - в окне Case Selection Conditions (условия выбора наблюдений) include if (включить, если): z = 1 - OK - OK - в окнах M.R.Results и Regression summary получаем результаты:

Product = 12.55 + 1.44 fonds,

R 2 = RI = 0.897, S = 2.68.

Коэффициент детерминации увеличился с 0.597 до 0.897, значение s уменьшилось с 5.01 до 2.68; действительно, подгонка улучшилась.





Дата публикования: 2014-11-03; Прочитано: 392 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.01 с)...