Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Замечания



Функция , где

,

называется логарифмической функцией правдоподобия.

Если выборка независима, то

,

где - плотность или функция вероятности распределения . Логарифмическая функция правдоподобия в этом случае имеет вид:

.

Функция правдоподобия измеряет степень вероятности появления реализации выборки из распределения .

37. Метод Бокса-Кокса

Для исходной последовательности X длиной N

Однопараметрическое Бокс-Кокс преобразование определяется следующим образом:

где .

Как видим, это преобразование имеет единственный параметр - лямбда. При значении лямбда равном нулю осуществляется логарифмическое преобразование входной последовательности, при значении лямбда отличном от нуля – степенное. Если параметр лямбда равен единице, то закон распределения исходной последовательности не изменяется, хотя при этом последовательность получит сдвиг за счет вычитания единицы из каждого ее значения.

В зависимости от значения лямбда, преобразование Бокса-Кокса включает в себя следующие частные случаи:

При использовании Бокс-Кокс преобразования необходимо, чтобы все значения входной последовательности были положительными и отличными от нуля. Если входная последовательность не удовлетворяет этим требованиям, то ее можно сдвинуть в положительную область на величину, гарантирующую "положительность" всех ее значений.

Остановимся пока на рассмотрении только однопараметрического Бокс-Кокс преобразования, подготавливая для него соответствующим образом входные данные. Для того, чтобы избежать во входных данных появления отрицательных или равных нулю значений, всегда будем находить минимальное значение входной последовательности и вычитать его из каждого ее элемента, дополнительно осуществляя сдвиг на небольшую величину, равную 1e-5. Такое дополнительное смещение необходимо для гарантированного сдвига последовательности в положительную область, в случае, если минимальное ее значение равно нулю.

Для последовательностей, которые содержат только положительные значения, такого сдвига можно было бы и не делать, но для того чтобы в процессе преобразования при возведении в степень снизить вероятность получения излишне больших величин, и для "положительных" последовательностей будем использовать тот же алгоритм сдвига. Таким образом, любая входная последовательность после сдвига будет располагаться в положительной области, и иметь при этом близкое к нулю минимальное значение.

На рис. 1 показано, как выглядят кривые Бокс-Кокс преобразования при различных значениях параметра лямбда. Рис. 1 заимствован из статьи "Box-Cox Transformations" [3]. Горизонтальная шкала на графике представлена в логарифмическом масштабе.

Рис. 1. Бокс-Кокс преобразование при различных значениях параметра лямбда

Как видим, при изменении параметра лямбда "хвосты" исходного распределения могут быть или "растянуты", или "поджаты". Верхняя кривая на рис. 1 соответствует значению лямбда=3, а нижняя значению лямбда=-2.

Для того чтобы в результате Бокс-Кокс преобразования закон распределения результирующий последовательности был максимально приближен к нормальному закону, необходимо выбрать оптимальное значение параметра лямбда.

Одним из способов определения оптимальной величины этого параметра является максимизация логарифма функции правдоподобия:

где

То есть необходимо выбрать такое значение параметра лямбда, при котором данная функция принимает максимальное значение.

В публикации "Box-Cox Transformations" [3] кратко рассматривается другой способ определения оптимального значения этого параметра, основанный на поиске максимальной величины коэффициента корреляции между квантилями функции нормального распределения и отсортированной преобразованной последовательностью. Наверняка можно найти и другие методы оптимизации параметра лямбда, но для начала остановим свой выбор на поиске максимума логарифма приведенной ранее функции правдоподобия.

Находить максимум логарифма функции правдоподобия можно разными способами. Например, методом простого перебора. Для этого необходимо в выбранном диапазоне, изменяя с небольшим шагом величину параметра лямбда, вычислять значение функции правдоподобия. И в качестве оптимального значения лямбда выбрать то, при котором величина функции правдоподобия окажется максимальной.

При этом величина шага будет определять точность вычисления оптимального значения параметра лямбда. Чем мельче шаг, тем выше точность, но при уменьшении шага пропорционально будет увеличиваться и требуемый объем вычислений. Для повышения эффективности вычислений могут быть использованы различные алгоритмы поиска максимума/минимума функции, генетические алгоритмы и так далее.

38. Коэффициент ранговой корреляции Спирмена.

Если потребуется установить связь между двумя признаками, значения которых в генеральной совокупности распределены не по нормальному закону, т. е. предположение о том, что двумерная выборка (xi и yi) получена из двумерной нормальной генеральной совокупности, не принимается, то можно воспользоваться коэффициентом ранговой корреляции Спирмена ():

где dx и dy – ранги показателей xi и yi; n – число коррелируемых пар.

Коэффициент ранговой корреляции также имеет пределы 1 и –1. Если ранги одинаковы для всех значений xi и yi, то все разности рангов (dx - dy) = 0 и = 1. Если ранги xi и yi расположены в обратном порядке, то = -1. Таким образом, коэффициент ранговой корреляции является мерой совпадения рангов значений xi и yi.

Когда ранги всех значений xi и yi строго совпадают или расположены в обратном порядке, между случайными величинами Х и Y существует функциональная зависимость, причем эта зависимость не обязательно линейная, как в случае с коэффициентом линейной корреляции Браве-Пирсона, а может быть любой монотонной зависимостью (т. е. постоянно возрастающей или постоянно убывающей зависимостью). Если зависимость монотонно возрастающая, то ранги значений xi и yi совпадают и = 1; если зависимость монотонно убывающая, то ранги обратны и = –1. Следовательно, коэффициент ранговой корреляции является мерой любой монотонной зависимости между случайными величинами Х и Y.

Из формулы видно, что для вычисления необходимо сначала проставить ранги (dx и dy) показателей xi и yi, найти разности рангов (dx - dy) для каждой пары показателей и квадраты этих разностей (dx - dy)2. Зная эти значения, находятся суммы , учитывая, что всегда равна нулю. Затем, вычислив значение , необходимо определить достоверность найденного коэффициента корреляции, сравнив его фактическое значение с табличным. Если , то можно говорить о том, что между признаками наблюдается достоверная взаимосвязь. Если , то между признаками наблюдается недостоверная корреляционная взаимосвязь.

Коэффициент ранговой корреляции Спирмена вычисляется значительно проще, чем коэффициент корреляции Браве-Пирсона при одних и тех же исходных данных, поскольку при вычислении используются ранги, представляющие собой обычно целые числа.

Коэффициент ранговой корреляции целесообразно использовать в следующих случаях:

- если экспериментальные данные представляют собой точно измеренные значения признаков Х и Y и требуется быстро найти приближенную оценку коэффициента корреляции. Тогда даже в случае двумерного нормального распределения генеральной совокупности можно воспользоваться коэффициентом ранговой корреляции вместо точного коэффициента корреляции Браве-Пирсона. Вычисления будут существенно проще, а точность оценки генерального параметра р с помощью коэффициента при больших объемах выборки составляет 91,2% по отношению к точности оценки по коэффициенту корреляций;

- когда значения xi и (или) yi заданы в порядковой шкале (например, оценки судей в баллах, места на соревнованиях, количественные градации качественных признаков), т. е. когда признаки не могут быть точно измерены, но их наблюдаемые значения могут быть расставлены в определенном порядке.

39. Коэффициенты эластичности

Коэффициенты регрессии нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.

Для этих целей вычисляются коэффициенты эластичности.

Коэффициент эластичности рассчитывается по следующей формуле:

40. фиктивные переменные

Термин “фиктивные переменные” используется как противоположность “значащим” пе­ременным, показывающим уровень количественного показателя, принимающего значения из непрерывного интервала. Как правило, фиктивная переменная — это индикаторная пе­ременная, отражающая качественную характеристику. Это могут быть разного рода атрибутивные призна­ки, такие, например, как профессия, пол, образование, климати­ческие условия, принадлежность к определенному региону. Что­бы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т. е. каче­ственные переменные преобразованы в количественные. Такого вида сконструированные переменные в эконометрике принятоназывать фиктивными переменными. В литературе можно встретить термины «структурные переменные» или «искусственные переменные»
Например, в результате опроса группы людей 0 может означать, что опра­шиваемый — мужчина, а 1 — женщина. К фиктивным переменным иногда относят рег­рессор, состоящий из одних единиц (т.е. константу, свободный член), а также временной тренд.
Фиктивные переменные позволяют строить и оценивать кусочно-линейные модели, которые можно применять для исследования структурных изменений.
Пусть, например, мы исследуем зависимость выпуска продукции Y от размера основного фонда предприятия хt. При этом есть основания считать, что в момент времени t0 произошла структурная перестройка и характер зависимости изменился.
Чтобы оценить такую модель введем бинарную переменную


и запишем нашу модель в виде:

При t ≤ t0 линия регрессии имеет наклон , при t > t0 наклон равен и разрыва в точке xt не происходит. При приходим к выводу, что в момент t0 структурного изменения не происходит.

Использование фиктивных переменных в моделях с временными рядами
В регрессионных моделях с временными рядами используется три основных вида фиктивных переменных:
1) Переменные-индикаторы принадлежности наблюдения к определенному периоду — для моделирования скачкообразных структурных сдвигов. Границы периода (моменты “скачков”) должны быть установлены из априорных соображений. Например, 1, если наблюдение принадлежит периоду 1941-45 гг. и 0 в противном случае. Это пример использования для моделирования временного структурного сдвига. Постоянный структурный сдвиг моделируется переменной равной 0 до определенного момента времени и 1 для всех наблюдений после этого момента времени.
2) Сезонные переменные — для моделирования сезонности. Сезонные переменные принимают разные значения в зависимости от того, какому месяцу или кварталу года или какому дню недели соответствует наблюдение.
Например,модель потребления, учитывающая сезонные колебания.
у = b0 + b1x1 + b2x2 + b3x3,

для зимних месяцев
иначе
для весенних месяцев
иначе
для летних месяцев
иначе
Следует отметить, что вводить четвертую переменную х4 для осенних месяцев не требуется, т.к. в этом случае все переменные оказались бы связанными тождеством
Xi +Х2+Хз+Х4= 1,
что привело бы их к полной коллинеарности и вырожденности информационной матрицы .
Для осенних месяцев коэффициенты b1, b2, b3 равны нулю и объем потребления составляет Y= b0
Для зимних месяцев: Y=b0 + b1,
Для весенних месяцев: Y=b0 + b2,
Для летних месяцев: Y=b0 + b3.
При этом, если в результате регрессионного анализа окажется, что b3 = 0, это означает, что между летними и осенними сезонами различие в потреблении несущественно. При b1 = b2 отсутствует различие между потреблением зимой и весной и т.д.
3) Линейный временной тренд — для моделирования постепенных плавных структурных сдвигов. Эта фиктивная переменная показывает, какой промежуток времени прошел от некоторого “нулевого” момента времени до того момента, к которому относится данное наблюдение (координаты данного наблюдения на временной шкале). Если промежутки времени между последовательными наблюдениями одинаковы, то временной тренд можно составить из номеров наблюдений.
Временной тренд отличается от бинарных фиктивных переменных тем, что имеет смысл использовать его степени: t 2 , t 3 и т. д. Они помогают моделировать гладкий, но нелинейный тренд. (Бинарную переменную нет смысла возводить в степень, потому что в результате получится та же самая переменная.)
Можно также комбинировать указанные виды фиктивных переменных, создавая переменные “взаимодействия” соответствующих эффектов.
Комбинация рассмотренных фиктивных переменных позволяет моделировать еще один эффект — изменение наклона тренда с определенного момента. Помимо тренда в регрессию следует тогда ввести следующую переменную: в начале выборки до некоторого момента времени она равна 0, а вторая ее часть представляет собой временной тренд (1, 2, 3 и т. д. в случае одинаковых интервалов между наблюдениями).
Использование фиктивных переменных имеет следующие преимущества:
Интервалы между наблюдениями не обязательно должны быть одинаковыми. В выборке могут быть пропущенные наблюдения.

Коэффициенты при фиктивных переменных легко интерпретировать, они наглядно представляют структуру динамического процесса.

Для оценивания модели не приходится выходить за рамки классического метода наименьших квадратов.

41. Проверка значимости для коэффициента корреляции

Как неоднократно отмечалось, для статистического вывода о на­личии или отсутствии корреляционной связи между исследуемыми пе­ременными необходимо произвести проверку значимости выборочного коэффициента корреляции. В связи с тем что надежность статистиче­ских характеристик, в том числе и коэффициента корреляции, зависит от объема выборки, может сложиться такая ситуация, когда величина коэффициента корреляции будет целиком обусловлена случайными колебаниями в выборке, на основании которой он вычислен. При существенной связи между переменными коэффициент корреляции должен значимо отличаться от нуля. Если корреляционная связь меж­ду исследуемыми переменными отсутствует, то коэффициент корреля­ции генеральной совокупности ρ равен нулю. При практических ис­следованиях, как правило, основываются на выборочных наблюдениях. Как всякая статистическая характеристика, выборочный коэффициент корреляции является случайной величиной, т. е. его значения случай­но рассеиваются вокруг одноименного параметра генеральной совокуп­ности (истинного значения коэффициента корреляции). При отсутствии корреляционной связи между переменными у и х коэффициент корре­ляции в генеральной совокупности равен нулю. Но из-за случайного характера рассеяния принципиально возможны ситуации, когда не­которые коэффициенты корреляции, вычисленные по выборкам из этой совокупности, будут отличны от нуля.

Могут ли обнаруженные различия быть приписаны случайным ко­лебаниям в выборке или они отражают существенное изменение усло­вий формирования отношений между переменными? Если значения выборочного коэффициента корреляции попадают в зону рассеяния, обусловленную случайным характером самого показателя, то это не является доказательством отсутствия связи. Самое большее, что при этом можно утверждать, сводится к тому, что данные наблюдений не отрицают отсутствия связи между переменными. Но если значение вы­борочного коэффициента корреляции будет лежать вне упомянутой зоны рассеяния, то делают вывод, что он значимо отличается от нуля, и можно считать, что между переменными у и х существует статистиче­ски значимая связь. Используемый для решения этой задачи критерий, основанный на распределении различных статистик, называется крите­рием значимости.

Процедура проверки значимости начинается с формулировки ну­левой гипотезы H0. В общем виде она заключается в том, что между па­раметром выборки и параметром генеральной совокупности нет каких- либо существенных различий. Альтернативная гипотеза H1 состоит в том, что между этими параметрами имеются существенные различия. Например, при проверке наличия корреляции в генеральной совокуп­ности нулевая гипотеза заключается в том, что истинный коэффициент корреляции равен нулю (Н0: ρ = 0). Если в результате проверки ока­жется, что нулевая гипотеза не приемлема, то выборочный коэффи­циент корреляции rух значимо отличается от нуля (нулевая гипотеза отвергается и принимается альтернативная Н1). Другими словами, предположение о некоррелированности случайных переменных в ге­неральной совокупности следует признать необоснованным. И нао­борот, если на основе критерия значимости нулевая гипотеза прини­мается, т. е. rух лежит в допустимой зоне случайного рассеяния, то нет оснований считать сомнительным предположение о некоррелиро­ванности переменных в генеральной совокупности.

При проверке значимости исследователь устанавливает уровень значимости α, который дает определенную практическую уверенность в том, что ошибочные заключения будут сделаны только в очень ред­ких случаях. Уровень значимости выражает вероятность того, что ну­левая гипотеза Н0 отвергается в то время, когда она в действительности верна. Ясно, что имеет смысл выбирать эту вероятность как можно меньшей.

Пусть известно распределение выборочной характеристики, яв­ляющейся несмещенной оценкой параметра генеральной совокупности. Выбранному уровню значимости α соответствуют под кривой этого распределения заштрихованные площади (см. рис. 24). Незаштрихованная площадь под кривой распределения определяет вероятность Р = 1 — α. Границы отрезков на оси абсцисс под заштрихованными площадями называют критическими значениями, а сами отрезки обра­зуют критическую область, или область отклонения гипотезы.

При процедуре проверки гипотезы выборочную характеристику, вычисленную по результатам наблюдений, сравнивают с соответствую­щим критическим значением. При этом следует различать односторон­нюю и двустороннюю критические области. Форма задания критической области зависит от постановки задачи при статистическом исследова­нии. Двусторонняя критическая область необходима в том случае, когда при сравнении параметра выборки и параметра генеральной со­вокупности требуется оценить абсолютную величину расхождения между ними, т. е. представляют интерес как положительные, так и от­рицательные разности между изучаемыми величинами. Когда же надо убедиться в том, что одна величина в среднем строго больше или мень­ше другой, используется односторонняя критическая область (право- или левосторонняя). Вполне очевидно, что для одного и того же критического значения уровень значимости при использовании одно­сторонней критической области меньше, чем при использовании дву­сторонней. Если распределение выборочной характеристики симметрично,

Рис. 24. Проверка нулевой гипотезы H0

то уровень значимости двусторонней критической области равен α, а односторонней - (см. рис. 24). Ограничимся лишь общей по­становкой проблемы. Более подробно с теоретическим обоснованием проверки статистических гипотез можно познакомиться в специальной литературе. Далее мы лишь укажем критерии значимости для различ­ных процедур, не останавливаясь на их построении.

Проверяя значимость коэффициента парной корреляции, устанав­ливают наличие или отсутствие корреляционной связи между исследуе­мыми явлениями. При отсутствии связи коэффициент корреляции гене­ральной совокупности равен нулю (ρ = 0). Процедура проверки на­чинается с формулировки нулевой и альтернативной гипотез:

Н0: различие между выборочным коэффициентом корреляции r и ρ = 0 незначимо,

Н1: различие между r и ρ = 0 значимо, и следовательно, между переменными у и х имеется существенная связь. Из альтернативной ги­потезы следует, что нужно воспользоваться двусторонней критической областью.

В разделе 8.1 уже упоминалось, что выборочный коэффициент кор­реляции при определенных предпосылках связан со случайной вели­чиной t, подчиняющейся распределению Стьюдента с f = п — 2 сте­пенями свободы. Вычисленная по результатам выборки статистика

(8.38)

сравнивается с критическим значением, определяемым по таблице рас­пределения Стьюдента при заданном уровне значимости α и f = п — 2 степенях свободы. Правило применения критерия заключается в сле­дующем: если | t | > tf,а, то нулевая гипотеза на уровне значимости αотвергается, т. е. связь между переменными значима; если | t | ≤ tf,а, то нулевая гипотеза на уровне значимости α принимается. Отклонение значения r от ρ = 0 можно приписать случайной вариации. Данные выборки характеризуют рассматриваемую гипотезу как весьма возмож­ную и правдоподобную, т. е. гипотеза об отсутствии связи не вызывает возражений.

Процедура проверки гипотезы значительно упрощается, если вместо статистики t воспользоваться критическими значениями коэф­фициента корреляции, которые могут быть определены через квантили распределения Стьюдента путем подстановки в (8.38) t=tf, а и r = ρ f, а:

(8.39)

Существуют подробные таблицы критических значений, выдержка из которых приведена в приложении к данной книге (см. табл. 6). Правило проверки гипотезы в этом случае сводится к следующему: если r > ρ f, а, то можем утверждать, что связь между переменными су­щественная. Если rrf,а, то результаты наблюдений считаем непро­тиворечащими гипотезе об отсутствии связи.

42. Проверка значимости для коэффициента детерминации.

При выполнении процедуры проверки значимости коэффициента детерминации выдвигается нулевая гипотеза Н0 против альтернативной Н1 которые заключаются в следующем.

Н0: существенного различия между выборочным коэффициентом детерминации и коэффициентом детерминации генеральной совокупности B(г) = 0 нет.

Эта гипотеза равносильна гипотезе Н0: = β1=β2=…βm=0, т. е. ни одна из объясняющих переменных, включенных в регрессию, не оказывает существенного влияния на зависимую переменную.

Н1: выборочный коэффициент детерминации существенно больше коэффициента детерминации генеральной совокупности B(г) = 0.

Из постановки задачи ясно, что следует использовать одностороннюю критическую область. Принятие гипотезы Н1 означает, что по крайней мере одна из m объясняющих переменных, включенных в регрессию, оказывает существенное влияние на переменную у.

Для оценки значимости парного коэффициента детерминации используется статистика

(8.50)

имеющая F-распределение Фишера с f1=m=1 и f2=n-2степенями свободы. Значение статистики, вычисленное по (8.50), сравнивается с критическим значением этой статистики, найденным по табл. 4 приложения при заданном уровне значимости α и соответствующем числе степеней свободы. Если F > Ff1;f2;α, то вычисленный коэффициент детерминации значимо отличается от нуля. Этот вывод обеспечивается с вероятностью 1- α.

Пример

В разделе 3.2 был вычислен по п = 14 предприятиям коэффициент детерминации для регрессии, отражающей зависимость производитель­ности труда от уровня механизации работ, Bvx = 0,938. По (8.50) получим

Зададимся уровнем значимости α = 0,05. Числа степеней свободы со­ответственно следующие: f1 = 1 и f 2 = 12. По табл. 4 приложения на­ходим критическое значение F1;12;0,05 = 4,747. Вследствие того что F>F1;12;0,05, делаем вывод, что Вух существенно отличается от нуля, и, следовательно, включенные в регрессию переменные достаточно объясняют зависимую переменную.

Можно показать, что при fx = 1 всегда F = t2. Тогда (8.50) можно записать в виде

(8.51)

Эта величина имеет F-распределение с f=п-2 степенями свободы. Если мы теперь учтем, что В = r2 (см. (4.13)), то отсюда следует, что с помощью критерия (8.51) можно проверить также значимость коэф­фициента корреляции.

Оценка значимости коэффициента множественной детерминации производится с помощью статистики

(8.52)

которая имеет F-распределение с f1= m и f2= n-т-1 степеня­ми свободы. Здесь т - количество учитываемых объясняющих пере­менных. Значение статистики (8.52), вычисленное по эмпирическим данным, сравнивается с табличным значением Ff1;f2;α. Критическое значение определяется по табл. 4 приложения по заданному α и сте­пеням свободы f1 и f2. Правило проверки аналогично процедуре оцен­ки значимости коэффициента парной детерминации.

Пример

В разделе 3.3 были вычислены два коэффициента множественной де­терминации, Ву.12 = 0,9447 и Ву.123 = 0,9541, по п = 14 наблюде­ниям соответственно для т = 2 и т = 3 объясняющих переменных. Имеем:

Итак, в обоих случаях F > Ff1;f2;α. Коэффициенты множественной детерминации существенно отличны от нуля, и, следовательно, рассма­триваемые регрессии достаточно определены включенными перемен­ными. Для оценки значимости коэффициента частной детерминации используется статистика

(8.53)

которая имеет f-распределение с f1 = т и f2 = n-m-p-1степенями свободы. Здесь р число переменных, исключенных при вычислении коэффициентов частной детерминации. Процедура про­верки значимости аналогична описанным выше.

43. Проверка линейной регрессии

В экономике причинно-следственные отношения между явлениями часто описываются с помощью линейных или линеаризуемых зависимостей. Разработаны статистические критерии, позволяющие либо подтвердить факт непротиворечивости линейной формы зависимости опытным данным, либо отвергнуть предложенный вид зависимости как не соответствующий этим данным. Для проверки линейности регрессии применяется следующий метод. Пусть каждому значению объясняющей переменной соответствует несколько значений зависимой переменной, по которым вычисляют частные средние , и т.д. Обозначим через частное среднее, соответствующее j-му значению объясняющей переменной:

(8.71)

где — число значений у, относящихся к (k = 1,..., m); Найдем теперь средний квадрат отклонений значений от их частных средних:

(8.72)

Показатель (8.72) является мерой рассеяния опытных данных около своих частных средних, т. е. мерой, не зависящей от выбранного вида регрессии. В качестве меры рассеяния опытных данных вокруг эмпирической регрессионной прямой выбирается средний квадрат отклонений:

(8.73)

Оба показателя и представляют собой независимые статистические оценки одной и той же дисперсии в . Если несущественно больше , то в качестве гипотетической зависимости может быть принята линейная.

Если в генеральной совокупности существует линейная регрессия и условные распределения переменной у хотя бы приблизительно нормальны, то отношение средних квадратов отклонений (8.72) и (8.73)

(8.74)

имеет F -распределение c f 1 = p-m-1 и f 2 = n - р степенями свободы. Значение F, подсчитанное по формуле (8.74), сравнивается с критическим Ff1 ; f2 , найденным по табл. 4 приложения при заданном уровне значимости α и f 1, f 2 степенях свободы. Если F ≤ Ff1 ; f2 , то разница между обоими средними квадратами отклонений статистически незначима и выбранная нами линейная регрессионная зависимость может быть принята как правдоподобная, не противоречащая опытным данным. Если F > Ff1 ; f2 , то различие между обоими средними квадратами отклонений существенно, неслучайно, и гипотеза о линейной зависимости между переменными несостоятельна. Разработаны также другие критерии проверки гипотезы о линейности регрессии. Заинтересованный читатель может найти их в соответствующей литературе [122], [76].

44. Коэффициент детерминации при простой линейной регрессии.

Рассмотрим вначале коэффициент детерминации для простой линейной регрессии, называемый также коэффициентом парной детерминации.

На основе соображений, изложенных в разделе 1, теперь отно­сительно легко найти меру точности оценки регрессии. Было показано, что общую дисперсию можно разложить на две составляющие — на «необъясненную» дисперсию и дисперсию , обусловленную регрес­сией. Чем больше по сравнению с , тем больше общая дисперсия формируется за счет влияния объясняющей переменной x и, следова­тельно, связь между двумя переменными y и x более интенсивная. Очевидно, удобно в качестве показателя интенсивности связи, или оценки доли влияния переменной x на y, использовать отношение

(7)

Это отношение указывает, какая часть общего (полного) рассеяния значений у обусловлена изменчивостью переменной x. Чем большую долю в общей дисперсии составляет , тем лучше выбранная функция регрессии соответствует эмпирическим данным. Чем меньше эмпири-ческие значения зависимой переменной отклоняются от прямой регрес-сии, тем лучше определена функция регрессии. Отсюда происходит и название отношения (7) — коэффициент детерминации . Индекс при коэффициенте указывает на переменные, связь между которыми изучается. При этом вначале в индексе стоит обозначение зависимой переменной, а затем объясняющей.

Из определения коэффициента детерминации как относительной доли очевидно, что он всегда заключен в пределах от 0 до 1:

(8)

сли , то все эмпирические значения (все точки поля корреляции) лежат на регрессионной прямой. Это означает, что для i=1,..., n, т. е. . В этом случае говорят о строгом линейном соотношении (линейной функции) между переменными у и х. Если , дисперсия, обусловленная регрессией, равна нулю, а «необъясненная» дисперсия равна общей дисперсии. В этом случае . Линия регрессии тогда параллельна оси абсцисс. Ни о какой численной линейной зависимости переменной у от х в статистическом ее понимании не может быть и речи. Коэффициент регрессии при этом незначимо отличается от нуля.

Итак, чем больше приближается к единице, тем лучше опре-делена регрессия.

Коэффициент детерминации есть величина безразмерная и поэтому он не зависит от изменения единиц измерения переменных у и x (в отличие от параметров регрессии). Коэффициент не реагирует на преобразование переменных.

Приведем некоторые модификации формулы (7), которые, с одной стороны, будут способствовать пониманию сущности коэффициента де-терминации, а с другой стороны, окажутся полезными для практических вычислений. Подставляя выражение для () в (7) и принимая во внимание () и (2), получим:

(9)

Эта формула еще раз подтверждает, что «объясненная» дисперсия, стоящая в числителе (7), пропорциональна дисперсии переменной х, так как b1 является оценкой параметра регрессии.

Подставив вместо его выражение () и учитывая определения дисперсий и , а также средних и , получим формулу коэффициента детерминации, удобную для вычисления:

или

(10)

Из (10) следует, что всегда . С помощью (10) можно относительно легко определить коэффициент детерминации. В этой формуле содержатся только те величины, которые используются для вычисления оценок параметров регрессии и, следовательно, имеются в рабочей таблице. Формула (10) обладает тем преимуществом, что вычисление коэффициента детерминации по ней производится непосредственно по эмпирическим данным. Не нужно заранее находить оценки параметров и значения регрессии. Это обстоятельство играет немаловажную роль для последующих исследований, так как перед проведением регрессионного анализа мы можем проверить, в какой степени определена исследуемая регрессия включенными в нее объясняющими переменными. Если коэффициент детерминации слишком мал, то нужно искать другие факторы-переменные, причинно обусловливающие зависимую переменную. Следует отметить, что коэффициент детерминации удовлетворительно отвечает своему назначению при достаточно большом числе наблюдений. Но в любом случае необходимо проверить значимость коэффициента детерминации.

Вернемся к рассмотрению «необъясненной» дисперсии, возникающей за счет изменчивости прочих факторов-переменных, не зависящих от х, а также за счет случайностей. Чем больше ее доля в общей дисперсии, тем меньше, неопределеннее проявляется соотношение между у и х, тем больше затушевывается связь между ними. Исходя из этих соображений мы можем использовать «необъясненную» дисперсию для характеристики неопределенности или неточности регрессии. Следующее соотношение служит мерой неопределенности регрессии:

(11)

Легко убедиться в том, что

(12)

Отсюда очевидно, что не нужно отдельно вычислять меру неопределенности, а ее оценку легко получить из (12).

Теперь вернемся к нашим примерам и определим коэффициенты детерминации для полученных уравнений регрессий.

Пример 1

Вычислим коэффициент детерминации по данным примера (зависимость производительности труда от уровня механизации работ). Используем для этого формулу (10), а промежуточные результаты вычислений заимствуем из таблицы, которая находится в приложении А:

Отсюда заключаем, что в случае простой регрессии 93,8% общей дисперсии производительности труда на рассматриваемых предприятиях обусловлено вариацией показателя механизации работ. Таким образом, изменчивость переменной х почти полностью объясняет вариацию переменной у.

Для этого примера коэффициент неопределенности , т. е. только 6,2% общей дисперсии нельзя объяснить зависимостью производительности труда от уровня механизации работ.

Пример 2

Вычислим коэффициент детерминации по данным примера (зависимость объема производства от основных фондов).

Таким образом, 91,1% общей дисперсии объема производства исследуемых предприятий обусловлено изменчивостью значений основных фондов на этих предприятиях. Данная регрессия почти полностью исчерпывается включенной в нее объясняющей переменной. Коэффициент неопределенности составляет 0,089, или 8,9%.

Следует отметить, что приведенные формулы предназначены для вычисления по результатам выборки большого объема коэффициента детерминации в случае простой регрессии. Но чаще всего приходится довольствоваться выборкой небольшого объема (n < 20). В этом случае вычисляют исправленный коэффициент детерминации , учитывая соответствующее число степеней свободы. Формула исправленного коэффициента детерминации для общего случая n объясняющих переменных будет приведена в разделе 3. Из нее легко получить формулу исправленного коэффициента детерминации в случае простой регрессии (m=1).

45. Коэффициент множественной детерминации

Если изучаемое явление зависит не от одного, а от нескольких явлений, то зависимость между ними описывается с помощью множественной регрессии, а для установления доли дисперсии, обусловленной воздействием изменений объясняющих переменных, вычисляется коэффициент множественной детерминации.

Выражение коэффициента множественной детерминации можно получить путем обобщения формулы (7) с учетом соображений, из-ложенных в разделах 1 и 2:

(13)

Индекс при В указывает на то, что у является зависимой переменной и вариабельность всех объясняющих переменных х1,..., хm рассматривается одновременно в изучаемой регрессии.

Интерпретация аналогична интерпретации коэффициента детерминации для простой линейной регрессии. Коэффициент указывает, как велика доля объясненной дисперсии в общей дисперсии, какая часть общей дисперсии может быть объяснена зависимостью переменной у от переменных х1,..., хm. Величина коэффициента множественной детерминации заключена в интервале .

Коэффициент детерминации равен 1, если этом случае говорят о линейной функциональной зависимости. Коэффициент детерминации равен 0, если . В этом случае говорят об отсутствии линейной зависимости в смысле представлений регрессионного анализа.

Приведем теперь формулу коэффициента детерминации к виду, удобному для вычислений. При этом ограничимся вначале регрессией с двумя объясняющими переменными. Уравнение множественной линейной регрессии можно представить в таком виде:

или

(14)

Возведя в квадрат обе части равенства (14) и просуммировав все отклонения, раскроем скобки. С учетом формул ( = ) и ( = ) получим следующее выражение:

(15)

Подставим этот результат в (13):

(16)

или

(17)

С помощью формулы (17) сравнительно легко можно найти коэффициент множественной детерминации для двух объясняющих переменных.

Пример

Определим долю дисперсии производительности труда, обусловленную линейной зависимостью от уровня механизации работ и среднего возраста работников, по данным из приложения Б. По формуле (17) получим

Найденная величина коэффициента множественной регрессии означает, что на основе полученной оценки функции регрессии 94,47% общей дисперсии объясняется зависимостью производительности труда от уровня механизации работ и среднего возраста работников. Это свидетельствует о том, что данная регрессия хорошо соответствует эмпирическим данным. Лишь 5,53% общей дисперсии приходится на влияние прочих, не учтенных в регрессии факторов-переменных.

Формулу (16) обобщим для регрессии с m объясняющими переменными:

(18)

Разделив числитель и знаменатель формулы (18) на , получим:

(19)

Введем вектор

(20)

элементами которого являются , k = 1,..., m.

Вектор — это вектор ковариаций m объясняющих переменных с зависимой переменной у. Далее, пусть

(21)

— вектор коэффициентов регрессии. Он получается путем вычеркивания первой компоненты (постоянной регрессии) из вектора параметров регрессии b. С учетом этого условия формула (19) принимает вид

(22)

—транспонированный вектор b1.

Пример

Определим с помощью формулы (22) по данным из приложения Б долю дисперсии производительности труда, обусловленную зависимостью от уровня механизации работ, среднего возраста работников и среднего процента выполнения нормы. Вектор b1 получается из вектора b параметров регрессии путем вычеркивания постоянной регрессии b0. Вектор ковариаций объясняющих переменных с зависимой переменной строим в виде (20). Таким образом, можем записать

; > ;

В результате получаем значение коэффициента детерминации:

Итак, 94,51% общей дисперсии обусловливается зависимостью производительности труда от перечисленных выше объясняющих переменных. И только 5,49% общей дисперсии не может быть объяснено этой зависимостью на основе полученной оценки функции регрессии. Таким образом, предполагая, что уравнение регрессии статистически значимо, его подбор выполнен очень хорошо.

Так же, как коэффициент парной детерминации, коэффициент множественной детерминации не изменится, если изменится размерность переменных или они подвергнутся линейным преобразованиям. Отсюда следует важный вывод: при применении стандартизованных переменных () остается таким же процентное отношение к общей вариации той ее части, которая определена влиянием объясняющих переменных на зависимую, выраженных в натуральном масштабе. Если для стандартизованных переменных , то (частный случай)

(23)

т. е. коэффициент детерминации равен «объясненной» дисперсии, а коэффициент неопределенности равен «необъясненной» дисперсии.

Часто, особенно при небольшом объеме выборки n, пользуются исправленным коэффициентом детерминации , так как число объясняющих переменных существенно уменьшает число степеней свободы. Итак, введение поправки на число степеней свободы дает нам исправленный, несмещенный коэффициент детерминации. Число степеней свободы общей дисперсии разлагается также на две составляющие:

(24)

Соотношение между двумя коэффициентами — с поправкой и без нее — может быть после соответствующих выкладок представлено в виде

(25)

При этом определяется по формуле (35) (см. раздел 6). Коэффициент детерминации без поправки на число степеней свободы никогда не уменьшается с добавлением к регрессии новой объясняющей переменной (возможно даже некоторое незначительное его увеличение), в то время как для исправленного коэффициента это оказывается возможным. Следует учитывать, что всегда

(26)

Пример

Вычислим по данным из приложения Б исправленные коэффициенты множественной детерминации для регрессии с двумя и тремя объясняющими переменными:

Значения коэффициентов детерминации подтверждают приведенные выше утверждения. Введение новой переменной х3 не привело к существенному дополнению в объяснении переменной у, а точнее, в объяснении ее вариации. Поэтому при двух одинаково приемлемых с профессионально-теоретической точки зрения функциях регрессии рекомендуется отдавать предпочтение той, для которой исправленный коэффициент детерминации оказался больше.

46. Коэффициент частной детерминации

В множественном регрессионном анализе часто полезно определять долю тех изменений, которые в данном явлении зависят от одного фактора-переменного при исключении влияния остальных рассматриваемых в регрессии переменных. Для этого используется коэффициент частной детерминации. Ограничимся обсуждением коэффициента частной детерминации для случая двух объясняющих переменных.

Для оценки доли вариации у, объясняемой линейной зависимостью у от х1 при исключении влияния х2, вычисляется коэффициент частной детерминации , индекс которого указывает на эту зависимость. При этом получаем значения переменных с исключением эффекта от влияния х2:

и

(27)

причем

и

(28)

Воспользуемся методикой определения коэффициента детерминации для простой линейной регрессии применительно к значениям (28) и (27). Используя формулу (10) из раздела 2, после некоторых преобразований с учетом того, что , получим выражение коэффициента частной детерминации:

(29)

После дополнительных преобразований

(30)

Таким образом, коэффициент частной детерминации определяется по коэффициентам парной детерминации. С помощью формулы (29) или (30) устанавливается доля вариации, обусловленная зависимостью переменной у от х1 при исключении влияния х2. Отсюда становится очевидным отличие коэффициента частной детерминации от коэффициента множественной детерминации. Они имеют различное содержание и не заменяют друг друга.

Формулу (29) путем соответствующих преобразований можно привести к такому виду, который позволяет находить коэффициент частной детерминации непосредственно по эмпирическим данным. Вообще целесообразнее вычислять коэффициент частной детерминации по соответствующим коэффициентам частной корреляции.

47. Коэффициент детерминации между объясняющими переменными

Для решения системы нормальных уравнений очень важно знать соотношения между объясняющими переменными xk. Используя понятие коэффициента детерминации, введем меру зависимости этих переменных между собой. Обозначим через t wx:val="Cambria Math"/><w:i/><w:sz w:val="24"/><w:sz-cs w:val="24"/><w:lang w:val="EN-US"/></w:rPr><m:t>m</m:t></m:r></m:sub></m:sSub></m:oMath></m:oMathPara></w:p><w:sectPr wsp:rsidR="00000000"><w:pgSz w:w="12240" w:h="15840"/><w:pgMar w:top="1134" w:right="850" w:bottom="1134" w:left="1701" w:header="720" w:footer="720" w:gutter="0"/><w:cols w:space="720"/></w:sectPr></w:body></w:wordDocument>"> коэффициент детерминации, характеризующий степень обусловленности k- й объясняющей переменной остальными объясняющими переменными, входящими в данную регрессию.

Укажем формулу для вычисления коэффициента детерминации между объясняющими переменными. Для ее вывода исходят из матрицы дисперсий и ковариаций объясняющих переменных :

(31)

где - дисперсия объясняющей переменной xk при - ковариация объясняющих переменных xk и xl. Умножив каждый элемент (31) на n-1, получим матрицу сумм квадратов отклонений и произведений отклонений:

(32)

где , а . Матрицу, обратную к , обозначим через :

(33)

Коэффициент детерминации между объясняющими переменными вычисляется по формуле

(34)

где и — элементы k -й строки и k -гo столбца матриц и соответственно.

Пример.

Вернемся к примеру с тремя объясняющими переменными из приложения Б. Построим следующие матрицы:

(Элементы матрицы указаны с округлением.) По (34) получим:

В силу того что величина коэффициента детерминации между переменными также заключена в пределах от 0 до 1, результаты вычислений отражают небольшую зависимость между объясняющими переменными.

Различные коэффициенты детерминации не могут быть единственным критерием оценки регрессии. Неосторожное их использование может привести к ошибочным заключениям. Например, если эмпирические данные представляют собой временной ряд или между переменными существуют не только непосредственные, но и многообразные косвенные связи, то применение коэффициента детерминации становится весьма проблематично. Поэтому далее мы еще будем обсуждать способы оценки точности подбора функции регрессии.

48. Стандартные ошибки оценок

Качество подбора функции регрессии можно оценить с помощью стандартных ошибок или дисперсий остатков и оценок параметров регрессии.

Стандартная ошибка или дисперсия остатков. Стандартная ошибка остатков называется также стандартной ошибкой оценки регрессии в связи с интерпретацией возмущающей переменной и как результата ошибки спецификации функции регрессии. Возмущающая переменная и является случайной с определенным распределением вероятностей. Математическое ожидание этой переменной равно нулю, а дисперсия — . Таким образом, — это дисперсия возмущения в генеральной совокупности. Нам неизвестны значения возмущающей переменной. Можно судить о ней только по остаткам . Вычисленная по этим остаткам дисперсия является оценкой дисперсии возмущающей переменной. Несмещенной оценкой дисперсии возмущающего воздействия будет, следующее выражение:

(35)

В знаменателе формулы (35) стоит число степеней свободы , где n — объем выборки, a m — число объясняющих переменных. Такое выражение числа степеней свободы связано с тем, что остатки должны удовлетворять m + 1 условиям. Кратко поясним





Дата публикования: 2015-01-10; Прочитано: 450 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.066 с)...