Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Номинальный регрессионный анализ (НРА)



Иногда имеет смысл искать сочетания значений исходных признаков, которые определяют те или иные связи, то или иное поведение респондентов, или объединять отдельные признаки друг с другом, искать такие их сочетания, которые детерминируют другие признаки. Это позволяет сделать регрессионный анализ.

Пусть нас интересует зависимость между X и Y. Но, зная коэффициент их корреляции, мы не можем сказать, как возрастет значение Y, если значение X увеличится, скажем, на 1.

Приведем пример, для этого рассмотрим зависимость между производственным стажем человека и его зарплатой (рис. 23 а и б).

Рис. 23. Сильные линейные связи признаков «зарплата» и «стаж», определяющих разный прогноз

В обоих случаях соответствующие коэффициенты корреляции близки к 1 (обе совокупности точек-объектов лежат на прямых линиях, отвечающих нашей зависимости). На рис. 23а из них прямая идет резко вверх. Поэтому даже при небольшом увеличении X признак Y резко возрастет. В случае же наличия связи, изображенной на рис. 23б, прямая близка к горизонтали. Поэтому даже при значительном росте X значение Y почти не изменится. Это нельзя узнать лишь на основе вычисления коэффициентов корреляции.

Чтобы делать прогноз, как изменится значение Y при том или ином изменении значения X, нам желательно знать форму связи между этими переменными, т. е. функцию вида Y = f (X). Независимые переменные называют входными, экзогенными, внешними, а зависимые — выходными, эндогенными, внутренними.. Если переменные Х и Y — независимая и зависимая, то ищем усредненную зависимость вида Y = f(X).

Рис. 24. Принципиальная схема линии регрессии

Для социологических данных типична ситуация, когда одному значению Х соответствует множество значений Y. Эта ситуация схематично изображена на рис. 24. Чтобы выбрать четкую зависимость, подсчитаем для каждого значения Х среднее арифметическое значение всех отвечающих ему значений Y и будем изучать зависимость от Х таких средних. Соответствующие точки на нашем рисунке обозначены крестиками и по ним проведена кривая:

.

На рисунке отражена выборочная ситуация, в то время как в действительности нас интересует то, что делается в генеральной совокупности. Рассмотрение последней предполагает, что переменные непрерывны, т.е. имеют бесконечное число значений. Соотношение для генеральной совокупности имеет следующий вид:

,

(где μ — знак математического ожидания меры средней тенденции для генеральной совокупности). Такая функция называется функцией регрессии Y по Х (уравнением регрессии, либо регрессионной зависимостью).

Фиксируя какое-либо значение Х, равное, например, Хi (рассматривая некую совокупность объектов), мы имеем дело с некоторым условным распределением Y (которое образуют значения зависимой переменной Y, вычисленные для объектов, обладающих значением Хi признака Х). Это распределение имеет свое математическое ожидание и дисперсию. Математическое ожидание лежит на линии регрессии (рис. 25).

Рис. 25. Статистические предположения, лежащие в основе регрессионного анализа.

Условные распределения зависимой переменной Y нормальны. Их математические ожидания μ1, μ2, μ3 лежат на линии регрессии; дисперсии , , равны. μ1, μ2, μ3 — математические ожидания тех условных распределений переменной Y, которые получаются при фиксации значений, соответственно, Х1, Х2, Х3 переменной Х. Линия регрессии говорит о том, насколько статистически изменится среднее значение Y при изменении значения Х. Точность, с которой линия регрессии Y по Х передает изменение Y в среднем при изменении Х, измеряется дисперсией величины Y для каждого Х:

D (Y/X) = s2 (X).

Пусть , , значения дисперсий, вычисленных для условных распределений переменной Y, получающихся при фиксации значений, соответственно, Х1, Х2, Х3 переменной Х. Обычно предполагается, что описанные условные распределения зависимой переменной Y нормальны, а дисперсии этих распределений равны: = = = . Именно такая ситуация отражена на рис. 26. При равенстве дисперсий говорят, что условные распределения удовлетворяют свойству гомоскедастичности. Чем меньше условные дисперсии Y, т. е. чем меньше разброс зависимого признака в условных распределениях, тем более достоверен регрессионный прогноз. Большой разброс снижает его достоверность.

Линия регрессии обладает свойством: среди всех действительных функций f минимум математического ожидания μ(Y-f(X))2 достигается для функции f (X) = μ(Y/X). Поясним это положение по рис. 26.

Рис. 26. Отклонения ординат рассматриваемых точек от произвольной функции

Вертикальные отрезки — отклонения ординат рассматриваемых точек от графика этой функции. Средняя величина квадратов длин этих отрезков — это и есть выборочная оценка математического ожидания μ (Y-f(X))2. Для того, чтобы лучше понять способ вычисления величин рассмотренных отрезков, покажем, в чем он состоит, на примере одной точки, имеющей произвольные координаты (Х, Y) в нашем признаковом пространстве. Обратимся к рис. 27.

Рис.27. Отклонение точки (Х, Y) от произвольной функции Y = f (X)

Х координата рассматриваемого объекта по оси Х; Y — координата по оси Y; — ордината точки, принадлежащей графику функции Y = f (X) и имеющей по оси Х ту же координату, что и объект.

Сумма и есть та величина, которую надо минимизировать для того, чтобы получить выборочное представление линии регрессии. При этом суммирование осуществляется по всем рассматриваемым объектам.

,

где — теоретическое, модельное значение зависимой переменной.

Минимальной эта сумма будет, если рассматриваемая функция Y = f (X) является выборочным представлением искомой линии регрессии. Чтобы найти выборочную линию регрессии, необходимо перебрать все возможные функции Y=f (X), для каждой вычислить указанную сумму квадратов и остановиться на той функции, для которой эта сумма минимальна. Этот способ поиска f (X) называется метод наименьших квадратов, и он задействован в широко применяемом в социологии методе парных сравнений.

Математика предоставляет возможность найти функцию, отражающую искомую линию регрессии с любой степенью приближения. Это можно сделать, например, используя многочлены произвольной степени m:

,

где β0, β1, β2, …, β m — некоторые параметры; выборочные оценки которых надо получить). Однако найденная функция будет очень сложной и прогнозировать с ее помощью трудно. Поэтому выбирают какое-либо семейство кривых, имеющих сравнительно простые формулы, и именно среди них с помощью метода наименьших квадратов ищут ту, которая как можно более близко подходит ко всем данным точкам. Чаще всего в качестве такого семейства используют совокупность прямых линий, все они выражаются формулами вида

,

где β1 говорит о величине угла наклона прямой к оси Х, а β 0 — о сдвиге этой прямой вдоль оси Y. Соответствующий вариант регрессионного анализа называется линейным.

Если мы наблюдаем многомерный случай, т.е. такую ситуацию, когда имеется много независимых переменных Х1, Х2,..., Хn (n > 1), то сказанное выше также справедливо. Отличие только в том, что линейная регрессионная модель имеет вид не прямой линии, а гиперплоскости:

Y = а0 + а1Х1+ а2Х2 +... + аnХn

Уравнение регрессии будет более ясным с точки зрения его содержательной интерпретации, если все эти единицы будут одинаковыми. Для этого обычно осуществляют так называемую стандартизацию всех значений каждого признака (нормировку): вычитают из каждого такого значения среднее арифметическое признака и делят полученную разность на его дисперсию.

Рассмотрим признак Х2.. Если — некоторое (i-е) его значение, и sХ — отвечающие ему среднее арифметическое и дисперсия, то нормировка будет означать преобразование значения :

.

Для того чтобы на основе информации, полученной по номинальной шкале, можно было построить уравнение регрессии, эту информацию необходимо преобразовать — дихотомизировать номинальные данные. Вместо каждого номинального признака, принимающего κ значений, вводим κ' новых дихотомических (0 и 1).

Предположим, что рассматриваемый номинальный признак Х — это национальность и что в закрытом вопросе анкеты названы три национальности: русский, грузин и чукча. Дихотомизируем их:

Предположим, что мы хотим изучить связь вида

Y = f(X),

где Х — национальность, а Y — профессия. Вместо признака Х в уравнение необходимо вставить Х1, Х2, Х3. Однако нежелательно включать в регрессионную модель такие предикторы, которые заведомо связаны друг с другом. А относительно наших Х1, Х2, Х3 такая связь есть. Как поступить в данном случае?

Если мы знаем значения двух из трех рассматриваемых предикторов, то значение третьего определяется автоматически. Мы можем не спрашивать респондента, какая у него национальность, а сами определим ее методом исключений, если знаем, какие значения для него имеют признаки Х1 и Х2 (табл.34).

Таблица 34





Дата публикования: 2014-11-02; Прочитано: 1296 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.009 с)...