Главная \| Случайная страница \| Контакты \| Мы поможем в написании вашей работы!

Номинальный регрессионный анализ (НРА)

⇐ Предыдущая 26 27 28 29 303132 33 34 35 Следующая ⇒

Иногда имеет смысл искать сочетания значений исходных признаков, которые определяют те или иные связи, то или иное поведение респондентов, или объединять отдельные признаки друг с другом, искать такие их сочетания, которые детерминируют другие признаки. Это позволяет сделать регрессионный анализ.

Пусть нас интересует зависимость между X и Y. Но, зная коэффициент их корреляции, мы не можем сказать, как возрастет значение Y, если значение X увеличится, скажем, на 1.

Приведем пример, для этого рассмотрим зависимость между производственным стажем человека и его зарплатой (рис. 23 а и б).

Рис. 23. Сильные линейные связи признаков «зарплата» и «стаж», определяющих разный прогноз

В обоих случаях соответствующие коэффициенты корреляции близки к 1 (обе совокупности точек-объектов лежат на прямых линиях, отвечающих нашей зависимости). На рис. 23а из них прямая идет резко вверх. Поэтому даже при небольшом увеличении X признак Y резко возрастет. В случае же наличия связи, изображенной на рис. 23б, прямая близка к горизонтали. Поэтому даже при значительном росте X значение Y почти не изменится. Это нельзя узнать лишь на основе вычисления коэффициентов корреляции.

Чтобы делать прогноз, как изменится значение Y при том или ином изменении значения X, нам желательно знать форму связи между этими переменными, т. е. функцию вида Y = f (X). Независимые переменные называют входными, экзогенными, внешними, а зависимые — выходными, эндогенными, внутренними.. Если переменные Х и Y — независимая и зависимая, то ищем усредненную зависимость вида Y = f(X).

Рис. 24. Принципиальная схема линии регрессии

Для социологических данных типична ситуация, когда одному значению Х соответствует множество значений Y. Эта ситуация схематично изображена на рис. 24. Чтобы выбрать четкую зависимость, подсчитаем для каждого значения Х среднее арифметическое значение всех отвечающих ему значений Y и будем изучать зависимость от Х таких средних. Соответствующие точки на нашем рисунке обозначены крестиками и по ним проведена кривая:

На рисунке отражена выборочная ситуация, в то время как в действительности нас интересует то, что делается в генеральной совокупности. Рассмотрение последней предполагает, что переменные непрерывны, т.е. имеют бесконечное число значений. Соотношение для генеральной совокупности имеет следующий вид:

(где μ — знак математического ожидания меры средней тенденции для генеральной совокупности). Такая функция называется функцией регрессии Y по Х (уравнением регрессии, либо регрессионной зависимостью).

Фиксируя какое-либо значение Х, равное, например, Х_i (рассматривая некую совокупность объектов), мы имеем дело с некоторым условным распределением Y (которое образуют значения зависимой переменной Y, вычисленные для объектов, обладающих значением Х_iпризнака Х). Это распределение имеет свое математическое ожидание и дисперсию. Математическое ожидание лежит на линии регрессии (рис. 25).

Рис. 25. Статистические предположения, лежащие в основе регрессионного анализа.

Условные распределения зависимой переменной Y нормальны. Их математические ожидания μ₁, μ₂, μ₃ лежат на линии регрессии; дисперсии , , равны. μ₁, μ₂, μ₃ — математические ожидания тех условных распределений переменной Y, которые получаются при фиксации значений, соответственно, Х₁, Х₂, Х₃ переменной Х. Линия регрессии говорит о том, насколько статистически изменится среднее значение Y при изменении значения Х. Точность, с которой линия регрессии Y по Х передает изменение Y в среднем при изменении Х, измеряется дисперсией величины Y для каждого Х:

D (Y/X) = s² (X).

Пусть , , значения дисперсий, вычисленных для условных распределений переменной Y, получающихся при фиксации значений, соответственно, Х₁, Х₂, Х₃ переменной Х. Обычно предполагается, что описанные условные распределения зависимой переменной Y нормальны, а дисперсии этих распределений равны: = = = . Именно такая ситуация отражена на рис. 26. При равенстве дисперсий говорят, что условные распределения удовлетворяют свойству гомоскедастичности. Чем меньше условные дисперсии Y, т. е. чем меньше разброс зависимого признака в условных распределениях, тем более достоверен регрессионный прогноз. Большой разброс снижает его достоверность.

Линия регрессии обладает свойством: среди всех действительных функций f минимум математического ожидания μ(Y-f(X))² достигается для функции f (X) = μ(Y/X). Поясним это положение по рис. 26.

Рис. 26. Отклонения ординат рассматриваемых точек от произвольной функции

Вертикальные отрезки — отклонения ординат рассматриваемых точек от графика этой функции. Средняя величина квадратов длин этих отрезков — это и есть выборочная оценка математического ожидания μ (Y-f(X))². Для того, чтобы лучше понять способ вычисления величин рассмотренных отрезков, покажем, в чем он состоит, на примере одной точки, имеющей произвольные координаты (Х, Y) в нашем признаковом пространстве. Обратимся к рис. 27.

Рис.27. Отклонение точки (Х, Y) от произвольной функции Y = f (X)

Х координата рассматриваемого объекта по оси Х; Y — координата по оси Y; — ордината точки, принадлежащей графику функции Y = f (X) и имеющей по оси Х ту же координату, что и объект.

Сумма и есть та величина, которую надо минимизировать для того, чтобы получить выборочное представление линии регрессии. При этом суммирование осуществляется по всем рассматриваемым объектам.

где — теоретическое, модельное значение зависимой переменной.

Минимальной эта сумма будет, если рассматриваемая функция Y = f (X) является выборочным представлением искомой линии регрессии. Чтобы найти выборочную линию регрессии, необходимо перебрать все возможные функции Y=f (X), для каждой вычислить указанную сумму квадратов и остановиться на той функции, для которой эта сумма минимальна. Этот способ поиска f (X) называется метод наименьших квадратов, и он задействован в широко применяемом в социологии методе парных сравнений.

Математика предоставляет возможность найти функцию, отражающую искомую линию регрессии с любой степенью приближения. Это можно сделать, например, используя многочлены произвольной степени m:

где β_0, β₁, β₂, …, β_m — некоторые параметры; выборочные оценки которых надо получить). Однако найденная функция будет очень сложной и прогнозировать с ее помощью трудно. Поэтому выбирают какое-либо семейство кривых, имеющих сравнительно простые формулы, и именно среди них с помощью метода наименьших квадратов ищут ту, которая как можно более близко подходит ко всем данным точкам. Чаще всего в качестве такого семейства используют совокупность прямых линий, все они выражаются формулами вида

где β₁ говорит о величине угла наклона прямой к оси Х, а β₀— о сдвиге этой прямой вдоль оси Y. Соответствующий вариант регрессионного анализа называется линейным.

Если мы наблюдаем многомерный случай, т.е. такую ситуацию, когда имеется много независимых переменных Х₁, Х₂,..., Х_n (n > 1), то сказанное выше также справедливо. Отличие только в том, что линейная регрессионная модель имеет вид не прямой линии, а гиперплоскости:

Y = а₀ + а₁Х₁+ а₂Х₂ +... + а_nХ_n

Уравнение регрессии будет более ясным с точки зрения его содержательной интерпретации, если все эти единицы будут одинаковыми. Для этого обычно осуществляют так называемую стандартизацию всех значений каждого признака (нормировку): вычитают из каждого такого значения среднее арифметическое признака и делят полученную разность на его дисперсию.

Рассмотрим признак Х_2.. Если — некоторое (i-е) его значение, и s_Х — отвечающие ему среднее арифметическое и дисперсия, то нормировка будет означать преобразование значения :

Для того чтобы на основе информации, полученной по номинальной шкале, можно было построить уравнение регрессии, эту информацию необходимо преобразовать — дихотомизировать номинальные данные. Вместо каждого номинального признака, принимающего κ значений, вводим κ' новых дихотомических (0 и 1).

Предположим, что рассматриваемый номинальный признак Х — это национальность и что в закрытом вопросе анкеты названы три национальности: русский, грузин и чукча. Дихотомизируем их:

Предположим, что мы хотим изучить связь вида

Y = f(X),

где Х — национальность, а Y — профессия. Вместо признака Х в уравнение необходимо вставить Х₁, Х_2, Х₃. Однако нежелательно включать в регрессионную модель такие предикторы, которые заведомо связаны друг с другом. А относительно наших Х₁, Х_2, Х₃ такая связь есть. Как поступить в данном случае?

Если мы знаем значения двух из трех рассматриваемых предикторов, то значение третьего определяется автоматически. Мы можем не спрашивать респондента, какая у него национальность, а сами определим ее методом исключений, если знаем, какие значения для него имеют признаки Х₁ и Х₂ (табл.34).

Таблица 34

⇐ Предыдущая 26 27 28 29 303132 33 34 35 Следующая ⇒

Дата публикования: 2014-11-02; Прочитано: 1296 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!

studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.009 с)...