![]() |
Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | |
|
Иногда имеет смысл искать сочетания значений исходных признаков, которые определяют те или иные связи, то или иное поведение респондентов, или объединять отдельные признаки друг с другом, искать такие их сочетания, которые детерминируют другие признаки. Это позволяет сделать регрессионный анализ.
Пусть нас интересует зависимость между X и Y. Но, зная коэффициент их корреляции, мы не можем сказать, как возрастет значение Y, если значение X увеличится, скажем, на 1.
Приведем пример, для этого рассмотрим зависимость между производственным стажем человека и его зарплатой (рис. 23 а и б).
Рис. 23. Сильные линейные связи признаков «зарплата» и «стаж», определяющих разный прогноз
В обоих случаях соответствующие коэффициенты корреляции близки к 1 (обе совокупности точек-объектов лежат на прямых линиях, отвечающих нашей зависимости). На рис. 23а из них прямая идет резко вверх. Поэтому даже при небольшом увеличении X признак Y резко возрастет. В случае же наличия связи, изображенной на рис. 23б, прямая близка к горизонтали. Поэтому даже при значительном росте X значение Y почти не изменится. Это нельзя узнать лишь на основе вычисления коэффициентов корреляции.
Чтобы делать прогноз, как изменится значение Y при том или ином изменении значения X, нам желательно знать форму связи между этими переменными, т. е. функцию вида Y = f (X). Независимые переменные называют входными, экзогенными, внешними, а зависимые — выходными, эндогенными, внутренними.. Если переменные Х и Y — независимая и зависимая, то ищем усредненную зависимость вида Y = f(X).
Рис. 24. Принципиальная схема линии регрессии
Для социологических данных типична ситуация, когда одному значению Х соответствует множество значений Y. Эта ситуация схематично изображена на рис. 24. Чтобы выбрать четкую зависимость, подсчитаем для каждого значения Х среднее арифметическое значение всех отвечающих ему значений Y и будем изучать зависимость от Х таких средних. Соответствующие точки на нашем рисунке обозначены крестиками и по ним проведена кривая:
.
На рисунке отражена выборочная ситуация, в то время как в действительности нас интересует то, что делается в генеральной совокупности. Рассмотрение последней предполагает, что переменные непрерывны, т.е. имеют бесконечное число значений. Соотношение для генеральной совокупности имеет следующий вид:
,
(где μ — знак математического ожидания меры средней тенденции для генеральной совокупности). Такая функция называется функцией регрессии Y по Х (уравнением регрессии, либо регрессионной зависимостью).
Фиксируя какое-либо значение Х, равное, например, Хi (рассматривая некую совокупность объектов), мы имеем дело с некоторым условным распределением Y (которое образуют значения зависимой переменной Y, вычисленные для объектов, обладающих значением Хi признака Х). Это распределение имеет свое математическое ожидание и дисперсию. Математическое ожидание лежит на линии регрессии (рис. 25).
Рис. 25. Статистические предположения, лежащие в основе регрессионного анализа.
Условные распределения зависимой переменной Y нормальны. Их математические ожидания μ1, μ2, μ3 лежат на линии регрессии; дисперсии ,
,
равны. μ1, μ2, μ3 — математические ожидания тех условных распределений переменной Y, которые получаются при фиксации значений, соответственно, Х1, Х2, Х3 переменной Х. Линия регрессии говорит о том, насколько статистически изменится среднее значение Y при изменении значения Х. Точность, с которой линия регрессии Y по Х передает изменение Y в среднем при изменении Х, измеряется дисперсией величины Y для каждого Х:
D (Y/X) = s2 (X).
Пусть ,
,
значения дисперсий, вычисленных для условных распределений переменной Y, получающихся при фиксации значений, соответственно, Х1, Х2, Х3 переменной Х. Обычно предполагается, что описанные условные распределения зависимой переменной Y нормальны, а дисперсии этих распределений равны:
=
=
=
. Именно такая ситуация отражена на рис. 26. При равенстве дисперсий говорят, что условные распределения удовлетворяют свойству гомоскедастичности. Чем меньше условные дисперсии Y, т. е. чем меньше разброс зависимого признака в условных распределениях, тем более достоверен регрессионный прогноз. Большой разброс снижает его достоверность.
Линия регрессии обладает свойством: среди всех действительных функций f минимум математического ожидания μ(Y-f(X))2 достигается для функции f (X) = μ(Y/X). Поясним это положение по рис. 26.
Рис. 26. Отклонения ординат рассматриваемых точек от произвольной функции
Вертикальные отрезки — отклонения ординат рассматриваемых точек от графика этой функции. Средняя величина квадратов длин этих отрезков — это и есть выборочная оценка математического ожидания μ (Y-f(X))2. Для того, чтобы лучше понять способ вычисления величин рассмотренных отрезков, покажем, в чем он состоит, на примере одной точки, имеющей произвольные координаты (Х, Y) в нашем признаковом пространстве. Обратимся к рис. 27.
Рис.27. Отклонение точки (Х, Y) от произвольной функции Y = f (X)
Х координата рассматриваемого объекта по оси Х; Y — координата по оси Y; — ордината точки, принадлежащей графику функции Y = f (X) и имеющей по оси Х ту же координату, что и объект.
Сумма и есть та величина, которую надо минимизировать для того, чтобы получить выборочное представление линии регрессии. При этом суммирование осуществляется по всем рассматриваемым объектам.
,
где — теоретическое, модельное значение зависимой переменной.
Минимальной эта сумма будет, если рассматриваемая функция Y = f (X) является выборочным представлением искомой линии регрессии. Чтобы найти выборочную линию регрессии, необходимо перебрать все возможные функции Y=f (X), для каждой вычислить указанную сумму квадратов и остановиться на той функции, для которой эта сумма минимальна. Этот способ поиска f (X) называется метод наименьших квадратов, и он задействован в широко применяемом в социологии методе парных сравнений.
Математика предоставляет возможность найти функцию, отражающую искомую линию регрессии с любой степенью приближения. Это можно сделать, например, используя многочлены произвольной степени m:
,
где β0, β1, β2, …, β m — некоторые параметры; выборочные оценки которых надо получить). Однако найденная функция будет очень сложной и прогнозировать с ее помощью трудно. Поэтому выбирают какое-либо семейство кривых, имеющих сравнительно простые формулы, и именно среди них с помощью метода наименьших квадратов ищут ту, которая как можно более близко подходит ко всем данным точкам. Чаще всего в качестве такого семейства используют совокупность прямых линий, все они выражаются формулами вида
,
где β1 говорит о величине угла наклона прямой к оси Х, а β 0 — о сдвиге этой прямой вдоль оси Y. Соответствующий вариант регрессионного анализа называется линейным.
Если мы наблюдаем многомерный случай, т.е. такую ситуацию, когда имеется много независимых переменных Х1, Х2,..., Хn (n > 1), то сказанное выше также справедливо. Отличие только в том, что линейная регрессионная модель имеет вид не прямой линии, а гиперплоскости:
Y = а0 + а1Х1+ а2Х2 +... + аnХn
Уравнение регрессии будет более ясным с точки зрения его содержательной интерпретации, если все эти единицы будут одинаковыми. Для этого обычно осуществляют так называемую стандартизацию всех значений каждого признака (нормировку): вычитают из каждого такого значения среднее арифметическое признака и делят полученную разность на его дисперсию.
Рассмотрим признак Х2.. Если — некоторое (i-е) его значение,
и sХ — отвечающие ему среднее арифметическое и дисперсия, то нормировка будет означать преобразование значения
:
.
Для того чтобы на основе информации, полученной по номинальной шкале, можно было построить уравнение регрессии, эту информацию необходимо преобразовать — дихотомизировать номинальные данные. Вместо каждого номинального признака, принимающего κ значений, вводим κ' новых дихотомических (0 и 1).
Предположим, что рассматриваемый номинальный признак Х — это национальность и что в закрытом вопросе анкеты названы три национальности: русский, грузин и чукча. Дихотомизируем их:
Предположим, что мы хотим изучить связь вида
Y = f(X),
где Х — национальность, а Y — профессия. Вместо признака Х в уравнение необходимо вставить Х1, Х2, Х3. Однако нежелательно включать в регрессионную модель такие предикторы, которые заведомо связаны друг с другом. А относительно наших Х1, Х2, Х3 такая связь есть. Как поступить в данном случае?
Если мы знаем значения двух из трех рассматриваемых предикторов, то значение третьего определяется автоматически. Мы можем не спрашивать респондента, какая у него национальность, а сами определим ее методом исключений, если знаем, какие значения для него имеют признаки Х1 и Х2 (табл.34).
Таблица 34
Дата публикования: 2014-11-02; Прочитано: 1296 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!