Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Профессия | Пол | Итого | |
Итого |
Таблица 21
Сопряженность, частоты которой сравнительно мало отличаются от ситуации независимости признаков
Профессия | Пол | Итого | |
Итого |
Таблица 22
Сопряженность, частоты которой значительно отличаются от ситуации независимости признаков
Профессия | Пол | Итого | |
Итого |
Сильное отклонение от пропорциональности заставляет нас сомневаться в отсутствии связи в генеральной совокупности; слабое отклонение говорит о том, что выборка не дает оснований для таких сомнений.
На основе функции «хи-квадрат» мы можем проверить гипотезу об отсутствии связи.
Предположим, что мы имеем две номинальных переменных, отвечающую им частотную таблицу и хотим определить, имеется ли связь между переменными, с помощью проверки статистической гипотезы о независимости признаков (суть нуль-гипотезы Н0 состоит в том, что связь между рассматриваемыми переменными отсутствует).
Допустим, мы хотим проверить статистическую гипотезу Н0[53]. Сделаем это с помощью числовой функции f от наблюдаемых величин, например, рассчитанной на основе частот выборочной таблицы сопряженности: f = f (nij). Значение этой функции мы можем вычислить для нескольких выборок. Распределение таких значений в предположении, что проверяемая гипотеза справедлива (для генеральной совокупности), хорошо изучено, т. е. известно, какова вероятность попадания каждого значения в любой интервал: если Н0 справедлива, то для каждого полученного по конкретной выборке значения f можно сказать, какова та вероятность, с которой мы могли на него выбрать. Вычисляем значение f выб критерия f для нашей единственной выборки. Находим вероятность Р(f выб ) этого значения. Далее мы полагаем, что если вероятность какого-либо события очень мала, то это событие практически не может произойти. И если мы все же такое маловероятное событие встретили, то делаем из этого вывод, что вероятность определялась нами неправильно, что в действительности встреченное событие не маловероятно.
Если вероятность события Р(f выб ) очень мала, мы полагаем, что неправильно ее определили. Таким образом, наша гипотеза не подтверждается, т.к. мы изначально исходили из ее верности.
Если же вероятность Р(f выб ) достаточно велика для того, чтобы значение f выб могло встретиться практически, то мы принимаем гипотезу: считаем, что она справедлива для генеральной совокупности.
Граница между малой и большой вероятностью должна быть равна такому значению вероятности, относительно которого мы могли бы считать, что событие с такой (или с меньшей) вероятностью практически не может случиться. Это значение называют уровнем значимости принятия (отвержения) нуль-гипотезы и обозначают буквой a. Обычно полагают, что a равно 0,05 либо 0,01.
Теперь рассмотрим гипотезу об отсутствии связи между двумя изучаемыми номинальными переменными. Функция, выступающая в качестве описанного выше статистического критерия носит название «хи-квадрат». В разных случаях она обозначается большой или малой греческой «хи».
,
где — наблюдаемая нами частота, стоящая на пересечении i -й строки и j -го столбца таблицы сопряженности (т. н. эмпирическая частота), а — частота, которая стояла бы в той же клетке, если бы наши переменные были статистически независимы (т.е. частота, отвечающая пропорциональности столбцов (строк) таблицы сопряженности; она называется теоретической, или ожидаемой частотой, поскольку именно ее появление и ожидается при независимости переменных). Теоретическая частота находится по формуле:
.
Теоретическая частота отвечает той ситуации, когда являются независимыми два события:
a) первый признак принимает значение i;
b) второй признак принимает значение j.
Независимость двух событий означает, что вероятность их совместного осуществления равна произведению вероятностей осуществления каждого в отдельности. Эти вероятности оцениваются следующим образом:
; ; .
Независимость наших событий означает справедливость соотношения:
.
Теперь рассмотрим работу критерия «хи-квадрат». Представим себе, что мы организуем бесконечное количество выборок и для каждой из них вычисляем величину . Образуется последовательность таких величин: , , , … Рассмотрим их распределение, т. е. вероятность встречаемости каждого значения. В математической статистике доказано следующее положение: если наши признаки в генеральной совокупности независимы, то вычисленные для выборок значения приблизительно имеют хорошо изученное распределение c2. Приблизительность можно игнорировать, если в каждой клетке таблицы есть по крайней мере 5 наблюдений.
При отсутствии связи в генеральной совокупности среди выборочных будут преобладать значения, близкие к нулю, поскольку отсутствие связи означает равенство эмпирических и теоретических частот. Большие значения будут встречаться редко - именно они будут маловероятны. Поэтому можно сказать, что большое значение приводит нас к утверждению о наличии связи, малое — об ее отсутствии.
Вероятность попадания каждого значения величины в любой заданный интервал определяется с помощью специальных вероятностных таблиц. Такие таблицы имеются и для распределения c2. В зависимости от вида таблицы типологизированы и сами эти распределения. Вид их определяется числом степеней свободы df (degree freedom) распределения:
Df = (r – 1) (c – 1).
Если в генеральной совокупности признаки независимы, то, вычислив df, мы можем найти по соответствующей таблице вероятность попадания произвольного значения в любой заданный интервал. Вычисленное для нашей выборки значение обозначим .
Вычислим число степеней свободы df и зададимся некоторым уровнем значимости a. Найдем по таблице распределения c2 такое значение , называемое критическим значением критерия ( ), для которого выполняется неравенство:
Р(x I ) = a,
где x - обозначение случайной величины, имеющей распределение c2 с рассматриваемым df.
Если < (т. е. вероятность появления достаточно велика), полагаем, что наши выборочные наблюдения не дают оснований сомневаться в том, что в генеральной совокупности признаки действительно независимы, следовательно, мы принимаем нуль-гипотезу. Если не равно (т. е. вероятность появления очень мала, т. е. меньше a), то мы отвергаем нуль-гипотезу — полагаем, что признаки зависимы.
В заключение следует отметить необходимость нормировки значений функции «хи-квадрат». Сами значения рассматриваемого критерия непригодны для оценки связи между признаками, поскольку они зависят от объема выборки и других случайных обстоятельств. Например, величина критерия 30, может говорить о большой вероятности наличия связи, если в клетках исходной частотной таблицы стоят величины порядка 10, 20, 30, и о малой вероятности того же, если рассматриваемые частоты равны 1 000, 2 000, 3 000 и т. д. Социологу всегда необходимо выяснять, не отражает ли используемый показатель что-либо случайное по отношению к изучаемому явлению и в случае наличия такого отражения осуществлять соответствующую нормировку показателя. Нормировку осуществляют таким образом, чтобы нормированные коэффициенты изменялись либо от -1 до +1 (если выясняем положительную и отрицательную направленность), либо от 0 до 1 (во всех других случаях).
Имеются разные подходы к требующейся нормировке. Наиболее известными являются такие, которые превращают критерий «хи-квадрат» в известные коэффициенты – Пирсона (Р), Чупрова (Т), Крамера (К), соответственно:
Все коэффициенты изменяются от 0 до 1 и равны нулю в случае полной независимости признаков. Но с их помощью нельзя выделить зависимую и независимую переменные.
Обычно в качестве недостатка коэффициента Пирсона Р упоминается зависимость его максимальной величины от размера таблицы сопряженности (максимум Р достигается при c = r, но величина максимального значения изменяется с изменением числа категорий: при с = 3 значение Р не может быть больше 0,8; при с = 5 максимальное значение Р равно 0,89 и т. д.)[54]. Это приводит к возникновению трудностей при сравнении таблиц разного размера.
Для исправления этого недостатка коэффициента Пирсона Чупров ввел коэффициент Т. Но и Т достигает 1 лишь при c = r, и не достигает 1 при отличии c и r. Может достигать 1 независимо от вида таблицы коэффициент Крамера К. Для квадратных таблиц коэффициенты Крамера и Чупрова совпадают, в остальных случаях К >Т[55].
Дата публикования: 2014-11-02; Прочитано: 427 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!