Главная \| Случайная страница \| Контакты \| Мы поможем в написании вашей работы!

Сопряженность, частоты которой мало отличаются от ситуации независимости признаков

⇐ Предыдущая 13 14 15 16 171819 20 21 22 Следующая ⇒

Профессия	Пол	Итого






Итого

Таблица 21

Сопряженность, частоты которой сравнительно мало отличаются от ситуации независимости признаков

Профессия	Пол	Итого






Итого

Таблица 22

Сопряженность, частоты которой значительно отличаются от ситуации независимости признаков

Профессия	Пол	Итого






Итого

Сильное отклонение от пропорциональности заставляет нас сомневаться в отсутствии связи в генеральной совокупности; слабое отклонение говорит о том, что выборка не дает оснований для таких сомнений.

На основе функции «хи-квадрат» мы можем проверить гипотезу об отсутствии связи.

Предположим, что мы имеем две номинальных переменных, отвечающую им частотную таблицу и хотим определить, имеется ли связь между переменными, с помощью проверки статистической гипотезы о независимости признаков (суть нуль-гипотезы Н₀ состоит в том, что связь между рассматриваемыми переменными отсутствует).

Допустим, мы хотим проверить статистическую гипотезу Н₀[53]_. Сделаем это с помощью числовой функции f от наблюдаемых величин, например, рассчитанной на основе частот выборочной таблицы сопряженности: f = f (n_ij). Значение этой функции мы можем вычислить для нескольких выборок. Распределение таких значений в предположении, что проверяемая гипотеза справедлива (для генеральной совокупности), хорошо изучено, т. е. известно, какова вероятность попадания каждого значения в любой интервал: если Н₀справедлива, то для каждого полученного по конкретной выборке значения f можно сказать, какова та вероятность, с которой мы могли на него выбрать. Вычисляем значение f _выб критерия f для нашей единственной выборки. Находим вероятность Р(f _выб ) этого значения. Далее мы полагаем, что если вероятность какого-либо события очень мала, то это событие практически не может произойти. И если мы все же такое маловероятное событие встретили, то делаем из этого вывод, что вероятность определялась нами неправильно, что в действительности встреченное событие не маловероятно.

Если вероятность события Р(f _выб ) очень мала, мы полагаем, что неправильно ее определили. Таким образом, наша гипотеза не подтверждается, т.к. мы изначально исходили из ее верности.

Если же вероятность Р(f _выб ) достаточно велика для того, чтобы значение f _выб могло встретиться практически, то мы принимаем гипотезу: считаем, что она справедлива для генеральной совокупности.

Граница между малой и большой вероятностью должна быть равна такому значению вероятности, относительно которого мы могли бы считать, что событие с такой (или с меньшей) вероятностью практически не может случиться. Это значение называют уровнем значимости принятия (отвержения) нуль-гипотезы и обозначают буквой a. Обычно полагают, что a равно 0,05 либо 0,01.

Теперь рассмотрим гипотезу об отсутствии связи между двумя изучаемыми номинальными переменными. Функция, выступающая в качестве описанного выше статистического критерия носит название «хи-квадрат». В разных случаях она обозначается большой или малой греческой «хи».

где — наблюдаемая нами частота, стоящая на пересечении i -й строки и j -го столбца таблицы сопряженности (т. н. эмпирическая частота), а — частота, которая стояла бы в той же клетке, если бы наши переменные были статистически независимы (т.е. частота, отвечающая пропорциональности столбцов (строк) таблицы сопряженности; она называется теоретической, или ожидаемой частотой, поскольку именно ее появление и ожидается при независимости переменных). Теоретическая частота находится по формуле:

Теоретическая частота отвечает той ситуации, когда являются независимыми два события:

a) первый признак принимает значение i;

b) второй признак принимает значение j.

Независимость двух событий означает, что вероятность их совместного осуществления равна произведению вероятностей осуществления каждого в отдельности. Эти вероятности оцениваются следующим образом:

; ; _.

Независимость наших событий означает справедливость соотношения:

Теперь рассмотрим работу критерия «хи-квадрат». Представим себе, что мы организуем бесконечное количество выборок и для каждой из них вычисляем величину . Образуется последовательность таких величин:, , , … Рассмотрим их распределение, т. е. вероятность встречаемости каждого значения. В математической статистике доказано следующее положение: если наши признаки в генеральной совокупности независимы, то вычисленные для выборок значения приблизительно имеют хорошо изученное распределение c^2.Приблизительность можно игнорировать, если в каждой клетке таблицы есть по крайней мере 5 наблюдений.

При отсутствии связи в генеральной совокупности среди выборочных будут преобладать значения, близкие к нулю, поскольку отсутствие связи означает равенство эмпирических и теоретических частот. Большие значения будут встречаться редко - именно они будут маловероятны. Поэтому можно сказать, что большое значение приводит нас к утверждению о наличии связи, малое — об ее отсутствии.

Вероятность попадания каждого значения величины в любой заданный интервал определяется с помощью специальных вероятностных таблиц. Такие таблицы имеются и для распределения c². В зависимости от вида таблицы типологизированы и сами эти распределения. Вид их определяется числом степеней свободы df (degree freedom) распределения:

Df = (r – 1) (c – 1).

Если в генеральной совокупности признаки независимы, то, вычислив df, мы можем найти по соответствующей таблице вероятность попадания произвольного значения в любой заданный интервал. Вычисленное для нашей выборки значение обозначим.

Вычислим число степеней свободы df и зададимся некоторым уровнем значимости a. Найдем по таблице распределения c² такое значение , называемое критическим значением критерия (), для которого выполняется неравенство:

Р(x I) = a,

где x - обозначение случайной величины, имеющей распределение c²с рассматриваемым df.

Если <(т. е. вероятность появления достаточно велика), полагаем, что наши выборочные наблюдения не дают оснований сомневаться в том, что в генеральной совокупности признаки действительно независимы, следовательно, мы принимаем нуль-гипотезу. Если не равно (т. е. вероятность появления очень мала, т. е. меньше a), то мы отвергаем нуль-гипотезу — полагаем, что признаки зависимы.

В заключение следует отметить необходимость нормировки значений функции «хи-квадрат». Сами значения рассматриваемого критерия непригодны для оценки связи между признаками, поскольку они зависят от объема выборки и других случайных обстоятельств. Например, величина критерия 30, может говорить о большой вероятности наличия связи, если в клетках исходной частотной таблицы стоят величины порядка 10, 20, 30, и о малой вероятности того же, если рассматриваемые частоты равны 1 000, 2 000, 3 000 и т. д. Социологу всегда необходимо выяснять, не отражает ли используемый показатель что-либо случайное по отношению к изучаемому явлению и в случае наличия такого отражения осуществлять соответствующую нормировку показателя. Нормировку осуществляют таким образом, чтобы нормированные коэффициенты изменялись либо от -1 до +1 (если выясняем положительную и отрицательную направленность), либо от 0 до 1 (во всех других случаях).

Имеются разные подходы к требующейся нормировке. Наиболее известными являются такие, которые превращают критерий «хи-квадрат» в известные коэффициенты – Пирсона (Р), Чупрова (Т), Крамера (К), соответственно:

Все коэффициенты изменяются от 0 до 1 и равны нулю в случае полной независимости признаков. Но с их помощью нельзя выделить зависимую и независимую переменные.

Обычно в качестве недостатка коэффициента Пирсона Р упоминается зависимость его максимальной величины от размера таблицы сопряженности (максимум Р достигается при c = r, но величина максимального значения изменяется с изменением числа категорий: при с = 3 значение Р не может быть больше 0,8; при с = 5 максимальное значение Р равно 0,89 и т. д.)[54]. Это приводит к возникновению трудностей при сравнении таблиц разного размера.

Для исправления этого недостатка коэффициента Пирсона Чупров ввел коэффициент Т. Но и Т достигает 1 лишь при c = r, и не достигает 1 при отличии c и r. Может достигать 1 независимо от вида таблицы коэффициент Крамера К. Для квадратных таблиц коэффициенты Крамера и Чупрова совпадают, в остальных случаях К >Т[55].

⇐ Предыдущая 13 14 15 16 171819 20 21 22 Следующая ⇒

Дата публикования: 2014-11-02; Прочитано: 427 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!

studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.009 с)...