![]() |
Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | |
|
Чтобы признаки считались связанными, значение одного из них должно позволять достаточно хорошо предсказать значение другого.
Предположим, что мы изучаем жителей некоторого города N от 20 лет и старше и нас интересует связь между признаком «возраст», рассматриваемым нами как номинальный, и дихотомическим признаком со значениями «студент» - «не студент». Предположим, что распределение изучаемой совокупности по возрасту приблизительно равномерно — такое, какое изображено на рис. 20.
Рис.20. Гипотетическое распределение по возрасту жителей города N старше 20 лет
Мы не сможем хорошо прогнозировать возраст респондента. Выбрав наугад произвольного человека, мы примерно с одинаковой степенью уверенности можем полагать, что он имеет любой возраст: вероятность «наткнуться» на 20-летнего юношу такая же, как и на 80-летнего старика. Другое дело, если мы рассмотрим только студентов. Их распределение по возрасту будет резко отличаться от общего (рис. 21).
Рис. 21. Гипотетическое распределение по возрасту студентов города N старше 20 лет
Теперь, случайным образом отобрав человека (студента), мы с уверенностью 90% (90 = 70 + 20) будем полагать, что его возраст не превысит 30 лет.
Мы улучшили возможность прогноза возраста жителей города и можем сделать вывод о наличии связи между признаком «возраст» и признаком «студент». Чтобы сделать этот вывод, мы сравнили безусловное распределение признака «возраст» (рис. 20) с его условным распределением (рис. 21), условие состоит в фиксации значения «студент» второго признака.
Все прогнозные коэффициенты должны служить мерой улучшения качества прогноза значения одного признака за счет получения сведений о значении другого признака по сравнению с тем случаем, когда последнее значение неизвестно. Коэффициенты связи, рассматриваемые в данном пособии, отличаются друг от друга способом формализации прогноза.
Выделяют модальный прогноз и пропорциональный прогноз.
Выбирая произвольный объект и зная распределение рассматриваемого признака (условное или безусловное), считаем, что для выбранного объекта этот признак принимает то значение, которое имеет максимальную вероятность, встречается с максимальной частотой (модальное значение). Такой прогноз называется модальным (оптимальным). Коэффициентов три: λr - отражающий влияние строкового признака на столбцовый; λс - отражающий влияние столбцового признака на строковый, λ - усредненный коэффициент.
Рассмотрим формулу для λr, (для λс рассуждения аналогичны):
.
Где выражение означает наибольшую частоту в i - й строке, из нее мы вычитаем наибольшую столбцовую маргинальную частоту.
Пусть частотная таблица имеет вид:
Таблица 23
Расчет коэффициента λr
Значения X | Значения Y | Итого | ||
Итого |
Наибольшая частота в первой строке матрицы равна 30, во второй тоже 30, в третьей 40. Максимальный маргинал по столбцам — 65. Общее количество объектов в выборке — 150:
.
Рассмотрим безусловное распределение признака Y. Отвечающие ему частоты — это маргиналы по столбцам рассматриваемой матрицы: 45, 40, 65. Модальная частота — 65. Значит, выбрав случайным образом какой-либо объект, мы, прогнозируя для него значение Y, в соответствии с нашими представлениями о прогнозе, определяем, что упомянутое значение равно 3 (именно это значение является модой). Перебирая последовательно всех респондентов, мы дадим правильный прогноз в 65 случаях и ошибемся в (150 - 65) случаях (вероятность ошибки будет равна ). Именно эта разность стоит в знаменателе нашей формулы. Итак, для безусловного распределения качество нашего прогноза можно оценить с помощью величины (150 - 65).
Пусть Х = 1. Соответствующее условное распределение Y определяется частотами первой строки матрицы: числами 0, 20, 30. Значит, перебирая 50 респондентов с первым значением Х и делая для каждого прогноз, мы не ошибемся в 30 случаях. При Х = 2 количество верных предположений тоже будет равно 30. При Х=3 получим 40. Общее количество правильных прогнозов во всех условных распределениях будет равно (30 + 30 + 40). По сравнению с безусловным случаем оно возрастет на ((30 + 30 + 40) - 65) единиц. Это — числитель выражения для λr. В числителе отражена суть коэффициента, знаменатель же использован для нормировки. Чем ближе значение λr к 1, тем лучше предсказание и сильнее связь между переменными. λr = 0, если максимальные частоты в строках приходятся на один столбец. Коэффициенты чаще всего называют коэффициентами Гуттмана[56], Гудмена[57] или λ-коэффициентами[58].
Теперь приведем пример пропорционального прогноза [59].Сначала рассмотрим безусловное распределение. Возьмем 150 шаров, на 45 из них напишем цифру 1, на 40 - цифру 2, на 65 — цифру 3 и погрузим все шары в урну, перемешав их. Берем случайного респондента, опускаем руку в урну и вытаскиваем тот шар, который попался случайно. То, что на нем написано, и будет прогнозным значением признака Y для выбранного респондента. Аналогичным образом поступаем и для каждого условного распределения: то, что чаще встречается в исходной совокупности, должно чаще попадаться в наши руки при вытаскивании шаров. К примеру, в соответствии с первым условным распределением (Х=1, первая строка частотной таблицы) у нас отсутствуют респонденты, для которых Y = 1. Не будут попадаться и шары с единицей, поскольку количество таких шаров равно 0. В соответствии с третьим распределением (Х = 3) значения 2 и 3 признаков Y встречаются одинаково часто и в 8 раз реже значения 1. И вероятность встречаемости шаров с цифрами 2 и 3 будет одинаковой и в 8 раз меньше вероятности встречаемости шара с 1. такие распределения рассматриваются как основа коэффициента Валлиса, но принцип его работы тот же, что и у коэффициентов λ.
Дата публикования: 2014-11-02; Прочитано: 750 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!