Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Коэффициенты связи, основанные на моделях прогноза



Чтобы признаки считались связанными, значение одного из них должно позволять достаточно хорошо предсказать значение другого.

Предположим, что мы изучаем жителей некоторого города N от 20 лет и старше и нас интересует связь между признаком «возраст», рассматриваемым нами как номинальный, и дихотомическим признаком со значениями «студент» - «не студент». Предположим, что распределение изучаемой совокупности по возрасту приблизительно равномерно — такое, какое изображено на рис. 20.

Рис.20. Гипотетическое распределение по возрасту жителей города N старше 20 лет

Мы не сможем хорошо прогнозировать возраст респондента. Выбрав наугад произвольного человека, мы примерно с одинаковой степенью уверенности можем полагать, что он имеет любой возраст: вероятность «наткнуться» на 20-летнего юношу такая же, как и на 80-летнего старика. Другое дело, если мы рассмотрим только студентов. Их распределение по возрасту будет резко отличаться от общего (рис. 21).

Рис. 21. Гипотетическое распределение по возрасту студентов города N старше 20 лет

Теперь, случайным образом отобрав человека (студента), мы с уверенностью 90% (90 = 70 + 20) будем полагать, что его возраст не превысит 30 лет.

Мы улучшили возможность прогноза возраста жителей города и можем сделать вывод о наличии связи между признаком «возраст» и признаком «студент». Чтобы сделать этот вывод, мы сравнили безусловное распределение признака «возраст» (рис. 20) с его условным распределением (рис. 21), условие состоит в фиксации значения «студент» второго признака.

Все прогнозные коэффициенты должны служить мерой улучшения качества прогноза значения одного признака за счет получения сведений о значении другого признака по сравнению с тем случаем, когда последнее значение неизвестно. Коэффициенты связи, рассматриваемые в данном пособии, отличаются друг от друга способом формализации прогноза.

Выделяют модальный прогноз и пропорциональный прогноз.

Выбирая произвольный объект и зная распределение рассматриваемого признака (условное или безусловное), считаем, что для выбранного объекта этот признак принимает то значение, которое имеет максимальную вероятность, встречается с максимальной частотой (модальное значение). Такой прогноз называется модальным (оптимальным). Коэффициентов три: λr - отражающий влияние строкового признака на столбцовый; λс - отражающий влияние столбцового признака на строковый, λ - усредненный коэффициент.

Рассмотрим формулу для λr, (для λс рассуждения аналогичны):

.

Где выражение означает наибольшую частоту в i - й строке, из нее мы вычитаем наибольшую столбцовую маргинальную частоту.

Пусть частотная таблица имеет вид:

Таблица 23

Расчет коэффициента λr

Значения X Значения Y Итого
       
         
         
         
Итого        

Наибольшая частота в первой строке матрицы равна 30, во второй тоже 30, в третьей 40. Максимальный маргинал по столбцам — 65. Общее количество объектов в выборке — 150:

.

Рассмотрим безусловное распределение признака Y. Отвечающие ему частоты — это маргиналы по столбцам рассматриваемой матрицы: 45, 40, 65. Модальная частота — 65. Значит, выбрав случайным образом какой-либо объект, мы, прогнозируя для него значение Y, в соответствии с нашими представлениями о прогнозе, определяем, что упомянутое значение равно 3 (именно это значение является модой). Перебирая последовательно всех респондентов, мы дадим правильный прогноз в 65 случаях и ошибемся в (150 - 65) случаях (вероятность ошибки будет равна ). Именно эта разность стоит в знаменателе нашей формулы. Итак, для безусловного распределения качество нашего прогноза можно оценить с помощью величины (150 - 65).

Пусть Х = 1. Соответствующее условное распределение Y определяется частотами первой строки матрицы: числами 0, 20, 30. Значит, перебирая 50 респондентов с первым значением Х и делая для каждого прогноз, мы не ошибемся в 30 случаях. При Х = 2 количество верных предположений тоже будет равно 30. При Х=3 получим 40. Общее количество правильных прогнозов во всех условных распределениях будет равно (30 + 30 + 40). По сравнению с безусловным случаем оно возрастет на ((30 + 30 + 40) - 65) единиц. Это — числитель выражения для λr. В числителе отражена суть коэффициента, знаменатель же использован для нормировки. Чем ближе значение λr к 1, тем лучше предсказание и сильнее связь между переменными. λr = 0, если максимальные частоты в строках приходятся на один столбец. Коэффициенты чаще всего называют коэффициентами Гуттмана[56], Гудмена[57] или λ-коэффициентами[58].

Теперь приведем пример пропорционального прогноза [59].Сначала рассмотрим безусловное распределение. Возьмем 150 шаров, на 45 из них напишем цифру 1, на 40 - цифру 2, на 65 — цифру 3 и погрузим все шары в урну, перемешав их. Берем случайного респондента, опускаем руку в урну и вытаскиваем тот шар, который попался случайно. То, что на нем написано, и будет прогнозным значением признака Y для выбранного респондента. Аналогичным образом поступаем и для каждого условного распределения: то, что чаще встречается в исходной совокупности, должно чаще попадаться в наши руки при вытаскивании шаров. К примеру, в соответствии с первым условным распределением (Х=1, первая строка частотной таблицы) у нас отсутствуют респонденты, для которых Y = 1. Не будут попадаться и шары с единицей, поскольку количество таких шаров равно 0. В соответствии с третьим распределением (Х = 3) значения 2 и 3 признаков Y встречаются одинаково часто и в 8 раз реже значения 1. И вероятность встречаемости шаров с цифрами 2 и 3 будет одинаковой и в 8 раз меньше вероятности встречаемости шара с 1. такие распределения рассматриваются как основа коэффициента Валлиса, но принцип его работы тот же, что и у коэффициентов λ.





Дата публикования: 2014-11-02; Прочитано: 750 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.006 с)...