Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Зависимость величины меры качественной вариации от объема выборки



Наименование градации рассматриваемого признака Число респондентов (частота) в первой выборке (120 человек) Гипотетические частоты, отвечающие максимальному значению J Число респондентов (частота) во второй выборке (12 человек) Гипотетические частоты, отвечающие максимальному значению J
A        
B        
C        

При объеме выборки в 12 человек (и при трех градациях признака) максимальное количество пар из разнородных элементов равно 48 (перемножаем 4 и складываем произведения (4·4 + 4·4 + 4·4). Для выборки в 12 человек число 48 говорит о максимальном разбросе. А при объеме выборки в 120 человек (при тех же трех градациях) такого малого количества пар не может быть даже при самом минимальном (но ненулевом) разбросе. Такой минимальный разброс будет иметь место, если какое-то одно значение встречается 119 раз, а другое — всего один раз (при отсутствии третьего значения). Количество же пар из разнородных элементов в таком случае будет равно 119, что больше 48.

Если мы будем пользоваться только числителем дроби, выражающей коэффициент J, то в одном случае число 48 говорит о максимальном разбросе, а в другом число 119 —об отсутствии разброса. Мы не можем сравнить коэффициенты разных совокупностей. Поэтому в числитель помещают формулу, выражающую суть строящегося коэффициента, а в знаменатель — максимально возможное значение этого коэффициента для рассматриваемой ситуации (она определяется объемом выборки и количеством градаций признака). Показатель рассматривается в интервале от 0 до 1 (иногда от -1 до +1, как в случае коэффициента корреляции). Такая процедура называется нормировкой коэффициента (деление числителя на аналогичную сумму произведений, отвечающую равномерному распределению (т. е. распределению, когда все градации признака встречаются с одинаковой частотой)). Общая формула коэффициента J[31]

,

где N — объем выборки, k — количество градаций рассматриваемого признака, ni и nj — соответственно частоты встречаемости i -й и j -й градаций.

Если мы имеем дело с дихотомическим признаком, принимающим два значения - 0 и 1, то, вычислив обычную дисперсию, мы получим коэффициент качественной вариации.

3. 5. Энтропийный коэффициент разброса

Степень неопределенности распределения случайной величины Y определяется с помощью энтропии этого распределения. Пусть случайная величина Y принимает значения 1,2,..., k с вероятностями, равными Р1, Р2,..., Рk (вероятность отождествляется с относительной частотой встречаемости этого значения). Введем обозначение:

Рj = P (Y = j)

Энтропией случайной величины Y (распределения) называется функция (формула Больцмана) вида:

,

где основание логарифма произвольно.

Пусть некие независимые признаки U и V принимают k и l равновероятностных значений.[32] Рассмотрим, каким свойствам должна удовлетворять функция f, характеризующая неопределенность распределений признаков.

F = f (k),

т.е. рассматриваемая функция зависит от числа градаций того признака, неопределенность распределения которого она измеряет и f(1) = 0. Для k > l должно быть справедливо неравенство

f (k) > f (l).

Число сочетаний значений признаков равно произведению kl. Степень неопределенности двумерного распределения f(kl) должна быть равна сумме неопределенностей соответствующих одномерных распределений, т.е. f(kl) = f(k) + f(l). Логарифмическая функция единственная функция аргумента k, удовлетворяющая условиям: f (k l) = f (k) + f(l), f (1) =0, f(k) >f (l) при k > l.

Энтропия может быть нулевой и ненулевой.

1) H (Y) = 0. Равенство достигается тогда, когда Y принимает только одно значение. Это ситуация максимальной определенности: случайным образом выбрав объект, мы точно знаем, что для него рассматриваемый признак принимает упомянутое значение (рис.9)

Рис. 9. Распределение с нулевой энтропией

Единственная отличная от нуля вероятность здесь равна 1. Для такого распределения энтропия действительно равна нулю.

2) При фиксированном k значение энтропии максимально, когда все возможные значения Y равновероятны. Это ситуация максимальной неопределенности. Предположим, например, что k = 5 (рис. 10)

Рис. 10. Распределение с максимальной энтропией при заданном числе градаций признака

Здесь Pj = 0,2 и значение энтропии при этом равно log 5, а в общем случае в ситуации полной неопределенности энтропия равна log k. Чем больше градаций имеет признак, тем большей энтропии может достичь отвечающее ему распределение.

На рис. 9 и 10 мы видим 2 варианта:

a) минимальная (нулевая) энтропия, наилучший прогноз, полная определенность;

b) максимальная энтропия (равная log k и поэтому зависящая от числа градаций рассматриваемого признака), наихудший прогноз, полная неопределенность.

На рис.9 разброс рассматриваемого признака равен нулю, а на рис.10 — максимально большой. Энтропия будет тем больше, чем реальное распределение ближе к ситуации, отраженной на рис 10, и тем меньше, чем оно ближе к ситуации, отраженной на рис.9. Поэтому энтропия может использоваться при оценке степени разброса значений номинального признака. Однако максимальное значение энтропии для распределения какого-либо признака зависит от числа его градаций. Энтропия не может выступать в качестве меры разброса — значение энтропии необходимо нормировать, поделить на величину максимальной энтропии и получить энтропийный коэффициент

.





Дата публикования: 2014-11-02; Прочитано: 771 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.006 с)...