Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

коэффициент вариации

В статистике используются и другие показатели разброса. Примерами показателей абсолютного разброса являются

общий размах вариации: ,

квантильный размах вариации , где F < 0.5 (достаточно популярен квартильный размах вариации, т.е. этот показатель при F = 0.25),

среднее линейное отклонение: .

Среднее линейное отклонение рассчитывают часто относительно не среднего , а медианы x0.5,поскольку именно в таком случае оно принимает минимально возможное значение. Действительно, производная по c среднего линейного отклонения относительно c

равна 0 при c = x0.5 (2-я производная в этой точке равна 2f(x0.5) и положительна по определению функции f).

Для характеристики относительного разброса применяются различные формы коэффициента вариации. Например, он может рассчитываться как отношение среднего линейного отклонения, общего или квантильного размаха вариации к среднему (правильнее – к медиане). Иногда их рассчитывают как отношения max xi к min xi или x1-F к xF (при F < 0.5).

Достаточно распространен еще один тип коэффициентов вариации, которые рассчитываются как отношения средней по верхней части совокупности к средней по нижней части совокупности. Для того, чтобы дать им определение, необходимо ввести понятие среднего по части совокупности.

Математическое ожидание можно представить в следующей форме:

.

Квантиль xF делит совокупность на две части, по каждой из которых определяется свое математическое ожидание:

- по нижней части,

- по верхней части совокупности.

Приведенное тождество определяет связь между двумя этими математическими ожиданиями:

.

По выборке аналогичные частичные средние рассчитываются следующим образом.

Пусть xi, i = 1,…,N - ряд наблюдений, упорядоченный по возрастанию. Тогда

- накопленные относительные частоты,

- средняя по нижней части,

- средняя по верхней части совокупности.

Такой расчет не имеет необходимой иногда степени общности, поскольку позволяет найти частичные средние лишь для некоторых квантилей, которыми в данном случае являются сами наблюдения (). Для квантилей xF при любых F частичные средние находятся по данным эмпирического распределения (предполагается, что l -й полуинтервал является квантильным):

- средняя по нижней части совокупности (здесь - центр последнего, неполного полуинтервала, F-Fl-1 – его вес). После подстановки выражения для квантиля xF, полученного в предыдущем разделе, эта формула приобретает следующий вид:

.

При расчете средней по верхней части совокупности проще воспользоваться полученной выше формулой:

.

Для расчета квантильного коэффициента вариации совокупность делится на 3 части: верхняя часть, объемом не более половины, нижняя часть такого же объема и средняя часть, не используемая в расчете. Данный коэффициент, называемый F´100 -процентным (например, 15-процентным), рассчитывается как отношение средних по верхней и нижней части совокупности:

, где F £ 0.5.

При использовании непосредственно данных выборки эта формула имеет другой вид:

, где .

Такие коэффициенты вариации называют иногда, как и соответствующие квантили, медианными, если F = 0.5, квартильными, если F = 0.25, децильными, если F = 0.1, процентильными, если F = 0.01. Наиболее употребительны децильные коэффициенты вариации.

При расчете коэффициентов вариации в любой из приведенных форм предполагается, что характеризуемый признак может принимать только положительные значения.

Существует еще один – графический – способ представления степени разброса значений признака в совокупности. Он используется для совокупностей объемных признаков, принимающих положительные значения. Это – кривая Лоренца или кривая концентрации. Она имеет вид, изображенный на графике слева.

По оси абсцисс расположены значения величины

F´100%,

по оси ординат – в случае использования теоретического распределения - значения величины

(предполагается, что значения признака неотрицательны), или, используя введенные выше обозначения для частичных средних -

.

При использовании данных эмпирического распределения по оси ординат расположены значения величины

.

При построении кривой непосредственно по данным ряда наблюдений сначала на графике проставляются точки

, i = 0,1,…N, а затем они соединяются отрезками прямой линии.

В случае, если значение признака в совокупности не варьируется, средние по всем ее частям одинаковы, и кривая Лоренца является отрезком прямой линии (пунктирная линия на рисунке). Чем выше вариация значений признака, тем более выпукла кривая. Степень ее выпуклости или площадь выделенной на рисунке области может являться мерой относительного разброса.

Кривую Лоренца принято использовать для иллюстрации распределения дохода или имущества в совокупностях людей, представляющих собой население отдельных стран или других регионов. Отсюда ее второе название – кривая концентрации. Она выражает степень концентрации богатства в руках меньшинства.

В статистике центральные моменты q -го порядка обычно обозначаются через mq (mq):

.

Нормированный центральный момент 3-го порядка

часто используется как мера асимметрии (скошенности) распределения. Если распределение симметрично, то этот показатель равен нулю. В случае его положительности считается что, распределение имеет правую асимметрию, при отрицательности – левую асимметрию.

Следует иметь в виду, что такое определение левой и правой асимметрии может не соответствовать определению, данному в предыдущем пункте. Возможны такие ситуации, что распределение имеет правую асимметрию, и среднее превышает медиану, но данный показатель отрицателен. И наоборот, среднее меньше медианы (левая асимметрия), но этот показатель положителен. В этом легко убедиться, рассуждая следующим образом.

Пусть j(x) – функция плотности вероятности симметричного относительно нуля распределения с дисперсией s2, т.е.

, j(x) = j(-x).

Рассматривается случайная величина x, имеющая функцию плотности вероятности

f(x) = j(x) + gDj(x).

Функция Dj вносит асимметрию в распределение x. Ее график имеет вид (сплошная линия):

 
 


а свойства таковы:

Dj(x) = -Dj(-x), , .

Параметр g не должен быть слишком большим по абсолютной величине, чтобы сохранялась унимодальность распределения (и, конечно же, неотрицательность функции плотности).

Можно обозначить

,

и доказать, что

, где 0 < a1 < a, 0 < a2,

т.е., что (вводя дополнительное обозначение a3)

.

Аналогичным образом можно доказать, что

.

Прибавление gDj к j не меняет медиану (она остается равной нулю), но сдвигает среднее (из нуля):

.

Таким образом, в соответствии с данным в предыдущем пункте определением, если g > 0, распределение имеет правую асимметрию (увеличивается плотность вероятности больших значений признака), и среднее, будучи положительным, выше медианы. Если g < 0, распределение характеризуется левой асимметрией, и среднее ниже медианы.

Теперь находится 3-й центральный момент:

= 2E3(x)

(используя свойства функций j и Dj) s2

, где .

Второе слагаемое в скобках - R - всегда положительно, и, если D (первое слагаемое) неотрицательно, то введенный показатель асимметрии “работает” правильно: если он положителен, то асимметрия правая, если отрицателен, то – левая. Однако D может быть отрицателен. Это легко показать.

Пусть при заданном Dj эта величина положительна (в этом случае ). “Сжатием” этой функции к началу координат (пунктирная линия на рисунке) всегда можно добиться смены знака данной величины.

Преобразованная (“сжатая”) функция асимметрии связана с исходной функцией следующим образом:

, где k > 1.

Свойства этой новой функции те же, что и исходной, и, поэтому, все проведенные выше рассуждения для новой случайной величины с функцией плотности дадут те же результаты. Новая величина D, обозначаемая теперь , связана с исходными величинами следующим образом:

(например, ),

и при она отрицательна.

В такой ситуации (если g достаточно мал, и вслед за отрицательно и ) 3-й центральный момент оказывается отрицательным при правой асимметрии и положительным при левой асимметрии.

Можно привести числовой пример совокупности с правой асимметрией, 3-й центральный момент которой отрицателен. Исходные данные приведены в таблице:

X -3 -2 -1        
j 0.0625 0.125 0.1875 0.25 0.1875 0.125 0.0625
Dj   -1     -1    
-0.2 -1     -1   0.2
При g = 0.03 среднее равно 0.06 (превышает медиану, равную 0), а 3-й центральный момент равен минус 0.187. Но стоит немного “растянуть” функцию асимметрии от начала координат (последняя строка таблицы), как ситуация приходит в “норму”. При том же g средне становится равным 0.108, а 3-й центральный момент – (плюс) 0.097.

Проведенный анализ обладает достаточной степенью общности, т.к. любую функцию плотности вероятности f можно представить как сумму функций j и Dj с указанными выше свойствами (при этом g = 1). Эти функции определяются следующим образом (предполагается, что медиана для функции f равна 0):

.

Таким образом, если асимметрия “сосредоточена” вблизи от центра распределения (функция асимметрии Dj достаточно “поджата” к медиане), то 3-й центральный момент не может играть роль показателя асимметрии.

Надежным показателем асимметрии является величина

, или, учитывая приведенную в предыдущем разделе эмпирическую закономерность в расположении моды, медианы и среднего,

.

Достаточно употребителен также квартильный коэффициент асимметрии, рассчитываемый как отношение разности квартильных отклонений от медианы к их сумме:

.

Эти 3 коэффициента положительны при правой асимметрии и отрицательны при левой. Для симметричных распределений значения этих коэффициентов близки к нулю. Здесь требуется пояснить, что означает “близки к нулю”.

Рассчитанные по выборке, значения этих коэффициентов - пусть они обозначаются через Kc - не могут в точности равняться нулю, даже если истинное распределение в генеральной совокупности симметрично. Как и исходные для их расчета выборочные данные, эти коэффициенты являются случайными величинами K с определенными законами распределения. Эти законы (в частности, функции плотности вероятности) известны в теории статистики, если справедлива нулевая гипотеза, в данном случае – если истинное распределение симметрично. А раз известна функция плотности, то можно определить область, в которую с наибольшей вероятностью должно попасть расчетное значение коэффициента - Kc – в случае справедливости нулевой гипотезы. Эта область, называемая доверительной, выделяется квантилем KF с достаточно большим F. Обычно принимают F = 0.95. В данном случае K могут быть как положительными, так и отрицательными, их теоретическое распределение (при нулевой гипотезе) симметрично относительно нуля, и использоваться должен двусторонний квантиль.

Если расчетное значение Kc попадает в доверительную область, т.е. оно по абсолютной величине не превосходит KF, то нет оснований считать, что истинное распределение не симметрично, и нулевая гипотеза не отвергается. На основании этого не следует делать вывод о симметричности истинного распределения. Установлено только то, что наблюдаемые факты не противоречат симметричности. Другими словами, если распределение симметрично, то расчетное значение попадает в доверительную область. Но обратное может быть не верным.

Если расчетное значение не попадает в доверительную область или, как говорят, попадает в критическую область, то маловероятно, что величина K имеет принятое (при нулевой гипотезе) распределение, и нулевая гипотеза отвергается с вероятностью ошибки (1-го рода) 1-F (обычно 0.05). Причем если Kc > KF, то принимается гипотеза о правой асимметрии, если Kc < -KF, то принимается гипотеза о левой асимметрии.

Границы доверительной (критической) области зависят от числа наблюдений. Чем больше наблюдений, тем меньше KF, т.е. тем уже доверительная область – область “нуля”. Это означает, что чем больше использовано информации, тем точнее – при прочих равных условиях – сделанные утверждения.

Таким образом, “ Kc близко к нулю” означает, что .

Приведенные здесь рассуждения используются в теории статистики при проверке статистических гипотез или тестировании (по англоязычной терминологии), а также при построении доверительных интервалов (областей).

Нормированный центральный момент 4-го порядка

называется куртозисом (от греческого слова kurtoi - горбатый). По его величине судят о высоковершинности унимодального распределения. Если распределение близко к нормальному, то этот показатель равен приблизительно 3 (“приблизительно” понимается в том же смысле, что и “близко к нулю” в предыдущем случае). Если r4 >3, то распределение высоковершинное, в противном случае – низковершинное. На этом основании вводится показатель, называемый эксцессом:

r4 - 3 (r4 - 3).

Его используют для оценки высоковершинности распределения, сравнивая с 0.

Граничным для куртозиса является число 3, поскольку для нормального распределения он равен точно 3. Действительно, плотность f(x) нормально распределенной с математическим ожиданием и дисперсией s2 случайной величины x равна

,

и, используя таблицу определенных интегралов1), легко установить, что при целом и четном q

и, в частности,

.

В практике статистики моменты более высоких порядков используются крайне редко.


1) Например, в “Справочнике по математике” И.Н.Бронштейна и К.А.Семендяева (издательство физико-математической литературы, Москва, 1962) на стр. 407 можно найти следующую формулу:

, при a > 0 и n > -1,

где G - гамма-функция, обладающая следующими свойствами:

при n целом и положительном,

.


Дата публикования: 2014-12-08; Прочитано: 379 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.029 с)...