Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Оценка достоверности коэффициента корреляции. Коэффициент линейной корреляции, исчисленный по выборочным данным является случайной величиной



Коэффициент линейной корреляции, исчисленный по выборочным данным является случайной величиной. Полученный из выборки коэффициент корреляции r является оценкой коэффициента корреляции r в генеральной совокупности. С уменьшением числа наблюдений надежность коэффициента корреляции падает. Оценка существенности (значимости) линейного коэффициента корреляции основана на сопоставлении значения r с его средней квадратической ошибкой :

,

При оценке значимости коэффициента корреляции обычно рассматриваются следующие ситуации.

1. Если число наблюдений достаточно велико (обычно свыше 30), а значение коэффициента корреляции не превышает 0.9, распределение коэффициента корреляции r можно считать приближенно нормальным со средней квадратической ошибкой

,

При достаточно большом числе наблюдений r должен превышать свою среднюю ошибку не менее, чем в три раза: . Если это неравенство не выполняется, то существование связи между признаками нельзя считать доказанным.

Задавшись определенной вероятностью, можно построить доверительные границы r:

Так, например, при вероятности 0,95, для которой t = 1,96, доверительные границы составят

,

При вероятности 0,997, для которой коэффициент доверия t = 3, доверительные границы составят

Поскольку значение r не может превышать единицу, то в случае, если > 1, следует указать только нижний предел, то есть утверждать, что реальный r не меньше, чем .

2. Для малого объема выборки, с распределением r далеким от нормального, применяются другие методы оценки значимости коэффициента корреляции. При небольшом числе наблюдений (n < 30), средняя ошибка линейного коэффициента корреляции находится по формуле:

а значимость проверяется на основе t критерия Стьюдента. При этом выдвигается гипотеза о равенстве коэффициента корреляции нулю, то есть об отсутствии связи между y и x в генеральной совокупности. Для этого используется статистика:

расчетное значение которой сопоставляется с табличным, из таблиц распределения Стьюдента. Если нулевая гипотеза верна, то есть r =0, то распределение t - критерия подчиняется закону распределения Стьюдента с n-2 степенями свободы и принятым уровнем значимости (обычно 0,05). В каждом конкретном случае по таблице распределения t -критерия Стьюдента находится табличное (критическое) значение t, которое допустимо при справедливости нулевой гипотезы, и с ним сравнивается фактическое (расчетное) значение t. Если t расч. > t табл ., то нулевая гипотеза отклоняется и линейный коэффициент считается значимым, а связь между x и y – существенной. И наоборот.

3. При малом числе наблюдений в выборке и высоком коэффициенте корреляции (распределение r отличается от нормального) для проверки гипотезы о наличии корреляционной связи, а также построения доверительного интервала применяется z-преобразование Фишера.

Для этого рассчитывается величина

Распределение z приближается к нормальному. Вариация z выражается формулой

Рассчитаем z критерий для примера 1, поскольку в этом случае мы имеем небольшое число наблюдений и высокий коэффициент корреляции.

.

Чтобы не вычислять значения логарифмов, можно воспользоваться специальными таблицами Z-преобразований (Ефимова М.Р. стр. 402, Шмойлова Р.А. стр.446, Елисеева И.И. стр.473). Находим, что коэффициенту корреляции 0,94 соответствует Z=1,74.

Находим

Отношение Z к средней квадратической ошибке равно 3. Таким образом, мы можем полагать действительное наличие связи между величиной выпуска продукции и расходом электроэнергии для всей совокупности предприятий.

6.4. Ранговая корреляция

Если n вариантов рядарасположены в соответствии с возрастанием или убыванием признака х, то говорят, что объекты ранжированы по этому признаку. Ранг для хi указывает место, которое занимает i -е значение признака среди других n значений признака х (i=1,2,..n).

Например, при исследовании рынка можно задаться целью выяснения предпочтений потребителей при выборе товара (при покупке акций, мороженного, водки и т.п.), таким образом, чтобы они распределили товар в порядке возрастания (или убывания) своих потребительских предпочтений. Если имеется два набора ранжированных данных, то можно установить степень линейной зависимости между ними. Предположим имеется 5 продуктов, которые ранжированы по порядку предпочтений от 1 до 5 в соответствии с двумя характеристиками А и В.

Характеристики для ранжирования Продукты V W X Y Z
A B 2 5 1 3 4 1 3 2 4 5

Для определения наличия взаимосвязи между ранговыми оценками используется коэффициент ранговой корреляции Спирмена. Его расчет основан на различиях между рангами.

Обозначим D= ранг A – ранг B

Коэффициент Спирмена равен: ,

где n – число пар ранжированных наблюдений.

В нашем примере мы имеем пять пар рангов, следовательно, n = 5. Cумма D2 равна:

(2-1)2 + (5-3)2 + (1-2)2 + (3-4)2 + (4-5)2=1+4+1+1+1=8

Коэффициент Спирмена равен:

То есть мы нашли достаточно сильную линейную связь. Коэффициент Спирмена изменяется в интервале от [-1; 1] и интерпретируется так же как и коэффициент Пирсона. Разница лишь в том. что он вычисляется для ранжированных данных.

Значимость коэффициента Спирмена проверяется на основе t критерия Стьюдента по формуле: . (12).

Значение коэффициента считается существенным, если tрасч. > tкрит. (a; k = n-2).





Дата публикования: 2015-01-09; Прочитано: 913 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.007 с)...