Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Коэффициент корреляции. Регрессия



Стохастической связью между случайными величинами называется такая связь, при которой с изменением одной величины меняется распределение другой. Функциональной зависимостью называется такая связь между случайными величинами, при которой при известном значении одной из величин можно точно указать значение другой.

В отличие от функциональной связи при стохастической связи с изменением величины Х величина Y имеет лишь тенденцию изменяться. По мере увеличения тесноты стохастической зависимости она все более приближается к функциональной, а в пределе ей соответствует. Крайняя противоположность функциональной связи — полная независимость случайных величин.

Если случайные величины независимы, то согласно теореме умножения (7.10–7.11) получаем

и , (7.14)

. (7.15)

Условие (7.15) можно использовать в качестве необходимого и достаточного критерия независимости двух случайных величин, если известны плотности распределения системы и случайных величин, в нее входящих.

При неизвестном законе распределения системы для оценки тесноты стохастической связи чаще всего используется коэффициент корреляции. Дисперсия суммы двух случайных величин X и Y равна

. (7.16)

Если X и Y независимы, то

.

Тогда зависимость между X и Y существует, если

. (7.17)

Величина (7.17) называется корреляционным моментом, или ковариацией cov{ XY }, (cov xy) случайных величин. Она характеризует не только зависимость величин, но и их рассеяние.

Из (7.17) следует, что если одна из величин мало отклоняется от своего математического ожидания, то ковариация будет мала даже при тесной стохастической связи. Чтобы избежать этого, для характеристики связи используют безразмерную величину, называемую коэффициентом корреляции:

, (7.18)

где s x и s y — стандартные отклонения X и Y.

Случайные величины, для которых ковариация (значит, и коэффициент корреляции) равна нулю, называются некоррелированными. Равенство нулю коэффициента корреляции не всегда означает, что случайные величины X и Y независимы: связь может проявляться в моментах более высокого порядка (по сравнению с математическим ожиданием). Только в случае нормального распределения при rxy = 0 связь между случайными величинами однозначно отсутствует.

Плотность нормального распределения системы двух случайных величин выражается следующей формулой:

,

, (7.19)

где r — коэффициент корреляции. Если X и Y некоррелированы (т. е. r = 0), то из (7.19) следует, что

, (7.20)

т. е. нормально распределенные случайные величины X и Y не только некоррелированы, но и независимы.

Отметим следующие свойства коэффициента корреляции:

1) величина rxy не меняется от прибавления к X и Y неслучайных слагаемых;

2) величина rxy не меняется от умножения X и Y на положительные числа;

3) если одну из величин, не меняя другой, умножить на –1, то на –1 умножится и коэффициент корреляции.

Тогда, если от исходных величин перейти к нормированным

, ,

величина rxy не изменится: . Из (7.16) и (7.18) следует, что

. (7.21)

Для нормированных величин s2(X 0) = s2(Y 0) = 1, тогда

. (7.22)

Аналогично в случае разности (XY) можно получить, что

. (7.23)

По определению дисперсии

s2(X 0 + Y 0) ³ 0 и s2(X 0 - Y 0) ³ 0,

следовательно

, ,

, ,

. (7.24)

При rxy = ±1 имеем линейные функциональные зависимости вида

,

при этом если rxy = 1, то b 1 > 0; если rxy = –1, то b 1 < 0.

Если мeжду величинами X и Y имеется произвольная стохастическая связь, то –1 < rxy < 1. При rxy > 0 говорят о положительной корреляционной связи между X и Y, при rxy < 0 — об отрицательной. Следует учитывать, что коэффициент корреляции характеризует не любую зависимость, а только линейную.

Для нормально распределенной системы двух случайных величин можно доказать, что

. (7.25)

Условная плотность распределения величины Y соответствует плотности нормального распределения с математическим ожиданием

(7.26)

и среднеквадратичным отклонением

. (7.27)

Величина my / x называется условным математическим ожиданием величины Y при данном Х. Линейная зависимость (7.26) — регрессией Y на X. По аналогии прямая

(7.28)

есть регрессия X на Y.

Линии регрессии совпадают только при наличии линейной функциональной зависимости. Из (7.26) и (7.28) видно, что для независимых X и Y линии регрессии параллельны координатным осям.

7.3. Выборочный коэффициент корреляции.

Проверка гипотезы об отсутствии корреляции

При обработке результатов большинства физико-химических измерений возникает задача описания зависимости между исследуемыми случайными величинами. Для экспериментального изучения зависимости между двумя случайными величинами Х и Y проводят n независимых опытов, при этом в каждом из них получают пару значений (xi, yi), i = 1, 2, …, n. О наличии или отсутствии корреляции между Х и Y можно качественно судить по виду поля корреляции, нанеся точки (xi, yi) на координатную плоскость.

Для количественной оценки тесноты связи служит выборочный коэффициент корреляции. Как было установлено ранее, состоятельными и несмещенными оценками для математических ожиданий mx и my служат выборочные средние и , а генеральных дисперсий и — выборочные дисперсии и . Можно доказать, что состоятельной и несмещенной оценкой генеральной ковариации cov xy служит выборочная ковариация

. (7.29)

Пользуясь этой оценкой, рассчитывают выборочный коэффициент корреляции

, (7.30)

который является состоятельной оценкой коэффициента корреляции генеральной совокупности со смещением, равным . Величина смещения убывает с увеличением числа опытов и при n > 50 составляет менее 1 %. Выборочный коэффициент корреляции обладает теми же свойствами, что и rxy, и по абсолютной величине также не больше единицы:

. (7.31)

Величина выборочного коэффициента корреляции определяет меру криволинейности связи между X и Y. Поэтому возможны случаи, когда при коэффициенте корреляции, значительно меньшем единицы, связь между X и Y оказывается близкой к функциональной, хотя и существенно нелинейной.

В случае, если полученное значение r * близко к нулю, необходимо провести проверку гипотезы об отсутствии корреляции между случайными величинами. Требуется определить, значимо ли отличается r * от нуля. Если число опытов n достаточно велико (более 20), то в условиях нулевой гипотезы (Н 0: r = 0) можно использовать нормальное распределение со стандартом

. (7.32)

Тогда при b = 0,95 генеральный коэффициент корреляции находится в следующих доверительных границах:

. (7.33)

С вероятностью 0,95 можно ожидать, что существует корреляция между случайными величинами, если 0 не содержится внутри доверительного интервала.

На практике, особенно при числе опытов n < 20, часто приходится решать вопрос о том, насколько хорошо полученные экспериментальные точки подтверждают линейную связь между величинами X и Y. Ответить на этот вопрос можно следующим образом. Предположим, что две переменные X и Y действительно некоррелированы, т. е. при проведении бесконечно большого числа измерений выборочный коэффициент корреляции для них был бы равен нулю. При конечном числе измерений, однако, маловероятно, чтобы величина r * была точно равна нулю из-за воздействия случайных факторов.

Обозначим через

вероятность того, что n измерений двух некоррелированных переменных X и Y приведут к значению r * (по модулю), не меньшему некоторого частного значения r 1*. Результаты расчетов вероятностей Pn для выборок различного объема n и чисел r 1* представлены в табл. 1. Для ответа на вопрос о том, насколько хорошо n пар полученных значений (xi, yi) подтверждают линейную связь между исследуемыми величинами, вначале по измеренным точкам вычисляют выборочный коэффициент корреляции r 1*. Далее по табл. 1 находят вероятность Pn того, что n некоррелированных точек приведут к значению коэффициента

Таблица 1

Вероятность Pn того, что n измерений двух некоррелированных

переменных дадут коэффициент корреляции | r *| ≥ r 1*

(прочерками отмечены значения, меньшие 0,01)

n r 1*
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
  0.94 0.87 0.81 0.74 0.67 0.59 0.51 0.41 0.29
  0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10
  0.87 0.75 0.62 0.50 0.39 0.28 0.19 0.10 0.04
  0.85 0.70 0.56 0.43 0.31 0.21 0.12 0.06 0.01
  0.83 0.67 0.51 0.37 0.25 0.15 0.08 0.03
  0.81 0.63 0.47 0.33 0.21 0.12 0.05 0.02
  0.80 0.61 0.43 0.29 0.17 0.09 0.04 0.01
  0.78 0.58 0.40 0.25 0.14 0.07 0.02 0.01
  0.77 0.56 0.37 0.22 0.12 0.05 0.02
  0.76 0.53 0.34 0.20 0.10 0.04 0.01
  0.75 0.51 0.32 0.18 0.08 0.03 0.01
  0.73 0.49 0.30 0.16 0.07 0.02 0.01
  0.72 0.47 0.28 0.14 0.06 0.02
  0.71 0.46 0.26 0.12 0.05 0.01
  0.70 0.44 0.21 0.11 0.04 0.01
  0.69 0.43 0.23 0.10 0.04 0.01
  0.68 0.41 0.21 0.09 0.03 0.01
  0.67 0.40 0.20 0.08 0.03 0.01
  0.63 0.34 0.15 0.05 0.01
  0.60 0.29 0.11 0.03 0.01
  0.57 0.25 0.08 0.02
  0.54 0.22 0.06 0.01
  0.49 0.16 0.03
  0.45 0.13 0.02
  0.38 0.08 0.01
  0.32 0.05

корреляции, не меньшего r 1*. Если Pn ≤ 0,05 (для «высокозначимых» корреляций Pn ≤ 0,01), то гипотеза о линейной зависимости между величинами X и Y принимается (при выбранном уровне значимости 0,05 или 0,01 соответственно).

Например, по выборке из 5 пар значений (xi, yi) получено r 1* = 0,9. Вероятность получения коэффициента r * такого, что | r *| ≥ 0,9, для 5 некоррелированных точек равна Pn = 0,04 (табл. 1). Следовательно, гипотеза о линейной связи двух исследуемых величин может быть принята с уровнем значимости 0,05.

7.4. Приближенная регрессия.

Метод наименьших квадратов

При исследовании корреляционной зависимости между двумя случайными величинами необходимо по данной выборке объемом n найти уравнение приближенной регрессии,чаще всего в виде следующего полинома:

, (7.34)

где коэффициенты b0 и bj являются оценками соответствующих теоретических коэффициентов истинного уравнения регрессии

, (7.35)

и оценить допускаемую при этом ошибку. Для этого обычно используют метод наименьших квадратов.

Рассмотрим некоторый класс функций, аналитическое выражение которых содержит некоторое число неопределенных коэффициентов, равное k. Наилучшее уравнение приближенной регрессии дает та функция из рассматриваемого класса, для которой сумма квадратов S имеет наименьшее значение:

. (7.36)

Предположим, что экспериментальные точки отклоняются от уравнения истинной регрессии j (x) только в результате воздействия случайных факторов, а ошибки измерения нормально распределены. Полученные в опытах значения yi будут распределены по нормальному закону с математическим ожиданием = j (xi) и дисперсией . При равноточных экспериментах = = … = = . Тогда плотность распределения величины Yi принимает вид

. (7.37)

В результате опытов случайные величины Yi приняли совокупность значений yi. Используем принцип максимального правдоподобия: определим так математические ожидания j (xi), чтобы вероятность этого события была максимальной. Обозначим через рi = fi (yi) d вероятность того, что случайная величина Yi примет значение из интервала yi – d/2, yi + d/2. Вероятность совместного осуществления подобных событий для i = 1, 2, …, n равна

, (7.38)

где К — коэффициент, не зависящий от j (xi).

Очевидно, что при заданном s2 вероятность Р максимальна при условии, что

.

Таким образом, при нормальном распределении случайных величин оптимальность метода наименьших квадратов легко обосновывается.

Нахождение коэффициентов уравнения приближенной регрессии по этому методу связано с задачей определения минимума функции многих переменных. Пусть

. (7.40)

Требуется найти значения коэффициентов b 0, b 1, b 2, …, bk так, чтобы

.

Если S принимает минимальное значение, то

, (7.41)

что соответствует следующей системе уравнений:

,

, (7.42)

……………………………,

.

Преобразуем (7.42)

,

, (7.43)

……………………………………,

.

В последней системе содержится столько же (k + 1) уравнений, сколько и неизвестных коэффициентов в уравнении (7.40), т. е. она является системой нормальных уравнений. Поскольку S ³ 0 при любых значениях коэффициентов, то у нее должен существовать по меньшей мере один минимум. Поэтому если система (7.43) имеет единственное решение, то оно и является минимумом для S.





Дата публикования: 2014-10-20; Прочитано: 2212 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.02 с)...