Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Двумерная случайная величина. На практике чаще приходится иметь дело не с одной случайной величиной, а с несколькими



На практике чаще приходится иметь дело не с одной случайной величиной, а с несколькими. Например, при диагностике заболеваний целесообразен анализ совокупности из нескольких диагностических признаков. Технологические процессы в промышленности представляются большим числом взаимосвязанных параметров. Совокупность параметров при этом можно представить как случайный вектор, отдельные координаты которого — случайные величины. Кроме свертки (редукции) опытных данных по отдельным координатам, в многомерном случае становится необходимым поиск зависимостей между координатами.

Корреляционные характеристики двух случайных величин

Формулу коэффициента парной корреляции случайных величин X и Y можно записать так:

(14) ,

где и — средние значения случайных величин X и Y;

М – оператор усреднения (рассчитывается среднее значение заключенного в квадратные скобки произведения отклонений случайных величин X и Y от их средних значений);

и — среднеквадратические отклонения X и Y.

Величина, стоящая в числителе выражения (14), называется корреляционным моментом (Rxy):

(15) .

Сравнивая последнее выражение с (8), видим, что дисперсию можно рассматривать как частный случай корреляционного момента: , .

Смысл выражения (14) удобнее всего пояснить с помощью графика. На рис. 7 точками представлены опытные данные — пары значений X и Y. Первое, что постарается сделать исследователь в этом случае — попытается провести линию, описывающую среднюю зависимость между переменными. Линия средних значений Y при различных X носит название линии регрессии и обозначается .

Можно доказать, что в случае, когда Y и X распределены по нормальному закону, облако точек принимает вид эллипса, а линия условных средних представляет собой прямую. Кроме того, в этом случае пересекается в одной точке с линиями и , соответствующими средним значениям Y и X.

Рис. 7. График, поясняющий смысл коэффициента корреляции

Линии средних значений переменных и делят все множество экспериментальных точек на четыре квадранта.

В первом квадранте для одной из точек на рис. 7 показаны два отрезка, соответствующие расстояниям от этой точки до средних значений: ; .

Обратим внимание на числитель в правой части формулы (14). Он представляет собой среднее значение произведений, . При этом на рис. 7 в первом квадранте для всех точек и , и потому произведения положительны. Во втором квадранте, где у всех точек , , произведения отрицательны. В третьем квадранте у всех точек , , произведения положительны; в четвертом — отрицательны. На рис. 7 во всех квадрантах отмечены знаки произведений . Нетрудно вывести, что поскольку количество точек в 1-м и 3-м квадрантах намного больше, чем во 2-м и 4-м, числитель выражения (12) в этом случае будет положительным, существенно отличным от нуля. Для графика рис. 7 .

При усилении взаимосвязи Y и X, соответствующем уменьшении рассеяния точек относительно линии регрессии коэффициент корреляции растет и достигает максимума, когда все точки лежат на этой линии. Нетрудно вывести, что если Y и X связаны линейно (, где c — константа), то при с >0 ; при c<0

В том случае, когда нормально распределенные переменные Y и X независимы, на экспериментальных графиках, аналогичных рис. 7, линии регрессии будут представлять собой эллипсы с полуосями, параллельными осям координат. Геометрия рассеяния точек при этом такова, что количество точек с положительными значениями произведений отрезков уравновешивается количеством точек с отрицательными значениями произведений отрезков.

Модуль коэффициента корреляции показывает, насколько тесно связаны две нормально распределенные (т.е. линейно зависимые) переменные.

Основные свойства коэффициента корреляции:

1 ;

2. ;

3. r[X,cX] =1, если c >0 (c – константа);

4. r[X,cX] = —1, если c <0.

5. r [ X,(c+Y) ] = r [ X,Y ], т.е. систематические смещения переменных не влияют на величину коэффициента корреляции.

Изменение величины — но не знака — константы с (угла наклона линии регрессии) и масштаба измерений переменных не влияет на величину коэффициента корреляции.

Итак, коэффициент корреляции двух независимых случайных величин равен нулю. Обратное утверждение справедливо только для нормально распределенных случайных величин. То есть в общем случае из равенства нулю коэффициента корреляции не следует, что величины Y и X независимы.

Например, у каждой из парабол на рис. 8 участкам с положительной корреляцией соответствуют участки с отрицательной корреляцией. Итог один: .

Нелинейности уменьшают значение коэффициента корреляции. Например, для половинки параболы, имеющей положительную производную, . Для ветви с отрицательной производной .

Рис. 8. Две функциональные зависимости с нулевой корреляцией переменных.

Поясним статистическую сущность коэффициента корреляции с помощью графика, приведенного на рис. 9.

Рис. 9. К выделению составляющих дисперсии.

Отклонение любой экспериментальной точки от линии регрессии складывается из двух отрезков: и . Отрезок выражает отклонение относительно линии регрессии, отрезок — отклонение линии регрессии от математического ожидания. При стандартном расчете уравнения регрессии для нормально распределенных X и Y величины и оказываются независимыми, с нулевыми значениями математических ожиданий (центрированными). Обозначим:

;

.

Первая дисперсия выражает мощность «шума», следствием действия которого является неоднозначность зависимости Y(X). Вторая дисперсия представляет мощность детерминированной составляющей изменчивости Y, вызванной изменениями X. Термин детерминированной составляющей изменчивости был введен Н. Винером и часто используется для выражения сущности статистического моделирования как процесса поиска функций, наиболее точно выражающих эту часть изменчивости. Дисперсия переменной Y, таким образом, равна

(16) .

Можно показать, что

или

,

то есть модуль коэффициента корреляции выражает долю изменений Y, связанных с изменениями X. Учитывая (16), запишем вместо последнего выражения:

или

(17) .

Выражение (17) может быть использовано для приближенного расчета погрешности косвенного контроля величины Y путем наблюдения X.

Пример:

Переменная Y, распределенная практически нормально, меняется в пределах от 85 до115 единиц. Косвенный контроль этой переменной осуществляется путем наблюдения за некоторой переменной X, причем . Требуется оценить погрешность контроля.

Для грубой оценки погрешности воспользуемся правилом «трех сигма», в соответствии с которым диапазон практически наблюдаемых значений переменных составляет примерно . Поэтому находим . Далее из выражения (17) получаем: Максимальная, «трехсигмовая» (как принято в метрологии) погрешность контроля, отнесенная к номинальному значению Y, равному 100 единицам (середина диапазона), составит тогда 2.1%.

Отметим, что величина погрешности косвенного контроля быстро увеличивается с уменьшением : при =0,9 получим , т.е. 44% изменений Y войдет в погрешность.

Корреляция двух случайных величин может считаться высокой (или, как принято говорить, «переменные X и Y сильно коррелированы»), если rxy >0,90.

Для расчета коэффициента корреляции по экспериментальным данным (для получения оценки коэффициента корреляции) можно использовать формулу:

(18) .

Формула кажется громоздкой, хотя для расчета требуется иметь просто n пар значений переменных X и Y (не требуются промежуточные расчеты математических ожиданий и среднеквадратических отклонений). Чтобы показать, что все не так сложно, возьмем в качестве примера следующий набор данных:

№ опыта                                        
X                                        
Y                                        

Здесь видна взаимозависимость переменных X и Y, причем эта взаимозависимость — не однозначная (функциональная), а случайная. По неизвестным причинам в опытах номер 3, 6, 12, 14 линейная зависимость Y=X+3 нарушена. Если представить экспериментальные данные в системе координат (X,Y), то все точки, кроме четырех названных, окажутся лежащими на прямой линии.

Рассчитаем значение коэффициента корреляции, пользуясь формулой (18). При n=20 получим:

;

;

;

;

= 414.

В числителе получим: 2800-2700=100.

В знаменателе под корнем: (1000-900)(8280-8100)=18000. Окончательно:

.

Заметим, что если для расчета среднего значения случайной величины требуется не менее 5 опытов, для расчета дисперсии — не менее 20, то для оценки коэффициента корреляции приличным считается n ³50. Мы допустили умышленную грубость, использовали малые выборки только для того, чтобы показать, что расчет коэффициента корреляции возможен даже на калькуляторе.

При n >50 оценка распределена практически нормально с математическим ожиданием и среднеквадратическим отклонением

(19) .

Расчеты коэффициентов корреляции — одно из любимых занятий исследователей, связанных с гуманитарными дисциплинами. Имея в своем распоряжении небольшое число опытов и результаты расчетов коэффициентов корреляции на уровне 0,3-0,5, они нередко приходят к сенсационным открытиям по цепочке:

  1. Корреляция признается значимой.
  2. Факт значимой корреляции служит основанием для утверждения гипотез о причинно-следственных связях переменных.

О значимости корреляции (а не о ее существовании) лучше всего судить по тому, что может дать конкретное значение корреляции в соответствии с формулой (17). Кроме того, следует учитывать ошибки оценивания. Допустим, коэффициент корреляции был рассчитан при n =17. Тогда в предположении, что истинное значение »0 получаем на основании (19) приближенную оценку и доверительный интервал (приблизительно) (—0,5; +0,5). Если в результате расчета получено значение =0,4, то строгая запись результата будет выглядеть живописно: rxy =0,4±0,5. Накрытие полученным доверительным интервалом нуля принято считать подтверждением гипотезы о том, что отклонение оценки от нуля случайно.

Самая грубая ошибка — толкование факта значительной корреляции как свидетельства наличия причинно-следственных связей. «Правило» безграмотного или недобросовестного экспериментатора: если переменная Y коррелирована с переменной X, то можно (?!) утверждать, что изменения Y происходят под воздействием X. Хотя формула (14) утверждает равноправие переменных, фиксирует только связь их изменений. Имеется немало шуточных примеров на эту тему. Например, в 50-е годы в Англии наблюдался одновременно рост числа радиоприемников и числа умалишенных, причем корреляция этих параметров оказалась исключительно высокой, на уровне 0,99. Но это вовсе не означало, что сумасшествия были обусловлены влиянием радио. И рост числа сумасшедших не вызывает роста числа радиоприемников. Как будет показано далее, корреляция может быть обусловлена третьими факторами, причем число таких (третьих, четвертых …) факторов, например, в экономике чрезвычайно велико.

Пусть величины X и Y измеряются с ошибками U и V соответственно. Тогда результаты измерений и при независимости ошибок измерений от величин X и Y будут иметь коэффициент корреляции

Из последней формулы следует, что ошибки измерений уменьшают оценку коэффициента корреляции.

Прежде чем переходить к описанию многомерных случайных величин и соответствующих мер их взаимозависимости, познакомимся с элементами теории матриц.





Дата публикования: 2014-11-28; Прочитано: 458 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.013 с)...