Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Многомерные случайные величины



Иногда говорят, что матрицы экономят бумагу, но безжалостны к мозгам. Осилив новый раздел, читатель убедится в обратном: матрицы чрезвычайно удобны для представления многомерных случайных величин и их характеристик. Представим, что у нас не две случайные величины, а p: X1, X2,…, Xp. Удобно представить совокупность всех случайных величин случайным вектором.

.

Запишем также вектор математических ожиданий:

;

и ковариационную матрицу

=

,

составленную из корреляционных моментов.

Диагональные элементы ковариационной матрицы (см. (15)) представляют собой дисперсии случайных величин: .

Составим вектор среднеквадратических отклонений

и рассчитаем следующее произведение:

.

А теперь разделим элементы ковариационной матрицы R на соответствующие элементы последней матрицы. Сверяясь с (14), (15), убеждаемся, что получили не что иное, как матрицу коэффициентов корреляции или корреляционную матрицу:

(22) .

Корреляционная матрица симметрична относительно диагонали, поскольку rij=rji. По этой причине иногда отображают только ее верхнюю (реже — нижнюю) половину.

Корреляционная матрица отражает структуру взаимодействий множества пар переменных. Эти взаимодействия сложны, «совместно увязаны», и не рекомендуется их объяснять, рассматривая поодиночке то или иное значение элемента матрицы.

Рассмотрим численный пример. Допустим, в результате расчетов (разумеется, с помощью соответствующей компьютерной программы, при представительном статистическом материале) мы получили такую оценку матрицы:

.

Высокий уровень корреляции пар, образуемых переменными X1, X2, X3, может быть обусловлен разными причинами. Например, прогресс в промышленности вызывает совместное согласованное (коррелированное) изменение множества экономических показателей государств.

В такой ситуации разумно пользоваться характеристикой, которая называется коэффициентом частной корреляции. Коэффициент частной корреляции переменных Xi и Xj определяется формулой:

(23) ,

где - минор, полученный из определителя матрицы после вычеркивания i- й строки и j-го столбца;

- минор, полученный из после вычеркивания i-й строки и i-го столбца;

- минор, полученный из после вычеркивания j-й строки и j-го столбца.

Для того, чтобы различать коэффициенты парной и частной корреляции, мы поставили в коэффициенте частной корреляции после пары индексов точку, обозначающую, что все остальные переменные фиксированы.

Коэффициент частной корреляции указывает на степень взаимосвязи переменных Xi и Xj, когда влияние других учитываемых переменных считается постоянным.

При трех переменных

; ; ; ; .

Окончательно: .

Воспользуемся численными данными нашего примера для расчета частной корреляции переменных X1 и X2. Получим:

.

Результаты расчета поучительны. Переменная X3 обеспечивает основную часть взаимно согласованных изменений переменных X1 и X2. Можно выразиться и так: из-за сильной корреляции между X3 и X2 (0,97), а также между X3 и X1 (0,97) переменная X3 выступает в роли «донора», делится с X2 и X1 частью своего сильного (0,97) влияния на обе переменные. Совсем как у людей. А скоропалительное решение о сильной взаимо зависимости X1 и X2, основанное на расчете ( =0,95) — не что иное, как ошибка. Реальная, очищенная от влияния X3, корреляция X1 и X2 равна =0,15.

Объяснения механизма сложных явлений на основании простого расчета коэффициентов парной корреляции опасны не только по причине существенных количественных различий между парной и частной корреляцией. Следует иметь в виду, что парная и частная корреляции одних и тех же переменных могут иметь разные знаки. В этом случае меняется смысл взаимосвязей.

Воспользуемся примером, приведенным в книге Т. Андерсона [3]. В результате исследований взаимосвязи урожая сена (X1), весенних осадков (X2) и количества весенних дней (X3) с температурой воздуха выше 42°F в Англии была получена корреляционная матрица

.

Возникает вопрос: какую интерпретацию можно дать отрицательной корреляции между урожаем сена и температурой воздуха? Является ли высокая температура причиной низких урожаев или, может быть, она связана с небольшим количеством осадков и, следовательно, с низким урожаем? Чтобы ответить на этот вопрос, рассмотрим корреляцию между урожаем и температурой воздуха при фиксированном количестве осадков, т. е. рассчитаем оценку частного коэффициента корреляции между X1 и X3.

.

Знак корреляции сменился! Следовательно, как большое количество осадков, так и высокая температура повышают урожай сена, но в большинстве случаев большое количество осадков наблюдается при низкой температуре и наоборот.

Введем еще одну корреляционную характеристику. Множественный коэффициент корреляции i -й переменной Xi со всеми другими (учитываемыми) переменными может быть рассчитан по формуле:

(24) .

Множественный коэффициент корреляции больше любого коэффициента парной корреляции i -й переменной с другими. С каждым повышением порядка корреляционной матрицы его величина последовательно возрастает. (Количество информации прирастает). Запомним это на будущее.

Численно множественный коэффициент корреляции равен максимуму коэффициента парной корреляции Xi с линейной комбинацией остальных переменных. Поясним, что это за комбинация.

Обычно оптимальную линейную комбинацию переменных (оптимальное соотношение их весов), находят, используя аппарат регрессионного анализа. При этом предполагается, что имеется набор экспериментальных значений переменных, в n опытах, причем

Допустим, мы располагаем такой выборкой. Приведем значения всех переменных к безразмерному виду и единому масштабу с помощью известного преобразования

(25) .

При этом среднее значение каждой переменной становится равным нулю, а дисперсия и среднеквадратическое отклонение — единице. В то же время, в соответствии со свойствами коэффициента корреляции, корреляционная матрица остается неизменной. Приведение всех переменных к безразмерному виду (нормировка) создает ряд удобств при расчетах.

Значение любой, например, i –й переменной можно предсказать (косвенно оценить) с помощью линейного соотношения вида:

(26) .

Уравнение (26) принято называть уравнением регрессии. Веса — коэффициенты уравнения — рассчитываются на основании опытных данных таким образом, чтобы обеспечить минимум суммы

где j – номер опыта.

Иначе говоря, вектор является аргументом минимума S:

(27) .

Критерий (27) выражает основную идею регрессионного анализа — принцип наименьших квадратов [7, 52, 72].

Тут автор поборол искушение вставить в текст формулы расчета регрессионных коэффициентов; в данном контексте они не обязательны. Теорию и технологию регрессионного анализа отложим. Отметим главное, что дают преобразование (25) и регрессионные расчеты.

Коэффициенты уравнения (26) , вычисленные с помощью метода наименьших квадратов по критерию (27), равны коэффициентам частной корреляции переменной с соответствующими (объясняющими) переменными: , , …, .

Коэффициент парной корреляции между и равен коэффициенту множественной корреляции: = .

Значения , как и соответствующие им значения коэффициентов частной корреляции, могут изменяться в интервале от –1 до +1.

Итак, мы выяснили, что максимум корреляции между наблюдаемыми значениями некоторой стандартизованной переменной и ее прогнозным значением (и соответственно — минимум ошибки прогноза) обеспечивается, когда в регрессионном уравнении (26) — уравнении прогноза — в качестве весов оказываются коэффициенты частной корреляции соответствующих переменных с .

В системе «Персона» оценки коэффициентов множественной корреляции используются при решении вопроса, насколько информирован тот или иной эксперт. Вначале автор полагал, что наилучшей мерой информированности должен быть коэффициент частной корреляции между мнением оцениваемого лица и эксперта, руководствуясь простой житейской логикой: оцениваемый работник лучше всех знает себя, свои достоинства и недостатки. Он и является своеобразным эталоном информированности. Однако «в действительности вес выглядит иначе, чем на самом деле». Знать-то он знает. Но, во-первых, степень (силу) выраженности отдельных своих достоинств и недостатков он взвешивает по-своему, что-то преувеличивает, что-то занижает. Во-вторых, иногда он стремится показать себя иначе, чем это следует из статистики его поступков. Иногда он просто лукавит, пытается оправдать себя. Иногда небрежен, иногда скромничает. Бывает и неадекватен в самооценке. Кроме того, он привык судить обо всем с позиций своего статуса (например, статуса начальника цеха, а не инженера или директора). Многочисленные опыты-расчеты на реальных данных разочаровали. Коэффициенты частной корреляции оцениваемого работника и его коллег как мер информированности этих коллег не годятся.

Попробовали рассчитывать коэффициенты множественной корреляции оценок каждого эксперта с оценками всех остальных экспертов. И угадали. Смысл коэффициента множественной корреляции хорошо воспринимается электриками, знакомыми с процессами синхронизации процессов. Коэффициент множественной корреляции — это характеристика степени синхронности изменений оценок (от признака к признаку) эксперта и коллективного (взвешенного) среднего оценок остальных экспертов.

Один из наших дистрибьюторов требовал, чтобы в протоколе экспертного оценивания в системе «Персона» были использованы простые выражения, понятные гуманитарию. Например, вместо заголовка над столбцом в виде просто написать «Информированность». К сожалению, делать этого нельзя. Есть у множественной корреляции два «нехороших» свойства, препятствующие такому упрощению:

1). При шести экспертах (оцениваемый работник плюс пять его коллег) критическое значение коэффициента множественной корреляции, ниже которого следует принять решение о том, что эксперт не информирован равно =0,3. (Установлено эмпирически, на основании достаточного числа опытных данных). При уменьшении числа экспертов (напомним свойство: с каждым увеличением числа учитываемых переменных коэффициент множественной корреляции возрастает) эту величину нужно скорректировать, при четырех-пяти экспертах принять критическое значение равным =0,35. А при дальнейшем уменьшении числа экспертов ориентироваться на этот критерий уже нельзя.

2). Рассмотрим случай, когда в корреляционной матрице одна из строк состоит из элементов с отрицательными значениями коэффициентов парной корреляции (единица «самокорреляции» — не в счет). То есть некоторый эксперт (назовем его ХХХ) имеет мнение, противоположное мнению остальных экспертов, и достоинства оценил как недостатки. В уравнении регрессии (26) расчетное значение коэффициента а при соответствующей переменной (оценке эксперта ХХХ) будет отрицательным. Эффективный алгоритм регрессии использует даже информацию от ХХХ для уточнения неизвестной величины Zi. Все коэффициенты множественной корреляции (всех экспертов) при этом больше, чем в том случае, когда мнение эксперта ХХХ не учитывается. Завышение значения показателя информированности при учете оценок всех экспертов дезориентирует. Рекомендуется исключить оценки эксперта ХХХ, которые по своей сущности — протестные, или это «месть», не согласующаяся с мнением коллектива. И ориентироваться на значения коэффициентов множественной корреляции уже после отбрасывания оценок ХХХ. Наша задача — выявление максимально объективизированной оценки важности работника для производства (рейтинга). Пусть даже в этой оценке есть элемент коллективного субъективизма [15].





Дата публикования: 2014-11-28; Прочитано: 238 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.01 с)...