Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Условные средние. Линии регрессии



Статистическая и корреляционная зависимости.

Коэффициент корреляции. Корреляционный момент

Виды зависимостей переменных величин.

Функциональной называется зависимость между двумя переменными величинами, при которой значению одной переменной величины соответствует одно определенное значение другой.

Статистической называется зависимость случайных величин, при которой каждому значению одной их них соответствует закон распределения другой, то есть изменение одной из величин влечет изменение распределения другой.

Корреляционной называется статистическая зависимость случайных величин, при которой изменение одной из величин влечет изменение среднего значения другой.

Условные средние. Линии регрессии.

Условным средним называется среднее арифметическое наблюдаемых значений величины Y, вычисленное при условии, что величина Х приняла конкретное фиксированное значение х.

Условным средним называется среднее арифметическое наблюдаемых значений величины Х, вычисленное при условии, что величина Y приняла конкретное фиксированное значение у.

Уравнение, связывающее наблюдаемые значения величины Х и условную среднюю величины Y, называется уравнением регрессии Y на Х:

.

Уравнение, связывающее наблюдаемые значения величины Y и условную среднюю величины Х, называется уравнением регрессии Х на Y:

.

Линии на координатной плоскости, соответствующие уравнениям регрессии называются линиями регрессии.

Корреляционные зависимости могут выражаться уравнениями регрессии различных видов: линейной, параболической, гиперболической, показательной и т.д.

Корреляционный момент и коэффициент корреляции.

Мерой корреляционной зависимости двух случайных величин Х и Y служит корреляционный момент (или ковариация), который вычисляется по формуле:

, (4.1)

где средние значения (здесь и в дальнейшем предполагается, что каждая пара значений (хi, yi) наблюдалась по одному разу):

, , . (4.2)

Если случайные величины Х и Y независимы, то для них m xy =0.

Из определения корреляционного момента следует, что его размерность равна произведению размерностей изучаемых величин, Это означает, что значение корреляционного момента двух величин зависит от выбора единиц измерения этих величин. Поэтому для оценки связи величин вводится другая величина, независящая от размерности измеряемых величин и называемая коэффициентом корреляции.

Коэффициентом корреляции двух измеряемых величин Х и Y называется величина:

, (4.3)

где s х и s у – стандартные отклонения соответственно величин Х и Y.

Поскольку размерность корреляционного момента равна произведению размерностей величин Х и Y, а стандартные отклонения имеют размерности этих величин, то коэффициент корреляции является безразмерной величиной, и поэтому он не зависит от выбора единиц измерения изучаемых величин.

Свойства коэффициента корреляции:

1) Если две случайные величины Х и Y независимы, то их коэффициент корреляции равен нулю, т.е. r =0.

2) Модуль коэффициента корреляции не превышает единицы, т.е. |r |£1, что эквивалентно двойному неравенству: -1£ r £1.

Коэффициент корреляции, вычисленный по данным выборки, называется выборочным и обозначается rв.

Вычисление в Excel корреляционных характеристик.

Ковариация (корреляционный момент) (4.1) вычисляется в Excel с помощью стандартной статистической функции КОВАР. Аргументом этой функции являются диапазоны ячеек, содержащие значения наблюдаемых величин и . Например, если значения содержатся в интервале А1:А10, а значения содержатся в интервале В1:В10, то ковариация этих величин вычисляется по формуле: =КОВАР(А1:А10; В1:В10).

Коэффициент корреляции (4.3) вычисляется в Excel одной из двух функций: КОРРЕЛ или ПИРСОН. Эти функции выдают одинаковый результат, если значения наблюдаемых величин записаны в виде чисел. Аргументы у этих функций точно такие же, как и у функции КОВАР, т.е. КОРРЕЛ(А1:А10;В1:В10) или ПИРСОН(А1:А10;В1:В10).

Иногда необходимо вычислять квадрат коэффициента корреляции, для этого имеется функция КВПИРСОН, выдающая значение r 2. Аргументы у этой функции такие же, как и у трех предыдущих.

§4.2. Линейная регрессия

Уравнением линейной регрессии (выборочным) Y на Х называется зависимость от наблюдаемых значений величины Х, выраженная линейной функцией:

, (4.4)

где величина называется выборочным коэффициентом линейной регрессии Y на Х.

Будем считать, что каждая пара значений случайных величин (хi, yi) наблюдалась по одному разу. В этом случае линейной зависимостью связаны сами наблюдаемые значения хi и yi.

Коэффициенты в уравнении линейной регрессии Y на Х (4.4) вычисляется по формулам:

и , (4.5)

где s х – стандартное отклонение величины Х, а средние значения вычисляются по формулам (4.2).

Уравнением линейной регрессии (выборочным) Х на Y называется зависимость от наблюдаемых значений величины Х, выраженная линейной функцией:

, (4.6)

где величина называется выборочным коэффициентом линейной регрессии Х на Y.

Коэффициенты в уравнении линейной регрессии Х на Y (4.6), вычисляется по формулам:

и . (4.7)

где s у – стандартное отклонение величины Y.

Если коэффициент корреляции двух величин Х и Y равен r =±1, то эти величины связаны линейной зависимостью. Коэффициент корреляции служит мерой силы (тесноты) линейной зависимости измеряемых величин. На практике, если коэффициент корреляции двух величин Х и Y |r |>0.5, то считают, что есть основания предполагать наличие линейной зависимости между этими величинами. Однако ориентироваться при выборе типа линии регрессии (линейной или нелинейной) лучше по виду эмпирической зависимости величин Х и Y.

Вычисление в Excel коэффициентов линейной регрессии.

Для вычисления коэффициентов линейной регрессии Y на Х (4.5) в Excel имеются следующие функции:

· НАКЛОН – вычисляет ;

· ОТРЕЗОК – вычисляет .

Аргументами у этих функций являются диапазоны ячеек, содержащие значения и . Например, если значения находятся в интервале А1:А10, а значения находятся в интервале В1:В10, то вычисляется по формуле: =НАКЛОН(В1:В10; А1:А10), а вычисляется по формуле: =ОТРЕЗОК(В1:В10; А1:А10) (обязательно на первой позиции интервал значений величины Y!).

Если требуется вычислить коэффициент линейной регрессии Х на Y (4.7), то в указанных выше функциях на первую позицию следует ставить интервал значений Х, а на вторую - интервал значений переменной Y.

В Excel имеется возможность вычислить по уравнению линейной регрессии (4.4) значение переменной Y, соответствующее любому заданному значению переменной Х. Для этого существует функция ПРЕДСКАЗ(Х; диапазон_ Y; диапазон_ Х), где:

· Х – то значение переменной Х, для которой по формуле (4.4) следует вычислить предсказанное значение Y;

· диапазон_ Y – это интервал ячеек, содержащих наблюдаемые значения ;

· диапазон_ Х – это интервал ячеек, содержащих наблюдаемые значения .

Функция ПРЕДСКАЗ выдает такой же результат, который можно вычислять с помощью функций НАКЛОН и ОТРЕЗОК по формуле: = Х *НАКЛОН(диапазон_ Y; диапазон_ Х) + ОТРЕЗОК(диапазон_ Y; диапазон_ Х), где диапазон_ Y и диапазон_ Х – интервалы ячеек, содержащие, соответственно, значения и , а Х – адрес ячейки, содержащей значение Х (или само это число), для которого следует вычислить предсказанное Y по формуле (4.4).





Дата публикования: 2015-03-26; Прочитано: 2708 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.009 с)...