Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Линейная регрессия. Прямые линии среднеквадратической регрессии. Линейная корреляция. Нормальная корреляция



Рассмотрим двумерную случайную величину (X, Y), где X и У—зависимые случайные величины. Представим одну из величин как функцию другой. Ограничимся приближенным представлением (точное приближение, вообще говоря, невозможно) величины Y в виде линейной функции величины X:

где α и β — параметры, подлежащие определению. Это можно сделать различными способами: наиболее употребительный из них—метод наименьших квадратов.

Функцию g(X)=αX+β называют «наилучшим приближением» Y в смысле метода наименьших квадратов, если математическое ожидание М [Y—g(X)]2 принимает наименьшее возможное значение; функцию g(x) называют среднеквадратической регрессией Y на X.

Теорема. Линейная средняя квадратическая регрессия Y на X имеет вид

где mx=M(X), my=M(Y), σx=√D(X), σy=√D(Y), r=µxy/(σxσy)— коэффициент корреляции величин X и Y.

Коэффициент β=rσyx называют коэффициентом регрессии Y на X, а прямую

называют прямой среднеквадратической регрессии Y на X. Подставив найденные значения α и β в соотношение (*), получим минимальное значение функции F (α, β), равное σy2(1—r2). Величину σy2(1—r2) называют остаточной дисперсией случайной величины Y относительно случайной величины X; она характеризует величину ошибки, которую допускают при замене У линейной функцией g(X)=α + βX. При r = ±1 остаточная дисперсия равна нулю; другими словами, при этих крайних значениях коэффициента корреляции не возникает ошибки при представлении Y в виде линейной функции от X.
Итак, если коэффициент корреляции г = ± 1, то Y и X связаны линейной функциональной зависимостью.
Аналогично можно получить прямую среднеквадратической регрессии X на Y:

(rσxy — коэффициент регрессии X на Y) и остаточную дисперсию σx2(1—r2) величины X относительно Y.
Если r = ± 1, то обе прямые регрессии, как видно из уравнений, совпадают.
Из уравнений прямых среднеквадратической регрессии следует, что обе прямые регрессии проходят через точку (mx; my), которую называют центром совместного распределения величин X и Y.

Рассмотрим двумерную случайную величину (X, Y). Если обе функции регрессии У на X и X на У линейны, то говорят, что X и Y связаны линейной корреляционной зависимостью. Очевидно, что графики линейных функций регрессии — прямые линии, причем можно доказать, что они совпадают с прямыми среднеквадратической регрессии. Имеет место следующая важная теорема.
Теорема. Если двумерная случайная величина (X, Y) распределена нормально, то X и Y связаны линейной корреляционной зависимостью.
Доказательство. Двумерная плотность вероятности

,

где u = (х—а1)/σx, v = (y—a2)/σy. (**)

Плотность вероятности составляющей X

Найдем функцию регрессии М (Y | х), для чего сначала найдем условный закон распределения величины Y при Х=х

Подставив (*) и (***) в правую часть этой формулы и выполнив выкладки, имеем

Заменив u и v по формулам (**), окончательно получим

Полученное условное распределение нормально с математическим ожиданием (функцией регрессии У на X)


M(Y|x)=a2+(x-a1)rσyx

и дисперсией σy2(1—r2).
Аналогично можно получить функцию регрессии X на Y:

M(X|y)=a1+(y—a2)rσxy

Так как обе функции регрессии линейны, то корреляция между величинами X и Y линейная, что и требовалось доказать.
Принимая во внимание вероятностный смысл параметров двумерного нормального распределения, заключаем, что уравнения прямых регрессии

y—a2= (x—a1)rσyx, x—a1= (y—a2)rσxy

совпадают с уравнениями прямых среднеквадратической регрессии

Основные понятия математической статистики. Числовые характеристика вариативного ряда

Математическая статистика занимается установлением закономерностей, которым подчинены массовые случайные явления, на основе обработки статистических данных, полученных в результате наблюдений. Двумя основными задачами математической статистики являются:

- определение способов сбора и группировки этих статистических данных;

- разработка методов анализа полученных данных в зависимости от целей исследования, к которым относятся:

а) оценка неизвестной вероятности события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен; оценка зависимости от других случайных величин и т.д.;

б) проверка статистических гипотез о виде неизвестного распределения или о значениях параметров известного распределения.

Для решения этих задач необходимо выбрать из большой совокупности однородных объектов ограниченное количество объектов, по результатам изучения которых можно сделать прогноз относительно исследуемого признака этих объектов.

Основные понятия математической статистики.

Генеральная совокупность – все множество имеющихся объектов.

Статистическая совокупность – часть генеральной совокупности – выборка, над которой производится исследование.

Выборка – набор объектов, случайно отобранных из генеральной совокупности.

Объем генеральной совокупности N и объем выборки n – число объектов в рассматриваемой совокупности.

Виды выборки:

Повторная – каждый отобранный объект перед выбором следующего возвращается в генеральную совокупность;

Бесповторная – отобранный объект в генеральную совокупность не возвращается.

Если статистическая совокупность принимает значения x1, x2, каждое xiназывается вариантой осей совокупности x

Если упорядочить варианты по возрастанию, то получим дискретный вариационный ряд.

В случае группировки по интервалам, то получим непрерывный(интервальный) вариативный ряд.

Под частотой значения признака Mпонимают число членов совокупности с данной вариантой.

Относительная частота (W=m\n)m- частота, N–объем совокупности

Соответствие между вариантами вариационного ряда и частотами соответствующих вариант (относительными частотами) называется статистическим распределением выборки. Её графическое представление наз-ся полигоном частот (или относит.частот).

Числовые характеристика вариационного ряда.

Обычно в распоряжении исследователя имеются лишь данные выборки, например значения количественного признака x1,x2…xn, полученные в результате nнаблюдений(независимые испытания). Через эти данные и выражают оцениваемый параметр. Рассматривая x1,x2…xn как независимые случайные величины X1, X2,…Xn можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения – это значит найти функцию от наблюдаемыхслучвеличи, которая и даёт приближенное значение оцениваемого параметра.

Различают смещенные и несмещенные оценки совокупности

Для того, чтобы статистические оценки давали хорошие приближения оцениваемых параметров, они должны удовлетворять определенным требованиям.

Пусть θ* - статистическая оценка неизвестного параметра θ

Несмещенной называют статистическую оценку Q*, математическое ожидание которой равно оцениваемому параметру Q при любом объеме выборки, т. е.

M(Q*) = Q.

Смещенной называют оценку, математическое ожидание которой не равно оцениваемому параметру.

Эффективной называют статистическую оценку, которая (при заданном объеме выборки п) имеет наименьшую возможную дисперсию.

Основные понятия математической статистики. Числовые характеристика вариативного ряда

Математическая статистика – это наука, изучающая случайные явления посредством обработки и анализа результатов наблюдений и измерений.

Первая задача математической статистики – указать способы получения, группировки и обработки статистических данных, собранных в результате наблюдений, специально поставленных опытов или произведённых измерений.

Вторая задача математической статистики – разработка методов анализа статистических сведений в зависимости от целей исследования. Например, целью исследования может быть:

- оценка неизвестной вероятности события;

- оценка параметров распределения случайной величины;

- оценка неизвестной функции распределения случайной величины;

- проверка гипотез о параметрах распределения или о виде неизвестного распределения;

- оценка зависимости случайной величины от одной или нескольких случайных величин и т.д.

Случайную величину будем называть генеральной совокупностью .

Исходным материалом для изучения свойств генеральной совокупности являются статистические данные, т.е. значения , полученные в результате повторения случайного опыта (измерения случайной величины ). Предполагается, что опыт может быть повторён сколько угодно раз в неизменных условиях. Это означает, что распределение случайной величины , , заданной на множестве исходов -го опыта, не зависит от и совпадает с распределением генеральной совокупности .

Набор независимых в совокупности случайных величин , где соответствует -му опыту, называют случайной выборкой из генеральной совокупности . Число называется объёмом выборки.

Совокупность чисел , полученных в результате -кратного повторения опыта по измерению генеральной совокупности , называется реализацией случайной выборки или просто выборкой объёма .

В основе большинства результатов математической статистики лежит выборочный метод, состоящий в том, что свойства генеральной совокупности устанавливаются путём изучения тех же свойств на случайной выборке.

N-объем генеральных совокупностей

n- объем выборки, кол-во которых были подвергнуты иследованию

Выборка представляет совокупность n чисел

Наблюдаемое значение признака наз-ся вариантами обозначим через Хi из чисел найти самое большое и самое маленькое x min и x max

Совокупность чисел (x1,x2….xn), полученных в результате n -кратного повторения опыта по измерению генеральной совокупности x, называется реализацией случайной выборки или просто выборкой объёма n.

В основе большинства результатов математической статистики лежит выборочный метод, состоящий в том, что свойства генеральной совокупности x устанавливаются путём изучения тех же свойств на случайной выборке.

1.Если n не велико то выборку просто ранжируют в порядке возр и убывания

2.Если среди вариантов имеются повтряющиеся то строят дискрет вариационный ряд

Выборка бывает повторная и бесповторная

Повторной называют при которрой отборный эффект возвращается в генеральную совокупность

Бесповторной называют при которой отборный объект в ген совокуп не возвращается. На практике используют чаще всего бесповторную

Интервальные оценки параметров распределения.

Интервальной называют оценку, которая определяется двумя числами—концами интервала. Интервальные оценки позволяют установить точность и надежность оценок.

Пусть найденная по данным выборки статистическая характеристика Q* служит оценкой неизвестного пара­метра Q. Будем считать Q постоянным числом (Q может быть и случайной величиной). Ясно, что Q* тем точнее определяет параметр Q, чем меньше абсолютная величина разности |Q- Q*|. Другими словами, если d>0 и |Q- Q*| <d, то чем меньше d, тем оценка точнее.

Таким образом, положительное число d характеризует точность оценки.

Однако статистические методы не позволяют категорически утверждать, что оценка Q* удовлетворяет неравенству |Q- Q*| <d; можно лишь говорить о вероятности g, с которой это неравенство осуществляется.

Надежностью (доверительной вероятностью) оценки называют вероятность g, с которой осуществляется неравенство |Q—Q* | < d.

Обычно надежность оценки задается наперед, причем в качестве g берут число, близкое к единице. Наиболее часто задают надежность, равную 0,95; 0,99 и 0,999.

Пусть вероятность того, что, |Q- Q*| <d равна g:

P(|Q- Q*| <d)= g.

Заменив неравенство равносильным ему двойным неравенством получим:

Р [Q* —d< Q < Q* +d] = g

Это соотношение следует понимать так: вероятность того, что интервал Q* - d< Q < Q* +d заключает в себе (покрывает) неизвестный параметр Q, равна g.

Интервал (Q* - d Q* + d ) называется доверительным интервалом, который покрывает неизвестный параметр с надежностью g.





Дата публикования: 2015-02-03; Прочитано: 1251 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.013 с)...