Главная \| Случайная страница \| Контакты \| Мы поможем в написании вашей работы!

ЗАНЯТИЕ №9 1 страница

1 2 3 Следующая ⇒

Прогнозирование по методу линейной регрессии.

Для выполнения задания нужно:

Два стандартных файла с учебными данными.

Выход в Интернет не используется.

1. Прогноз по методу линейной регрессии по одной переменной

Изученный ранее коэффициент корреляции удобен также тем, что по нему можно прогнозировать.

Наилучший (в смысле «метода наименьших квадратов», или дисперсии ошибки) линейный прогноз случайной величины x по случайной величине h имеет вид

где r – коэффициент корреляции.

Величина называется невязкой.

При этом

Таким образом, квадрат коэффициента корреляции – доля дисперсии, объясняемая при прогнозировании по методу линейной регрессии.

В качестве примера откроем файл Jazvasi и построим прогноз переменной rezidive по возрасту.

При расчете параметров этих переменных имеем:

Descriptive Statistics
	N	Minimum	Maximum	Mean	Std. Deviation
VOZRAST				48,81959	15,31078
REZIDIVE				1,331615	0,471198
Valid N (listwise)

При расчете коэффициента корреляции имеем:

Correlations

		VOZRAST	REZIDIVE
VOZRAST
Pearson Correlation	1,000	,222

Sig. (2-tailed)	,	,000

N
REZIDIVE
Pearson Correlation	,222	1,000

Sig. (2-tailed)	,000	,

N

Таким образом, прогноз имеет вид

1,3316+0,222´(VOZRAST-48,82)´15,31/0,4712.

В том случае, если расчет идет непосредственно в SPSS, можно сразу получить соответствующую формулу. Для этого надо выполнить команду Analyze / Regression / Linear, в качестве зависимой переменной выбрать ту, которая прогнозируется, а в качестве независимой – ту, по которой (по которым) строится прогноз:

В результате получаем:

Величины коэффициентов в итоговой формуле прогнозирования приведены в последней таблице. Согласно ней прогноз рецидива имеет вид

0,999+0,00683´VOZRAST

То есть, если грубо, то каждый прожитый год на 0,683% увеличивает риск кровотечения.

В первой таблице, названной Model Summary, приведены также величины качества прогноза «в целом». Квадрат коэффициента корреляции равен 0,049, то есть возраст объясняет лишь 1/20 от общей дисперсии прогнозируемой величины.

Так как мы при построении прогноза пользуемся не истинными значениями коэффициента корреляции, которую не знаем, а ее оценкой, и проверяем качество прогноза на той же выборке, по которой строим прогноз, то возникает эффект «авторешаемости», из-за которого качество прогноза оказывается завышенным.

SPSS оценивает величину авторешаемости. Квадрат коэффициента корреляции построенного прогноза с истинным значением, поправленный на авторешаемость – Adjusted R Square. В нашем случае он 0,047.

2. Линеаризация связи с целью повышения качества прогноза

Коэффициент корреляции учитывает лишь линейную компоненту связи двух переменных. Поэтому для повышения качества проноза можно переменную, по которой строится прогноз, преобразовать так, чтобы характер связи был более линейный.

Изучим характер связи возраста и риска повторного кровотечения, для чего округлим переменную Возраст с шагом в 10 лет и рассчитаем совместное распределение с рецидивом.

Получаем следующее:

ВОЗР10 * REZIDIVE Crosstabulation

			REZIDIVE		Total


ВОЗР10
10,00	Count

	% within ВОЗР10	80,0%	20,0%	100,0%

20,00	Count

	% within ВОЗР10	67,4%	32,6%	100,0%

30,00	Count

	% within ВОЗР10	74,4%	25,6%	100,0%

40,00	Count

	% within ВОЗР10	71,9%	28,1%	100,0%

50,00	Count

	% within ВОЗР10	77,0%	23,0%	100,0%

60,00	Count

	% within ВОЗР10	52,9%	47,1%	100,0%

70,00	Count

	% within ВОЗР10	46,7%	53,3%	100,0%

80,00	Count

	% within ВОЗР10	13,3%	86,7%	100,0%

90,00	Count

	% within ВОЗР10	50,0%	50,0%	100,0%
Total
	Count

	% within ВОЗР10	66,8%	33,2%	100,0%

Видно, что реально риск кровотечения (2) начинает линейно повышаться после 60. При этом он равен ½ в последней категории, за 90, но там – всего 2 человека, так что на отклонение от общей линии внимания обращать не надо.

Следовательно, реальным фактором риска является не возраст, а число лет, пережитых после 60.

Рассчитаем число лет, пережитых после 60

И рассчитаем прогноз по ней:

Видно, что теперь поправленный квадрат коэффициента корреляции вырос до 0,063. Из таблицы коэффициентов мы получаем, что каждый год, пережитый за 60, добавляет 2,1% к риску кровотечения.

Характер линеаризации зависит от характера связи. В том случае, если переменная, по которой строится прогноз, имеет 2 значения (например, пол), линеаризация не проводится – любое переопределение не меняет величину корреляционной связи.

В том случае, если у переменной, по которой строится прогноз, имеется несколько значений, для переопределения можно использовать условные средние.

Например, рассмотрим условные средние переменной rezidive в зависимости от цвета кожи при поступлении

Report

REZIDIVE

KOGAOKR	Mean	N	Std. Deviation
1
1,14		,35
2
1,37		,48
3
1,80		,42
Total
1,32		,47

В качестве линеаризации можем взять новую переменную, которая вычисляется следующим образом:

Рассчитаем коэффициент корреляции рецидива с исходным и линеаризованным цветом кожи:

Correlations

		REZIDIVE	KOGAOKR	KOGALIN
REZIDIVE
Pearson Correlation	1,000	,255	,260

Sig. (2-tailed)	,	,000	,000

N
KOGAOKR
Pearson Correlation	,255	1,000	,979

Sig. (2-tailed)	,000	,	,000

N
KOGALIN
Pearson Correlation	,260	,979	1,000

Sig. (2-tailed)	,000	,000	,

N

В данном случае сила связи увеличилась, но не очень сильно, так как исходная связь и так была достаточно близка к линейной.

Особенно существенно подобное предобразование там, где связь немонотонна.

Откроем файл ПНЕВМОНИЯ и рассчитаем коэффициент корреляции УМЕР и числа лейкоцитов

Correlations

		УМЕР	white blood cell count
УМЕР
Pearson Correlation	1,000	,062

Sig. (2-tailed)	,	,048

N
white blood cell count
Pearson Correlation	,062	1,000

Sig. (2-tailed)	,048	,

N

Получили слабую корреляционную связь.

Однако при изучении совместного распределения получаем следующее:

white blood cell count * УМЕР Crosstabulation

			УМЕР		Total

		,00	1,00
white blood cell count
<4	Count

	% within white blood cell count	52,6%	47,4%	100,0%

4-9	Count

	% within white blood cell count	98,1%	1,9%	100,0%

9-25	Count

	% within white blood cell count	93,6%	6,4%	100,0%

>25	Count

	% within white blood cell count	50,0%	50,0%	100,0%
Total
	Count

	% within white blood cell count	89,5%	10,5%	100,0%

То есть высокая летальность – при большом и малом числе лейкоцитов.

Аналогично приведенному выше создадим новую переменную «линеаризованные лейкоциты»

Для нее имеем следующее

Correlations

		УМЕР	white blood cell count	LEJLIN
УМЕР
Pearson Correlation	1,000	,062	,483

Sig. (2-tailed)	,	,048	,000

N
white blood cell count
Pearson Correlation	,062	1,000	,128

Sig. (2-tailed)	,048	,	,000

N
LEJLIN
Pearson Correlation	,483	,128	1,000

Sig. (2-tailed)	,000	,000	,

N

То есть после линеаризации связи число лейкоцитов стало достаточно сильным фактором с корреляцией около 0,5.

3. Поправка корреляционной связи на случайные ошибки

Полученная выше связь качества прогноза и величины коэффициента корреляции позволяет без особого труда решать ряд задач, связанных с поправками на случайнее ошибки измерения.

Пусть, например, мы получили, что коэффициент корреляции некого фактора с артериальным систолическим давлением оказался равным 0,737. Однако само артериальное давление мы измеряем с некоторой погрешностью. Она складывается как из ошибки округления (например, приводится к ближайшим значением с шагом в 5 единиц), так и другими погрешностями: пропуском интервала времени между ударами, неточностями манометра и пр.

Пусть мы в результате получили следующее:

Коэффициент корреляции померянного САД с фактором	0,737
Среднеквадратичное отклонение САД	15,3
Среднеквадратичное отклонение ошибки измерения САД	5,1

Рассчитаем дисперсии измерения и ошибки измерения:

Коэффициент корреляции померянного САД с фактором	0,737
Среднеквадратичное отклонение САД	15,3
Среднеквадратичное отклонение ошибки измерения САД	5,1
Дисперсия САД	=B2*B2
Дисперсия ошибки измерения САД

Так как ошибка измерения САД случайна, то дисперсия полученного при измерении значения САД есть сумма дисперсии истинного значения САД и дисперсии ошибки измерения:

Коэффициент корреляции померянного САД с фактором	0,737
Среднеквадратичное отклонение САД	15,3
Среднеквадратичное отклонение ошибки измерения САД	5,1
Дисперсия САД	234,09
Дисперсия ошибки измерения САД	26,01
Дисперсия точно измеренного САД	=B4-B5

В соответствии с изложенным выше рассчитаем дисперсию невязки прогноза померянного САД по фактору:

Коэффициент корреляции померянного САД с фактором	0,737
Среднеквадратичное отклонение САД	15,3
Среднеквадратичное отклонение ошибки измерения САД	5,1
Дисперсия САД	234,09
Дисперсия ошибки измерения САД	26,01
Дисперсия точно измеренного САД	208,08
Дисперсия невязки прогноза померянного САД по фактору	=B4(1-B1B1)

Дисперсия ошибки состоит из дисперсии ошибки прогноза «истинного» значения и дисперсии случайной ошибки измерения. Вычтя одно из другого, получим дисперсию прогноза «истинного» значения САД по фактору

Коэффициент корреляции померянного САД с фактором	0,737
Среднеквадратичное отклонение САД	15,3
Среднеквадратичное отклонение ошибки измерения САД	5,1
Дисперсия САД	234,09
Дисперсия ошибки измерения САД	26,01
Дисперсия точно измеренного САД	208,08
Дисперсия невязки прогноза померянного САД по фактору	106,939569
Дисперсия невязки прогноза точно измерянного САД по фактору	=B7-B5

Из приведенной выше формулы следует также

Коэффициент корреляции померянного САД с фактором	0,737
Среднеквадратичное отклонение САД	15,3
Среднеквадратичное отклонение ошибки измерения САД	5,1
Дисперсия САД	234,09
Дисперсия ошибки измерения САД	26,01
Дисперсия точно измеренного САД	208,08
Дисперсия невязки прогноза померянного САД по фактору	106,939569
Дисперсия невязки прогноза точно измерянного САД по фактору	80,9295688
Квадрат к. корреляции точно измерянного САД с фактором	=1-B8/B6

Вычислив корень, получим модуль коэффициента корреляции. Для полной корректности умножим его еще на знак исходного коэффициента корреляции

Коэффициент корреляции померянного САД с фактором	0,737
Среднеквадратичное отклонение САД	15,3
Среднеквадратичное отклонение ошибки измерения САД	5,1
Дисперсия САД	234,09
Дисперсия ошибки измерения САД	26,01
Дисперсия точно измеренного САД	208,08
Дисперсия невязки прогноза померянного САД по фактору	106,939569
Дисперсия невязки прогноза точно измерянного САД по фактору	80,9295688
Квадрат к. корреляции точно измерянного САД с фактором	0,61106513
Коэффициент корреляции точно измерянного САД с фактором	=ЗНАК(B1)*КОРЕНЬ(B9)

В результате получили:

Коэффициент корреляции померянного САД с фактором	0,737
Среднеквадратичное отклонение САД	15,3
Среднеквадратичное отклонение ошибки измерения САД	5,1
Дисперсия САД	234,09
Дисперсия ошибки измерения САД	26,01
Дисперсия точно измеренного САД	208,08
Дисперсия невязки прогноза померянного САД по фактору	106,939569
Дисперсия невязки прогноза точно измерянного САД по фактору	80,9295688
Квадрат к. корреляции точно измерянного САД с фактором	0,61106513
Коэффициент корреляции точно измерянного САД с фактором	0,78170655

В учебнике описаны и другие трюки подобного рода, в частности – как по коэффициенту корреляции между половинками анкет определить, насколько точно эта анкета что-то определяет.

4. Построение прогноза по нескольким переменным

Обычно нужно построить прогноз не по одной, а по нескольким переменным, причем выбор этих переменных нужно сделать так, чтобы точность прогноза была наивысшей.

При прогнозировании по нескольким переменным в том случае, если они независимы (или хотя бы имеют нулевые коэффициенты корреляции, наилучший прогноз имеет вид

Однако случай независимости факторов – редок. В общем случае, при прогнозировании по заданному набору, из-за взаимного влияния факторов коэффициенты уже отличаются от коэффициентов корреляций. «Руками» сделать это тяжело, но SPSS с задачей справляется.

Просто взять весь набор переменных в качестве независимых обычно не получается, так как при увеличении числа факторов, по которым строится прогноз, резко увеличивается авторешаемость.

Поэтому предлагается добавлять факторы по одному, оставляя их в том случае, если качество прогноза (поправленный квадрат коэффициента корреляции) повышается.

Еще один важный момент, за которым надо следить – число случаев. Если переменные определены не для всех пациентов, то регрессионный прогноз строится только по тем, у которых есть полный набор значений всех использованных факторов, поэтому даже достаточно сильный фактор, заметно уменьшающий число наблюдений, включать не следует.

В качестве примера построим прогноз летального исхода по некоторому набору факторов.

В качестве первого шага рассчитаем коэффициенты корреляции. Для удобства прогнозируемый фактор УМЕР возьмем первым. Вместо числа лейкоцитов возьмем «линеаризованную» переменную:

Correlations

12 3 Следующая ⇒

Дата публикования: 2015-04-06; Прочитано: 553 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!

studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.014 с)...