Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

ЗАНЯТИЕ №9 1 страница



Прогнозирование по методу линейной регрессии.

Для выполнения задания нужно:

Два стандартных файла с учебными данными.

Выход в Интернет не используется.

1. Прогноз по методу линейной регрессии по одной переменной

Изученный ранее коэффициент корреляции удобен также тем, что по нему можно прогнозировать.

Наилучший (в смысле «метода наименьших квадратов», или дисперсии ошибки) линейный прогноз случайной величины x по случайной величине h имеет вид

где r – коэффициент корреляции.

Величина называется невязкой.

При этом

Таким образом, квадрат коэффициента корреляции – доля дисперсии, объясняемая при прогнозировании по методу линейной регрессии.

В качестве примера откроем файл Jazvasi и построим прогноз переменной rezidive по возрасту.

При расчете параметров этих переменных имеем:

Descriptive Statistics          
  N Minimum Maximum Mean Std. Deviation
VOZRAST       48,81959 15,31078
REZIDIVE       1,331615 0,471198
Valid N (listwise)          

При расчете коэффициента корреляции имеем:

Correlations

    VOZRAST REZIDIVE
VOZRAST
Pearson Correlation 1,000 ,222
 
Sig. (2-tailed) , ,000
 
N    
REZIDIVE
Pearson Correlation ,222 1,000
 
Sig. (2-tailed) ,000 ,
 
N    
Таким образом, прогноз имеет вид

1,3316+0,222´(VOZRAST-48,82)´15,31/0,4712.

В том случае, если расчет идет непосредственно в SPSS, можно сразу получить соответствующую формулу. Для этого надо выполнить команду Analyze / Regression / Linear, в качестве зависимой переменной выбрать ту, которая прогнозируется, а в качестве независимой – ту, по которой (по которым) строится прогноз:

В результате получаем:

Величины коэффициентов в итоговой формуле прогнозирования приведены в последней таблице. Согласно ней прогноз рецидива имеет вид

0,999+0,00683´VOZRAST

То есть, если грубо, то каждый прожитый год на 0,683% увеличивает риск кровотечения.

В первой таблице, названной Model Summary, приведены также величины качества прогноза «в целом». Квадрат коэффициента корреляции равен 0,049, то есть возраст объясняет лишь 1/20 от общей дисперсии прогнозируемой величины.

Так как мы при построении прогноза пользуемся не истинными значениями коэффициента корреляции, которую не знаем, а ее оценкой, и проверяем качество прогноза на той же выборке, по которой строим прогноз, то возникает эффект «авторешаемости», из-за которого качество прогноза оказывается завышенным.

SPSS оценивает величину авторешаемости. Квадрат коэффициента корреляции построенного прогноза с истинным значением, поправленный на авторешаемость – Adjusted R Square. В нашем случае он 0,047.

2. Линеаризация связи с целью повышения качества прогноза

Коэффициент корреляции учитывает лишь линейную компоненту связи двух переменных. Поэтому для повышения качества проноза можно переменную, по которой строится прогноз, преобразовать так, чтобы характер связи был более линейный.

Изучим характер связи возраста и риска повторного кровотечения, для чего округлим переменную Возраст с шагом в 10 лет и рассчитаем совместное распределение с рецидивом.

Получаем следующее:

ВОЗР10 * REZIDIVE Crosstabulation

      REZIDIVE   Total
 
         
ВОЗР10
10,00 Count      
 
  % within ВОЗР10 80,0% 20,0% 100,0%
 
20,00 Count      
 
  % within ВОЗР10 67,4% 32,6% 100,0%
 
30,00 Count      
 
  % within ВОЗР10 74,4% 25,6% 100,0%
 
40,00 Count      
 
  % within ВОЗР10 71,9% 28,1% 100,0%
 
50,00 Count      
 
  % within ВОЗР10 77,0% 23,0% 100,0%
 
60,00 Count      
 
  % within ВОЗР10 52,9% 47,1% 100,0%
 
70,00 Count      
 
  % within ВОЗР10 46,7% 53,3% 100,0%
 
80,00 Count      
 
  % within ВОЗР10 13,3% 86,7% 100,0%
 
90,00 Count      
 
  % within ВОЗР10 50,0% 50,0% 100,0%
Total
  Count      
 
  % within ВОЗР10 66,8% 33,2% 100,0%
Видно, что реально риск кровотечения (2) начинает линейно повышаться после 60. При этом он равен ½ в последней категории, за 90, но там – всего 2 человека, так что на отклонение от общей линии внимания обращать не надо.

Следовательно, реальным фактором риска является не возраст, а число лет, пережитых после 60.

Рассчитаем число лет, пережитых после 60

И рассчитаем прогноз по ней:

Видно, что теперь поправленный квадрат коэффициента корреляции вырос до 0,063. Из таблицы коэффициентов мы получаем, что каждый год, пережитый за 60, добавляет 2,1% к риску кровотечения.

Характер линеаризации зависит от характера связи. В том случае, если переменная, по которой строится прогноз, имеет 2 значения (например, пол), линеаризация не проводится – любое переопределение не меняет величину корреляционной связи.

В том случае, если у переменной, по которой строится прогноз, имеется несколько значений, для переопределения можно использовать условные средние.

Например, рассмотрим условные средние переменной rezidive в зависимости от цвета кожи при поступлении

Report

REZIDIVE

KOGAOKR Mean N Std. Deviation
1
1,14   ,35
2
1,37   ,48
3
1,80   ,42
Total
1,32   ,47
В качестве линеаризации можем взять новую переменную, которая вычисляется следующим образом:

Рассчитаем коэффициент корреляции рецидива с исходным и линеаризованным цветом кожи:

Correlations

    REZIDIVE KOGAOKR KOGALIN
REZIDIVE
Pearson Correlation 1,000 ,255 ,260
 
Sig. (2-tailed) , ,000 ,000
 
N      
KOGAOKR
Pearson Correlation ,255 1,000 ,979
 
Sig. (2-tailed) ,000 , ,000
 
N      
KOGALIN
Pearson Correlation ,260 ,979 1,000
 
Sig. (2-tailed) ,000 ,000 ,
 
N      
В данном случае сила связи увеличилась, но не очень сильно, так как исходная связь и так была достаточно близка к линейной.

Особенно существенно подобное предобразование там, где связь немонотонна.

Откроем файл ПНЕВМОНИЯ и рассчитаем коэффициент корреляции УМЕР и числа лейкоцитов

Correlations

    УМЕР white blood cell count
УМЕР
Pearson Correlation 1,000 ,062
 
Sig. (2-tailed) , ,048
 
N    
white blood cell count
Pearson Correlation ,062 1,000
 
Sig. (2-tailed) ,048 ,
 
N    
Получили слабую корреляционную связь.

Однако при изучении совместного распределения получаем следующее:

white blood cell count * УМЕР Crosstabulation

      УМЕР   Total
 
    ,00 1,00  
white blood cell count
<4 Count      
 
  % within white blood cell count 52,6% 47,4% 100,0%
 
4-9 Count      
 
  % within white blood cell count 98,1% 1,9% 100,0%
 
9-25 Count      
 
  % within white blood cell count 93,6% 6,4% 100,0%
 
>25 Count      
 
  % within white blood cell count 50,0% 50,0% 100,0%
Total
  Count      
 
  % within white blood cell count 89,5% 10,5% 100,0%

То есть высокая летальность – при большом и малом числе лейкоцитов.

Аналогично приведенному выше создадим новую переменную «линеаризованные лейкоциты»

Для нее имеем следующее

Correlations

    УМЕР white blood cell count LEJLIN
УМЕР
Pearson Correlation 1,000 ,062 ,483
 
Sig. (2-tailed) , ,048 ,000
 
N      
white blood cell count
Pearson Correlation ,062 1,000 ,128
 
Sig. (2-tailed) ,048 , ,000
 
N      
LEJLIN
Pearson Correlation ,483 ,128 1,000
 
Sig. (2-tailed) ,000 ,000 ,
 
N      

То есть после линеаризации связи число лейкоцитов стало достаточно сильным фактором с корреляцией около 0,5.

3. Поправка корреляционной связи на случайные ошибки

Полученная выше связь качества прогноза и величины коэффициента корреляции позволяет без особого труда решать ряд задач, связанных с поправками на случайнее ошибки измерения.

Пусть, например, мы получили, что коэффициент корреляции некого фактора с артериальным систолическим давлением оказался равным 0,737. Однако само артериальное давление мы измеряем с некоторой погрешностью. Она складывается как из ошибки округления (например, приводится к ближайшим значением с шагом в 5 единиц), так и другими погрешностями: пропуском интервала времени между ударами, неточностями манометра и пр.

Пусть мы в результате получили следующее:

Коэффициент корреляции померянного САД с фактором 0,737
Среднеквадратичное отклонение САД 15,3
Среднеквадратичное отклонение ошибки измерения САД 5,1

Рассчитаем дисперсии измерения и ошибки измерения:

Коэффициент корреляции померянного САД с фактором 0,737
Среднеквадратичное отклонение САД 15,3
Среднеквадратичное отклонение ошибки измерения САД 5,1
Дисперсия САД =B2*B2
Дисперсия ошибки измерения САД  

Так как ошибка измерения САД случайна, то дисперсия полученного при измерении значения САД есть сумма дисперсии истинного значения САД и дисперсии ошибки измерения:

Коэффициент корреляции померянного САД с фактором 0,737
Среднеквадратичное отклонение САД 15,3
Среднеквадратичное отклонение ошибки измерения САД 5,1
Дисперсия САД 234,09
Дисперсия ошибки измерения САД 26,01
Дисперсия точно измеренного САД =B4-B5

В соответствии с изложенным выше рассчитаем дисперсию невязки прогноза померянного САД по фактору:

Коэффициент корреляции померянного САД с фактором 0,737
Среднеквадратичное отклонение САД 15,3
Среднеквадратичное отклонение ошибки измерения САД 5,1
Дисперсия САД 234,09
Дисперсия ошибки измерения САД 26,01
Дисперсия точно измеренного САД 208,08
Дисперсия невязки прогноза померянного САД по фактору =B4*(1-B1*B1)

Дисперсия ошибки состоит из дисперсии ошибки прогноза «истинного» значения и дисперсии случайной ошибки измерения. Вычтя одно из другого, получим дисперсию прогноза «истинного» значения САД по фактору

Коэффициент корреляции померянного САД с фактором 0,737
Среднеквадратичное отклонение САД 15,3
Среднеквадратичное отклонение ошибки измерения САД 5,1
Дисперсия САД 234,09
Дисперсия ошибки измерения САД 26,01
Дисперсия точно измеренного САД 208,08
Дисперсия невязки прогноза померянного САД по фактору 106,939569
Дисперсия невязки прогноза точно измерянного САД по фактору =B7-B5

Из приведенной выше формулы следует также

Коэффициент корреляции померянного САД с фактором 0,737
Среднеквадратичное отклонение САД 15,3
Среднеквадратичное отклонение ошибки измерения САД 5,1
Дисперсия САД 234,09
Дисперсия ошибки измерения САД 26,01
Дисперсия точно измеренного САД 208,08
Дисперсия невязки прогноза померянного САД по фактору 106,939569
Дисперсия невязки прогноза точно измерянного САД по фактору 80,9295688
Квадрат к. корреляции точно измерянного САД с фактором =1-B8/B6

Вычислив корень, получим модуль коэффициента корреляции. Для полной корректности умножим его еще на знак исходного коэффициента корреляции

Коэффициент корреляции померянного САД с фактором 0,737
Среднеквадратичное отклонение САД 15,3
Среднеквадратичное отклонение ошибки измерения САД 5,1
Дисперсия САД 234,09
Дисперсия ошибки измерения САД 26,01
Дисперсия точно измеренного САД 208,08
Дисперсия невязки прогноза померянного САД по фактору 106,939569
Дисперсия невязки прогноза точно измерянного САД по фактору 80,9295688
Квадрат к. корреляции точно измерянного САД с фактором 0,61106513
Коэффициент корреляции точно измерянного САД с фактором =ЗНАК(B1)*КОРЕНЬ(B9)

В результате получили:

Коэффициент корреляции померянного САД с фактором 0,737
Среднеквадратичное отклонение САД 15,3
Среднеквадратичное отклонение ошибки измерения САД 5,1
Дисперсия САД 234,09
Дисперсия ошибки измерения САД 26,01
Дисперсия точно измеренного САД 208,08
Дисперсия невязки прогноза померянного САД по фактору 106,939569
Дисперсия невязки прогноза точно измерянного САД по фактору 80,9295688
Квадрат к. корреляции точно измерянного САД с фактором 0,61106513
Коэффициент корреляции точно измерянного САД с фактором 0,78170655

В учебнике описаны и другие трюки подобного рода, в частности – как по коэффициенту корреляции между половинками анкет определить, насколько точно эта анкета что-то определяет.

4. Построение прогноза по нескольким переменным

Обычно нужно построить прогноз не по одной, а по нескольким переменным, причем выбор этих переменных нужно сделать так, чтобы точность прогноза была наивысшей.

При прогнозировании по нескольким переменным в том случае, если они независимы (или хотя бы имеют нулевые коэффициенты корреляции, наилучший прогноз имеет вид

Однако случай независимости факторов – редок. В общем случае, при прогнозировании по заданному набору, из-за взаимного влияния факторов коэффициенты уже отличаются от коэффициентов корреляций. «Руками» сделать это тяжело, но SPSS с задачей справляется.

Просто взять весь набор переменных в качестве независимых обычно не получается, так как при увеличении числа факторов, по которым строится прогноз, резко увеличивается авторешаемость.

Поэтому предлагается добавлять факторы по одному, оставляя их в том случае, если качество прогноза (поправленный квадрат коэффициента корреляции) повышается.

Еще один важный момент, за которым надо следить – число случаев. Если переменные определены не для всех пациентов, то регрессионный прогноз строится только по тем, у которых есть полный набор значений всех использованных факторов, поэтому даже достаточно сильный фактор, заметно уменьшающий число наблюдений, включать не следует.

В качестве примера построим прогноз летального исхода по некоторому набору факторов.

В качестве первого шага рассчитаем коэффициенты корреляции. Для удобства прогнозируемый фактор УМЕР возьмем первым. Вместо числа лейкоцитов возьмем «линеаризованную» переменную:


Correlations





Дата публикования: 2015-04-06; Прочитано: 552 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.012 с)...