Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Прогнозирование по методу линейной регрессии.
Для выполнения задания нужно:
Два стандартных файла с учебными данными.
Выход в Интернет не используется.
1. Прогноз по методу линейной регрессии по одной переменной
Изученный ранее коэффициент корреляции удобен также тем, что по нему можно прогнозировать.
Наилучший (в смысле «метода наименьших квадратов», или дисперсии ошибки) линейный прогноз случайной величины x по случайной величине h имеет вид
где r – коэффициент корреляции.
Величина называется невязкой.
При этом
Таким образом, квадрат коэффициента корреляции – доля дисперсии, объясняемая при прогнозировании по методу линейной регрессии.
В качестве примера откроем файл Jazvasi и построим прогноз переменной rezidive по возрасту.
При расчете параметров этих переменных имеем:
Descriptive Statistics | |||||
N | Minimum | Maximum | Mean | Std. Deviation | |
VOZRAST | 48,81959 | 15,31078 | |||
REZIDIVE | 1,331615 | 0,471198 | |||
Valid N (listwise) |
При расчете коэффициента корреляции имеем:
Correlations
VOZRAST | REZIDIVE | ||
VOZRAST | Pearson Correlation | 1,000 | ,222 |
Sig. (2-tailed) | , | ,000 | |
N | |||
REZIDIVE | Pearson Correlation | ,222 | 1,000 |
Sig. (2-tailed) | ,000 | , | |
N |
1,3316+0,222´(VOZRAST-48,82)´15,31/0,4712.
В том случае, если расчет идет непосредственно в SPSS, можно сразу получить соответствующую формулу. Для этого надо выполнить команду Analyze / Regression / Linear, в качестве зависимой переменной выбрать ту, которая прогнозируется, а в качестве независимой – ту, по которой (по которым) строится прогноз:
В результате получаем:
Величины коэффициентов в итоговой формуле прогнозирования приведены в последней таблице. Согласно ней прогноз рецидива имеет вид
0,999+0,00683´VOZRAST
То есть, если грубо, то каждый прожитый год на 0,683% увеличивает риск кровотечения.
В первой таблице, названной Model Summary, приведены также величины качества прогноза «в целом». Квадрат коэффициента корреляции равен 0,049, то есть возраст объясняет лишь 1/20 от общей дисперсии прогнозируемой величины.
Так как мы при построении прогноза пользуемся не истинными значениями коэффициента корреляции, которую не знаем, а ее оценкой, и проверяем качество прогноза на той же выборке, по которой строим прогноз, то возникает эффект «авторешаемости», из-за которого качество прогноза оказывается завышенным.
SPSS оценивает величину авторешаемости. Квадрат коэффициента корреляции построенного прогноза с истинным значением, поправленный на авторешаемость – Adjusted R Square. В нашем случае он 0,047.
2. Линеаризация связи с целью повышения качества прогноза
Коэффициент корреляции учитывает лишь линейную компоненту связи двух переменных. Поэтому для повышения качества проноза можно переменную, по которой строится прогноз, преобразовать так, чтобы характер связи был более линейный.
Изучим характер связи возраста и риска повторного кровотечения, для чего округлим переменную Возраст с шагом в 10 лет и рассчитаем совместное распределение с рецидивом.
Получаем следующее:
ВОЗР10 * REZIDIVE Crosstabulation
REZIDIVE | Total | ||||
ВОЗР10 | 10,00 | Count | |||
% within ВОЗР10 | 80,0% | 20,0% | 100,0% | ||
20,00 | Count | ||||
% within ВОЗР10 | 67,4% | 32,6% | 100,0% | ||
30,00 | Count | ||||
% within ВОЗР10 | 74,4% | 25,6% | 100,0% | ||
40,00 | Count | ||||
% within ВОЗР10 | 71,9% | 28,1% | 100,0% | ||
50,00 | Count | ||||
% within ВОЗР10 | 77,0% | 23,0% | 100,0% | ||
60,00 | Count | ||||
% within ВОЗР10 | 52,9% | 47,1% | 100,0% | ||
70,00 | Count | ||||
% within ВОЗР10 | 46,7% | 53,3% | 100,0% | ||
80,00 | Count | ||||
% within ВОЗР10 | 13,3% | 86,7% | 100,0% | ||
90,00 | Count | ||||
% within ВОЗР10 | 50,0% | 50,0% | 100,0% | ||
Total | Count | ||||
% within ВОЗР10 | 66,8% | 33,2% | 100,0% |
Следовательно, реальным фактором риска является не возраст, а число лет, пережитых после 60.
Рассчитаем число лет, пережитых после 60
И рассчитаем прогноз по ней:
Видно, что теперь поправленный квадрат коэффициента корреляции вырос до 0,063. Из таблицы коэффициентов мы получаем, что каждый год, пережитый за 60, добавляет 2,1% к риску кровотечения.
Характер линеаризации зависит от характера связи. В том случае, если переменная, по которой строится прогноз, имеет 2 значения (например, пол), линеаризация не проводится – любое переопределение не меняет величину корреляционной связи.
В том случае, если у переменной, по которой строится прогноз, имеется несколько значений, для переопределения можно использовать условные средние.
Например, рассмотрим условные средние переменной rezidive в зависимости от цвета кожи при поступлении
Report
REZIDIVE
KOGAOKR | Mean | N | Std. Deviation |
1 | 1,14 | ,35 | |
2 | 1,37 | ,48 | |
3 | 1,80 | ,42 | |
Total | 1,32 | ,47 |
Рассчитаем коэффициент корреляции рецидива с исходным и линеаризованным цветом кожи:
Correlations
REZIDIVE | KOGAOKR | KOGALIN | ||
REZIDIVE | Pearson Correlation | 1,000 | ,255 | ,260 |
Sig. (2-tailed) | , | ,000 | ,000 | |
N | ||||
KOGAOKR | Pearson Correlation | ,255 | 1,000 | ,979 |
Sig. (2-tailed) | ,000 | , | ,000 | |
N | ||||
KOGALIN | Pearson Correlation | ,260 | ,979 | 1,000 |
Sig. (2-tailed) | ,000 | ,000 | , | |
N |
Особенно существенно подобное предобразование там, где связь немонотонна.
Откроем файл ПНЕВМОНИЯ и рассчитаем коэффициент корреляции УМЕР и числа лейкоцитов
Correlations
УМЕР | white blood cell count | ||
УМЕР | Pearson Correlation | 1,000 | ,062 |
Sig. (2-tailed) | , | ,048 | |
N | |||
white blood cell count | Pearson Correlation | ,062 | 1,000 |
Sig. (2-tailed) | ,048 | , | |
N |
Однако при изучении совместного распределения получаем следующее:
white blood cell count * УМЕР Crosstabulation
УМЕР | Total | ||||
,00 | 1,00 | ||||
white blood cell count | <4 | Count | |||
% within white blood cell count | 52,6% | 47,4% | 100,0% | ||
4-9 | Count | ||||
% within white blood cell count | 98,1% | 1,9% | 100,0% | ||
9-25 | Count | ||||
% within white blood cell count | 93,6% | 6,4% | 100,0% | ||
>25 | Count | ||||
% within white blood cell count | 50,0% | 50,0% | 100,0% | ||
Total | Count | ||||
% within white blood cell count | 89,5% | 10,5% | 100,0% |
То есть высокая летальность – при большом и малом числе лейкоцитов.
Аналогично приведенному выше создадим новую переменную «линеаризованные лейкоциты»
Для нее имеем следующее
Correlations
УМЕР | white blood cell count | LEJLIN | ||
УМЕР | Pearson Correlation | 1,000 | ,062 | ,483 |
Sig. (2-tailed) | , | ,048 | ,000 | |
N | ||||
white blood cell count | Pearson Correlation | ,062 | 1,000 | ,128 |
Sig. (2-tailed) | ,048 | , | ,000 | |
N | ||||
LEJLIN | Pearson Correlation | ,483 | ,128 | 1,000 |
Sig. (2-tailed) | ,000 | ,000 | , | |
N |
То есть после линеаризации связи число лейкоцитов стало достаточно сильным фактором с корреляцией около 0,5.
3. Поправка корреляционной связи на случайные ошибки
Полученная выше связь качества прогноза и величины коэффициента корреляции позволяет без особого труда решать ряд задач, связанных с поправками на случайнее ошибки измерения.
Пусть, например, мы получили, что коэффициент корреляции некого фактора с артериальным систолическим давлением оказался равным 0,737. Однако само артериальное давление мы измеряем с некоторой погрешностью. Она складывается как из ошибки округления (например, приводится к ближайшим значением с шагом в 5 единиц), так и другими погрешностями: пропуском интервала времени между ударами, неточностями манометра и пр.
Пусть мы в результате получили следующее:
Коэффициент корреляции померянного САД с фактором | 0,737 |
Среднеквадратичное отклонение САД | 15,3 |
Среднеквадратичное отклонение ошибки измерения САД | 5,1 |
Рассчитаем дисперсии измерения и ошибки измерения:
Коэффициент корреляции померянного САД с фактором | 0,737 |
Среднеквадратичное отклонение САД | 15,3 |
Среднеквадратичное отклонение ошибки измерения САД | 5,1 |
Дисперсия САД | =B2*B2 |
Дисперсия ошибки измерения САД |
Так как ошибка измерения САД случайна, то дисперсия полученного при измерении значения САД есть сумма дисперсии истинного значения САД и дисперсии ошибки измерения:
Коэффициент корреляции померянного САД с фактором | 0,737 |
Среднеквадратичное отклонение САД | 15,3 |
Среднеквадратичное отклонение ошибки измерения САД | 5,1 |
Дисперсия САД | 234,09 |
Дисперсия ошибки измерения САД | 26,01 |
Дисперсия точно измеренного САД | =B4-B5 |
В соответствии с изложенным выше рассчитаем дисперсию невязки прогноза померянного САД по фактору:
Коэффициент корреляции померянного САД с фактором | 0,737 |
Среднеквадратичное отклонение САД | 15,3 |
Среднеквадратичное отклонение ошибки измерения САД | 5,1 |
Дисперсия САД | 234,09 |
Дисперсия ошибки измерения САД | 26,01 |
Дисперсия точно измеренного САД | 208,08 |
Дисперсия невязки прогноза померянного САД по фактору | =B4*(1-B1*B1) |
Дисперсия ошибки состоит из дисперсии ошибки прогноза «истинного» значения и дисперсии случайной ошибки измерения. Вычтя одно из другого, получим дисперсию прогноза «истинного» значения САД по фактору
Коэффициент корреляции померянного САД с фактором | 0,737 |
Среднеквадратичное отклонение САД | 15,3 |
Среднеквадратичное отклонение ошибки измерения САД | 5,1 |
Дисперсия САД | 234,09 |
Дисперсия ошибки измерения САД | 26,01 |
Дисперсия точно измеренного САД | 208,08 |
Дисперсия невязки прогноза померянного САД по фактору | 106,939569 |
Дисперсия невязки прогноза точно измерянного САД по фактору | =B7-B5 |
Из приведенной выше формулы следует также
Коэффициент корреляции померянного САД с фактором | 0,737 |
Среднеквадратичное отклонение САД | 15,3 |
Среднеквадратичное отклонение ошибки измерения САД | 5,1 |
Дисперсия САД | 234,09 |
Дисперсия ошибки измерения САД | 26,01 |
Дисперсия точно измеренного САД | 208,08 |
Дисперсия невязки прогноза померянного САД по фактору | 106,939569 |
Дисперсия невязки прогноза точно измерянного САД по фактору | 80,9295688 |
Квадрат к. корреляции точно измерянного САД с фактором | =1-B8/B6 |
Вычислив корень, получим модуль коэффициента корреляции. Для полной корректности умножим его еще на знак исходного коэффициента корреляции
Коэффициент корреляции померянного САД с фактором | 0,737 |
Среднеквадратичное отклонение САД | 15,3 |
Среднеквадратичное отклонение ошибки измерения САД | 5,1 |
Дисперсия САД | 234,09 |
Дисперсия ошибки измерения САД | 26,01 |
Дисперсия точно измеренного САД | 208,08 |
Дисперсия невязки прогноза померянного САД по фактору | 106,939569 |
Дисперсия невязки прогноза точно измерянного САД по фактору | 80,9295688 |
Квадрат к. корреляции точно измерянного САД с фактором | 0,61106513 |
Коэффициент корреляции точно измерянного САД с фактором | =ЗНАК(B1)*КОРЕНЬ(B9) |
В результате получили:
Коэффициент корреляции померянного САД с фактором | 0,737 |
Среднеквадратичное отклонение САД | 15,3 |
Среднеквадратичное отклонение ошибки измерения САД | 5,1 |
Дисперсия САД | 234,09 |
Дисперсия ошибки измерения САД | 26,01 |
Дисперсия точно измеренного САД | 208,08 |
Дисперсия невязки прогноза померянного САД по фактору | 106,939569 |
Дисперсия невязки прогноза точно измерянного САД по фактору | 80,9295688 |
Квадрат к. корреляции точно измерянного САД с фактором | 0,61106513 |
Коэффициент корреляции точно измерянного САД с фактором | 0,78170655 |
В учебнике описаны и другие трюки подобного рода, в частности – как по коэффициенту корреляции между половинками анкет определить, насколько точно эта анкета что-то определяет.
4. Построение прогноза по нескольким переменным
Обычно нужно построить прогноз не по одной, а по нескольким переменным, причем выбор этих переменных нужно сделать так, чтобы точность прогноза была наивысшей.
При прогнозировании по нескольким переменным в том случае, если они независимы (или хотя бы имеют нулевые коэффициенты корреляции, наилучший прогноз имеет вид
Однако случай независимости факторов – редок. В общем случае, при прогнозировании по заданному набору, из-за взаимного влияния факторов коэффициенты уже отличаются от коэффициентов корреляций. «Руками» сделать это тяжело, но SPSS с задачей справляется.
Просто взять весь набор переменных в качестве независимых обычно не получается, так как при увеличении числа факторов, по которым строится прогноз, резко увеличивается авторешаемость.
Поэтому предлагается добавлять факторы по одному, оставляя их в том случае, если качество прогноза (поправленный квадрат коэффициента корреляции) повышается.
Еще один важный момент, за которым надо следить – число случаев. Если переменные определены не для всех пациентов, то регрессионный прогноз строится только по тем, у которых есть полный набор значений всех использованных факторов, поэтому даже достаточно сильный фактор, заметно уменьшающий число наблюдений, включать не следует.
В качестве примера построим прогноз летального исхода по некоторому набору факторов.
В качестве первого шага рассчитаем коэффициенты корреляции. Для удобства прогнозируемый фактор УМЕР возьмем первым. Вместо числа лейкоцитов возьмем «линеаризованную» переменную:
Correlations
Дата публикования: 2015-04-06; Прочитано: 552 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!