Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Аналитическая записка

Цель исследования: проанализировать влияние длины спортивных и неспортивных автомобилей на их пробег различными методами.

Задачи исследования: построить одномерные и двумерную таблицы сопряжённости по длине и пробегу автомобилей; вычислить критерий х² двумя способами, вычислить коэффициент Крамера, сделать выводы; рассчитать коэффициент ранговой корреляции Спирмена, провести однофакторный дисперсионный анализ, вычислить коэффициент детерминации и корреляционное отношение, сделать выводы; построить линейную и степенную модели регрессии, а так же двухфакторную и трёхфакторную модели регрессии, обосновать выбор наилучшей модели регрессии.

Объект исследования: пробег спортивных и неспортивных автомобилей.

Метод исследования: средства MS Excel (сортировка, построение таблиц, алгебраические вычисления, проведение дисперсионного анализа, вычисление описательной статистики и регрессии), сопоставление моделей регрессии.

Признаком-результатом является пробег автомобиля. Признаком-фактором является длина автомобиля.

№п/п Название Спортивная Длина Пробег
  Ford Escape Да низкая средний
  Hyundai Santa Fe Да низкая средний
  Mazda Tribute Да низкая средний
  Toyota RAV4 Да низкая высокий
  Buick Rendezvous Да средняя низкий
  Honda CR-V Да средняя высокий
  Lexus RX300 Да средняя средний
  Mazda MPV Нет средняя средний
  Mercury Villager Нет средняя средний
  Nissan Quest Нет средняя средний
  Saab 9-5 Нет средняя высокий
  Saturn L-Series Нет средняя высокий
  Saturn VUE Да средняя средний
  Toyota Highlander Да средняя средний
  Toyota Sienna Нет средняя средний
  Chevrolet Suburban Да значительная низкий
  Chevrolet Venture Нет значительная средний
  Chrysler Town & Country Нет значительная средний
  Dodge Caravan/Grand Caravan Нет значительная средний
  Ford Excursion Да значительная низкий
  Ford Windstar Нет значительная средний
  GMC Yukon XL Да значительная низкий
  Honda Odyssey Нет значительная средний
  Oldsmobile Silhouette Нет значительная средний
  Pontiac Montana Нет значительная средний

Количество по полю Длина  
Длина Итог
значительная  
низкая  
средняя  
Общий итог  
Таблица 1
Распределение автомобилей по длине
Длина Число автомобилей В % к итогу
низкая    
средняя    
значительная    
Итого:    


Количество по полю Пробег  
Пробег Итог
высокий  
низкий  
средний  
Общий итог  
Таблица 2
Распределение автомобилей по пробегу
Пробег Число автомобилей В % к итогу
низкий    
средний    
высокий    
Итого:    


Количество по полю Пробег Пробег      
Длина высокий низкий средний Общий итог
значительная        
низкая        
средняя        
Общий итог        
Таблица 3
Зависимость пробега автомобиля от длины
Длина Пробег Итого:
низкий средний высокий
низкая        
средняя        
значительная        
Итого:        

По результатам построения двумерной таблицы сопряжённости было выяснено, что среди 25 автомобилей 17 (68%) имеют средний пробег (из 17 (100%) по 7 автомобилей (по 41%) имеют среднюю и значительную длину, у трёх (18%) автомобилей длина низкая); по 4 (по 16%) автомобиля имеют низкий пробег (у 3 автомобилей (75%) длина значительная, у 1 (25%) средняя) и высокий пробег (у 3 автомобилей (75%) длина средняя, у 1(25%) низкая).

Таким образом, более половины автомобилей (14 из 25 (56%)) имеют средний пробег при средней и значительной длине автомобиля.

Таблица затрат времени

                      Итого
21-20 21-21 21-31 21-36 21-51 22-00 22-05 22-15 22-45 23-15 23-23 21-20
21-21 21-31 21-36 21-51 21-55 22-05 22-15 22-40 23-15 23-23 23-43 23-43
1 мин 10 мин 5 мин 15 мин 4 мин 5 мин 10 мин 25 мин 30 мин 8 мин 20 мин 2 ч 13 мин

Нулевая гипотеза H0: Y≠f(X) – пробег автомобиля не является функцией от его длины.

Альтернативная гипотеза H1: Y=f(X) – пробег автомобиля является функцией от его длины.

При расчёте х² на основе сопоставления фактических частот с ожидаемыми х²=4,93. При расчёте х² методом максимального правдоподобия х²=6,8.

(4,93≈6,8, условия построения таблиц сопряжённости не нарушены, нет необходимости укрупнять градацию)

α=0,29 > 0,05;

df=(m-1)*(k-1)=2*2=4; х² критич.=9,49

х² фактич.< х² критич.,

следовательно, принимается H0, между пробегом и длиной автомобиля нет функциональной зависимости; связь пробега автомобиля и длины статистически незначима. Коэффициент Крамера =0,3, следовательно, связь между пробегом автомобиля и длиной отсутствует (маловероятна), длина и его пробег независимы.


Таблица 4
Расчёт критерия хи-квадрат на основе сопоставления фактических частот с ожидаемыми
i j фактическая клеточная частота теоретическая частота отклонение фактической частоты от теоретической квадрат разности квадрат разности, делённый на теоретическую частоту
      0,64 -0,64 0,41 0,64
      2,72 0,28 0,08 0,03
      0,64 0,36 0,13 0,20
      1,76 -0,76 0,58 0,33
      7,48 -0,48 0,23 0,03
      1,76 1,24 1,54 0,87
      1,6 1,4 1,96 1,23
      6,8 0,2 0,04 0,01
      1,6 -1,6 2,56 1,6
          Σ=4,93
Таблица 5
Расчёт критерия хи-квадрат методом максимального правдоподобия
i j фактическая клеточная частота f ln(f) f*ln(f)
         
      1,10 3,30
         
         
      1,95 13,62
      1,10 3,30
      1,10 3,30
      1,95 13,62
         
        Σ=37,13
i j маргинальные частоты k ln(k) k*ln(k)
      1,39 5,55
      2,40 26,38
      2,30 23,03
      1,39 5,55
      2,83 48,16
      1,39 5,55
        Σ=114,20
      3,22 80,47

Использование критерия х² и коэффициента Крамера не даёт достоверных результатов, так как среди фактических клеточных частот имеются нулевые (также не каждая теоретическая и маргинальная частота ≥ 5).

Коэффициент ранговой корреляции Спирмена= -0,26 (пробег и длина автомобилей измерены на порядковых шкалах; сумма квадратов разности рангов=3286), следовательно, между пробегом автомобиля и его длиной наблюдается слабая обратная связь.


Длина автомобилей
низкая средняя значительная
     
     
     
     
     
     
     
     
     
     
     
Пробег
   
Среднее 17,88
Стандартная ошибка 0,560714
Медиана  
Мода  
Стандартное отклонение 2,803569
Дисперсия выборки 7,86
Эксцесс 1,940324
Асимметричность -0,93935
Интервал  
Минимум  
Максимум  
Сумма  
Счет  
Сумма квадратов общая 188,64

Таблица 6
Зависимость пробега автомобилей от длины
        факторная сумма квадратов
длина число автомобилей пробег средний пробег отклонение от средней квадрат отклонения взвешенный квадрат отклонения
низкая     18,5 0,62 0,3844 1,5376
средняя     19,09091 1,210909 1,466301 16,12931
значительная     16,3 -1,58 2,4964 24,964
Итого:     17,88      
Таблица 7
Дисперсионный анализ
вариация сумма квадратов отклонений (факторная) число степеней свободы дисперсия на одну степень свободы F фактический альфа F критический
факторная (межгрупповая) 42,63091   21,31545 3,211718 0,059732 3,443357
остаточная (внутригрупповая) 146,0091   6,636777      
итого (общая) 188,64          

Длина оказывает несущественное влияние на пробег автомобиля. Fфактич. < Fкритич., следовательно, влияние длины автомобиля на пробег статистически незначимо.

Коэффициент детерминации (теснота, вероятность связи)=0,23. Вариации пробега автомобиля в 23% случаев из 100 обусловлена вариацией длины автомобиля, в 77% случаев из 100 вариация обусловлена остальными факторами, кроме длины.

Корреляционное отношение= 0,475, следовательно, связь длины и пробега автомобиля умеренная, прямая, но практического значения не имеет (по шкале Чедока).

№п/п Пробег Y Длина X Х² УХ У²
           
           
           
           
           
           
           
           
           
           
           
           
           
           
           
           
           
           
           
           
           
           
           
           
           
Сумма          
Среднее 17,88 192,84 37406,92 3421,48 327,24

Линейное парное уравнение регрессии методом наименьших квадратов (пробег и длина автомобилей измерены на непрерывных шкалах): у=41-0,12х

a=Y-bX=41; b=(XY-X*Y)/(X²-(X)²)= -0,12, следовательно, при изменении длины на единицу от среднего значения пробег автомобиля изменяется на -0,12 от среднего значения в условиях обратной линейной связи.

Уравнение парной регрессии матричным методом: у=50-0,08х (a=50; b= -0,08, следовательно, при изменении длины на единицу от среднего значения пробег автомобиля изменяется на -0,08 от среднего значения в условиях обратной линейной связи)

Хт                                                  
                                                   
  ХтХ       тХ)-1 6,81 -0,035  
            -0,035 0,000182  
                 
  XTY       BМНК 50,275    
            -0,07727    
Таблица 8
Таблица дисперсионного анализа
  Сумма квадратов Число степеней свободы df Дисперсия на 1df Fфактич.
Факторная 79,91   p 79,91  
Остаточная 108,73   n-p-1 4,73 16,9
Общая 188,64   n-1    
                           

Fкритич.=4,28. Fфактич. > Fкритич., следовательно, уравнение линейной регрессии статистически значимо.

Коэффициент детерминации=0,42. Из 100% случаев вариации пробега автомобиля в 42% вариация пробега обусловлена вариацией длины автомобиля, в 58% случаев вариация пробега обусловлена прочими факторами, кроме длины.

Индекс корреляции=0,65, наблюдается заметная связь (по шкале Чедока). Коэффициент корреляции= -0,65, наблюдается линейная, обратная и заметная связь.

tфактич. для параметра b = -0,26; tкритич. для параметра b =1,714. tфактич. < tкритич., следовательно, параметр b статистически значим.

Длина X Пробег Y lgX Предсказанное lgY 10^lgY ε ε² Вид автомобиля Z (Фиктивная переменная: неспортивный-0, спортивный-1) XZ
    2,356 1,140 13,807 -3,807 14,495    
    2,340 1,163 14,557 -1,557 2,425    
    2,340 1,163 14,557 -1,557 2,425    
    2,272 1,264 18,376 -2,376 5,644    
    2,303 1,218 16,520 0,480 0,230    
    2,303 1,218 16,520 0,480 0,230    
    2,238 1,314 20,610 -3,610 13,032    
    2,303 1,218 16,520 0,480 0,230    
    2,238 1,314 20,610 -3,610 13,032    
    2,248 1,299 19,927 -1,927 3,713    
    2,272 1,264 18,376 -0,376 0,141    
    2,258 1,285 19,281 -1,281 1,641    
    2,265 1,275 18,819 -0,819 0,671    
    2,288 1,241 17,406 0,594 0,352    
    2,303 1,218 16,520 2,480 6,151    
    2,303 1,218 16,520 2,480 6,151    
    2,255 1,289 19,439 -0,439 0,193    
    2,290 1,237 17,275 1,725 2,976    
    2,290 1,237 17,275 1,725 2,976    
    2,303 1,218 16,520 2,480 6,151    
    2,303 1,218 16,520 2,480 6,151    
    2,253 1,292 19,599 1,401 1,962    
    2,276 1,257 18,090 2,910 8,470    
    2,217 1,344 22,100 -0,100 0,010    
    2,279 1,254 17,949 5,051 25,508    
            Σ =124,960    
Модель регрессии Линейная модель Степенная модель Двухфакторная модель Трёхфакторная модель
Множественный R 0,65 Связь заметная. 0,65 Связь заметная. 0,86 Связь высокая. 0,86 Связь высокая.
R-квадрат 0,42 Вариация пробега автомобиля в 42% случаев из 100% обусловлена вариацией длины автомобиля, в 58% случаев – вариацией остальных факторов, кроме длины. 0,42 Вариация пробега автомобиля в 42% случаев из 100% обусловлена вариацией длины автомобиля, в 58% случаев – вариацией остальных факторов, кроме длины. 0,74 Вариация пробега автомобиля в 74% случаев из 100% обусловлена вариацией длины автомобиля, в 26% случаев – вариацией остальных факторов, кроме длины. 0,74 Вариация пробега автомобиля в 74% случаев из 100% обусловлена вариацией длины автомобиля, в 26% случаев – вариацией остальных факторов, кроме длины.
Нормированный R-квадрат 0,399 0,399 0,717 0,704
F Значимость F (α) 16,9 0,00042 Уравнение регрессии значимо. 16,9 0,00042 Уравнение регрессии значимо. 31,4 0,00000035 Уравнение регрессии значимо. 20,05 0,0000023 Уравнение регрессии значимо.
Сумма квадратов остатков 108,7 124,9 48,8 48,8
Коэффициент a (Пробег) t-статистика P-значение 41,14 7,25 0,00000022 Параметр a статистически значим. 4,6 5,6 0,0000098 Параметр a статистически значим. 48,34 11,7 0,0000000001 Параметр a статистически значим. 50,95 3,13 0,005 Параметр a статистически не значим.
Коэффициент b (Длина) t-статистика P-значение -0,12 -4,11 0,000426 Параметр b статистически значим. -1,47 -4,11 0,00042 Параметр b статистически значим. -0,15 -7,18 0,00000034 Параметр b статистически значим. -0,16 -1,98 0,061 Параметр b статистически не значим.
Коэффициент c (Вид) t-статистика P-значение     -3,22 -5,19 0,000033 Параметр с статистически значим. -5,99 -0,36 0,724 Параметр с статистически не значим.
Коэффициент XZ t-статистика P-значение       0,014 0,17 0,87 Параметр XZ статистически не значим.

Наилучшая модель регрессии – двухфакторная, так как уравнение регрессии в целом статистически значимо, все три параметра модели статистически значимы, сумма квадратов остатков минимальна, коэффициент детерминации нормированный R-квадрат максимален.

Анализ адекватности степенной модели (анализ остатков): остатки нормально распределены, отсутствует асимметрия (As=0,06), но наличие плосковершинности

(E-3=-0,4) распределения остатков является недостатком модели. Остатки гомоскедастичны (имеют одинаковый разброс у единиц с низкими и высокими значениями; Fфактич.=(5,4/2)/(1,4/2)= 3,8 < Fкритич.=19, следовательно, между дисперсиями не выявлено существенных отличий (при уровне значимости 0,05)), между остатками и фактором (длиной автомобиля) нет связи (-0,04), следовательно, модель адекватна.

Дисперсионный анализ предпочтительнее корреляционно-регрессионного, так как связь между пробегом и длиной нелинейная.

Объект исследования: длина автомобилей. Метод исследования: построение таблиц и графиков в MS Excel, сортировка и типологическая и структурная группировки, алгебраические преобразования; вычисление описательной статистики), использования F и t критериев для проверки статистических гипотез, построение и сопоставление моделей регрессии. Вариация длины по каждому виду автомобилей: По результатам группировки автомобилей по виду (спортивный/неспортивный) было выяснено, что половина автомобилей (13 из 26,то есть 50% от общего числа) являются спортивными, половина (13 из 26, 50% от общего числа) - неспортивными. Таким образом, распределение состава совокупности автомобилей по типу (спортивный/неспортивный) одинаково (50% / 50%). Длина автомобилей варьируется от 165 до 255. Максимальная длина автомобиля 255 см, как и минимальная 165 см, принадлежит спортивным автомобилям. Длина спортивных автомобилей варьируется от 165 до 255 см (размах вариации=90 см). У 5 автомобилей (38% среди спортивных) длина колеблется в интервале 165-180 см (средняя длина=172,5 см), по 4 автомобиля (по 31% среди спортивных) имеют длину в интервалах 180-200 см (средняя длина=190 см) и 200-256 см (средняя длина=228 см). Модальным является интервал 165-180 (5 из 13 автомобилей попадают в данный интервал). Длина неспортивных автомобилей варьируется от 187 до 201 см (размах вариации=14 см). У 2 автомобилей (15% среди неспортивных) длина колеблется в интервале 187-190 см (средняя длина=188,5 см), у 4 (31% среди неспортивных) - в интервале 190-200 см (средняя длина=195 см), у 7 (54% среди неспортивных) - в интервале 200-202 см (средняя длина=201 см). Модальным является интервал 200-202 (7 из 13 автомобилей попадают в данный интервал). Размах вариации спортивных автомобилей превышает размах вариации неспортивных автомобилей в 6,4 раза (то есть длина спортивных автомобилей более разнообразна). Длину до 200 см имеют 6 спорт (46%) и 9 неспорт (69%) авто. Длину более 200 см имеют 7 спорт (54%) и 4 неспорт (31%) авто.

Зависимость длины автомобилей от их вида (спортивный/неспортивный: По результатам вычисления описательной статистики было выяснено, что выбросы отсутствуют (так как минимальная (165 см) и максимальная (255 см) имеющиеся длины автомобилей не выходят за границы выбросов (119,23 см и 269,77 см соответственно)); коэффициент эксцесса, равный 2,62 >0, указывает на островершинное распределение, коэффициент асимметрии, равный 1,25 >0, указывает на правостороннюю асимметрию (преобладают длины с меньшими значениями относительно среднего). Модальная длина (наиболее распространённая) 201 см. Размах вариации длины (различие max и min значений) равен 90 см. Относительный размах вариации (амплитуда колебания длины от средней) равен (255-165)*100/195,23=46%. Коэффициент вариации длины автомобилей (18,82*100/195,23=9,64% < 35%) показывает, что вариация слабая, а совокупность однородная (массив данных обрабатывается целиком, нет необходимости дробить), надёжная. Алгебраические преобразования длины показали, что целесообразно использовать преобразование Логарифм, так как оно соответствуетнаиболее нормальному распределению (коэффициенты эксцесса и асимметрии ближе к нулю, чем при других преобразованиях или без них). Нижний квартиль длины (25%) равен 182,5 см, верхний квартиль длины (75%) равен 210 см. Вариация в ядре совокупности равна 7% (слабая). По результатам структурной группировки было выяснено, что все неспортивные автомобили (100%; половина от общего количества автомобилей (13 из 26, 50%)) имеют длину от 181 до 219 см, то есть расположены в ядре совокупности, а среди спортивных автомобилей только 2 из 13 (15% среди спортивных) расположены в ядре совокупности (интервал 181-219 см), 7 из 13 спортивных автомобилей (54%) имеют длину в интервале 165-181 см (модальный интервал для спортивных автомобилей), 4 из 13 (31%) в интервале 219-255 см, таким образом, 11 из 13 спортивных автомобилей (85%) находятся на периферии совокупности.

Fфактич.=(734,19/12)/(28,4/12)=25,85 > Fкритич., следовательно, принимается гипотеза H1: между дисперсиями выявлены существенные отличия

(при уровне значимости 0,05) – дисперсия длины спортивных автомобилей существенно превышает дисперсию длины неспортивных автомобилей в 25,85 раз.

t фактич.=(193,7-196,7)/ (734/12+(28,4)/12) =0,367 < t критич., следовательно, принимается гипотеза H0, с вероятностью 95% значение средней (доли) в первой выборке (длина спортивных автомобилей) статистически незначительно отличается от средней (доли) во второй выборке (длина неспортивных автомобилей).

t фактич..=(13,9-2,7)/ ((193,21)/(2*13)+(7,29)/(2*13)) =(11,2)/(2,7)=4,15 > t критич., следовательно, принимается гипотеза H1, между коэффициентами вариации длины спортивных и неспортивных автомобилей выявлены существенные различия. Коэффициент вариации длины спортивных автомобилей превышает коэффициент вариации длины неспортивных автомобилей в 5 раз.

Таким образом, по результатам F и t тестов было выяснено, что дисперсии и коэффициенты вариации длины спортивных и неспортивных автомобилей (по 50% от общего количества автомобилей) существенно различаются, отличия средних статистически незначительны (рис.1 отражает эти выводы: неспортивные автомобили расположены только в ядре совокупности, спортивные – по всей совокупности, следовательно, они более разнообразны (различные σ² и V), чем неспортивные, но их средние расположены в ядре совокупности и несильно отличаются друг от друга).

Влияние длины спортивных и неспортивных автомобилей на их пробег: Признаком-результатом является пробег автомобиля. Признаком-фактором является длина автомобиля. По результатам построения двумерной таблицы сопряжённости было выяснено, что среди 25 автомобилей 17 (68%) имеют средний пробег (из 17 (100%) по 7 автомобилей (по 41%) имеют среднюю и значительную длину, у трёх (18%) автомобилей длина низкая); по 4 (по 16%) автомобиля имеют низкий пробег (у 3 автомобилей (75%) длина значительная, у 1 (25%) средняя) и высокий пробег (у 3 автомобилей (75%) длина средняя, у 1(25%) низкая). Таким образом, более половины автомобилей (14 из 25 (56%)) имеют средний пробег при средней и значительной длине автомобиля. Между пробегом и длиной автомобиля нет функциональной зависимости; связь пробега автомобиля и длины статистически незначима. Коэффициент Крамера =0,3, следовательно, связь между пробегом автомобиля и длиной отсутствует (маловероятна), длина и его пробег независимы. Коэффициент ранговой корреляции Спирмена= -0,26 (пробег и длина автомобилей измерены на порядковых шкалах; сумма квадратов разности рангов=3286), следовательно, между пробегом автомобиля и его длиной наблюдается слабая обратная связь.Дисперсионный анализ: Длина оказывает несущественное влияние на пробег автомобиля. Fфактич. < Fкритич., следовательно, влияние длины автомобиля на пробег статистически незначимо. Коэффициент детерминации (теснота, вероятность связи)=0,23. Вариации пробега автомобиля в 23% случаев из 100 обусловлена вариацией длины автомобиля, в 77% случаев из 100 вариация обусловлена остальными факторами, кроме длины. Корреляционное отношение= 0,475, следовательно, связь длины и пробега автомобиля умеренная, прямая, но практического значения не имеет (по шкале Чедока).Наилучшая модель регрессии – двухфакторная, так как уравнение регрессии в целом статистически значимо, все три параметра модели статистически значимы, сумма квадратов остатков минимальна, коэффициент детерминации нормированный R-квадрат максимален. Анализ адекватности степенной модели (анализ остатков): остатки нормально распределены, отсутствует асимметрия (As=0,06), но наличие плосковершинности (E-3=-0,4) распределения остатков является недостатком модели. Остатки гомоскедастичны (имеют одинаковый разброс у единиц с низкими и высокими значениями; Fфактич.=(5,4/2)/(1,4/2)= 3,8 < Fкритич.=19, следовательно, между дисперсиями не выявлено существенных отличий (при уровне значимости 0,05)), между остатками и фактором (длиной автомобиля) нет связи (-0,04), следовательно, модель адекватна. Дисперсионный анализ предпочтительнее корреляционно-регрессионного, так как связь между пробегом и длиной нелинейная.


Дата публикования: 2015-02-22; Прочитано: 1117 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.011 с)...