Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

II. Математическая статистика 4 страница



Аналогично можно найти выборочное уравнение прямой линии регрессии на .

Пример. Найти выборочное уравнение прямой линии регрессии на по данным наблюдений:

1,00 1,50 3,00 4,50 5,00
1,25 1,40 1,50 1,75 2,25

Решение. Составим расчетную таблицу.

1,00 1,50 3,00 4,50 5,00 1,25 1,40 1,50 1,75 2,25 1,00 2,25 9,00 20,25 25,00 1,250 2,100 4,500 7,875 11,250

Вычисленные по таблице суммы подставим в формулы (****) и найдем искомые параметры:

Искомое уравнение регрессии имеет вид:

Если количество наблюдаемых данных велико (на практике для удовлетворительных оценок обычно используют объем выборки не менее 50), то, как правило, среди наблюдаемых данных имеются повторяющиеся: одно и то же значение может встретиться раз, одно и то же значение раз, одна и та же пара чисел раз. Поэтому данные наблюдений группируют, т.е. подсчитывают частоты и записывают все данные в виде корреляционной таблицы. Приведем пример такой таблицы.

10 20 30 40
0,4 0,6 0,8 5 3 2 19 7 6 14 4 26 12 22
8 21 13 18

В первой строке таблицы указаны наблюдаемые значения (10;20;30;40) величины , а в первом столбце – наблюдаемые значения (0,4;0,6;0,8) величины . На пересечении строк и столбцов приведены частоты наблюдаемых пар. Например, частота 5 указывает, что пара чисел (10;0,4) наблюдалась 5 раз. Все частоты помещены в прямоугольнике, стороны которого изображены жирными линиями. Прочерк означает, что соответствующая пара чисел, например (20;0,4), не наблюдалась.

В последнем столбце приведены суммы частот строк. Например, сумма частот первой строки «жирного» прямоугольника равна ; это число показывает, что значение в сочетании с различными значениями наблюдалось 26 раз.

В последней строке записаны суммы частот столбцов. Например, число 8 указывает, что значение в сочетании с различными значениями наблюдалось 8 раз.

В правом нижнем углу приводится сумма всех частот (объем выборки ). Для проверки следует иметь в виду, что . В нашем случае

и .

Если данные сгруппированы в виде корреляционной таблицы, то все суммы, входящие в (***), можно записать так:

где обозначено .

С учетом этих соотношений система (***) принимает вид:

(!!)

Можно решить эту систему, т.е. найти и , подставить найденные значения в (**) и записать уравнение прямой регрессии. Но обычно это уравнение выписывают в другой форме, для чего предварительно выражают через :

;

тогда уравнение прямой регрессии принимает вид:

.

Таким образом, прямая линейной регрессии на проходит через точку , а ее угловой коэффициент .

Значение находим из системы (!!):

, (!!!)

где – выборочная дисперсия случайной величины .

По аналогии с п. 1.8.7 можно найти выборочный коэффициент корреляции :

,

где – выборочные с.к.о. (). Таким образом, выборочный коэффициент корреляции случайных величин и вычисляется по формуле

.

Замечание. Выборочное уравнение прямой линии регрессии на имеет вид:

где

.

2.7. Элементы дисперсионного анализа

2.7.1. Понятие о дисперсионном анализе

Во многих экономических задачах требуется оценить влияние различных факторов на изучаемую величину . Например, разные формы организации производства могут оказать существенное или несущественное влияние на прибыль предприятия. Другим примером может служить задача оценки эффективности различных видов удобрений.

Данный фактор Ф можно разделить на ряд уровней, в качестве которых могут выступать, например, разные формы организации производства или разные виды удобрений.

Суть метода заключается в том, что дисперсия величины , являющаяся мерой разброса относительно ее математического ожидания, разделяется на две составляющие: одна часть – факторная дисперсия вызвана действием фактора Ф, вторая – остаточная дисперсия обусловлена некоторыми случайными причинами. Если выясняется, что факторная дисперсия невелика по сравнению с остаточной, то фактор не оказывает существенного влияния на .

Если рассматривается только один фактор, дисперсионный анализ называется однофакторным, если более одного – многофакторным.

2.7.2.Однофакторный дисперсионный анализ. Факторная и остаточная дисперсии

Рассмотрим схему однофакторного дисперсионного анализа.

Пусть на рассматриваемую случайную величину влияет фактор Ф, который имеет уровней. На каждом уровне, т.е. для каждого из видов фактора Ф, проводятся измерения (наблюдения) величины . Число таких измерений для всех уровней одинаково и равно .

Составим таблицу полученных измерений. В последней строке помещены средние значения измерений для каждого уровня.

Номер измерения Уровни фактора
2 q     …         …     …   …   …     …     …    
Групповая средняя         …  

Вычисляем общую среднюю по всем измерениям:

.

Общей суммой квадратов отклонений наблюдаемых значений от общей средней называется выражение

Факторной суммой квадратов отклонений групповых средних от общей средней называется выражение (эта величина характеризует рассеяние «между группами»)

Остаточной суммой квадратов отклонений наблюдаемых значений группы от своей групповой средней является сумма (она характеризует рассеяние «внутри групп»)

Эти суммы позволяют найти несмещенные оценки факторной и остаточной дисперсий:

Знаменатели этих формул записаны из следующих соображений: факторная дисперсия зависит от составляющих , а остаточная – от составляющих ; при этом в каждой группе число степеней свободы надо уменьшить на единицу.

Пример. Проведены измерения для каждого из трех уровней некоторого фактора Ф. В качестве уровня значимости принимается величина . Проверить нулевую гипотезу о незначительном влиянии фактора Ф.

Исходные данные помещены в таблицу 1.

Табл. 1

Номер Измерения Уровни фактора
1 2 3 4 38 36 35 31 20 24 26 30 21 22 31 34
35 25 27

Решение. Находим общую среднюю . Вычисляем разности и квадраты этих разностей (табл. 2).

Табл. 2

  Номер измерения Уровни фактора
      –9 –5 –3   –8 –7  
     

Затем находим общую и факторную суммы:

Остаточная сумма

Определяем факторную и остаточную дисперсии:

Отношение дисперсий равно

Оказалось, что факторная дисперсия почти в 5 раз превысила остаточную. Здравый смысл говорит о том, что изучаемый фактор очень существенно влияет на разброс наблюдений. Попробуем, тем не менее, перейти на язык проверки статистических гипотез.

В рассматриваемой задаче естественно воспользоваться критерием Фишера-Снедекора, т.к. отношение двух выборочных дисперсий (нормальных распределений) распределено по закону Фишера-Снедекора (см. п. 2.5.2). По таблицам критических точек этого распределения (Приложение 7 в [1]) при и числам степеней свободы находим Так как , то заключаем, что фактор влияет значимо (существенно) и нулевую гипотезу отвергаем.

2.8. Основы метода Монте-Карло (метода статистических испытаний)

2.8.1. Общее представление о методе

Метод Монте-Карло – это численный метод решения математических задач при помощи моделирования случайных величин.

Датой рождения метода Монте-Карло принято считать 1949 год, когда появилась статья американских ученых Н. Метрополиса и С. Улама «Метод Монте-Карло», в которой этот метод систематически изложен. Название метода связано с городом Монте-Карло в княжестве Монако, где в казино играют в рулетку – одно из простейших устройств для получения случайных чисел.

Пример. Предположим, что нам нужно вычислить площадь плоской фигуры . Это может быть совсем произвольная фигура с криволинейной границей, заданной графически или аналитически, состоящая из одного или нескольких фрагментов. Пусть это фигура, изображенная на рис. 1, и предположим, что она вся расположена внутри единичного квадрата.

 
 


Рис. 1

Выберем случайным образом внутри квадрата точек. Эту фразу следует понимать так: каждая точка может с равными возможностями оказаться в любом месте квадрата, а вероятность попадания в любую область равна ее площади. Если теперь обозначить через число точек, попавших внутрь , то эта площадь приблизительно равна . Чем больше будет , тем точнее будет оценка площади.

Методу Монте-Карло присущи две особенности. Первая: структура алгоритма весьма проста. Как правило, составляется программа для осуществления одного случайного испытания (в рассмотренном примере надо выбрать случайную точку в квадрате и проверить, принадлежит ли она ). Затем это испытание повторяется раз, причем каждый опыт не зависит от всех остальных, и результаты всех опытов усредняются.

Поэтому иногда метод Монте-Карло называют методом статистических испытаний.

Вторая особенность метода: ошибка вычислений обычно пропорциональна величине , где – некоторая константа, а – число испытаний. Из этой формулы видно, что для того, чтобы уменьшить ошибку в 10 раз (иначе говоря, чтобы получить в ответе еще один верный десятичный знак), нужно увеличить (т.е. объем работы) в 100 раз.

Поэтому ясно, что высокой точности на этом пути достичь невозможно: обычно говорят, что метод эффективен при решении тех задач, в которых результат нужен с небольшой точностью (5-10%). Существуют, однако, разновидности метода, позволяющие существенно уменьшить константу , и тем самым заметно улучшить точность расчета.

2.8.2. Задачи, решаемые методом Монте-Карло

Во-первых, метод Монте-Карло позволяет моделировать любой процесс, на протекание которого влияют случайные факторы. Во-вторых, для многих математических задач, не связанных с какими-либо случайностями, можно искусственно придумать вероятностную модель (порою даже не одну), позволяющую решать эту задачу. Именно это и было сделано в приведенном выше примере.

Таким образом, можно говорить о методе Монте-Карло как об универсальном методе решения математических задач.

2.8.3. Разыгрывание дискретной случайной величины

Метод Монте-Карло основан на применении случайных чисел. Как правило, речь идет о независимых значениях непрерывной случайной величины , равномерно распределенной в интервале . Все остальные случайные числа получают из равномерно распределенных независимых величин.

Заметим, однако, что величина , вообще говоря, имеет бесконечное количество десятичных знаков. В действительности же пользуются не такой случайной величиной, а некоторой псевдослучайной величиной , которая имеет конечное число десятичных знаков. Тем не менее, качество таких псевдослучайных чисел, генерируемых с помощью современной вычислительной техники, достаточно высокое, и они с успехом используются в многочисленных приложениях. В дальнейшем мы не будем останавливаться на этом нюансе.

Пусть требуется разыграть дискретную случайную величину , т.е. получить последовательность ее возможных значений , зная закон распределения :





Дата публикования: 2015-03-26; Прочитано: 315 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.016 с)...