![]() |
Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | |
|
Глава 12. Основы теории вероятностей
Минимальное и максимальное значения приведенных данных соответственно равны 0,2 и 11,7. Поэтому выбираем двенадцать интервалов длиной в 1 минуту (полный интервал изменений равен [0,12]). Надлежащий выбор размера интервала является решающим фактором в определении формы эмпирического распределения. Хотя не существует жестких правил выбора оптимального размера интервала, общим правилом, которого следует придерживаться, является выбор от 10 до 20 интервалов. На практике было бы неплохо попробовать различные размеры интервала для построения подходящей гистограммы.
Приведенная ниже таблица суммирует информацию для рассматриваемого статистического ряда, необходимую для построения гистограммы. Столбец относительной частоты /, вычисляется путем деления соответствующих значений столбца частоты о, на общий объем наблюдений (ге = 60). Например Д = 11/60= 0,1833. Значения Ft в столбце накопленных частот вычисляются посредством последовательного суммирования величин ft. Так, F1 = fl= 0,1833 и F2 = F1 + f2 = = 0,1833 + 0,1333 = 0,3166.
Интервал | Подсчет наблюдений | Частота, о, | Относительная частота, f, | Накопленная относительная частота, F, |
(0, 1) | 4Ш--ШН | 0,1833 | 0,1833 | |
(1.2) | -ШИП | 0,1333 | 0,3166 | |
(2,3) | ш НИ | 0,1500 | 0,4666 | |
(3,4) | Ш II | 0,1167 | 0,5833 | |
(4, 5) | ш\ | 0,1000 | 0,6833 | |
(5,6) | 4W- | 0,0833 | 0,7666 | |
(6,7) | IIII | 0,0667 | 0,8333 | |
(7,8) | II | 0,0333 | 0,8666 | |
(8,9) | III | 0,0500 | 0,9166 | |
(9, Ю) | III | 0,0500 | 0,9666 | |
(10, 11) | I | 0,0167 | 0,9833 | |
(11,12) | I | 0,0167 | 1,0000 | |
Всего | 1,0000 |
Величины и Ft являются дискретными эквивалентами плотности вероятности и функции распределения времени обслуживания t. Так как гистограмма частот дает дискретную версию непрерывного времени обслуживания, можно преобразовать дискретную функцию распределения в непрерывную кусочно-линейную функцию, соединяя полученные точки отрезками прямых. На рис. 12.6 представлена эмпирическая плотность вероятности и функция распределения для рассматриваемого примера. Здесь функция распределения оценивается в средних точках интервалов значений.
Теперь можно оценить математическое ожидание Г и дисперсию sf эмпирического распределения. Пусть N— число интервалов в гистограмме; обозначим через \ среднюю точку интервала L Тогда
12.5. Эмпирические распределения
0.2
0.4
0.6
0.8
1.0
Плотность вероятности
Функция распределения
0 123456789 10 11 12 ((минуты)
Рис. 12.6. Эмпирическая плотность вероятности и функция распределения
Применяя эти формулы для рассматриваемого примера, получаем следующее. Т = 0,1833 х 0,5 + 0,133 х 1,5 +... + 0,0167х 11,5 = 3,934 минуты,
s; =0,1833 х (0,5-3,934)2 + 0,133 х (1,5-3,934)2 +... + 0,0167 х (11,5 - 3.934)2 = 8,646 минут2.
Построение гистограмм в Excel. Электронная таблица Excel имеет встроенные средства для построения гистограмм. Для этого выберите команду Сервис=>Анализ данных^Гистограмма и в открывшемся диалоговом окне введите необходимые данные3. Средство Гистограмма непосредственно не вычисляет среднее и стандартное отклонение4. Поэтому предлагаемый шаблон chllSampleMeanVar.xls разработан таким образом, что в нем автоматически вычисляются среднее, дисперсия, максимальное и минимальное значения, также как имеется возможность применить средство Excel Гистограмма5.
На рис. 12.7 видно, что входные данные примера 12.5.1 записаны в диапазоне А8:Е19. После того как данные будут внесены в рабочий лист, шаблон автоматически подсчитает простые статистические характеристики (среднее, стандартное отклонение, минимум и максимум).
Для построения гистограммы сначала надо ввести верхние границы интервалов в столбец F, начиная со строки 8. В нашем примере эти границы введены в диапазон F8:F19. В диалоговом окне Гистограмма надо указать местоположение выбо
Команда Сервис^Анализ данных будет доступна только тогда, когда к Excel присоединена надстройка Пакет анализа, которая автоматически не присоединяется при установке Excel. Чтобы присоединить эту надстройку, выберите команду Сервисе Надстройки и в диалоговом окне Надстройки установите флажок Пакет анализа. — Прим. ред.
4 В диалоговом окне Анализ данных предлагается много различных средств статистического анализа. В частности, средство Описательная статистика можно использовать для вычисления среднего и стандартного отклонения (даже если остальные выходные результаты этого средства вы использовать не будете).
'Рабочая книга chllSampleMeanVar.xls защищена от изменений, поэтому она не руси-
фицирована. Данные, вычисляемые в этом шаблоне, легко получить с помощью встроенных функций Excel СРЗНАЧ, ДИСП, МАКС, МИН и других. — Прим. ред.
Глава 12. Основы теории вероятностей
рочных данных (в поле ввода Входной интервал вводится А8:Е19) и границ интервалов (в поле ввода Интервал карманов вводится F8:F19), как показано на рис. 12.7. Также в группе Параметры вывода установите флажки Интегральный процент и Вывод графика. После щелчка на кнопке ОК на новом рабочем листе будет построена гистограмма (см. рис. 12.8).
А | В | С | D | E | F | |
Sample Mean and Variance +Histogram | ||||||
Output: | ||||||
Sample size | Mean | 3 9367 | ||||
Minimum | 0 2000 | Variance | 8.9105 | |||
Maximum | 11 7000 | Std Dev. | 2.9850 | |||
Input: | ||||||
Enter data in A8 E100 | Bin | |||||
1 2 | 0 9999 | |||||
1 5 | 3 7 | 0.Я | 1 9999 | |||
4 > | 2 9999 | |||||
0? | 3 9999 | |||||
9 1 | 10 6 | 4 9999 | ||||
5 9999 | ||||||
4 8 | 6 9999 | |||||
7 9999 | ||||||
1 7 | 5.9 | 8 9999 | ||||
1 6 | 4.9 | 9 9999 | ||||
1 9 | 1 3 | 4 t | 10 9999 | |||
1 5 | 11 7 | 11 9999 |
|$A$8:$E$19
Гистограмма
Входные данные Вводной интервал-
интервал карманов'
Г Метки
Параметры вывода <~ Выходной интервал I Новый рабочий дет: | <~ Новая рабочая книга
Г Парето (отсортированная гистограмма) Р Интегральный процент 1^|Вьеод графика
"3
Отмена
Справка
"3
Рис. 12.7. Входные данные из примера 12.5.1 и диалоговое окно Гистограмма
Критерий согласия. С помощью этого критерия можно проверить, является ли выборка, на основе которой получено эмпирическое распределение, представителем конкретного вероятностного распределения. Начальную оценку можно сделать, сравнив значения эмпирической функции распределения и предполагаемой теоретической функции распределения. Если значения этих функций чрезмерно не отличаются друг от друга, то, вероятно, рассматриваемая выборка получена из предложенного теоретического распределения. Это начальное "предчувствие" может быть в дальнейшем подтверждено с помощью критерия согласия.
12.5. Эмпирические распределения
14 Еще _О_ 100.00%!
Рис. 12.8. Гистограмма для примера 12.5.1
Пример 12.5.2
Проверим данные из примера 12.5.1 на принадлежность предполагаемому экспоненциальному распределению.
Первой задачей является уточнение параметров плотности вероятности и функции распределения, которые определяют теоретическое распределение. Из примера 12.5.1 следует, что Т = 3,934 минуты, поэтому Я. = 1/3,934 = 0,2542 для предполагаемого экспоненциального распределения (см. раздел 12.4.3). Соответствующая плотность вероятности и функция распределения имеют следующий вид.
/(f) = 0,2542e0-2542', />0,
F{T)=\f(t)dt = \-e^2saT, Т>0.
о
Используем теперь функцию распределения F(T) для вычисления ее значений в точках Т= 0,5, 1,5, 11,5 и сравнения их с эмпирическими значениями F„ i = 1, 2,12, которые вычислены в примере 12.5.1. Например,
F(0,5) = l-e-(0-2542"o-5)*0,12.
На рис. 12.9 представлены результаты сравнения. Просмотрев два графика, можем сделать вывод, что экспоненциальное распределение действительно приемлемо для аппроксимации распределения имеющихся данных.
Следующий шаг состоит в применении критерия согласия. Имеется два таких критерия: 1) критерий Колмогорова-Смирнова и 2) критерий /2 (критерий хи-квадрат). Здесь мы ограничимся обсуждением критерия /2.
Критерий х2 основан на измерении отклонений между эмпирическими и теоретическими частотами, соответствующими различным интервалам построенной гистограммы. В частности, теоретическая частота и,-, соответствующая наблюдаемой частоте о, интервала /, вычисляется по формуле
и,= n)f(t)dt = n(F(Il)-F(Ll)) = 60{e^^-е—').
532 Глава 12. Основы теории вероятностей
Эмпирическая функция распределения
I I I I I...... _I_l_
О 0,5 1,5 2,5 3,5 4,5 5,5 6,5 7,5 8,5 9,5 10,5 11,5
t (минуты)
Рис. 12.9. Сравнение эмпирической и теоретической функций распределения
При заданных о, и ni для каждого интервала i мера отклонения между эмпирическими и теоретическими частотами определяется следующей формулой.
Когда количество интервалов N величина % асимптотически стремится к плотности вероятности ^-распределения с N - k - 1 степенями свободы, где k — число параметров, оцененных на основе исходной информации и использованных для определения теоретического распределения.
Нулевая гипотеза, утверждающая, что наблюденная выборка получена из теоретического распределения f(t), принимается, если %2 <Хдмь-и-а> гДе Х*-*-и-а — значение х* при N - k-1 степенях свободы, а— уровень значимости критерия. Вычисления в соответствии с критерием показаны в следующей таблице.
Интервал Наблюдаемая частота, о, Теоретическая частота, л, у"
(0,1) | 13,47 | 0,435 | ||
(1.2) | 10,44 | 0,570 | ||
(2, 3) | 8,10 | 0,100 | ||
(3, 4) | 6,28 | 0,083 | ||
(4,5) | 6' | 4,87 | ||
(5,6) | 3,88 | |||
(6,7) | 2,93 | |||
(7,8) | 2,27 | |||
(8,9) | ■25 1,76 | •21,71 | 0,499 | |
(9,10) | 1,37 | |||
00,11) | 1,06 | |||
(11.12) | 0,82 | |||
(12, ос) | 2,75 | |||
Всего | п = 60 п = 60 | Величина^ равна 1,705 |
12.5. Эмпирические распределения
Существует практическое правило: ожидаемое значение теоретической частоты для любого интервала должно быть не менее 5. Это правило всегда можно выполнить путем объединения последовательных интервалов. В приведенной таблице правило требует формирования единого интервала (4, °°). Количество интервалов становится равным iV=5. Поскольку на основе исходных данных оценивается только один параметр (а именно Л), степень свободы величины х должна равняться 5-1-1 = 3. Если выберем уровень значимости а= 0,05, таблица значений величины (табл. 3 приложения В) дает критическое значение Хз005 = 7,815. Так как значение величины х" (= 1,705) меньше критического, мы принимаем гипотезу, что выборка получена из экспоненциального распределения.
Вычисления предыдущей таблицы можно легко выполнить в Excel на основе данных, полученных при построении гистограммы (рис. 12.8). На рис. 12.10 показано, как решается эта задача. Здесь данные в столбцах А, В и С получены при построении гистограммы (формат данных в столбце С изменен на обычный десятичный формат). Формулы, по которым проводятся вычисления в столбцах D:G, совпадают с формулами критерия j(\
А | В | - | Е | |||
Карман ' | Частота (oi).Интегральный % | я/ | ni | |||
0.9999; | 11| | 0.1831 | 13.448 | 0.44562 | ||
1 9999 | 0.317! | 10.435 | 0.568206 | |||
2.9999 | 9. | 0.467 | 8.096 | 0.100941 | ||
"В" | 3 9999 | 0 583 | о 281 | 0.082306i | ||
4.9999 | .................6...... | 0.683 | 4.873 | 0.260646* | ||
5.9999J | 0.767'' | 3.781 | 0.393007 | |||
'- | 6 9999 | 4; | 0.833' | 2.933 | 0.388165' | |
7.9999 | 2; | С.867 | 2.276 | 0.033469; | ||
8 9999 | з! | 0.917; | 1 766 | С 852263 | ||
9.9999; | з] | 0 967 | 1.37 | 1939343' | ||
10 9999 | i;' | 0 98Г> | 1.063 | 0.003734 | ||
*lT | 1.000; | 3.678 | 1.949887 | |||
Сумма | 7.027587 | |||||
Рис. 12.10. Вычисления критического значения критерия согласия
Глава 12. Основы теории вероятностей
УПРАЖНЕНИЯ 12.5.1
1. Следующие данные представляют время (в минутах) между прибытием клиентов в некий центр обслуживания.
4,3 | 3,4 | 0,9 | 0,7 | 5,8 | 3,4 | 2,7 | 7,8 |
4,4 | 0,8 | 4,4 | 1,9 | 3,4 | 3,1 | 5,1 | 1,4 |
0,1 | 4,1 | 4,9 | 4,8 | 15,9 | 6,7 | 2,1 | 2,3 |
2,5 | 3,3 | 3,8 | 6,1 | 2,8 | 5,9 | 2,1 | 2,8 |
3,4 | 3,1 | 0,4 | 2,7 | 0,9 | 2,9 | 4,5 | 3,8 |
6,1 | 3,4 | 1,1 | 4,2 | 2,9 | 4,6 | 7,2 | 5,1 |
2,6 | 0,9 | 4,9 | 2,4 | 4,1 | 5,1 | 11,5 | 2,6 |
0,1 | 10,3 | 4,3 | 5,1 | 4,3 | 1,1 | 4,1 | 6,7 |
2,2 | 2,9 | 5,2 | 8,2 | 1,1 | 3,3 | 2,1 | 7,3 |
3,5 | 3,1 | 7,9 | 0,9 | 5,1 | 6,2 | 5,8 | 1.4 |
0,5 | 4,5 | 6,4 | 1,2 | 2,1 | 10,7 | 3,2 | 2,3 |
3,3 | 3,3 | 7,1 | 6,9 | 3,1 | 1,6 | 2,1 | 1,9 |
a) Постройте три гистограммы с длиной интервалов 0,5, 1 и 1,5 минуты соответственно.
b) Сравните графически эмпирическую функцию распределения с аналогичной функцией экспоненциального распределения.
c) Проверьте гипотезу о том, что данная выборка взята из экспоненциального распределения. Используйте 95%-ный доверительный уровень (т.е. 5% -ный уровень значимости).
d) Какая из трех гистограмм является "наилучшей" для проверки нулевой гипотезы о том, что выборочные значения подчиняются экспоненциальному закону?
2. Следующие данные представляют время (в секундах), необходимое для передачи сообщения.
25,8 | 67,3 | 35,2 | 36,4 | 58,7 |
47,9 | 94,8 | 61,3 | 59,3 | 93,4 |
17,8 | 34,7 | 56,4 | 22,1 | 48,1 |
48,2 | 35,8 | 65,3 | 30,1 | 72,5 |
5,8 | 70,9 | 88,9 | 76,4 | 17,3 |
77,4 | 66,1 | 23,9 | 23,8 | 36,8 |
5,6 | 36,4 | 93,5 | 36,4 | 76,7 |
89,3 | 39,2 | 78,7 | 51,9 | 63,6 |
89,5 | 58,6 | 12,8 | 28,6 | 82,7 |
38,7 | 71,3 | 21,1 | 35,9 | 29,2 |
При 95%-ном доверительном уровне проверьте гипотезу о том, что данная выборка имеет равномерное распределение, при этом используйте следующую дополнительную информацию о теоретическом равномерном распределении.
12.5. Эмпирические распределения
a) Распределение сосредоточено на интервале от 0 до 100.
b) Интервал, на котором сосредоточено распределение, вычисляется из данных выборки.
c) Верхний предел интервала, на котором сосредоточено распределение, равен 100, а нижний должен быть определен из данных выборки.
3. Автоматический прибор используется для определения интенсивности движения на оживленном перекрестке. Прибор фиксирует время прибытия автомобиля на перекресток по непрерывной временной шкале, начиная с нуля. Приведенная ниже таблица содержит (накопленное) время (в минутах) прибытия на перекресток первых 60 автомобилей. Постройте подходящую гистограмму для проверки гипотезы о том, что данные выборки имеют экспоненциальное распределение. Используйте 95% -ный доверительный уровень.
Прибытие | Время прибытия | Прибытие | Время прибытия | Прибытие | Время прибытия |
5,2 | 97,2 | 180,1 | |||
6,7 | 97,9 | 188,8 | |||
9,1 | 111,5 | 201,2 | |||
12,5 | 116,7 | 218,4 | |||
18,9 | 117,3 | 219,9 | |||
22,6 | 118,2 | 227,8 | |||
27,4 | 124,1 | 233,5 | |||
29,9 | 127,4 | 239,8 | |||
35,4 | 127,6 | 243,6 | |||
35,7 | 127,8 | 250,5 | |||
44,4 | 132,7 | 255,8 | |||
47,1 | 142,3 | 256,5 | |||
47,5 | 145,2 | 256,9 | |||
49,7 | 154,3 | 270,3 | |||
67,1 | 155,6 | 275,1 | |||
67,6 | 166,2 | 277,1 | |||
69,3 | 169,2 | 278,1 | |||
78,6 | 169,5 | 283,6 | |||
86,6 | 172,4 | 299,8 | |||
91,3 | 175,3 | 300,0 |
Глава 12. Основы теории вероятностей
ЛИТЕРАТУРА
1. Feller W. An Introduction to Probability Theory and Its Applications, 2nd ed., Vols. 1 and 2, Wiley, New York, 1967. (Существует русский перевод первого издания: Фел-лер В. Введение в теорию вероятностей и ее приложения. — М.: Мир, 1967. — 2 т.)
2. Papoulis A. Probability and Statistics, Prentice Hall, Upper Saddle River, N.J., 1990.
3. Parzen E. Modern Probability Theory and Its Applications, Wiley, New York, 1960.
4. Ross S. Introduction to Probability Models, 5th ed., Academic Press, New York, 1993.
Литература, добавленная при переводе
1. Айвазян С. А., Мхитарян В. С. Прикладная статистика и основы эконометрики. — М.: ЮНИТИ-ДАНА, 2001.
2. Бендат Дж., Пирсол А. Прикладной анализ случайных данных. — М.: Мир, 1989.
3. Макарова Н. В., Трофимец В. Я. Статистика в Excel. — М.: Финансы и статистика, 2002.
4. Минько А. А. Статистический анализ в Microsoft Excel. — М.: Диалектика, 2004.
5. Пугачев В. С. Теория вероятностей и математическая статистика. — М.: Наука, 1979.
6. Чистяков В. П. Курс теории вероятностей. — М.: Высш. школа, 1982.
ГЛАВА 13
МЕТОДЫ ПРОГНОЗИРОВАНИЯ
Принимая решения, мы определяем планы на будущее. Следовательно, используемые при этом данные должны соответствовать последующим событиям. Например, в теории управления запасами мы обосновываем наши решения посредством спроса на определенные виды продукции в течение определенного планового периода. Аналогично в финансовом планировании необходимо предсказать структуру денежного потока в будущем на основе структуры текущих денежных потоков.
В этой главе рассматриваются три методики прогнозирования изменений интересующих нас переменных как функций времени: прогнозирование с использованием скользящего среднего, прогнозирование путем экспоненциального сглаживания и регрессионное прогнозирование. Будут также показаны реализации этих методов в Excel.
13.1. ПРОГНОЗИРОВАНИЕ С ИСПОЛЬЗОВАНИЕМ СКОЛЬЗЯЩЕГО СРЕДНЕГО
При использовании этой методики основное предположение состоит в том, что временной ряд является устойчивым в том смысле, что его члены у, есть реализациями следующего случайного процесса:
У, = Ъ +
где Ь — неизвестный постоянный параметр, который оценивается на основе представленной информации, £t — случайный компонент (или шум) в момент времени t. Предполагается, что случайная ошибка et имеет нулевое математическое ожидание и постоянную дисперсию. Кроме того, предполагается, что данные для различных периодов времени не коррелированны.
Метод с использованием скользящего среднего предполагает, что последние п наблюдений являются равнозначно важными для оценки параметра Ь. Другими словами, если в текущий момент времени t последними п наблюдениями есть у1п+1, /у(л+г,yt, тогда оцениваемое значение для момента t + 1 вычисляется по формуле
• _ У,-„«+ У,-„+2+~ + У, У/+1
п
Не существует четкого правила для выбора числа п — базы метода, использующего скользящее среднее. Если есть весомые основания полагать, что наблюдения в течение достаточно длительного времени удовлетворяют модели yt = Ь + et, то рекомендуется выбирать большие значения п. Если же наблюдаемые значения удовлетворяют приведенной модели в течение коротких периодов времени, может быть приемлемым и малое значение п. На практике величина п обычно принимается в пределах от 2 до 10.
Глава 13. Методы прогнозирования
Пример 13.1.1
В табл. 13.1 представлены объемы спроса на некое изделие за прошедшие 24 месяца. Необходимо с помощью методики скользящего среднего дать прогноз объема спроса на следующий месяц (здесь t = 25).
Таблица 13.1
Месяц t | Спрос yt | Месяц f | Спрос у( |
Чтобы проверить применимость метода скользящего среднего, проанализируем приведенные данные. Эти данные показывают, что наблюдается тенденция к возрастанию значений у, с течением времени. Это, вообще-то, означает, что скользящее среднее не будет хорошим предсказателем для будущего спроса. В частности, использование большой базы и для скользящего среднего неприемлемо в этом случае, так как это приведет к подавлению наблюдаемой тенденции в изменении данных. Следовательно, если мы используем небольшое значение для базы и, то будем находиться в лучшем положении с точки зрения отображения упомянутой тенденции в изменении данных.
Дата публикования: 2014-11-18; Прочитано: 392 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!