Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Пример 1. Выбор стратегии. Матрица некоторой игры имеет вид
Найдите оптимальные стратегии игроков.
Решение. В этой игре игрок 1 имеет три возможные стратегии: а 1, а 2, а 3 из, а игрок 2 — четыре возможные стратегии: b 1, b 2, b 3, b 4.
Рассмотрим процесс принятия игроками решения (предполагается, что они действуют рационально). Взглянув на таблицу, можно заметить, что если игрок 1 не знает, как поступит его противник, то, действуя наиболее целесообразно и считая, что противник будет действовать подобным же образом, он выберет стратегию а 2, которая гарантирует ему наибольший из трех возможных наименьших выигрышей: 9, 13, 8. Другими словами, игрок 1 руководствуется принципом максиминного выигрыша. Этот выигрыш a = аij есть нижняя цена игры. Для нашего примера a = 13.
Игрок 2 рассуждает аналогично: если он выберет стратегию b 1,,то потеряет самое большее 23, если стратегию b 2, то — 40, и т.д. В результате он выберет стратегию b 3, которая гарантирует ему наименьший из четырех возможных проигрышей: 23, 40, 13, 25. Принято говорить, что игрок 2 руководствуется принципом минимаксного проигрыша. Этот проигрыш b = аij есть верхняя цена игры. Для нашей матрицы b = 13.
Ситуация (a 2, b 3) есть седловая точка, и a = b = 13 есть цена игры.
При наличии седловой точки ни одному из участников игры невыгодно отклоняться от своей минимаксной стратегии: он будет наказан противником тем, что получит меньший выигрыш.
Пример 2. Где строить?
Две конкурирующие крупные торговые фирмы Ф1 и Ф2 планируют построить в одном из четырех небольших городов Г 1, Г 2, Г 3 и Г 4, лежащих вдоль автомагистрали, по одному универсаму. Взаимное расположение городов, расстояние между ними и численность населения показаны на рис. 1.
Рис. 1
Прибыль каждой фирмы зависит от численности населения городов и степени удаленности универсамов от места жительства потенциальных покупателей. Специально проведенное исследование показало, что прибыль в универсамах будет распределяться между фирмами следующим образом:
Например, если универсам фирмы Ф 1 расположен к городу Г 1ближе универсама фирмы Ф 2, то прибыль от покупок, сделанных жителями данного города, распределится следующим образом: 75% получит Ф 1, остальное — Ф 2.
Представьте описанную ситуацию как игру двух лиц.
В каких городах фирмам целесообразно построить свои универсамы?
Решение. Составим платежную матрицу игры, в которой игроком 1 будет фирма Ф 1, а игроком 2 — фирма Ф 2. Стратегии обоих игроков: строить свой универсам в городе Г 1, в городе Г 2 и т.д. Элементы матрицы — прибыль фирмы Ф 1 (в тыс. руб.), которая, как предполагается, пропорциональна (причем с одним и тем же коэффициентом) числу покупателей. Величина указанного коэффициента пропорциональности для выбора оптимального места размещения универсамов значения не имеет, поэтому примем его равным единице.
Платежная матрица имеет вид
Рассмотрим примеры расчета значений элементов (Г 1, Г 2) и (Г 3, Г 4) матрицы.
Ситуация (Г 1, Г 2) означает, что фирма Ф 1, строит универсам в городе Г 1, а фирма Ф2 — в городе Г 2. Число покупателей фирмы Ф 1 складывается из покупателей четырех городов. Для ситуации (Г 1, Г 2) число покупателей из Г 1: 0,75×30, из Г 2: 0,45×50, из Г 30,45×40, из Г 4: 0,45×30, т.е. в сумме 76,5 тыс. руб. Для ситуации (Г 3, Г 4) число покупателей из Г1: 0,75×30, из Г 2: 0,75×50, из Г 3: 0,75×40, из Г 4: 0,45×30, т.е. в сумме 103,5 тыс. руб. Элементы матрицы выигрышей фирмы Ф 2 — дополнения до числа 150 (общее число жителей в четырех городах). Таким образом, имеет место игра двух лиц с ненулевой постоянной суммой, оптимальные стратегии которой те же, что и для соответствующей игры с нулевой суммой.
Полученная платежная матрица имеет седловую точку (Г 2, Г 2). Соответствующий элемент матрицы равен 90.
Таким образом, обеим фирмам следует строить свои универсамы в одном и том же городе Г 2, при этом прибыль фирмы Ф 1составит 90 тыс., а фирмы Ф 2 — 60 тыс. руб.
.
3. Метод Монте-Карло (метод статистических испытаний Имитационное моделирование случайных факторов) состоит из четырех этапов:
1. Построение математической модели системы, описывающей зависимость моделируемых характеристик от значений стохастических переменных.
2. Установление распределения вероятностей для стохастических переменных.
3. Установление интервала случайных чисел для каждой стохастической переменной и генерация случайных чисел.
4. Имитация поведения системы путем проведения многих испытаний и получение оценки моделируемой характеристики системы при фиксированных значениях параметров управления. Оценка точности результата.
Описание этапов:
Первый этап. Стохастическая имитационная модель (ИМ) некоторой реальной системы может быть представлена как динамическая система, которая под воздействием внешних случайных входных сигналов (входных переменных) изменяет свое состояние (случайные переменные состояния), что в свою очередь приводит к изменению выходных сигналов (выходных переменных):
где F, R — вектор-функции;
I i, U i, S i — векторы соответственно входных, выходных переменных и переменных состояния системы в тактовый момент моделирования i.
Имитационная модель — это экспериментальная модель системы, в которой искусственно воспроизводятся случайности, имеющие место в реальной системе. Она представляет собой совокупность математических соотношений между входными, выходными переменными и переменными состояния в сочетании с алгоритмической реализацией некоторых зависимостей.
Существует два подхода в имитационном моделировании динамических процессов.
Первый заключается в том, что весь период моделирования разбивается на равные промежутки времени (такты моделирования) и анализ состояния системы, а также значений выходных переменных производится через одинаковые промежутки времени. При таком подходе возникает проблема выбора «правильной» продолжительности такта. Кроме того, не исключается появление тактов, в которых состояние системы по сравнению с предыдущим не изменилось.
При втором подходе величина такта моделирования не фиксируется, моделирование в этом случае происходит в момент наступления одного из «существенных» событий. Например, при моделировании производственного процесса на предприятии такими событиями могут быть освобождение или начало загрузки станка, поступление на обработку детали, невыход на работу станочника, исчерпание запаса необходимых комплектующих деталей на складе и др. Именно второй подход чаще всего используется на практике и поддерживается современными языками моделирования.
Второй этап. Случайные величины, используемые в ИМ, могут быть дискретными или непрерывными. В первом случае необходимо знать их распределения, во втором — плотности распределений. Эти зависимости могут быть известны из теории, определены в результате специальных исследований либо заданы в качестве гипотезы. Точность модели (при прочих равных условиях) зависит от того, насколько точно заданы указанные распределения (плотности распределений).
Третий этап. Моделирование случайных величин при компьютерных имитационных экспериментах производится с помощью датчика псевдослучайных чисел, предусмотренного в любом современном языке программирования. Обычно это датчик случайных чисел с равномерным распределением на интервале [0, 1]. Если известны вероятности наступления событий, то, используя такой датчик, можно отвечать на вопросы: «Какое из N возможных событий произошло?» или «Какое значение приняла случайная величина?»
Предположим, что в ИМ используется случайная величина X, принимающая дискретные значения х 1, х 2 ,..., хN с вероятностями соответственно p 1, p 2 ,..., pN (). Получение некоторой реализации этой переменной в модели производится следующим образом.
Строится функция распределения случайной величины X. Указанная функция определяется посредством равенства F(X) = å pk, в котором суммирование распространяется на все индексы, для которых хk < X. С помощью датчика случайных чисел получают случайное число и из отрезка [0, 1].
Из равномерности распределения получаемых случайных чисел следует, что вероятность получения случайного числа из произвольного интервала, включенного в [0, 1], равна длине этого интервала. Поэтому вероятность реализации Х = хk равна вероятности попадания полученного от датчика случайного числа и в произвольный интервал длиной pk на отрезке [0, 1]. Можно, таким образом, утверждать, что если очередное число и датчика удовлетворяет неравенствам 0 < и £ р 1, то имеет место реализация Х = х 1, в случае p 1 < и £ p 1 + р 2 — реализация Х = х 2 и т.д. В общем случае для k = 2,..., N: если < и £ , то Х = хk.
Заметим, что границы указанных неравенств совпадают со значениями построенной выше функции распределения F(X).
Удобнее, однако, иметь дело не с дробными значениями границ интервалов, в которые попадает случайное число и, а с их целочисленными значениями, тем более, что с помощью датчиков случайных чисел можно генерировать числа из любого диапазона. Чтобы получить целые значения границ интервалов, достаточно умножить все pk на 10 d, где d — целое, минимальное значение которого равно максимальной точности (максимальному числу знаков после десятичной точки) чисел pk, k = 1,..., N. Например, если { рk } = {0,3; 0,153; 0,5; 0,047}, то минимальное значение d равно 3 (все рk нужно умножить на 1000). Таким образом, 10 d определяет длину интервала значений рассматриваемой случайной величины в ИМ.
Четвертый этап. Точность статистических оценок параметров реальной системы зависит от числа наблюдений (объема выборки). Погрешности в оценках обусловлены как статистическим характером самой модели, так и влиянием начальных данных (начального состояния имитационной системы), а также возможной автокорреляцией последовательных значений некоторого параметра в процессе моделирования. Очевидно, что с увеличением числа испытаний точность моделирования должна возрастать. Ввиду того что увеличение объема выборки связано с ростом затрат на моделирование, важно уметь определять минимальное число испытаний, необходимое для достижения заданной точности оценки с заданной вероятностью.
Широкое распространение получили два метода статистических испытаний. Один из них предполагает проведение достаточно большого числа Т последовательных наблюдений в течение одного прогона модели (одного сеанса имитирования).
Другой метод заключается в реализации т независимых прогонов модели, т.е. в m -кратном повторении одного и того же цикла имитирования. При этом, если мы хотим получить в сумме Т наблюдений, в течение каждого прогона можно делать по Т/т (допустим, что это число целое) наблюдений. Оба метода дают примерно одинаковый результат.
Пусть значения уt (t = 1,..., Т) представляют собой результаты Т последовательных измерений значений случайной величины y во время одного и того же сеанса имитации. Среднее по времени значение у определяется выражением
Обозначим через математическое ожидание случайной величины у. Тогда для достаточно большого T получаем
Оценка дисперсии (если временной ряд не является автокоррелированным) имеет вид
где D (у) — дисперсия случайной величины у.
Для оценки качества результатов, полученных методом Монте-Карло при неизвестной дисперсии наблюдаемой случайной величины, предположим, что Z — характеристика, которая должна быть определена (вероятность события, математическое ожидание, дисперсия и т.п.), a x — ее значение, уточняемое по мере накопления данных, остающееся случайным вследствие ограниченности числа T проведенных наблюдений. В этих условиях можно говорить о вероятности p (| Z – x| < ) по отношению к интересующей нас характеристике. Величина | Z – | представляет собой погрешность в оценке Z, a — некоторый допустимый ее предел.
Из неравенства Чебышёва следует
Из этого неравенства следует
откуда при заданных р и и при известной зависимости D (Т)можно найти предельно необходимое Т.
Известно, что истинная дисперсия выборочного распределения для расчетного среднего обратно пропорциональна суммарному числу наблюдений Т, т.е.
где d не зависит от Т.
В начале имитационного процесса требуемое число наблюдений определить обычно не удается, поскольку d неизвестно. Поэтому, как правило, эксперимент проводят в два этапа.
На первом этапе число испытаний выбирается относительно небольшим, в результате определяется величина d. После этого можно уже определить, сколько дополнительных наблюдений необходимо, чтобы была достигнута требуемая точность.
Предельное число наблюдений Т 0 определяется формулой T0 = d/[(1 – p)2].
При любом числе наблюдений больше Т 0 обеспечивается требуемая точность.
Дата публикования: 2014-11-19; Прочитано: 459 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!