Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Методы решения матричных игр



Теорема Неймана о минимаксе, гарантируя каждому игроку успех на пути отыскания оптимальной стратегии, тем не менее, ни слова не говорит о том, как эти стратегии найти. В этом параграфе мы рассмотрим несколько конструктивных методов нахождения оптимальных стратегий игроков.

Сразу заметим, что первым этапом поиска решения любой матричной игры является анализ игры на наличие седловой точки (см. п.2.1). Только при отсутствии таковой переходят к более тонким методам нахождения решения. Среди таких методов имеются как универсальные, которые применимы к любой матричной игре, так и частные, используемые для отдельных классов игр

3) Игра 2х2.

Пусть игра задана матрицей

.

Предположим, что седловая точка отсутствует. Однако, согласно теореме Неймана, оптимальное решение игры существует и определяется парой смешанных стратегий SA *=(p 1*, p 2*), SB *=(q 1*, q 2*). Используя свойство 3 решения игр и элементарные алгебраические преобразования (подробный вывод мы опускаем), приходим к следующим формулам:

р 1=(а 22а 21)/(а 11+ а 22а 12а 21), р 2=1– р 1,

q 1=(a 22–a12)/(a 11+ a 22a 12a 21), q 2=1– q 1, (2.7)

vS =(a 22· a 11- a 12· a 21)/(a 11+ a 22a 12a 21).

При этом отсутствие седловой точки в игре гарантирует необращение в 0 знаменателей в приведенных формулах.

Пример 2.4. Найдем решение в смешанных стратегиях игры, рассмотренной в примере 2.1 о двух игроках с двумя монетами. Платежная матрица этой игры имеет вид:

Нижняя и верхняя цены этой игры a =–3 и b =2. Следовательно, седловая точка отсутствует.

Найдем оптимальные стратегии игроков и цену игры, применяя формулы (4.1.). Имеем:

р1=(4–(–3))/(2+4–(–3)–(–3))=7/12, р2=1–7/12=5/12,

q1=(4–(–3))/(2+4–(–3)–(–3))=7/12, q2=5/12,

vS=(4×2–(–3)×(–3))/(2+4–(–3)–(–3))=–1/12.

Итак, решением игры является пара смешанных стратегий SA *=(7/12,5/12), SB *=(7/12,5/12), цена игры vS =–1/12. Это означает, что оптимальная стратегия каждого игрока состоит в том, чтобы чередовать свои чистые стратегии случайным образом, выбирая 1-ю стратегию (положить 1 руб.) с вероятностью 7/12, а 2-ю стратегию (положить 2 руб.) – с вероятностью 5/12.

Отрицательная цена игры vS =–1/12 показывает, что при использовании игроками своих оптимальных стратегий, первый игрок проигрывает второму в каждой партии «в среднем» 1/12 рубля. Тем самым можно говорить об изначальной несправедливости условий игры.

4) Упрощение игр с помощью отбрасывания

доминируемых стратегий.

Стратегия Аi игрока А называется доминирующей над стратегией Аk (а стратегия Аk доминируемой стратегией Аi), если все элементы i -й строки платежной матрицы не меньше соответствующих элементов k -й строки, т. е. аi 1³ ak 1, ai 2³ ak 2, …, aim ³ akm (в том же смысле можно говорить и о доминировании строк).

Стратегия Вj игрока В называется доминирующей над стратегией Вl (а стратегия Вl - доминируемой стратегией Вj), если все элементы j -го столбца платежной матрицы не больше соответствующих элементов l -го столбца, т. е. a 1 j £ a 1 l, a 2 j £ a 2 l,…, amj £ aml (здесь также можно говорить и о доминировании столбцов платежной матрицы).

Доминируемая стратегия является заведомо невыгодной для игрока, ее выбирающего, и потому при дальнейшем исследовании игры может быть отброшена. В оптимальную смешанную стратегию она войдет с нулевой вероятностью. Следует также заметить, что при отбрасывании доминируемых стратегий некоторые из оптимальных стратегий игроков могут быть потеряны. Однако цена игры не изменится, и по усеченной матрице может быть найдена, по крайней мере, одна пара оптимальных смешанных стратегий.

Пример 2.5. Найдем оптимальное решение игры, заданной платежной матрицей

Результаты процесса отбрасывания доминируемых стратегий отобразим в таблице:

  В1 В2 В3 В4
А1   -2   -1
А2        
А3   -1    
А4        

Комментарии:

1) Строка А 2 доминирует над строкой А1 (4³3, 0³–2, 6³5, 1³–1); следовательно, строку А 1 отбрасываем (вычеркиваем).

2) В оставшейся части матрицы столбец В 2 доминирует над столбцами В 3 и В 4 (0£6, –1£3, 3£7 и 0£1, –1£2, 3£4); следовательно, вычеркиваем столбцы В 3 и В 4.

3) Наконец, в полученной матрице строка А 2 доминирует над строкой А 3 (4³2, 2³–1); вычеркиваем строку А 3.

Оставшаяся матрица

не имеет доминируемых стратегий и относится к классу игр 2х2.

Используя формулы (2.7), найдем оптимальные смешанные стратегии игроков в полученной игре, а также ее цену:

=(3–1)/(4+3–1–0)=2/6=1/3, =1–1/3=2/3, =(3–0)/(4+3–1–0)=1/2,

=1–1/2=1/2, =(4×3–0×1)/(4+3–1–0)=2.

Итак, =(1/3,2/3), =(1/2,1/2) – оптимальное решение игры, заданной матрицей . Учитывая вычеркнутые доминируемые стратегии игроков, запишем оптимальное решение исходной игры: SA *=(0,1/3,0,2/3), SB* =(1/2,1/2,0,0). Цена игры - та же v *=2.

3. Графический метод решения игр 2хn и mх2.

Рассмотрим подробно случай 2х n - игр. Пусть игрок А имеет в своем распоряжении две чистых стратегии, а игрок В – n чистых стратегий. Матрица выигрышей игрока А имеет вид:

.

Смешанная стратегия игрока А задается вектором SА =(р 1, р 2), где р 1+ р 2=1, р 1³0, р 2³0. Положим р 1= р, тогда р 2=1- р, где р Î[0, 1]. Поэтому SА =(р, 1- р), т. е. смешанная стратегия игрока А однозначно определяется екоторым числом р Î[0, 1].

Если игрок В применит свою чистую стратегию Вj (j =1,…, n), то средний выигрыш игрока А в одной партии при использовании стратегии SA =(p, 1- p) определяется выражением H (SA, Bj)= a 1 j × p + a 2 j ×(1- p)= zj (p) при всех j =1,…, n..

Функции zj (p) – линейные функции на отрезке р Î[0,1]. Изобразим их графики на рисунке.

Каждой чистой стратегии Вj игрока В соответствует своя прямая Н = zj (p). Игрок В стремится к уменьшению своего проигрыша. Следовательно, при фиксированной стратегии SA =(p,1- p) его противника игрок В выбирает ту стратегию Вj, для которой график функции Н = zj (p) при данном р расположен ниже других.

Таким образом, наименьшим выигрышам игрока А при неблагоприятных для него действиях игрока В соответствует нижняя огибающая всех прямых Н = zj (p) на рисунке.

 
 


С другой стороны, целью игрока А является достижение наибольшего гарантированного выигрыша при любых действиях партнера. Значит, он будет выбирать ту стратегию SA *=(p *,1- p *), которая определяется точкой р *, соответствующей максимуму нижней огибающей. Именно эта стратегия и является оптимальной для игрока А, а само значение максимума огибающей определяет цену игры.

Теперь найдем оптимальную смешанную стратегию игрока В. В зависимости от формы нижней огибающей, может представиться два случая. Рассмотрим каждый из них.

Случай 1. Нижняя огибающая имеет ровно одну максимальную точку (р *, Н *). При этом заметим, что если в исходной матрице отсутствуют доминируемые стратегии, то точка максимума р * является внутренней точкой отрезка [0, 1].

Итак, пусть р *Î(0, 1). Тогда в пиковой точке нижней огибающей пересекается не менее двух прямых, из которых одна имеет положительный наклон, а другая – отрицательный.

Выделим любую пару таких прямых, например, z = zk (p) и z =zl(p), которым соответствуют чистые стратегии Вk и Вl. Нетрудно показать, что для минимизации собственного проигрыша игроку В достаточно использовать только эти стратегии, а от применения других чистых стратегий воздержаться. Тем самым получим вспомогательную игру с платежной матрицей:

(матрица получается из Н вычеркиванием всех столбцов, кроме k -го и l -го). Оптимальная стратегия SB =(q 1, q 2) игрока В и цена игры в получившейся игре 2х2 могут быть найдены с помощью формул (2.7). Тогда оптимальной стратегией игрока В в первоначальной задаче является стратегия SB *, в которой k -й и l -й компоненты равны соответственно q 1 и q 2, а остальные компоненты равны нулю. Цена вспомогательной игры совпадает с ценой vS исходной игры. Аналогично могут быть рассмотрены и другие пары прямых, проходящих через пиковую точку и имеющих разнознаковые наклоны.

Замечание. В рассмотренном случае игрок В с точки зрения принципа минимакса может обладать несколькими оптимальными стратегиями. Однако, исследуя ситуацию и с других позиций, среди множества оптимальных стратегий игрока В можно выделить наиболее приемлемую. В данном случае, по-видимому, следует предпочесть ту стратегию игрока В, которая соответствует паре прямых с наибольшими отрицательным и положительным наклонами, т. е. прямыми, имеющими с нижней огибающей общие отрезки.

Случай 2. Нижняя огибающая содержит горизонтальный участок, соответствующий отрезку [ p 1*, p 2*] на оси абсцисс.

 
 


Тогда любая стратегия вида SA *=(p, 1-p), где р Î[ p 1*, p 2*], является оптимальной для игрока А. Игрок В обладает единственной чистой стратегией, которой соответствует прямая, содержащая данный горизонтальный участок.

Пример 2.6. Решим игру с платежной матрицей:

Сначала упростим матрицу с помощью отбрасывания доминируемых стратегий. Стратегия В 6 доминирует над стратегиями В 4, В 5 и В 7. Следовательно, вычеркиваем 4-й, 5-й и 7-й столбцы. Стратегия В 2 доминирует над стратегией В 3. Поэтому 3-й столбец матрицы также можно отбросить.

Оставшаяся матрица

доминируемых стратегий не имеет. Решим игру, заданную матрицей , используя графический метод.

Смешанная стратегия А имеет вид SA =(p, 1-p). Составим функции средних выигрышей игрока А при условии, что игрок В выбирает свои чистые стратегии , , игре с матрицей :

Н 1=0× p +13×(1- p)=13-13× p, Н 2=5× p +4×(1- p)=4+ p, Н 3=10× p +1×(1-p)=1+9×p.

Построим графики этих функций на отрезке р Î[0, 1].

 
 


Выделяем нижнюю огибающую этих графиков. Находим самую высокую точку этой огибающей. Эта точка – результат пересечения прямых Н =13 - 13 р и Н =4+ р. Найдем ее координаты аналитически. Для этого решим уравнение 13-13× р =4+ р. Получим 14× р =9, откуда р *=9/14»0.642, 1- р *=5/14»0.358. Следовательно, оптимальная смешанная стратегия игрока А имеет вид SA *=(9/14,5/14).

Подставляя значение р *=9/14 в любую из функций Н =13 - 13 р или Н =4+ р, находим цену игры vS = 13 - 13×9/14 = 65/14» 4.642.

Нахождение оптимальной стратегии игрока В соответствует случаю 1. Рассмотрим игру 2х2 с матрицей , столбцы которой соответствуют прямым, образующим пик нижней огибающей. Найдем компоненты оптимальной стратегии , воспользовавшись формулами (2.7):

q 1=(4 - 5)/(4+0 - 13 - 5)=1/14»0.074, q 2=1 - 1/14=13/14»0.926.

Цена игры =(0×4+13×5)/(4+0 - 13 - 5)=65/14»4.642 совпадает с ранее найденной ценой vS. Учитывая вычеркнутые стратегии игрока В, окончательно запишем оптимальные стратегии игроков для исходной игры SA *=(9/14,5/14), SB *=(1/14,13/14,0,0,0,0,0); цена игры vS =65/14.

Решение игры m х2 производится аналогично. Перечислим лишь основные этапы решения. Пусть исходная игра задается матрицей

.

Будем искать смешанную стратегию игрока В в виде SВ =(q, 1- q)

Для каждой стратегии Аi игрока А находим средние выигрыши

H (Ai, SB)= ai 1 q + ai 2(1- q) (i =1,2,…, m).

Строим графики этих выигрышей на координатной плоскости.

Выделяем верхнюю огибающую построенных графиков, соответствующую наименее благоприятным для игрока В ситуациям.

Отмечаем точку минимума этой огибающей q *, которая определяет оптимальную стратегию игрока В; при этом сам минимум задает цену игры v.

В матрице Н оставляем две строки, соответствующие прямым, которые принимали участия в образовании минимума нижней огибающей.

Для полученной игры 2х2 находим оптимальную стратегию игрока А, применяя формулы (2.7).

Записываем оптимальную стратегию игрока А, учитывая вычеркнутые строки.

Метод сведения матричной игры

к задаче линейного программирования.

Рассмотрим универсальный метод решения матричных игр, позволяющий в принципе исследовать игру любой размерности.

Пусть имеется игра m х n без седловой точки и без доминируемых стратегий, заданная матрицей

.

Априорно допустим, что цена этой игры положительна. Это значение заранее неизвестно, но, согласно свойству 2 из п.2.2, vS ³ a, где a - нижняя цена игры. Так что при a >0 условие vS >0 выполнено. Если же a £0, то выполнение такого условия можно гарантировать, прибавив, например, ко всем элементам матрицы Н число с >- a и получив матрицу Н¢ новой игры. Согласно свойству 1 из п. 2.2, новая игра имеет то же самое решение, что и исходная игра, а ее цена vS '= vS + c.

Итак, пусть vS >0. Мы хотим найти две оптимальные смешанные стратегии SA *=(р 1,…, рm) и SB *=(р 1,…, рn), дающие каждому игроку максимально возможные для него средние выигрыши. Найдем SA *. Уже известно, что, если игрок А применяет свою оптимальную стратегию, то игрок В не может улучшить свое положение, отступая от своей оптимальной стратегии: H (SA *, SBH (SA *, SB *)= vS для всех SB (проигрыш В будет не меньше, чем vS). В частности, если игрок В пользуется какой-либо чистой стратегией Вj, то:

H (SA *, Bj)= a 1 j × p 1+…+ amj×pm ³ vS при всех j =1,…, n.

Получим следующую систему неравенств:

(2.8)

Так как vS >0, то при почленном делении левых и правых частей неравенств (2.8) на vS знаки неравенств не изменятся. Вводя, кроме того, обозначения xj = pj/vS, перепишем систему (2.8) в виде:

(2.9)

Условие р 1+ р 2+…+ рm =1 равносильно условию x 1+ x 2+…+ xm =1/ vS.

Но vS – гарантированный выигрыш игрока А. Целью игрока А в игре является максимизация этого значения и, следовательно, минимизация выражения 1/ vS. Получили следующую задачу линейного программирования:

Найти неотрицательные значения x 1, x 2,…, xm, которые удовлетворяют линейным ограничениям – неравенствам (2.9) и обращают в минимум целевую функцию L = x 1+ x 2+…+ xm.

Полученная задача может быть решена, например, симплекс-методом. Пусть (x 1*, x 2*,…, xm *) - некоторое решение этой задачи, L * - минимальное значение целевой функции L. Тогда цена игры vS =1/ L *, а компоненты оптимальной стратегии игрока А равны: pj *= xj */ L * (j =1,…, m).

Оптимальная стратегия игрока В находится аналогично. В результате приходим к задаче линейного программирования, двойственной к первой:

y 1+ y 2+…+ yn ® max

(2.10)

Решение (y 1*, y 2*,…, yn *) этой задачи и компоненты q 1*, q 2*,…, qn * оптимальной стратегии игрока В связаны соотношениями: qi *= yi */ L *, где L * - максимальное значение целевой функции задачи (2.10), совпадающее с минимальным значением предыдущей задачи.

Пример 2.7. Найти решение игры, заданной матрицей

.

Во-первых, заметим, что данная игра не имеет доминируемых стратегий, так что сокращение размерности матрицы невозможно. Далее проверим, не имеет ли матрица седловую точку. Найдем нижнюю и верхнюю цены игры:

, . Так как a < b, то седловая точка отсутствует. Приступаем к поиску решения игры в смешанных стратегиях, используя метод сведения игры к задаче линейного программирования.

Прибавим ко всем элементам матрицы Н модуль ее наименьшего отрицательного элемента, т. е. 2. Получим матрицу

,

которая задает игру с заведомо положительной ценой vS ¢. Для нахождения оптимальной смешанной стратегии игрока А составим следующую задачу линейного программирования:

L = x 1+ x 2+ x 3 ® min

(2.11)

Для нахождения оптимальной стратегии игрока В составим двойственную задачу:

L 1= y 1+ y 2+ y 3 ® max

(2.12)

Симплекс-методом удобнее решать задачу (2.12). Опуская процесс расчетов этим методом, запишем лишь результат: у 1*=1/4, у 2*=5/4, у 3*=0 – решение задачи (2.12), максимальное значение целевой функции L 1*=3/2. Отсюда находим компоненты оптимальной смешанной стратегии игрока В: q 1*=(1/4):(3/2)=1/6, q 2*=(5/4):(3/2)=5/6, q 3*=0; цена игры vS ¢=1/ L 1*. При решении задачи линейного программирования симплекс-методом в итоговой симплекс-таблице содержится также и решение двойственной задачи, в нашем случае - задачи (2.11): х 1*=0, х 2*=1/2, х 3*=1. Учитывая, что L *= L 1*, отсюда получим: p 1*=0:(3/2)=0, p 2*=(1/2):(3/2)=1/3, p 3*=1:(3/2)=2/3. Согласно свойству 1 решения матричных игр (п.2.3), оптимальные смешанные стратегии исходной игры совпадают с найденными оптимальными стратегиями: SA *=(0,1/3,2/3), SB *=(1/6,5/6,0). Цена vS исходной игры и найденная цена vS ¢ вспомогательной игры связаны соотношением vS ¢= vS +2. Поэтому vS =2/3-2=-4/3.

4.5. Итерационный метод Брауна – Робинсон.

Основная идея метода состоит в следующем.

Разыгрывается «мысленный» эксперимент, в котором игроки А и В поочередно применяют друг против друга свои стратегии, стремясь выиграть побольше. При этом каждый игрок при выборе очередной стратегии ориентируется не на оптимальный выигрыш относительно последней стратегии противника, а на оптимальный «накопленный» выигрыш за все предыдущие ходы. Приближенные оптимальные стратегии игроков определяются относительными частотами применения ими чистых стратегий.

Рассмотрим реализацию этого метода на примере.

Пример 2.8. Найти приближенное решение игры, заданной матрицей

.

Игра не имеет доминируемых стратегий и поэтому не может быть сведена к игре меньшей размерности. Нижняя цена игры a =4, А 3 - соответствующая максиминная стратегия игрока А; верхняя цена игры b =6, В 2 – соответствующая минимаксная стратегия игрока В. Оформим расчеты методом Брауна в виде таблицы.

k Ai B 1 B 2 B 3 Bj A 1 A 2 A 3 v * v * vS
1 2 3 4 5 6 7 8 9 10 11 12
  A3     4* B3 8*     4.00 8.00 6.00
  A1 10*     B1 11*     5.00 5.50 5.25
  A1 13*     B1   20*   4.33 6.67 5.55
  A2   21*   B2   24*   5.25 6.00 5.63
  A2     24* B3 28*     4.80 5.60 5.20
  A1   31*   B2 34*     5.17 5.67 5.32
  A1 37*     B1   39*   5.29 5.86 5.58
  A2   41*   B2     44* 5.13 5.50 5.31
  A3   46*   B2 49*     5.11 5.37 5.24
  A1   52*   B2 55*     5.20 5.50 5.35

Здесь:

· k – номер партии (пары выборов игроками своих стратегий);

· Аi – стратегия, выбранная игроком А в этой партии;

· в следующих трех столбцах – «накопленный выигрыш» за первые k партий при тех стратегиях, которые применяли игроки в предыдущих партиях и при стратегиях В 1, В 2, В 3 в данной партии (получается прибавлением элементов соответствующей строки к тому, что было строкой выше);

· из этих накопленных выигрышей выделяется минимальный (если их несколько, то – любой из них), выделенное число определяет ответный выбор игрока В в данной партии – он выбирает ту стратегию, которая соответствует выделенному числу; таким образом, определяется оптимальная в данной партии стратегия Вj игрока В;

· в следующих трех столбцах дается накопленный выигрыш за k партий соответственно при стратегиях А 1, А 2, А 3 игрока А (получается прибавлением столбца Вj к тому, что было строкой выше); из этих значений выделяется максимальное; оно определяет выбор стратегии игрока А в следующей партии;

· v* - нижняя оценка цены, равная минимальному накопленному выигрышу, деленному на k;

· v* - верхняя оценка цены игры, равная максимальному накопленному выигрышу, деленному на k;

· vS – среднее арифметическое v* и v *.

Рассмотрим подробно несколько шагов методом Брауна в данной игре. В 1-й партии игрок А может выбрать любую из своих чистых стратегий, но лучше, если это будет максиминная стратегия А3 (вносим это выражение во 2-й столбец). Этой стратегии соответствует 3-я строка матрицы выигрышей (7 5 4), соответствующих стратегиям В1, В2, В3 игрока В (заносим их в 3-й, 4-й и 5-й столбцы). Среди этих чисел выделяем значком "*" минимальное. Оно соответствует наиболее выгодной для игрока В стратегии В3 в этой партии. Этой стратегии соответствует 3-й столбец платежной матрицы (8 2 4)Т. Заносим эти значения в 7-й, 8-й и 9-й столбцы, выделяя среди них значком * максимальное, соответствующее наибольшему выигрышу игрока А. Поэтому в начале 2-й партии игрок А выбирает стратегию А 1, которой соответствует 1-я строка (3 6 8) матрицы Н. «Накопленный выигрыш» при этой и предыдущей стратегиях равен (3 6 8) + (7 5 4) = (10 11 12). Именно эти значения и заносим в 3-й, 4-й и 5-й столбцы. Минимальному из них значению соответствует стратегия В 1, т. е. 1-й столбец (3 9 7)Т. С учетом предыстории «накопленный выигрыш» игрока А равен (3 9 7)Т + (8 2 4)Т = (11 11 11)Т. Заполняем этими значениями 7-й, 8-й и 9-й столбцы таблицы и т. д.

В таблице приведены первые 10 шагов методом Брауна-Робинсон. В результате игрок А применял 5 раз стратегию А 1, 3 раза - стратегию А 2, 2 раза – стратегию А 3; игрок В – 3 раза стратегию В 1, 5 раз – стратегию В 2, 2 - раза стратегию В 3. Поэтому оптимальные стратегии игроков, приближенно вычисленные по относительным частотам использования своих чистых стратегий, имеют вид: SA p=(0.5, 0.3,0.2), SB p=(0.3,0.5,0.2).

Нижняя и верхняя оценки цены игры равны соответственно v *=5.2 и v *=5.5 (вычисляются делением соответственно минимального и максимального накопленных выигрышей (52 и 55) на количество сыгранных партий (10)). Приближенная цена игры vS p=(5.2+5.5)/2=5.35.

После 20-ти шагов методом Брауна аналогичные результаты выглядят следующим образом: приближенные оптимальные стратегии SA p=(0.4,0.1,0.5), SB p=(0.25,0.6,0.15), приближенная цена игры vS p=5.275. При этом точное решение игры, которое может быть получено методом сведения игры к задаче линейного программирования, имеет вид: SA *=(0.4,0,0.6), SB *=(0.2,0.8,0), vS =5.4.

Исходя из рассмотренного примера и некоторых теоретических выкладок, которые мы опускаем, можно сделать два вывода:

1) Метод Брауна позволяет сравнительно просто находить приближенные решения матричных игр, причем трудоемкость метода с увеличением размерности игры возрастает незначительно (в отличие от метода сведения игры к задаче линейного программирования).

2) Сходимость приближенных решений, рассчитанных методом Брауна, к точному решению происходит довольно медленно.

2.5. Игры с природой.

До сих пор рассматривались модели таких конфликтных ситуаций, в которых противники были равноправны и, стремясь к противоположным целям, одинаково придерживались осторожного принципа минимакса. Однако в реальной действительности довольно часто возникают качественно иные ситуации конфликта двух сторон. Они по-прежнему формально описываются матрицей выигрыша Н =|| аij || i =1,…, m , j =1,…, n одного из игроков (А), который, как обычно, выбирает свои стратегии сознательно, стремясь к увеличению своего выигрыша. Но второй игрок (В) особенный. О нем известно, что:

- либо он придерживается фиксированной смешанной стратегии SB =(q 1,…, qn) (случай стохастической определенности),

- либо о том, чем именно руководствуется игрок В, вообще ничего не известно (случай неопределенности).

Такие ситуации называются «играми с природой», игрок В («природа») чаще всего представляет собой не конкретное лицо, а объективную реальность. Его стратегиями Вj служат состояния «природы» (тип погодных условий, спрос на определенную продукцию и. т. п.). Целью исследования такой игры является поиск разумных правил выбора игроком А каких-либо из своих возможных стратегий.

Рассмотрим некоторые способы такого выбора в зависимости от специфики той или иной ситуации.

Случай 1. Пусть смешанная стратегия SB =(q 1,…, qn) «природы» известна, т. е. известны вероятности их состояний В 1,…, Вn (например, на основании статистических данных).

Вычислим средние выигрыши (математические ожидания) игрока А при применении им каждой из его чистых стратегий:

при А 1 имеем Н (A 1, SB) = a 11× q 1+…+ a 1 n × qn = v 1,

……………………………………………

при Аm имеем Н (Аm, SB) = am 1× q 1+…+ amn × qn = vm.

Остается сравнить полученные значения и выбрать среди них наибольшее v *=max(v 1,…, vm). Чистая стратегия Аi *, соответствующая этому значению, является оптимальной для игрока А. При этом нетрудно показать, что применение каких-либо смешанных стратегий игроку А не выгодно, так как это может привести только к уменьшению среднего выигрыша v *.

Случай 2. Пусть стратегии «природы» неизвестны, но они по-прежнему могут быть смешанными, т. е. количество партий с природой неограниченно. Рассмотрим два возможных подхода к решению этой задачи.

а) Принцип недостаточного основания Лапласа. Если нет никаких оснований считать, что какая-либо стратегия «природы» имеет большую частоту, чем любая другая стратегия, то мы можем предположить, что вероятности всех стратегий В 1,…, Вn одинаковы: q 1=…= qn =1/ n. Тогда гипотетические средние выигрыши игрока А при использовании его чистых стратегий А 1,…, Аm определяются соответственно равенствами:

v1L = 1/ n ×(a 11+…+ a 1 n ), …, vmL = 1/ n ×(am 1+…+amn).

Сравнивая полученные значения, выбираем среди них наибольшее vL *=(v 1 L,…, vmL). Стратегия Аi *, соответствующая этому значению, объявляется оптимальной.

б) Принцип минимакса. Другой возможный подход связан с оценкой «природы» как разумного, причем агрессивного противника, стремящегося сделать средний выигрыш игрока А как можно меньше. В этом случае задачу поиска оптимальной стратегии игрок А должен решать обычными методами теории матричных игр, чему был посвящен предыдущий параграф.

Пример 2.9. Сельскохозяйственное предприятие планирует посев трех культур – А 1, А 2, А 3. Считаем, что при прочих равных условиях урожаи культур зависят от погоды, а сама погода может иметь 3 различных состояния: В 1- засушливое лето, В 2 – нормальное лето, В 3 – дождливое лето, Расчеты прибыли с/х предприятия (в у. е.) в зависимости от состояний погоды сведены в матрицу

.

Найти оптимальную стратегию предприятия, если: а) вероятности состояний В 1, В 2, В 3 погоды известны q 1=0.2, q2=0.3, q 3=0.5; б) придерживаться принципа недостаточного основания Лапласа; в) ориентироваться на наименее благоприятную погоду.

Решение. Сразу заметим, что в рассматриваемой платежной матрице стратегия А 1 доминируется стратегией А 2 и, следовательно, может быть отброшена, как заведомо невыгодная с/х предприятию.

а) В данном случае смешанная стратегия «природы» известна SB =(0.2,0.3,0.5). Найдем средние прибыли предприятия при использовании им оставшихся стратегий А 2 и А 3: H (A 2, SB)=8×0.2+5×0.3+3×0.5=4.6, H (A 3, SB)=2×0.2+3×0.3+7×0.5=4.8. Второе значение больше, поэтому следует выбрать стратегию А 3.

б) В силу отсутствия информации о состояниях «природы», априорно примем q 1= q 2= q 3=1/3. В случае использования стратегий А 2 и А 3 получим следующие оценочные «выигрыши»: v 2 L =1/3×(8+5+3)=16/3, v 3 L =1/3×(2+3+7)=4. Здесь, напротив, больше первое значение, и оптимальной стратегией является А 2.

в) Ориентация на наименее благоприятную погоду предполагает рассмотрение «природы» как разумного и равноправного противника, стремящегося минимизировать прибыль предприятия. Поэтому оптимальная стратегия предприятия может быть найдена обычными методами решения матричных игр, например, графическим методом. Опуская промежуточные расчеты, запишем лишь результат решения этой «игры»: SA =(2/3,1/3) - оптимальная смешанная стратегия предприятия, vS =13/3»4.33 - цена «игры». Интерпретировать этот результат можно следующим образом: с/х предприятию рекомендуется 2/3 всех площадей засеять культурой А 2 и 1/3 площадей – культурой А 3. При этом можно гарантировать среднюю прибыль в 4.33 у.е.

Случай 3. Предположим, что, как и в случае 2, ничего о состояниях природы неизвестно. Однако игра с «природой» проводится один лишь раз, так что употребление смешанных стратегий ни игроком А, ни «природой» не имеет смысла. В этом случае при поиске оптимального решения чаще всего используются критерии Вальда, Сэвиджа и Гурвица.

А) Критерий Вальда (максиминный критерий).

Игрок А исходит из пессимистической оценки ситуации и предполагает, что «природа» играет с ним в антагонистическую игру. Его цель -–гарантированный выигрыш или нижняя цена игры

Его оптимальная стратегия - максиминная стратегия Аi*, при которой достигается W (см. п.2.2).

Б) Критерий Сэвиджа (критерий минимального риска).

Риском rij игрока А при пользовании стратегией Аi в условиях состояния «природы» Bj называется разность между максимально возможным выигрышем игрока А при данном состоянии природы и выигрышем аij при выбранной стратегии Аi, т. е. rij=bj - aij, где - максимальный элемент в j -м столбце. Риск – это «плата за отсутствие информации». В результате получаем матрицу, составленную из чисел rij, - матрицу риска R.

Оптимальной стратегией по критерию Сэвиджа является та стратегия Аi *, при которой величина риска имеет минимальное значение в самой неблагоприятной ситуации:

В) Критерий Гурвица (критерий учета степени оптимизма).

Здесь представляется логичным, чтобы при выборе решения вместо двух крайностей в оценке событий ситуации придерживаться некоторого компромисса, учитывающего возможность как наихудшего, так и наилучшего поведения «природы». В соответствии с этим критерием следует выбрать ту стратегию Аi *, при которой достигается следующий максимум:

где t Î[0,1] – субъективный показатель оптимизма, обычно близкий к 0,5.

Заметим, что при t =0 (крайний пессимизм!) критерий Гурвица переходит в критерий Вальда.

Пример 2.10. Игра с «природой» задана матрицей

.

Найдите оптимальные стратегии, руководствуясь критериями Вальда, Сэвиджа и Гурвица с t =0.6.

Для применения перечисленных критериев удобнее выполнить предварительные расчеты в таблице:

  В 1 В 2 В3 minj aij maxj aij
A 1          
A 2          
A 3          
A 4          
bj=maxi aij          

а) Критерий Вальда. Находим стратегию, обеспечивающую гарантированный выигрыш игроку А. Для этого находим нижнюю цену игры

Найденный максимум достигается при i =3, т.е., исходя из критерия Вальда, следует осуществлять стратегию А 3.

б) Критерий Сэвиджа. Сначала составим матрицу рисков R. Для этого определяем максимальные элементы в каждом столбце матрицы Н (нижняя строка таблицы). Затем находим элементы матрицы R по формуле rij = bj - ai j. Получим матрицу:

.

Затем находим

Минимум достигается при i =2 и i =3. Значит, по критерию Сэвиджа оптимальными являются стратегии А 2 и А 3.

в) Критерий Гурвица с t =0.6. Найдем минимальные и максимальные числа в каждой строке матрицы Н (последние два столбца таблицы). Для каждого номера i =1, 2, 3, 4 находим значение:

при t =0.6.

Имеем: G 1=0.4×15+0.6×30=24, G 2=0.4×20+0.6×75=53,

G 3=0.4×25+0.6×80=58, G 4=0.4×5+0.6×85=53.

Находим максимальное из полученных значений. Это – G 3=58. Оно соответствует стратегии А 3, которое и является оптимальной по критерию Гурвица.

Обобщая полученные результаты, можно, по-видимому, рекомендовать игроку А воспользоваться стратегией А 3.

Список рекомендуемой литературы.

Вентцель Е.С. Элементы теории игр. – М.: Наука, 1961.

Вентцель Е.С. Исследование операций. Задачи, принципы, методология. - М.: Наука, 1980.

Воробьев Н.Н. Теория игр. Лекции для экономистов-кибернетиков. – Л., Изд-во Ленингр. ун-та, 1974.

Зайченко Ю.П. Исследование операций. - Киев: Выща школа, 1986.

Замков О.О., Толстопятенко А.В., Черемных Ю.Н. Математические методы в экономике: Учебник. – М.: МГУ им. М.В. Ломоносова, Изд-во «ДИС», 1998.

Исследование операций в экономике: Учебное пособие / Под ред. Кремера Н.Ш./ - М.: Банки и биржи, ЮНИТИ, 1999.

Карлин С. Математические методы в теории игр, программировании и экономике. – М.: Мир, 1964.

Косоруков О.А., Мищенко А.В. Исследование операций: Учебник. - М.: Экзамен, 2003.

Моделирование марковских процессов и элементы теории массового обслуживания: Методические указания / Сост. М.Б. Ермолаев. – Иваново: Иван. гос. хим.-технол. ун-т, 2005.

Нейман Дж., Моргенштерн О. Теория игр и экономическое поведение. – М.: Наука, 1970.

Оуэн Г. Теория игр. – М.: Наука, 1971.

Экономико-математические методы и модели: Учебное пособие / В.Ю.Киселев, Иван. гос. энерг. ун-т. – Иваново, 1998.

Элементы теории игр: Методические указания / Сост. М.Б. Ермолаев. – Иваново: Иван. гос. хим.-технол. ун-т, 2001.





Дата публикования: 2014-12-11; Прочитано: 7569 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.052 с)...