Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
S | v; | ||
/= 1 | /= 2 | /= 3 | |
5,3 | 3,0 | -1,0 | |
4,7 | 3,1 | 0,4 | |
4,7 | 3,0 | -1,0 | |
5,3 | 3,1 | -1,0 | |
5,3 | 3,0 | 0,4 | |
4,7 | 3,1 | -1,0 | |
4,7 | 3,0 | 0,4 | |
5,3 | 3,1 | 0,4 |
Стационарные вероятности находятся из уравнений
я*Р*=я\
л, + л2+...+ л„, =1.
Для иллюстрации применения этих уравнений рассмотрим стратегию s = 2. Соответствующие уравнения имеют следующий вид.
0,3л, + 0,1л2 + 0,05л3 =тс,, 0,6л, + 0,6л2 + 0,4л3 = л2, 0,1л, + 0,3л2 +0,55л3 = л3, л, + л2 + л3 = 1.
(Отметим, что одно из первых трех уравнений избыточно.) Решением системы будет
2__6_ 2_31_ 2_22 ~ 59' "2 ~59' *' ~ 59'
Глава 19. Марковские процессы принятия решений
В данном случае ожидаемый годовой доход равен
Е1 = ]Гя? v,2 = — (6 х 4,7 + 31 х 0,31 + 22 х 0,4) = 2,256.
;=| 59
Результаты вычислений и для всех стационарных стратегий приведены в следующей таблице. (Отметим, что хотя каждая из стратегий 1, 3, 4 и 6 имеет поглощающее состояние (состояние 3), это никоим образом не влияет на результаты вычислений. По этой причине лх = лг = 0тл лъ = 1 для всех этих стратегий.)
S | К | А | < | |
-1,0 | ||||
6/59 | 31/59 | 22/59 | 2,256 | |
0,4 | ||||
-1,0 | ||||
5/154 | 69/154 | 80/154 | 1,724 | |
-1,0 | ||||
5/137 | 62/137 | 70/137 | 1,734 | |
12/135 | 69/135 | 54/135 | 2,216 |
Из этой таблицы видно, что стратегия 2 дает наибольший ожидаемый годовой доход. Следовательно, оптимальная долгосрочная стратегия требует применения удобрений независимо от состояния системы.
УПРАЖНЕНИЯ 19.3.1
1. Решите задачу из упражнения 19.2.1 методом полного перебора при бесконечном числе этапов.
2. Решите задачу из упражнения 19.2.2 при бесконечном горизонте планирования методом полного перебора.
3. Решите задачу из упражнения 19.2.3 методом полного перебора, предполагая, что горизонт планирования бесконечен.
19.3.2. Метод итераций по стратегиям без дисконтирования
Чтобы оценить трудности, связанные с применением метода полного перебора, предположим, что у садовника вместо двух имеется четыре стратегии поведения (альтернативы): не удобрять, удобрять один раз в сезон, удобрять дважды и удобрять трижды в сезон. В этом случае общее число стратегий, имеющихся в распоряжении садовника, составляет 4* = 256 стационарных стратегий. Таким образом, при увеличении числа альтернатив с 2 до 4 число стационарных стратегий возрастает по экспоненте с 8 до 256. Трудно не только перечислить в явном виде все эти стратегии, но и может оказаться также недопустимо большим объем вычислений, требуемых для оценки всего множества стратегий.
19.3. Модель с бесконечным числом этапов
Метод итераций по стратегиям основывается на следующем. Как показано в разделе 19.2, для любой конкретной стратегии ожидаемый суммарный доход за л-й этап определяется рекуррентным уравнением
т
/.(0 = v<+Z/V/:*. (Л ' = 1.2,..., т.
Это уравнение и служит основой метода итераций по стратегиям. Однако, чтобы сделать возможным изучение асимптотического поведения процесса, вид уравнения нужно немного изменить. В отличие от величины п, которая фигурирует в уравнении и соответствует ге-му этапу, обозначим через rj число оставшихся для анализа этапов. Тогда рекуррентное уравнение записывается в виде
т
/,(0 = v( + I^/,-,(у). ' = 1.2,..., т.
Здесь — суммарный ожидаемый доход при условии, что остались не рассмотренными п этапов. При таком определении п можно изучить асимптотическое поведение процесса, полагая при этом, что л -» оо.
Обозначим через я = (я,,п2,...,пи) вектор установившихся вероятностей состояний с матрицей переходных вероятностей Р=|ру| и пусть £ = n,v, + t2v2+... + 7cmv„ —
ожидаемый доход за этап, вычисленный по схеме раздела 19.3.1, тогда можно показать, что при достаточно большом п
/„(') = л*+ /(').
где f(i) — постоянный член, описывающий асимптотическое поведение функции f,j(i) при заданном состоянии i.
Так как /%(/) представляет суммарный оптимальный доход за п этапов при заданном состоянии i, а Е — ожидаемый доход за один этап, то интуитивно понятно, почему величина fn(i) равна сумме цЕ и поправочного числа f(i), учитывающего определенное состояние i. При этом, конечно, предполагается, что число п достаточно велико.
Теперь рекуррентное уравнение можно записать в следующем виде
п£ + / (,') = v, + {(Ti -1) £ + f(j)}, i = 1, 2,т.
Упростив это уравнение, получаем
E+f(0-£Pi,fU) = vi> ' = 1.2.....m,
т.е. имеем т уравнений с т + 1 неизвестными /(1), /(2),f(m)nE.
Здесь, как и в разделе 19.3.1, конечной целью является определение оптимальной стратегии, приводящей к максимальному значению Е. Так как имеется т уравнений ст + 1 неизвестными, оптимальное значение Е нельзя определить за один шаг. В связи с этим используется итеративная процедура, начинающаяся с произвольной стратегии, а затем определяется новая стратегия, дающая лучшее значение Е. Итеративный процесс заканчивается, если две последовательно получаемые стратегии совпадают.
Глава 19. Марковские процессы принятия решений
Итеративный процесс состоит из двух основных шагов.
1. Шаг оценки параметров. Выбираем произвольную стратегию s. Используя соответствующие ей матрицы Р* и R* и полагая (произвольно) f(m) — О, решаем уравнения
т
Л"-/'(')-Z Л'/'(У)-v;. i = I, 2,..., и
относительно неизвестных Ё, f(l),f(m - 1). Переходим к следующему шагу.
2. Шаг улучшения стратегии. Для каждого состояния i определяем альтернативу k, обеспечивающую
maxjvf+f>J/s(/)J,/=1,2,...,т.
(Здесь используются значения f(j), j=l, 2, т, определенные на шаге оценки параметров.) Результирующие оптимальные решения для состояний 1, 2, т формируют новую стратегию t. Если s и t идентичны, то алгоритм заканчивается; в этом случае t — оптимальная стратегия. В противном случае полагаем s = t и возвращаемся к шагу оценки параметров.
Оптимизационная задача на шаге улучшения стратегии нуждается в пояснении. Целью этого шага является получение максимального значения Е. Как показано выше,
Поскольку /(г) не зависит от альтернатив k, задача максимизации на шаге улучшения стратегии эквивалентна максимизации Е по альтернативам k.
Пример 19.3.2
Решим задачу садовника методом итераций по стратегиям.
Начнем с произвольной стратегии, исключающей применение удобрений. Имеем соответствующие матрицы
'0,2 | 0,5 | 0,3' | '7 6 3N | ||
р = | 0,5 | 0,5 | , R = | 0 5 1 | |
. о | 1, | 0 0 -1, |
Уравнения шага оценки параметров принимают вид
£ + /(1) -0,2/(1)- 0,5/(2) - 0,3/(3) = 5,3,
£ + /(2) -0,5/(2)-0,5/(3) = 3,
£ + /(3) -/(3) = -1.
ПолагаяД3) = 0, получаем решение этих уравнений
£ = -1, /(1) = 12,88, /(2) = 8, /(3) = 0.
Перейдем к шагу улучшения стратегии. Результаты соответствующих вычислений приведены в следующей таблице.
19.3. Модель с бесконечным числом этапов
vf+ />*/(!)+Л*/(2)+ /^/(3) | Оптимальное решение | ||||
/' | /с= 1 | к = 2 | f(i) к | ||
5,3 + 0,2 х 12,88 + 0,5 х 8 + 0,3 х 0 = 11,875 | 4,7+ 0,3x12,88 +0,6 х | 8 + 0,1 х0 = | 13,36 | 13,36 2 | |
3 + 0 х 12,88 + 0,5 х 8 + 0,5 х 0 = 7 | 3,1 +0,1 х 12,88 +0,6 х | 8 + 0,3x0 = | 9,19 | 9,19 2 | |
-1 + 0x12,88 + 0x8 + 1 х0 = -1 | 0,4+ 0,05x12,88 +0,4 х | 8 + 0,55 х 0 | = 4,24 | 4,24 2 |
Новая стратегия предусматривает применение удобрений независимо от состояния почвы. Так как новая стратегия отличается от предыдущей, повторяется шаг оценки параметров. Новой стратегии соответствуют матрицы
Г 0,3 | 0,6 | 0,Г | '6 | 5 -Г | ||
р = | 0,1 | 0,6 | 0,3 | , R = | 4 0 | |
0,05 | 0,4 | 0,55 j | ,6 | 3 -2, |
Эти матрицы определяют следующие уравнения:
£ + /(1)-0,3/(1)-0,6/(2)-0,1/(3) = 4,7,
£ + Д2)-0,1/(1)-0,6/(2)-0,3/(3) = 3,1,
Е + /(3)-0,05/(1)-0,4/(2)-0,55/(3) = 0,4.
Снова полагаяДЗ) = 0, получаем решение
£ = 2,26, /(1) = 6,75, /(2) = 3,80, /(3) = 0.
Результаты вычислений на шаге улучшения стратегии приведены в следующей таблице.
vf + A'/(0 + A<2/(2) + ^3/(3) | Оптимальное решение | |||
/ | к= 1 | к = 2 | т к | |
5,3 + 0,2 х 6,75 + 0,5 х 3,80 + 0,3 х 0 = 8,55 | 4,7 + 0,3 х 6,75 + 0,6 х 3,80 + 0,1 х 0 | = 9,01 | 9,01 2 | |
3 + 0 х 6,75 + 0,5 х 3,80 + 0,5 х 0 = 4,90 | 3,1 + 0,1 х 6,75 + 0,6 х 3,80 + 0,3 х 0 | = 6,06 | 6,06 2 | |
-1 + 0 х 6,75 + 0 х 3,80 + 1 х 0 = -1 | 0,4 + 0,05 х 6,75 + 0,4 х 3,80 + 0,55 х 0 | = 2,26 | 2,26 2 |
Новая стратегия, требующая применения удобрений независимо от состояния системы, идентична предыдущей, поэтому последняя стратегия оптимальна и итеративный процесс заканчивается. Естественно, что этот результат совпадает с результатом, полученным методом полного перебора (подраздел 19.3.1). Однако следует отметить, что метод итераций по стратегиям достаточно быстро сходится к оптимальному решению, что является его характерной особенностью.
Глава 19. Марковские процессы принятия решений
УПРАЖНЕНИЯ 19.3.2
1. Пусть в задаче упражнения 19.2.1 горизонт планирования бесконечен. Решите эту задачу методом итераций по стратегиям.
2. Решите задачу упражнения 19.2.2 методом итераций по стратегиям, предполагая, что горизонт планирования бесконечен.
3. Решите задачу упражнения 19.2.3 методом итераций по стратегиям, предполагая, что горизонт планирования бесконечен.
19.3.3. Метод итераций по стратегиям с дисконтированием
Описанный метод итераций по стратегиям можно обобщить на случай дисконтирования. Если обозначить через а (< 1) коэффициент дисконтирования (переоценки), то рекуррентное уравнение при конечном числе этапов можно записать в следующем виде (см. раздел 19.2)
(Отметим, что п равно числу этапов, которые необходимо рассмотреть.) Можно показать, что при п -» оо (модель с бесконечным числом этапов) f^i) = f(i), где f(i) — приведенный к текущему моменту времени дисконтированный доход при условии, что система находится в состоянии i и функционирует на бесконечном интервале времени. Таким образом, долгосрочное поведение f^i) при п -> оо не зависит от значения п. В этом состоит отличие от случая без дисконтирования, когда fiJLi)" пЕ + f(i). Этого следовало ожидать, так как в случае с дисконтированием влияние будущих доходов асимптотически уменьшается до нуля. Действительно приведенный доход f(i) должен стремиться к постоянной величине при 77 -»<».
С учетом вышеизложенного в данном случае при использовании метода итераций по стратегиям выполняются следующие действия.
1. Шаг оценки параметров. Для произвольной стратегии s с матрицами Р* и R' решаем систему из т уравнений
относительно т неизвестных f(l), f(2),f(m).
2. Шаг улучшения стратегии. Для каждого состояния i определяем альтернативу k, обеспечивающую
где f(j) имеют значения, определенные на шаге оценки параметров. Если полученная стратегия t совпадает со стратегией s, то алгоритм закончен; в этом случае стратегия t оптимальна. В противном случае полагаем s = t и повторяем шаг оценки параметров.
Пример 19.3.3
Решим задачу из примера 19.3.2 с учетом коэффициента дисконтирования а= 0,6.
19.3. Модель с бесконечным числом этапов
Выберем произвольную стратегию, например s= {1,1, 1}. Матрицы Р и R (Р1 и R1 в примере 19.3.1) определяют уравнения
/(1) - 0,б[0,2/(1) + 0,5/(2) + 0,3/(3)] = 5,3,
/(2)-0,б[ 0,5/(2) + 0,5/(3)] = 3,
/(з)-о,б[ +/(з)] = -1.
Решение этих уравнений дает
/1 = 6,61,/2 = 3,21,/3 = -2,5.
Результаты вычислений итерации по улучшению стратегии приведены в следующей таблице.
vf + ОЛРп/0) + Р*№ + /4/(3)] Оптимальное
к=1 | к = 2 | т | к | ||
5,3 + 0,6[0,2 х 6,61 + 0,5 х 3,21 + 0,3 х х (-2,5)] = 6,61 | 4,7 + 0,6[0,3 х 6,61 + 0,6 х х (-2,5)] = 6,90 | 3,21 + 0,1 х | 6,90 | ||
3 + 0,6[0 х 6,61 + 0,5 х 3,21 + 0,5 х х (-2,5)] = 3,21 | 3,1 +0,6[0,1 х6,61 +0,6х х (-2,5)] = 4,2 | 3,21 + 0,3 х | 4,2 | ||
-1 + 0,6[0 х 6,61 + 0 х 3,21 + 1 х х (-2,5)] = -2,5 | 0,4 + 0,6[0,05 х 6,61 + 0,4 х (-2,5)] = 0,54 | х 3,21 + 0,55 х | 0,54 |
Шаг оценки параметров, выполненный на основе матриц Р2 и R2 (пример 19.3.1), приводит к следующим уравнениям.
/(1) - 0,б[0,3/(1) + 0,6/(2) + 0,1/(3)] = 4,7, /(2) - 0,б[0,1/(1) + 0,6/(2) + 0,3/(3)] = 3,1, /(3) - 0,б[0,05/(1) + 0,4/(2) + 0,55/(3)] = 0,4. Решением этих уравнений будет
у; = 8,89,/2 = 6,62,/3 = 3,37.
Результаты, полученные на шаге улучшения стратегии, приведены в следующей таблице.
vf +0,6[Л*/(1)+ />*Д2) + />*ДЗ)] | Оптимальное решение | ||||
/ | к = 1 | к = 2 | t\l) к | ||
5,3 + 0,6[0,2 х 8,89 + 0,5 х 6,62 + 0,3 х х 3,37] = 8,96 | 4,7 + 0,6[0,3 х х 3,37] = 8,89 | 8,89 + 0,6 х | 6,62 + 0,1 х | 8,96 1 | |
3 + 0,6[0 х 8,89 + 0,5 х 6,62 + 0,5 х х 3,37] = 6,00 | 3,1 + 0,6[0,1 х х 3,37] = 6,62 | 8,89 + 0,6 х | 6,62 + 0,3 х | 6,62 2 | |
-1 + 0,6[0 х 8,89 + 0 х 6,62 + 1 х 3,37] = = 1,02 | 0,4 + 0,6[0,05 х 3,37] = 3,37 | х 8,89 + 0,4 | х 6,62 + 0,55 х | 3,37 2 |
Так как новая стратегия {1,2, 2} отличается от предыдущей, повторяем шаг оценки параметров с использованием матриц Р8 и R8 (пример 19.3.1). Получаем следующие уравнения.
752 Глава 19. Марковские процессы принятия решений
/(1) - 0,б[0,2/(1) + 0,5/(2) + 0,3/(3)] = 5,3, /(2) -0,б[0,1/(1) + 0,6/(2) + 0,3/(3)] = 3,1, /(3) - 0,б[0,05/(1) + 0,4/(2) + 0,55/(3)] = 0,4.
Решением этих уравнений будет
/1 = 8,97,/2 = 6,63,/3 = 3,38.
Результаты, полученные на шаге улучшения стратегии, приведены в следующей таблице.
vf + 0,6[ А< Д1) + Л'2/(2) + Л',/(3)] Оптимальное
решение
/ к= 1 _к_=2_ fji)к
1 5,3 + 0,6[0,2 х 8,97 + 0,5 х 6,63 + 0,3 х 4,7 + 0,6[0,3 х 8,97 + 0,6 х 6,63 + 0,1 х 8,97 1 х 3,38] = 8,97 х 3,38] = 8,90
2 3 + 0,6[0 х 8,97 + 0,5 х 6,63 + 0,5 х 3,1 + 0,6[0,1 х 8,97 + 0,6 х 6,63 + 0,3 х 6,63 2 х 3,38] = 6,00 х 3,38] = 6,63
3 -1+0,6[0х 8,97 + 0x6,63 +1 хЗ,38] = 1,03 0,4 + 0,6[0,05 х 8,97 + 0,4 х 6,63 + 0,55 х 3,37 2
х 3,38] = 3,37
Так как новая стратегия {1, 2, 2} идентична предыдущей, то она оптимальна. Заметим, что при дисконтировании оптимальная стратегия исключает применение удобрений при хорошем состоянии системы (состояние 1).
УПРАЖНЕНИЕ 19.3.3
1. Решите указанные ниже задачи, приняв коэффициент дисконтирования равным а =0,9.
a) Задача упражнения 19.3.2.1.
b) Задача упражнения 19.3.2.2.
c) Задача упражнения 19.3.2.3.
19.4. ПРИМЕНЕНИЕ МЕТОДОВ ЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ
Марковскую задачу принятия решений при бесконечном числе этапов как с дисконтированием, так и без него можно сформулировать и решить как задачу линейного программирования. Рассмотрим сначала случай без дисконтирования.
В подразделе 19.3.1 было показано, что марковская задача без дисконтирования при бесконечном числе этапов сводится к поиску оптимальной стратегии s, соответствующей
max |\*v; | я'Р'= я\ < + я2+... + < =1, <>0, i = 1, 2,..., А,
19.4. Применение методов линейного программирования
где S — множество всех возможных стратегий. Здесь я',» = 1,2,...,т, представляют
установившиеся вероятности марковской цепи р*. Подобная задача была решена в подразделе 19.3.1 полным перебором всех стратегий s.
Приведенная задача служит основой для формулировки марковской задачи принятия решений в виде задачи линейного программирования. Однако необходимо преобразовать переменные задачи таким образом, чтобы оптимальное решение автоматически определяло оптимальное действие (альтернативу) k, когда система находится в состоянии i. Совокупность всех оптимальных действий определяет оптимальную стратегию s*.
Это реализуется следующим образом. Введем обозначение: q) — условная вероятность выбора альтернативы k, когда система находится в состоянии i. Тогда задачу можно представить в следующем виде.1
Заметим, что вероятности ptj являются функциями выбранной стратегии и, следовательно, конкретных альтернатив k этой стратегии.
Ниже будет показано, что эту задачу можно преобразовать в задачу линейного программирования путем соответствующих подстановок, включающих q\. Но следует отметить, что приведенная выше формулировка эквивалентна исходной формулировке задачи из раздела 19.3.1 только при условии, что q\ = 1 для одного k при
каждом £, так как только при этом сумма Z*-i^*v* будет сведена к v*, где k' — выбранная оптимальная альтернатива. Предлагаемая здесь линейная задача учитывает это условие автоматически.
Обозначим wik = Для всех ' и По определению величина wit представляет собой совместную вероятность пребывания в состоянии i и принятия решения к. Из теории вероятностей известно, что
при ограничениях
т
%j = ЕЯ<Л/' У = 1. 2,т,
71, + 712 +...+ Кт = 1,
q]+q2t +... + q? = \, / = 1,2,...,/и, я, > 0, q. > 0 для всех /' и к.
к
Следовательно,
Ч, =
Поэтому очевидно, что ограничение ^ я, = 1 можно записать в виде
т К
1 Здесь и далее К — количество возможных альтернатив. — Прим. ред.
Глава 19. Марковские процессы принятия решений
Ограничение =' также автоматически вытекает из способа определения q)
через Wjt. (Проверьте!) Таким образом, задачу можно записать в следующем виде.
Т К
Максимизировать Е = ^^vf wa
при ограничениях
= 1 *=1
т К
11", =1,
-1 *=i
wlt>0, i = l,2,...,m; к = 1,2,-,К.
Сформулированная задача представляет собой задачу линейного программирования с переменными w,t. Покажем, что ее оптимальное решение автоматически гарантирует, что q\ = 1 для одного k при любом i. Заметим, что в задаче линейного программирования имеется т независимых уравнений (одно уравнение, соответствующее я = яР, избыточно). Следовательно, задача должна включать т базисных переменных. Однако можно показать, что wlt должно быть строго положительным по меньшей мере при
одном k для каждого /. Из этих двух утверждений можно заключить, что величина
может принимать только два значения (0 или 1), что и требовалось доказать. (Фактически полученный выше результат показывает также, что я, = X*-ivt'<* =VV > где k - альтернатива, соответствующая wjt > 0.)
Пример 19.4.1
Ниже приведена формулировка задачи садовника без дисконтирования в виде задачи линейного программирования.
Максимизировать £ = 5,3w,, + 4,7w]2 + 3w2l + 3,lw22 - w31 +0,4w32 при ограничениях
wM + w12-(0,2wM + 0,3wl2 +0,lw22 + 0,05w32) = 0,
w2l + w22 -(0,5wu +0,6w]2 + 0,5w2] + 0,6w22 + 0,4w32) = 0, w31 + w32 -(0,3wn + 0,lwl2 + 0,5w2l + 0,3w22 + w3l + 0,55w32) = 0, w„ + wl2 + w2l + w22 + w3l + wi2 = 1, wlt It 0 при любых i и к.
Оптимальным решением является wn= w2l= w3l = 0, w12 = 0,1017, w22 = 0,5254 nw32 = 0,3729. Это означает, что q] =q\=q\ = \. Таким образом, оптимальная стратегия требует выбора альтернативы 2 (к = 2) при /'= 1, 2 и 3. Оптимальное значение Е равно 4,7x0,1017 + 3,1x0,5254 + 0,4x0,3729 = 2,256. Интересно отметить, что положитель
19.4. Применение методов линейного программирования
ные значения wlk в точности равны значениям я,, соответствующим оптимальной стратегии, определенной с помощью метода полного перебора в примере 19.3.1, что доказывает непосредственную взаимосвязь между двумя методами решения.
Рассмотрим теперь марковскую задачу принятия решений с дисконтированием. В подразделе 19.3.2 эта задача описывается рекуррентным уравнением
/(/) = maxU + a£pj/(y), / = l,2,...,m.
у»'
Это уравнение эквивалентно следующему:
т
/(/) > cC£,P-,f{j) + v., для всех ink,
при условии, что при любом i функция f(i) достигает минимального значения. Рассмотрим теперь целевую функцию
In
минимизировать Z^./(')'
где bt (> 0 при всех i) — произвольные константы. Можно показать, что оптимизация этой функции (при ограничениях в виде приведенных выше неравенств) дает, что и требуется, минимальное значение f(i). Таким образом, задачу можно записать следующим образом.
m
Минимизировать ZV(')
при ограничениях
/(О _aZPijfU) - v'> при любых'и *.
/(/') не ограничены по знаку, / = 1,2,...,т. Двойственной к приведенной выше задаче является задача
т К
максимизировать ZZV*W>*
при ограничениях
К т К
*=1 1=1 *=1
и^>0при / = l,2,...,m; к = \,2,...,К.
Пример 19.4.2
Рассмотрим задачу садовника с коэффициентом дисконтирования а = 0,6. Если положить Ъх = Ъг = b3 = 1, то двойственную задачу линейного программирования можно записать в следующем виде.
Максимизировать 5,3wM + 4,7w12 + 3w21 + 3,lw22 - w,, + 0,4w,2
756 Глава 19. Марковские процессы принятия решений при ограничениях
w„ + w,2-0,6[0,2wn + 0,3wl2 + 0,lw22 + 0,05w32] = l,
w21 + w22 -0,6[0,5wn +0,6wl2 + 0,5w2, + 0,6w22 + 0,4w32] = l, w,, + w32 -0,6[0,3wn + 0,lwl2 + 0,5w21 + 0,3w22 + w3P + 0,55w32] = 1, wlk > 0 при любых / и к.
Оптимальным решением будет w12 = w2] = w3] = 0, wn= 1,5678, w22 = 3,3528 и w32 = 2,8145. Из этого решения следует, что оптимальной стратегией является {1,2,2}.
УПРАЖНЕНИЯ 19.4
1. Сформулируйте указанные ниже задачи в виде задач линейного программирования.
a) Задача упражнения 19.3.2.1.
b) Задача упражнения 19.3.2.2.
c) Задача упражнения 19.3.2.3.
19.5. ПРИЛОЖЕНИЕ: ОБЗОР ТЕОРИИ ЦЕПЕЙ МАРКОВА
Рассмотрим дискретные моменты времени {tk}, k = l, 2.....и пусть Е, — случайная величина, характеризующая состояние системы в момент tk. Семейство случайных величин } образует стохастический процесс. Состояния в момент
времени tk, в которых может находиться в этот момент система, формируют полную и взаимно исключающую группу событий. Число состояний системы может быть конечным или бесконечным. Так, например, распределение Пуассона
P„(t) =-Ц и = 0,1,2,...
я!
представляет стохастический процесс с бесконечным числом состояний. Здесь случайная величина п соответствует числу наблюдаемых событий в интервале от 0 до t (начальным моментом считается 0). Таким образом, состояния системы в любой момент t задаются случайной величиной п = 0, 1, 2,...
Еще одним примером может служить игра с k подбрасываниями монеты. Каждое испытание (подбрасывание монеты) можно рассматривать как некоторый момент времени. Полученная последовательность испытаний образует случайный процесс. Состоянием системы при любом испытании является либо "герб", либо "решка".
В данном разделе приводятся сведения о таких случайных процессах, как марковские процессы и марковские цепи. Цепь Маркова является частным случаем марковских процессов. Цепи Маркова используются при изучении краткосрочного и долгосрочного поведения стохастических систем с дискретным множеством состояний.
19.5.1. Марковские процессы
Марковский процесс описывает поведение стохастической системы, в которой наступление очередного состояния зависит только от непосредственно предшест
Дата публикования: 2014-11-18; Прочитано: 442 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!