Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
19.5. Приложение: обзор теории цепей Маркова
вующего состояния системы. Если t0 < f, <... < tn (п = 0,1, 2,...) — моменты времени, то семейство случайных величин J4, } будет процессом Маркова тогда и только
тогда, когда оно обладает марковским свойством
Р{^ =*„|4,,_, =*„-„...,);„ =х0} = Р{^ =х.\Ъ., =*.-i} для всех возможных значений случайных величин 4,,4,,. —. 4, •
Вероятность р, = = хп\ 4,, = } называется переходной. Она представляет собой условную вероятность того, что система будет находиться в состоянии хп в момент tn, если в момент <„_, она находилась в состоянии хп_г Эту вероятность называют также одношаговой переходной, поскольку она описывает изменение состояния системы между последовательными моментами времени tni и tn. Аналогично m-шаговая переходная вероятность определяется формулой
19.5.2. Цепи Маркова
Пусть Е2, £. 0 = 0, 1, 2,...) — полная и взаимно исключающая группа состояний некоторой системы в любой момент времени. В исходный момент <0 система может находиться в одном из этих состояний. Пусть я'0' (у = 0,1,2,...) — вероятность того, что в момент t0 система находится в состоянии Ег Предположим также, что рассматриваемая система является марковской.
Определим р,у = Р{^,_ = у | ^ = /} как одношаговую вероятность перехода системы
из состояния г в момент времени <„., в состояние j в момент tn и допустим, что эти вероятности постоянны во времени. Удобнее представить вероятности перехода из состояния £, в состояние Ef в матричном виде
'Роо | Poi | Рог | Роз |
PlO | Рп | Р.2 | Р,з |
Р20 | Р21 | Р22 | Ргз |
Рзо | Р31 | Рз2 | Рзз |
V : : : : "V Матрица Р называется однородной матрицей переходов (переходных вероятностей), поскольку все переходные вероятности ptj фиксированы и не зависят от времени. Вероятности р0 должны удовлетворять условиям
^Pj- = 1 для всех (',
j
pv > 0 для всех /' и у.
Матрица переходных вероятностей Р совместно с исходными вероятностями состояний полностью определяет цепь Маркова (или марковскую цепь). Обычно считается, что цепь Маркова описывает переходный режим некоторой системы на одинаковых интервалах времени. Однако иногда интервалы времени между переходами зависят от характеристик системы и, следовательно, могут быть неодинаковыми.
Глава 19. Марковские процессы принятия решений
Абсолютные и переходные вероятности. При заданных вероятностях состояний aJ°'J и матрице переходных вероятностей Р абсолютные вероятности состояний
системы после определенного числа переходов определяются следующим образом. Пусть |«у"'} — абсолютные вероятности состояний системы после га переходов, т.е.
в момент ta. Величины |а'п)| можно выразить в общем виде через и Р посред-
ством следующего соотношения:
(О (°) (°). (о). V (о)
Следовательно,
где р^ = ^PtlPiJ — двухшаговая вероятность, или переходная вероятность второ-
I
го порядка, т.е. вероятность перехода из состояния k в состояние j в точности за два шага.
Подобным образом по индукции можно показать, что
где р!"' — «-шаговая переходная вероятность (или переходная вероятность га-го порядка), определяемая рекуррентной формулой
р\ -L.P* Рч-ii
В общем виде для произвольных i и; имеем
pMpW.о<«<„.
*
Эти уравнения известны как уравнения Колмогорова-Чепмена.
Элементы матриц переходов высших порядков Цр,'"'! можно получить непосредственно путем перемножения матриц. Так, например,
и в общем случае
|pW|=p-p = p-.
Следовательно, если абсолютные вероятности состояний определены в векторной форме как
то
aw=a(V.
19.5. Приложение: обзор теории цепей Маркова
Пример 19.5.1
Рассмотрим цепь Маркова с двумя состояниями. Матрица переходных вероятностей имеет вид
Р =
0,2 0,8 0,6 0,4
и а'0' = (0,7, 0,3). Найдем а'", а'41 и а"
Р2 =
^0,6 0,4
р4 = р2р2 р8=р4р4
0.443 0,557 0,418 0,582)'
Таким образом,
0,2 0,8Y0,2 0,8W0,52 0,48 0,6 0,4J _t,0,36 0,64j'
0,52 0,48Y0,52 0,48> 0,36 0,64Д0,36 0,64^
0,443 0,557 Y0.443 0,557^1 _(0,4291 0,5709^1
0,418 0,582Д0.418 0,582J ~ [0,4284 0,5716J"
m f 0,2 0,8Л
a<" =(0,7,0,3)^ o>4J = (0,32, 0,68),
,4) (0,443 0,557^1
a1 '=(0,7,0,3) =(0,436,0,564),
0,418 0,582
m (0,4291 0,57094;
a(8) =(0,7,0,3) =(0,4289,0,5711). \0,4284 0,5716j
Отметим, что строки матрицы Р8 незначительно отличаются друг от друга. Кроме
(8) u п8
того, вектор а также несущественно отличается от каждой из строк матрицы Р. Это связано с тем, что абсолютные вероятности состояний после выполнения нескольких переходов практически не зависят от начальных вероятностей а<0). В том случае, когда они действительно не будут зависеть от начальных вероятностей, их называют установившимися.
Классификация состояний марковских цепей. При рассмотрении цепей Маркова нас может интересовать поведение системы на коротком отрезке времени. В таком случае абсолютные вероятности вычисляются так, как показано в предыдущем разделе. Однако более важно изучить поведение системы на большом интервале времени, т.е. в условиях, когда число переходов стремится к бесконечности. В этом случае изложенный выше метод непригоден; требуется систематический подход, позволяющий прогнозировать долгосрочное поведение системы. Ниже вводятся определения состояний марковских цепей, которые необходимы для изучения долгосрочного поведения системы.
Неприводимая марковская цепь. Цепь Маркова называется неприводимой, если любое состояние Ej может быть достигнуто из любого другого состояния £( за
конечное число переходов, т.е. при i Ф j p\f > 0 для 1 < п < оо. В этом случае все состояния цепи называются сообщающимися.
Глава 19. Марковские процессы принятия решений
Замкнутое множество состояний и поглощающие состояния. Множество С состояний цепи Маркова называется замкнутым, если система, однажды оказавшаяся в одном из состояний этого множества, будет находиться в множестве С в течение бесконечного интервала времени. Частным случаем замкнутого множества является единственное состояние £у с переходной вероятностью рм= \ ■ В этом
случае состояние Ej называется поглощающим. Все состояния неприводимой цепи должны образовывать замкнутое множество, и ни одно подмножество этого множества не может быть замкнутым. Замкнутое множество С удовлетворяет всем условиям, характеризующим марковскую цепь, и, следовательно, его можно подвергнуть независимому анализу.
Пример 19.5.2
Рассмотрим цепь Маркова со следующей матрицей переходных вероятностей
(Л | ||||
р = 1 | ||||
ч0 | и |
Эта цепь графически представлена на рис. 19.1. Как видно из рисунка, четыре состояния не составляют неприводимую цепь, поскольку состояний 0, 1 и 2 нельзя достичь из состояния 3. Состояние 3 образует замкнутое множество и, таким образом, является поглощающим. Можно также утверждать, что состояние 3 соответствует неприводимой цепи Маркова.
Рис. 19.1. Различные виды состояний цепи Маркова
Первое время возвращения. Важным понятием в теории марковских цепей является первое время возвращения. Система, первоначально находящаяся в состоянии Ejt может вернуться в первый раз в это же состояние через п шагов, п > 1. Число шагов, за которое система возвращается в состояние Ejt называется первым временем возвращения.
Обозначим через вероятность того, что первое возвращение в состояние Ej
состоится на га-м шагу. Тогда при заданной матрице переходных вероятностей
Р = ||piy|| /j"' можно определить следующим образом:
19.5. Приложение: обзор теории цепей Маркова
Г В J JJ J JJ rjj!
или
/<2, = р(2)-/(У.
J JJ " JJ J л г II
По индукции нетрудно показать, что
/<"> =»<">_ у /.-)„(.—).
Отсюда следует, что вероятность по крайней мере одного возвращения в состояние Ej задается формулой
fjj ~ ^-jfji ■
Следовательно, система обязательно вернется в состояние j, если /. = 1. Обозначив через среднее время возвращения, получаем
»jj=t<]-
Если fB- < 1, то неизвестно, вернется ли система в состояние Et, и, следовательно, ц^=°°.
Исходя из определения первого времени возвращения, состояния марковской цепи можно классифицировать следующим образом.
1. Состояние является невозвратным, если у\ < 1, т.е. ц;> =<х>.
2. Состояние является возвратным, если у\. = 1.
3. Возвратное состояние является нулевым, если ци= ос, и ненулевым, когда
< оо (т.е. конечно).
4. Состояние называется периодическим с периодом t, если возвращение в него возможно только через число шагов, кратное <: t, 2t, 3t,... Это означает, что
если п не делится на t без остатка, то pf = 0.
5. Возвратное состояние является эргодическим, если оно ненулевое и апериодическое.
Если все состояния цепи Маркова являются эргодическими, то цепь неприводи-ма. В этом случае распределение абсолютных вероятностей состояний
aw=a(V
всегда однозначно сходится к предельному распределению при п —» оо, где предель-
U (о)
ное распределение не зависит от начальных вероятностей лк'. Справедлива следующая теорема.
Теорема 19.5.1. Все состояния в неприводимой бесконечной цепи Маркова могут принадлежать к одному и только одному из следующих трех классов: невоз
Глава 19. Марковские процессы принятия решений
вратных, возвратных нулевых или возвратных ненулевых состояний. Во всех случаях все состояния являются сообщающимися и имеют один и тот же период. В частном случае, когда в цепи конечное число состояний, она не может содержать только невозвратные или какие-либо нулевые состояния.
Предельные распределения в неприводимых цепях Маркова. Из примера 19.5.1 видно, что с ростом числа переходов абсолютная вероятность состояний становится независимой от начального распределения. В данном разделе описывается метод вычисления предельного распределения вероятностей состояний в неприводимой цепи. Мы ограничимся рассмотрением только апериодических состояний, так как это единственный класс состояний, используемый в дальнейшем. Кроме того, анализ периодических состояний является довольно сложным.
Существование предельного распределения в неприводимой апериодической цепи зависит от класса ее состояний. Таким образом, рассматривая три класса состояний, указанных в теореме 19.5.1, можно сформулировать следующую теорему.
Теорема 19.5.2. Если в неприводимой апериодической цепи Маркова
а) все состояния невозвратные или нулевые, то р^п) —> 0 при га —» оо для всех i и j и предельного распределения не существует,
б) все состояния эргодические, то
lima'"'= я,, у = 0, 1, 2,....
где nj — предельное (установившееся) распределение. Вероятности nj определяются однозначно и не зависят от я'0). Величины щ можно определить из системы уравнении
Среднее время возвращения в состояние j при этом определяется формулой
Пример 19.5.3
Рассмотрим задачу из примера 19.5.1. Для определения установившегося распределения вероятностей используем соотношения
я, =0,2;!, +0,6ti2, 7i2 =0,871, +0,4ti2,
7t, + 7t2 = 1.
1 Заметим, что одно из уравнений nt = ^jt,p^ является избыточным.
19.5. Приложение: обзор теории цепей Маркова
Решением будет я-, = 0,4286 и лг = 0,5714. Эти результаты очень близки к значениям элементов вектора а(8) (и строкам матрицы Р8) из примера 19.5.1. Далее получаем значения среднего времени возвращения в первое и второе состояния
р„= —= 2,3, р22 = —= 1,75. я, я2
Пример 19.5.4
Рассмотрим следующую цепь Маркова с тремя состояниями:
1 2
Р=1 2
а
0 ±
4 1 4 1 2
Такая матрица называется дважды стохастической, так как
1=1 у.|
где i — число состояний цепи Маркова. В таких случаях установившиеся вероятности равны л.,= 1/s для всех j. Поэтому для данной задачи л0 = лх = л2 = 1/3.
УПРАЖНЕНИЯ 19.5
1. Определите класс состояний приведенных ниже цепей Маркова и найдите их стационарные распределения.
а)
fl | П 2 | |||
3 4 | ||||
2) | ||||
'я | р | о4 | ||
Я | Р | |||
Я | Р | |||
я | Р | |||
ll | 0; |
2. Найдите среднее время возвращения в каждое состояние цепи Маркова, заданной следующей матрицей переходных вероятностей.
Глава 19. Марковские процессы принятия решений
(1 i Л 3 3 3
111 2 4 4'
111 U 5 5)
ЛИТЕРАТУРА
1. Derman С. Finite State Markovian Decision Process, Academic Press, New York, 1970.
2. Howard R. Dynamic Programming and Markov Processes, MIT Press, Cambridge, Mass., 1960. (Русский перевод: Ховард P. Динамическое программирование и марковские процессы. — М.: Сов. радио, 1964.)
Литература, добавленная при переводе
1. Дынкин Е. Б., Юшкевич А. А. Теоремы и задачи о процессах Маркова. — М.: Наука, 1967.
2. Кемени Дж., Снелл Дж. Конечные цепи Маркова. — М.: Наука, 1970.
ГЛАВА 20
КЛАССИЧЕСКАЯ ТЕОРИЯ ОПТИМИЗАЦИИ
В классической теории оптимизации для поиска точек максимума и минимума (экстремальных точек) функций в условиях как отсутствия, так и наличия ограничений на переменные широко используется аппарат дифференциального исчисления. Получаемые при этом методы не всегда оказываются удобными при их численной реализации. Однако соответствующие теоретические результаты лежат в основе большинства алгоритмов решения задач нелинейного программирования (см. главу 21).
В этой главе изложены необходимые и достаточные условия существования экстремумов функций при отсутствии ограничений на переменные задачи, методы Якоба и Лагранжа для решения задач с ограничениями на переменные в форме равенств, а также условия Куна-Таккера для задач с ограничениями в виде неравенств.
20.1. ЭКСТРЕМАЛЬНЫЕ ЗАДАЧИ БЕЗ ОГРАНИЧЕНИЙ
Экстремальная точка функции /(X) определяет либо ее максимальное, либо минимальное значение. С математической точки зрения точка 'Х.0 = (х1,xjyxj является точкой максимума функции /(X), если неравенство
/(X0 + h)</(X0)
выполняется для всех h = (А,, А;, Ап) таких, что |Aj достаточно малы при всех j. Другими словами, точка Х0 является точкой максимума, если значения функции / в окрестности точки Х0 не превышают /(Х0). Аналогично точка Х0 является точкой минимума функции /(X), если для определенного выше вектора h имеет место неравенство
/(X0 + h)>/(X„).
На рис. 20.1 показаны точки максимума и минимума функции одной переменной f(x) на интервале [а, Ь]. Точки xv х2, х3, х4 и хв составляют множество экстремальных точек функции f(x). Здесь точки xv х3 и х6 являются точками максимума, а точки х2их4 — точками минимума функции f(x). Поскольку
f(x6) = max{/(^t), f(x3), /(*„)}, значение f(x6) называется глобальным или абсолютным максимумом, а значения f{xx) и f(x3) — локальными или относительными максимумами. Подобным образом, значение f(x4) является локальным, a f(x2) — глобальным минимумом функции f(x).
Глава 20. Классическая теория оптимизации
а хх х2 хг х4 х5 х6 b х Рас. 20.1. Экстремумы функции одной переменной
Заметим, что хотя точка х1 является точкой максимума функции f(x) (рис. 20.1), она отличается от остальных локальных максимумов f(x) тем, что по крайней мере в одной точке ее окрестности значение функции f(x) совпадает с f(x,). Точка х, по этой причине называется нестрогим (слабым) максимумом функции f(x), в отличие, например, от точки х3, которая является строгим максимумом f(x). Нестрогий максимум, следовательно, подразумевает наличие (бесконечного количества) различных точек, которым соответствует одно и то же максимальное значение функции. Аналогичные результаты имеют место в точке xt, где функция f(x) имеет нестрогий минимум. В общем случае Х0 является точкой нестрогого максимума функции f(x), если /(Х„ + h) < /(Х0), и точкой ее строгого максимума, если /(Х0 + h) < /(Х0), где h — вектор, определенный выше.
На рис. 20.1 легко заметить, что первая производная функции / (тангенс угла наклона касательной к графику функции) равна 0 во всех ее экстремальных точках. Однако это условие выполняется и в точках перегиба и седловых точках функции /, таких как точка хь. Если точка, в которой угол наклона касательной к графику функции (градиент функции) равен нулю, не является в то же время точкой экстремума (максимума или минимума), то она автоматически должна быть точкой перегиба или седловой точкой.
20.1.1. Необходимые и достаточные условия существования экстремума
В этом разделе излагаются необходимые и достаточные условия существования экстремумов функции п переменных /(X). При этом предполагается, что первые и вторые частные производные функции f(X) непрерывны в каждой точке X.
Теорема 20.1.1. Необходимым условием того, что точка Х0 является экстремальной точкой функции /(X), служит равенство
V/(X0) = 0.
Доказательство. Из теоремы Тейлора следует, что при 0 < в< 1 имеет место разложение функции f(X)
/(Х„ + h) -/(Х0) = V/(X0)h + |hrIIh |Xi+0h,
20.1. Экстремальные задачи без ограничений
где h — вектор, определенный выше. Для достаточно малых значений остаточный член yhrHh является величиной порядка И1. Следовательно,
/(x0 + h)-/(x0) = v/(x0)h+o(/,;) = v/(x0)h.
Пусть Х0 — точка минимума функции /(X). Докажем от противного, что градиент V/(X0) функции /(X) в точке минимума Х0 равен нулю. Пусть это условие не выполняется; тогда для некоторого j должно выполняться условие
дх} дх; Знак Лу всегда можно выбрать таким образом, чтобы
а,*Ш<0.
Полагая остальные Л; равными нулю, из разложения Тейлора получаем неравенство
«X0 + h)</(X0).
Этот результат противоречит предположению, что Х0 — точка минимума. Следовательно, величина V/(X0) должна равняться нулю. Доказательство для точки максимума проводится аналогично.
Так как необходимое условие выполняется также в точках перегиба и седловых точках, точки, удовлетворяющие уравнению V/(X0) = 0, называют стационарными. Следующая теорема устанавливает достаточные условия того, что стационарная точка Х0 является экстремальной.
Теорема 20.1.2. Для того чтобы стационарная точка Х0 была экстремальной, достаточно, чтобы матрица Гессе Н в точке Х0 была
а) положительно определенной (тогда Х0 — точка минимума);
б) отрицательно определенной (тогда Х0 — точка максимума).
Доказательство. Согласно теореме Тейлора при 0 < в< 1 имеем
/(х, + ь) - /(х.) = v/(x,)h +UTm.
Поскольку X0 — стационарная точка, по теореме 20.1.1 V/(X0) = 0. Таким образом,
/(X0 + h)-/(X0) = ihrHh|x^0„. Если Х0 — точка минимума, то
f(X0 + h)>/(X0)
для всех ненулевых векторов h. Следовательно, в точке минимума Х0 должно выполняться неравенство
ihrHh|Xi.oh>0.
Непрерывность вторых частных производных функции /(X) гарантирует, что величина ihrHh имеет один и тот же знак как в точке Х0, так и X0+r3i. Так как hrHh ^ представляет собой квадратичную форму (см. раздел А.3), ее значение (и, следова
Глава 20. Классическая теория оптимизации
тельно, hrHh |x^oh) положительно тогда и только тогда, когда H|Xi —положительно определенная матрица. Это означает, что положительная определенность матрицы Гессе в стационарной точке Х0 является достаточным условием существования в этой точке минимума. Путем аналогичных рассуждений доказывается, что стационарная точка является точкой максимума, если матрица Гессе в этой точке отрицательно определена.
Пример 20.1.1
Рассмотрим функцию
/(дс,,х2,х,) =.V, + 2хъ + х,х3 - х,2 -х\- х\. Необходимое условие экстремума VJ[\) = 0 здесь принимает следующий вид.
^ = 1-2*. =0,
ох,
^- = х,-2хг =0, дх2
— = 2 + х2-2х3=0. сх3
Решением этой системы уравнений является точка Х0 = (1/2, 2/3, 4/3). Для проверки выполнения условия достаточности вычислим
' 52/ | d2f | д2/ } | |
Эх,2 | дх1дхг | dxtdx} | С |
е2/ | elL | о2/ | |
OXjOX, | дх\ | ох26х3 | |
д2/ | d2f | 52/ | V |
ч ох,ох. | ох,ох2 | дх] / |
-2 1 1 -2
Угловые миноры матрицы Н |х равны -2, 4 и -6 соответственно. В этом случае Н |Xi
является отрицательно определенной матрицей (см. раздел А.З), откуда следует, что точка Х0 = (1/2, 2/3, 4/3) является точкой максимума.
В общем случае, когда матрица Н |х является неопределенной, точка Х0 должна быть седловой. Если же матрица Н |х оказывается полуопределенной, то соответствующая точка Х0 может как быть, так и не быть экстремальной. При этом формулировка достаточного условия существования экстремума значительно усложняется, ибо для этого необходимо учитывать члены более высоких порядков в разложении Тейлора.
Применим достаточные условия, полученные в теореме 20.1.2, к функции одной переменной. Пусть у0 — стационарная точка функции тогда
20.1. Экстремальные задачи без ограничений
1) неравенство f(y0)<0 является достаточным условием существования максимума в точке у0;
2) неравенство / (i/0) > 0 является достаточным условием существования минимума в точке у0.
Если же для функции одной переменной / (у0) = 0, то необходимо исследовать производные высших порядков в соответствии со следующей теоремой.
Теорема 20.1.3. Если в стационарной точке уй функции f(y) первые (п- 1) ее производных равны нулю и f '"\у0) *■ 0, то в точке у = у0 функция f(y) имеет
1) точку перегиба, если п — нечетное;
2) точку максимума, если п — четное и fM(y0) < 0;
3) точку минимума, если п — четное и f in\y0) > 0.
Пример 20.1.3
Рассмотрим функцииДу) = у* п g(y) = у3. Для функцииДу) = у* имеем
/(у) -4/ = 0,
откуда получаем стационарную точкуу0 = 0. Далее находим
/(О) =/"(0) =/,3,(0) = 0. Так какfi4\0) = 24 > 0, тоу0 = 0 является точкой минимума (рис. 20.2). Для функции g{y) = у3 имеем
g'(y)=3.y2 = 0.
Следовательно, точка у0 = 0 является стационарной точкой. Поскольку g(0) =g (0) = 0, g<3)(0) = 6 и не обращается в нуль, точкау0 = 0 является точкой перегиба.
/О) //
g(y)jy3 | |
( | 0 У |
о
Рис. 20.2. Стационарные точки функций i(y) = у' и g(y) = у
УПРАЖНЕНИЯ 20.1.1
1. Найдите экстремальные точки следующих функций.
a) f(x) = х3 + х.
b) f(x) = х* + х2.
c) f(x) = 4*4 - х2 + 5.
Глава 20. Классическая теория оптимизации
d) /(*) = (Зх - 2)\2х - З)2.
e) /(*) = 6л:5 -4х3 + 10.
2. Найдите экстремальные точки следующих функций.
a) /(X) = х,3 + х2 - Зх,х2.
b) /(Х) = 2х2 + х2 + х3 +6(х, +х2 + x,) + 2x,x2xs.
3. Проверьте, что функция
/ (х,, х2, х,) = 2х,х2х3 - 4х,х, - 2х2х3 + х2 + х2 + х2 - 2л:, - 4х2 + 4х,
имеет стационарные точки (0, 3, 1), (0, 1, -1), (1, 2, 0), (2, 1, 1) и (2, 3, -1). Используйте достаточные условия для нахождения экстремумов функции.
4. Решите следующую систему уравнений путем превращения ее в задачу минимизации нелинейной целевой функции при отсутствии ограничений на переменные.
х2 - xf = 0, х2 - хх = 2.
(Подсказка, min / \xv х2) имеет место при /(*,, х2) = 0.)
5. Докажите теорему 20.1.3.
20.1.2. Метод Ньютона-Рафсона
В общем случае использование необходимого условия экстремума V/(X) = 0 для поиска стационарных точек функции /(X) может быть сопряжено с трудностями, возникающими при численном решении соответствующей системы уравнений. Метод Ньютона-Рафсона предлагает итерационную процедуру решения системы нелинейных уравнений. Несмотря на то что данный метод рассматривается в этом разделе именно в указанном контексте, на самом деле он относится к числу градиентных методов численного поиска экстремумов функций при отсутствии ограничений (см. раздел 21.1.2).
Дата публикования: 2014-11-18; Прочитано: 519 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!