Главная Случайная страница Контакты | Мы поможем в написании вашей работы! | ||
|
Далее рассматривается трехшаговая задача:
к двум последним шагам присоединяется (n -2)-й и т.д.
Обозначим через Z*k(Sk- 1) условный максимум целевой функции, полученный при оптимальном управлении на n-k+ l шагах, начиная с k -го до конца, при условии, что к началу k -го шага система находилась в состоянии Sk- 1.
Фактически эта функция равна
n
Z*k(Sk- 1) = max Σ fi(Si-1,Xi), тогда,
{(xk,…,xn)}i=k
n
Z*k+1(Sk) = max Σ fi(Si-1,Xi)
(xk,…, xn)} i=k
Целевая функция на n-k последних шагах (рис.3) при произвольном управлении Хk на k - мшаге и оптимальном управлении на последующих n—k шагах
равна fk(Sk-1,Xk) + Z*k+1(Sk)
fk(Sk-1,Xk) + Z*k+1(Sk)
Рис. 3
Согласно принципу оптимальности, Xk выбирается из условия максимума этой суммы, т.е.
Z*k(Sk-1)= max {fk(Sk-1,Xk)+Z*k +1 (Sk)} k=n -1, n- 2,...,2,1 (8)
Управление Xk на k -м шаге, при котором достигается максимум в (Д.8), обозначается X*k(Sk-1) и называется условным оптимальным управлением на k - м шаге.
В правую часть уравнения (8) надо вместо Sk подста-вить выражение найденное из уравнений состояния.
Уравнения (8) называют уравнениями Беллмана.
Это рекуррентные соотношения, позволяющие найти предыдущее значение функции, зная последующие.
Если из (5) найти Z*n(Sn- 1 ), то при k=n- 1 из (8) можно определить, решив задачу максимизации для всех возможных значений Sn - 2, выражения для Z*n- 1 (Sn - 2 ) и соответствующее X*n- 1 (Sn- 2 ).
Далее, зная Z*n- 1 (Sn- 2 ), находим, используя (8) и (2), уравнения состояний.
Процесс решения уравнений (5) и (8) называется условной оптимизацией 1.
В результате условной оптимизации получаются две последовательности:
Z*n(Sn- 1 ),Z*n- 1 (Sn- 2 ),…,Z* 2 (S 1 ),Z* 1 (So) — условные максимумы целевой функции на последнем, на двух последних, на... n шагах и
X*n(Sn- 1 ),X*n- 1 (Sn- 2 ),…,X* 2 (S 1 ),X* 1 (So) —условные опти-мальные управления на n -м,(n -1)-м,...,1-м шагах.
Используя эти последовательности, можно найти решение задачи ДП при данных n и So.
По определению Z* 1 (So) — условный максимум целевой функции за и шагов при условии, что к началу 1-го шага система была в состоянии So, т.е.
Z max = Z* 1 (So) (9)
Далее надо использовать последовательность условных оптимальных управлений и уравнения состояний (2).
При фиксированном So получаем Х* 1 = X* i (s o ).
Далее из уравнений (2) находим:
S* 1 =φ 1 (So,X* 1 ) и подставляем это выражение в после-довательность условных оптимальных управлений:
X* 2 =X* 2 (S* 1 ) и т.д. по цепочке 2):
X* 1 =X* 1 (S* 0 ) ® S* 1 =φ 1 (So,X* 1 ) ® X* 2 =X* 2 (S* 1 ) ® S* 2 =φ 2(S 1 ,X* 2 )
X* 3 =X* 3 (S* 2 ) ®…® S*n- 1 =φn- 1 (Sn- 2 ,X*n- 1 ) ® X* n =X* n (S*n-1)
Получаем оптимальное решение задачи ДП:
X*=(X* 1 ,X* 2, …,X*n) Стрелка ® означает использование уравнений состояния, а стрелка последовательности условных оптимальных управлений.
1 Здесь описан способ решения задачи ДП, начинающийся с последнего шага ("обратная схема").
Можно n-й и 1-й шаги поменять местами ("прямая схема").
2 Через S*k здесь обозначено состояние системы после k -го шага при условии, что на k -ом шаге выбрано оптимальное управление.
Прежде чем перейти к конкретным задачам, следует усвоить общую схему применения метода ДП.
Предположим, что все требования, предъявляемые к задаче методом ДП, выполнены.
Построение модели ДП и применение метода ДП для решения сводится к следующим моментам:
1.Выбирают способ деления процесса управления на шаги.
2.Определяют параметры состояния Sk и переменные управления Хk на каждом шаге.
3.Записывают уравнения состояний.
4.Вводят целевые функции k-го шага и суммарную целевую функцию.
5.Вводят в рассмотрение условные максимумы (минимумы) Z*k(Sk-1) и условное оптимальное управление на k -мшаге: Х*k(Sk-1),
k = п, n -1,..., 2, 1.
6.Записывают основные для вычислительной схемы ДП уравнения Беллмана для Z*n (Sn-1) и Z*k(Sk-1), k = n — 1,..., 1.
7.Решают последовательно уравнения Беллмана (условная оптимизация) и получают две последовательности функций:
8.После выполнения условной оптимизации получают оптимальное решение для конкретного начального состояния S0:
а) Z mах = z*1(so) и
б) по цепочке so =>Х*1®S1* Х*2®S*2 … X*n-1® S*n-1 Х*п ® S*n оптимальное управление:
X*(x*1, Х*2,..., X*n).
Решая задачи, следует по возможности придержи-ваться этой схемы по крайней мере в начале изучения темы. Рассмотрим, как работает схема на примере задачи об оптимальном распределении ресурсов между двумя отраслями на n лет.
Дата публикования: 2014-11-02; Прочитано: 503 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!