Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

Z*n-1 (Sn-2) и X*n-1(Sn-2)



Далее рассматривается трехшаговая задача:

к двум последним шагам присоединяется (n -2)-й и т.д.

Обозначим через Z*k(Sk- 1) условный максимум целевой функции, полученный при оптимальном управлении на n-k+ l шагах, начиная с k -го до конца, при условии, что к началу k -го шага система находи­лась в состоянии Sk- 1.

Фактически эта функция равна

n

Z*k(Sk- 1) = max Σ fi(Si-1,Xi), тогда,

{(xk,…,xn)}i=k

n

Z*k+1(Sk) = max Σ fi(Si-1,Xi)

(xk,…, xn)} i=k

Целевая функция на n-k последних шагах (рис.3) при про­извольном управлении Хk на k - мшаге и оптимальном управлении на последующих n—k шагах

равна fk(Sk-1,Xk) + Z*k+1(Sk)

fk(Sk-1,Xk) + Z*k+1(Sk)


Рис. 3

Согласно принципу оптимальности, Xk выбирается из условия максимума этой суммы, т.е.

Z*k(Sk-1)= max {fk(Sk-1,Xk)+Z*k +1 (Sk)} k=n -1, n- 2,...,2,1 (8)

Управление Xk на k -м шаге, при котором достигается макси­мум в (Д.8), обозначается X*k(Sk-1) и называется условным оптимальным управлением на k - м шаге.

В правую часть уравнения (8) надо вместо Sk подста-вить выражение найденное из уравнений состояния.

Уравнения (8) называют уравнениями Беллмана.

Это ре­куррентные соотношения, позволяющие найти предыдущее значение функции, зная последующие.

Если из (5) найти Z*n(Sn- 1 ), то при k=n- 1 из (8) можно определить, решив задачу максимизации для всех возможных значений Sn - 2, выражения для Z*n- 1 (Sn - 2 ) и соответствующее X*n- 1 (Sn- 2 ).

Далее, зная Z*n- 1 (Sn- 2 ), находим, используя (8) и (2), уравнения состояний.

Процесс решения уравнений (5) и (8) называется условной оптимизацией 1.

В результате условной оптимизации получаются две последова­тельности:

Z*n(Sn- 1 ),Z*n- 1 (Sn- 2 ),…,Z* 2 (S 1 ),Z* 1 (So) — условные максимумы целевой функции на последнем, на двух последних, на... n шагах и

X*n(Sn- 1 ),X*n- 1 (Sn- 2 ),…,X* 2 (S 1 ),X* 1 (So) —условные опти-мальные управления на n -м,(n -1)-м,...,1-м шагах.

Используя эти последовательности, можно найти решение задачи ДП при данных n и So.

По определению Z* 1 (So) — условный максимум целевой функции за и шагов при условии, что к началу 1-го шага система была в состоянии So, т.е.

Z max = Z* 1 (So) (9)

Далее надо использовать последовательность условных оптимальных управлений и уравнения состояний (2).

При фиксированном So получаем Х* 1 = X* i (s o ).

Далее из урав­нений (2) находим:

S* 1 1 (So,X* 1 ) и подставляем это выражение в после-довательность условных оптимальных управлений:

X* 2 =X* 2 (S* 1 ) и т.д. по цепочке 2):

X* 1 =X* 1 (S* 0 ) ® S* 1 1 (So,X* 1 ) ® X* 2 =X* 2 (S* 1 ) ® S* 2 2(S 1 ,X* 2 )

X* 3 =X* 3 (S* 2 ) ®…® S*n- 1 n- 1 (Sn- 2 ,X*n- 1 ) ® X* n =X* n (S*n-1)

Получаем оптимальное решение задачи ДП:

X*=(X* 1 ,X* 2, …,X*n) Стрелка ® означает использование уравнений состояния, а стрелка последовательности условных оптимальных управлений.


1 Здесь описан способ решения задачи ДП, начинающийся с послед­него шага ("обратная схема").

Можно n-й и 1-й шаги поменять местами ("прямая схема").

2 Через S*k здесь обозначено состояние системы после k -го шага при условии, что на k -ом шаге выбрано оптимальное управление.

Прежде чем перейти к конкретным задачам, следует усвоить общую схему применения метода ДП.

Предположим, что все требования, предъявляемые к задаче ме­тодом ДП, выполнены.

Построение модели ДП и применение метода ДП для решения сводится к следующим моментам:

1.Выбирают способ деления процесса управления на шаги.

2.Определяют параметры состояния Sk и переменные управле­ния Хk на каждом шаге.

3.Записывают уравнения состояний.

4.Вводят целевые функции k-го шага и суммарную целевую функцию.

5.Вводят в рассмотрение условные максимумы (минимумы) Z*k(Sk-1) и условное оптимальное управление на k -мшаге: Х*k(Sk-1),

k = п, n -1,..., 2, 1.

6.Записывают основные для вычислительной схемы ДП урав­нения Беллмана для Z*n (Sn-1) и Z*k(Sk-1), k = n — 1,..., 1.

7.Решают последовательно уравнения Беллмана (условная оп­тимизация) и получают две последовательности функций:

8.После выполнения условной оптимизации получают опти­мальное решение для конкретного начального состояния S0:

а) Z mах = z*1(so) и

б) по цепочке so =>Х*1®S1* Х*2®S*2 … X*n-1® S*n-1 Х*п ® S*n оптимальное управление:

X*(x*1, Х*2,..., X*n).

Решая задачи, следует по возможности придержи-ваться этой схемы по крайней мере в начале изучения темы. Рассмотрим, как работает схема на примере задачи об оптимальном распределении ресурсов между двумя отраслями на n лет.





Дата публикования: 2014-11-02; Прочитано: 503 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.009 с)...