Студопедия.Орг Главная | Случайная страница | Контакты | Мы поможем в написании вашей работы!  
 

II-2.5.6. Решение уравнение Беллмана



Запишем уравнения Беллмана для k =1

(II.27)

Ясно, что есть максимальное значение функции , а - оптимальное управление процессом (оптимальная стратегия).

Из уравнения (II.27) может быть получено оптимальное значение критерия эффективности управления N – шаговым процессом, т.е. и - первый элемент оптимальной стратегии, если известна функция. . В свою очередь для определения функции необходимо знать для любого и т.д.

Для определения функции

, (II.28)

представляющей собой максимальное значение критерия эффективности управления одношаговым процессом, начинающимся из любого состояния , необходимо знать причем -конечное состояние процесса.

На последнем шаге процесс завершается, т.е. можно положить

,

так как доход на последующих шагах отсутствует.

Тогда уравнение (II.28) примет вид

(II.29)

Функция задана и является для каждого , функцией переменной управления , следовательно, задача (II.29) оптимизации одношагового процесса может быть решена. Решив эту задачу, мы определим оптимальное значение критерия эффективности управления одношаговым процессом и само оптимальное управление , то есть то значение переменной управления , при котором в задаче (II.29) достигается значение . Решение задачи (II.29) должно быть получено для любого состояния ,. Итак, решив задачу (II.29), мы получим две функции состояния:

(II.30)

называемые соответственно условным оптимальным значеним критерия эффективности и условным оптимальным управлением одношаговым процессом. Решением уравнения (II.29) начинается первый этап решения задачи. Теперь можно решить уравнение Беллмана при , то есть уравнение

. (II.31)

Решив эту задачу, мы получим опять две функции состояния : – условное оптимальное значение критерия эффективности управления двухшаговым процессом, начинающимся из любого состояния , и – условно оптимальное управление, т.е. то значение переменной при котором достигается максимум в правой части (II.31).

Далее, решив уравнение Беллмана при определим для каждого две функции состояния: и

Наконец, при определим две функции состояния :

– (II.32)

условное оптимальное значение критерия эффективности управления N -шаговым процессом, начинающимся из любого начального состояния ; - условное оптимальное управление, т.е. то значение переменной , при котором достигается максимум в парвой части выражения (II.32). На этом шаге заканчивается первый этап решения задачи МДП, или этап условной оптимизации. На этом этапе было решено N задач, каждая из которых является задачей максимизации функции, зависящей только от переменной , Закончив первый этап решения задачи, мы ещё не нашли оптимальной стратегии, но построили две последовательности функций состояния:

и

с помощью которых на втором этапе будет найдено решение поставленной задачи.

Второй этап решения задачи – этап безусловной оптимизации – заключается в обратном переходе из состояния в состояние , отыскании оптимальной стратегии и оптимальной траектории.

Здесь возможны два случая:

Начальное состояние единственно. Тогда представляет собой максимальное значение критерия эффективности управления N -шаговым процессом (II.8).

Обозначим , т.е. получим первый элемент оптимальной траектории (II.14). Затем, используя определённую на первом этапе функцию , находим , т.е. первый элемент оптимальной стратегии (II.13).

Теперь, используя уравнение состояния и функцию определяем

и

то есть находим второй элемент оптимальной траектории и оптимальной стратегии и т.д.

Наконец, находим

, и

Итогом осуществления второго этапа решения задачи является построение оптимальной стратегии оптимальной траектории и определение максимального значения критерия эффективности управления процессом (II.8), т.е. величины . На этом решение задачи в случае 1 заканчивается.

Начальное состояние не единственно. В этом случае для определения максимального значения критерия эффективности необходимо решать задачу

, (II.33)

где - то значение переменной , при котором достигается максимум в правой части (II.33), следовательно, является первым элементом искомой оптимальной траектории.

Далее определяем . Для отыскания следующих элементов оптимальной траектории и стратегии поступаем, как в случае 1.





Дата публикования: 2015-09-17; Прочитано: 544 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!



studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.009 с)...