Главная \| Случайная страница \| Контакты \| Мы поможем в написании вашей работы!

Управление в иерархических структурах с помощью поощоения (штрафов) и с помощью выделенного ресурса

⇐ Предыдущая 48 49 50 51 525354 55 56 57 Следующая ⇒

Рассматривая такую же систему, как и в предыдущем случае можно предложить влияние Центра на Производителя посредством некоторых функций, которые влияют на заинтересованность в развитии производства (Pi).

Такой функцией может быть функция штрафов (поощрений) j_i (Ri), что налагается на Производителя, если j_i и(Ri)>0.

Тогда при структуре целевой функции Производителя она приобретет вид

, (1)

а для Центра целевая функция имеет вид

J = J(R₁,..., R_n). (2)

Поскольку по-прежнему мы используем связь и Производитель распоряжается параметром Li, то необходимым условием максимуму Ji есть равенство

с который можно определить значение L_i= L*_i

При этом L і* будет функционалом, то есть будет зависеть от вида функции . Очевидно, что оптимальный объем продукции Pi* также будет функционалом: .

Для Центра функция цели принимает вид:

(3)

и очевидно, что задача Центра - найти такого функционала, в котором Pi* есть сами функционалами. Это нестандартная задача оптимизации и ее решения даже в несложных случаях требует разработки специальных методов.

Одно из направлений складывается в параметризации штрафной функции, что заключается в том, что структура j возлагается известной, а неизвестными есть параметры этой функции

где - вектор неизвестных параметров.

Тогда Производители решают задачу, в итоге получат и, соответственно . Т. е. стратегия Производителя будет зависеть от вектора параметров , конкретные значения которых укажет Центр, что в свою очередь повинный решить для себя задачу

(4)

которая является обычной задачей математического программирования.

В отличии от случая а) свяжем величину выделенного ресурса Ui с результатом его использования, то есть с объемом сделанного продукта Pi.у такой способ можно записать Ui=Ui(Pi) и допустим что выделенный центром ресурс расходуется на инвестиции и создание новых мощностей.

Тогда сохраняя гипотезы о поведении и целях центра и производителя для последнего можем записать

максимум Ji может быть достигнут в точке Li, где

. (5)

Исходя из вида производственной функции можем записать

и, дифференцируя Р_i(L_i) как неявную функцию, получим

отсюда находим

(6)

Тогда задача Центра сводится к определению ненегативных функций Ui(Pi), что доставляют функционалу (2) максимум при ограничении (1)

с других возможностей управления в иерархических структурах можно указать на ограничение фонда заработной платы

(7)

и вместе с тем величину wi можно ввести как аргумент в производственную функцию и w_i вместе с Li будут управляющими факторами для Производителя. Для Центра регулятором ситуации являются предназначенные им величины Qi для ограничений (7).

2. Методы пошаговой оптимизации. Принцип Беллмана. Решение задач динамического программирования

Приведем общую постановку задачи ДП. Рассматривается управляемьій процесе, например, зкономический процесе распределения средств между предприятиями, использования ресурсов в течение ряда лет, замены оборудования, пополнения запасов и т. п. В результате управлення система S (обьект управлення) переводится из начального состояния s₀ в состояние . Предположим, что управление можно разбить на п шагов, т.е. решение принимается последовательно на каждом шаге, а управление, переводящее систему s из начального состояния в конечное, представляет собой совокупность п пошаговых управлений.

Обозначим через Х _k управление на к-м шаге (k=1, 2,..., п). Переменные Х _k удовлетворяют некоторым ограничениям и в этом смысле называются допустиыіми (Х _k может быть числом, точкой в n-мерном пространстве, качественньш признаком).

Пусть Х(Х₁, Х₂,..., X_n) — управление, переводящее систему S из состояния.sо в состояние . Обозначим через s_k состояние системы после к-го шага управлення. Получаем последовательность состояний s₀, s₁,...,s_k_-1,s_k,…,s_n_-1,s_n = , которую изобразим ниже:

_X

S₀

S₁

S_k-1

s_k

S_n-1

X₁

X₂

X_k-1

X_k

X_k+₁

X_n-1

X_n

Показатель зффективности рассматриваемой управляемой операции — целевая функция — зависит от начального состояния и управления:

Z=F(s₀,X) (1)

Сделаем несколько предположений.

_1. Состояние s_k системи в конце k-го шага зависит только от предшествующего состояния s_k_-1 и управления на k-м шаге Х_k

(и не зависит от предшествующих состояний й управлений). это требование называется "отсутствием последействия". Сформулированное положение записнвается в виде уравнений

(2)

которые называются уравнениями состояний.

2. Целевая функция (1) является аддитивной от показателя зффективности каждого шага. Обозначим показатель зффективности к-го шага через

(3)

тогда (4)

Задача пошаговой оптимизации (задача ДП) формулируется так: определить такое допустимое управление X, переводящее систему s из состояния s₀ в состояние , при котором целевая функция (4) принимает наибольшее (наименьшее) значение.

Выделим особенности модели ДП:

1. Задача оптимизации интерпретируется как п-шаговьій процесе управлений.

2. Целевая функция равна сумме целеыіх функций каждого шага.

3. Выбор управлення на к-м шаге зависит только от состояния системи к зтому шагу, не влияет на предшествующие шаги (нет обратной связи).

4. Состояние s_k после к-го шага управленая зависит только от предшествующего состояния s_k_-1и управления Х_k(отсутствие последействия).

5. На каждом шаге управление Х_k зависит от конечного числа управляющих переменньїх, а состояние s_k — от конечного числа параметров

Принцип оптимальности впервые был сформулирован Р. Беллманом в 1953 г. Каково бы ни было состояние s системы в результате какого-либо числа шагов, на ближайшем шаге нужно выбирать управление так, чтобы оно в совокупности с оптимальным управлением на всех последующих шагах приводило к оптимальному выигрышу на всех оставшихся шагах, включая данный. Беллманом четко были сформулированы и условия, при которых принцип верен. Основное требование — процесс управления должен быть без обратной связи, т.е. управление на данном шаге не должно оказывать влияния на предшествующие шаги.

Принцип оптимальности утверждает, что для любого процесса без обратной связи оптимальное управление таково, что оно является оптимальным для любого подпроцесса по отношению к исходному состоянию этого подпроцесса. Поэтому решение на каждом шаге оказывается наилучшим с точки зрения управления в целом. Если изобразить геометрически оптимальную траекторию в виде ломаной линии, то любая часть этой ломаной будет являться оптимальной траекторией относительно начала и конца.

Уравнения Беллмана. Вместо исходной задачи ДП с фиксированным числом шагов п и начальным состоянием s₀рассмотрим последовательность задач, полагая последовательно n=1, 2,... при различных s — одношаговую, двухшаговую и т.д., — используя принцип оптимальности.

Введем ряд новых обозначений. Обозначения в ДП несут большую информационную нагрузку, поэтому очень важно их четко усвоить.

На каждом шаге любого состояния системы sk-1 решение Хk нужно выбирать "с оглядкой", так как этот выбор влияет на последующее состояние sk и дальнейший процесс управления, зависящий от sk Это следует из принципа оптимальности.

Но есть один шаг, последний, который можно для любого состояния sn-1 планировать локально-оптимально, исходя только из соображений этого шага.

Рассмотрим n-й шаг: sn-1 — состояние системы к началу n-го шага, sn=ŝ — конечное состояние, Хn — управление на n-м шаге, а ƒ n-1 (sn-2,xn-1) — целевая функция (выигрыш) n-го шага.

Согласно принципу оптимальности, Хn нужно выбирать так, чтобы для любых состояний sn-1 получить максимум¹ целевой функции на этом шаге.

Обозначим через Zn(sn-1) максимум целевой функции — показателя эффективности n-го шага при условии, что к началу последнего шага система S была в произвольном состоянии sn-1, а на последнем шаге управление было оптимальным.

(12.5)

Zn(sn-1) называется условным максимумом целевой функции на п-м шаге. Очевидно, что

Zn (sn-1)= max fn(sn-1,Xn)

{ Xn }

Максимизация ведется по всем допустимым управлениям Хn.

Решение Х n, при котором достигается Zn(sn-1), также зависит от sn-1 и называется условным оптимальным управлением на п-м шаге. Оно обозначается через Хn(sn-1)).

Условно оптимальный выигрыш на п-м шаге

ƒ n-1 (sn-2,xn-1)

Значение целевой функции (n—1)-го шага при произвольном управлении Х_n_-1) и состоянии sn-2

Рис. 12.2

Решив одномерную задачу локальной оптимизации по уравнению (12.5), найдем для всех возможных состояний sn-1 две функции: Zn(sn-1) и Хn(sn-1)

Рассмотрим теперь двухшаговую задачу: присоединим к n-му шагу (n-1)-й (рис. 12.2).

Для любых состояний sn-2, произвольных управлений Хn-1 и оптимальном управлении на n-м шаге значение целевой функции на двух последних шагах равно:

fn-1(sn-2,Xn-1)+Zn(sn-1) (12.6)

Согласно принципу оптимальности для любых sn-2 решение нужно выбирать так, чтобы оно вместе с оптимальным управлением на последнем (n-м) шаге приводило бы к максимуму целевой функции на двух последних шагах. Следовательно, нужно найти максимум выражения (12.6) по всем допустимым управлениям Хn-\. Максимум этой суммы зависит от sn-2, обозначается через Zn-1(sn-2) и называется условным максимумом целевой функции при оптимальном управлении на двух последних шагах. Соответствующее управление Хn-1 на (n-1)-м шаге обозначается через Хn-1(sn-2) и называется условным оптимальным управлением на (n— 1)-м шаге.

Zn-1(sn-2)=max{fn-1(sn-2,Xn-1)+Zn(sn-1)} ( 12.7)

{Xn-1}

Следует обратить внимание на то, что выражение, стоящее в фигурных скобках (12.7), зависит только от sn-2 и Хn-1, так как sn-1 можно найти из уравнения состояний (12.2) при k=n-1

sn-1=φn-1(sn-2,Xn-1)

и подставить вместо sn-1 в функцию Zn(sn-1)

В результате максимизации только по одной переменной Хn-1 согласно уравнению (12.7) вновь получаются две функции:

Zn-1(sn-2) и Xn-1(sn-2)

Далее рассматривается трехшаговая задача: к двум последним шагам присоединяется (n— 2) -и и т. д.

Обозначим через Zk(sk-1) условный максимум целевой функции, полученный при оптимальном управлении на п-k+1 шагах, начиная с к-го до конца, при условии, что к началу к-го шага система находилась в состоянии sk-1. Фактически эта функция равна

Zk(sk-1)=max Σfi(si-1,Xi)

{(xk,…xn)}i=k

Тогда

Zk+1(sk)=max Σfi(si-1,Xi)

{(xk,…xn)}i=k

Рис. 12.3

Целевая функция на п-к последних шагах (рис. 12.3) при произвольном управлении Xk на к-м шаге и оптимальном управлении на последующих п-к шагах равна

Fk(sk-1,Xk)+Zk+1(sk)

Согласно принципу оптимальностми, Xk выбирается из условия максимума этой суммы, т.е.

Zk(sk-1)=max {fk(sk-1,Xk)+Zk+1(sk)} (12.8)

{Xk}

k=n-1, n-2,….,2,1.

Управление Xk на k-м шаге, при котором достигается максимум в (12.8), обозначается через Xk(sk-1) и называется условным оптимальным управлением на к-м шаге

⇐ Предыдущая 48 49 50 51 525354 55 56 57 Следующая ⇒

Дата публикования: 2015-02-18; Прочитано: 359 | Нарушение авторского права страницы | Мы поможем в написании вашей работы!

studopedia.org - Студопедия.Орг - 2014-2024 год. Студопедия не является автором материалов, которые размещены. Но предоставляет возможность бесплатного использования (0.017 с)...