Реферат: Синтез оптимальных уравнений

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

 

Механико-математический факультет

Кафедра теоретической механики и робототехники

Курсовая работаТема: Синтезоптимальных уравнений

                                                                  Студента3-го курса 13 группы

                                                                  ПавловскогоСергея Александровича

                                                                  Научныйруководитель

                                                                  ЛютовАлексей Иванович

     Минск 2001г.ОГЛАВЛЕНИЕ

Г л а в а I. Введение… 2

§ 1.   Задача  об оптимальном быстродействии… 2

       1.Понятие об оптимальномбыстродействии… 2

       2.Задача управления… 3

       3.Уравнения движения объекта… 5

       4.Допустимые управления… 6

§ 2.   Об основных направлениях в теории оптимальныхпроцессов… 7

       5.Метод динамическогопрограммирования… 7

       6.Принцип максимума… 9

§ 3.   Пример. Задача синтеза… 12

       7.Пример применения принципамаксимума… 12

       8.Проблема синтеза оптимальныхуправлений… 14

Г л а в а II. Линейныеоптимальные быстродействия… 15

§ 4   Линейная задача оптимальногоуправления… 15

       9.Формулировка задачи… 15

       10.Принцип максимума… 16

       11.Принцип максимума —необходимое и достаточное условие

оптимальности… 17

       12.Основные теоремы о линейныхоптимальных быстродействиях… 18

§ 5.   Решение задачи синтеза для линейных задачвторого порядка… 18

       13.Упрощение уравнений линейногоуправляемого объекта… 18

Г л а в а III. Синтезоптимальных управлений для уравнения второго

       порядка… 20

§ 6. Решение задачи синтеза в случаекомплексных собственных значений… 20

       14.Задача синтеза для малыхколебаний маятника… 20

Список используемой литературы… 23

Гл а в а I

ВВЕДЕНИЕ

Управляемые объекты прочно вошли в нашу повседневнуюжизнь и стали обиходными, обыденными явлениями. Мы видим их буквально на каждомшагу: автомобиль, самолёт, всевозможные электроприборы, снабжённые регуляторами(например, электрохолодильник), и т. п. Общим во всех этих случаях является то,что мы можем «управлять» объектом, можем в той или иной степени влиять на егоповедение.

Обычно переходуправляемого объекта из одного состояния в другое может быть осуществлёнмногими различными способами. Поэтому возникает вопрос о выборе такого пути,который с некоторой (но вполне определённой) точки зрения окажется наиболеевыгодным. Это и есть (несколько расплывчато сформулированная) задача обоптимальном управлении.

§ 1.  Задача  об оптимальномбыстродействии

1.  />Понятие обуправляемых объектах. Рассмотрим прямолинейное движение автомобиля. Вкаждый момент вре­мени состояние автомобиля можно характеризовать двумя числами:пройден­ным расстоянием s и скоростью движения v. Эти две величины меняются с те­чением времени, но несамопроизвольно, а сообразно воле водителя, который может по своему желаниюуправлять работой двигателя, увеличивая или уменьшая развиваемую этимдвигателем силу F. Таким образом, мы имеем трисвязанных между собой параметра: s,v,F, показанныхна схеме (рис. 1). Величины s,v, характеризующие состояние автомобиля, называютего фазовыми координатами, а величину Fуправляющим параметром.

Если мы будемрассматривать движение автомобиля по плоскости (а не по прямой), то фазовыхкоординат будет четыре (две «географические» координаты и две компоненты скорости),а управляющих параметров – два (например, сила тяги двигателя и угол поворотаруля). У летящего самолёта можно рассматривать шесть фазовых координат (три пространственныекоординаты и три компоненты скорости) и несколько управляющих параметров (тягадвигателя, величины, характеризующие положение рулей высоты и направления, элеронов).

/>Разумеется,в проводимом ниже математическом исследовании мы будем иметь дело не с самимиреальными объектами, а с некоторой математической моделью. Сказанное выше делаетестественным следующее математическое описание управляемого объекта. Состояниеобъекта задаётся (в каждый момент времени) nчислами x1, x2,…,xn,которые называются фазовыми координатами объекта. Движениеобъекта заключается с математической точки зрения в том, что его состояние стечением времени изменяется, т. е. x1,x2,…,xnявляются переменными величинами (функциями времени). Движение объектапроисходит не самопроизвольно. Им можно управлять; для этого объект снабжён«рулями», положение которых характеризуется (в каждый момент времени) r числами u1,u2,…,ur;эти числа называются управляющими параметрами. Рулями можно«манипулировать», т. е. по своему желанию менять (конечно, в допустимыхпределах) управляющие параметры u1,u2,…,ur.Иначе говоря, мы можем по желанию выбрать функции u1(t),u2(t),…,ur(t), описывающие изменение управляющих параметров стечением времени. Мы будем предполагать (как это обычно и бывает), что, знаяфазовое состояние объекта в начальный момент времени и выбрав управляющие функцииu1(t),u2(t),…,ur(t) (для t>t0), мыможем точно и однозначно рассчитать поведение объекта для всех t>t0,<sub/>т. е. можем найти функции x1(t),x2(t),…,xn(t), характеризующие изменение фазовых координат стечением времени. Таким образом, изменение фазовых координат x1,x2,…,xnуже не зависитнепосредственно от нашего желания, но на движение объекта мы всё же можем в тойили иной мере воздействовать, выбирая по своему желанию управляющие функции u1(t),u2(t),…,ur(t).

Управляемыйобъект, о котором только что шла речь, в теории автоматического управленияпринято изображать так, как это показано на рис. 2. Величины u1,u2,…,ur (управляющие параметры) часто называюттакже «входными переменными», а величины x1,x2,…,xn(фазовые координаты) – «выходными переменными». Говорят ещё, что «на вход»объекта поданы величины u1,u2,…,ur,а «на выходе» мы получаем величины x1,x2,…,xn.Разумеется, на рис. 2 показано лишь условное обозначение управляемогообъекта и никак не отражено его «внутреннее устройство», знание которогонеобходимо, чтобы выяснить, каким образом, зная управляющие функции u1(t),u2(t),…,ur(t), можновычислить изменение фазовых координат x1(t),x2(t),…,xn(t).

Величины u1,u2,…,ur удобно считать координатами некоторого вектораu=(u1,u2,…,ur),также называемого управляющим параметром (векторным). Точно так жевеличины x1, x2,…,xnудобно рассматривать как координаты некоторого вектора(или точки) x=(x1,x2,…,xnn – мерном пространстве с координатами x1, x2,…,xn. Эту точку  называют фазовым состояниемобъекта, а n – мерное пространство, в котором ввиде точек изображаются фазовые состояния, называется фазовым пространствомрассматриваемого объекта. Если объект таков, что его фазовое состояниехарактеризуется только двумя фазовыми координатами x1,x2 (см. рис. 1), то мы будемговорить о фазовой плоскости. В этом случае фазовые состояния объектаизображаются особенно наглядно.

/>Итак,в векторных обозначениях рассматриваемый управляемый объект можно изобразитьтак, как показано на рис. 3. Входящая величина u=(u1,u2,…,ur) представляет собой управляющий параметр, авыходная величина x=(x1,x2,…,xn)представляет собой точку фазового пространства (или, иначе, фазовое состояниеобъекта).

/>Каксказано выше, чтобы полностью задать движение объекта, надо задать его фазовоесостояние x0=(x01,x02,…, x0n)в начальный момент времени t0и выбратьуправляющие функции u1(t), u2(t),…, ur(t) (для t>t0), т. е. выбрать векторную функцию u(t)= u1(t),u2(t),…,ur(t)). Эту функцию u(t) мы будем называть управлением. Задание начальногофазового состояния x0и управления u(t) однозначно определяетдальнейшее движение объекта. Это движение заключается в том, что фазовая точка x(t)=(x1(t),x2(t),…,xn(t)), изображающая состояние объекта, с течением времениперемещается, описывая в фазовом пространстве некоторую линию, называемую фазовойтраекторией рассматриваемого движение объекта (случай n=2изображён на рис. 4). Очевидно, что эта линия исходит из точки x0, поскольку x(t0)=x0.

Пару векторныхфункций (u(t), x(t)), т. е. управление u(t) и соответствующуюфазовую траекторию x(t),мы будем называть в дальнейшем процессом управления или просто процессом.

/>Итак,резюмируем. Состояние управляемого объекта в каждый момент временихарактеризуется фазовой точкой x=(x1, x2,…,xn). На движение объекта можно воздействоватьпри помощи управляющего параметра u=(u1,u2,…,ur). Изменение величин u,x с течением времени мы называем процессом;процесс (u(t), x(t)) составляется из управленияu(t) и фазовойтраектории x(t).Процесс полностью определяется, если задано управление u(t) (при t>t0) и начальное фазовое состояние x0=x(t0).

2.  Задача управления. Часто встречается следующая задача,связанная с управляемыми объектами. В начальный момент времени t0объект находится в фазовом состоянииx0; требуется выбрать такоеуправление u(t),которое переведёт объект в заранее заданное конечное фазовое состояние x1 (отличное от x0;рис. 5). При этом нередко бывает, что начальное состояние x0заранее не известно. Рассмотрим один из наиболее типичных примеров. Объектдолжен устойчиво работать в некотором режиме (т. е. находиться в некоторомфазовом состоянии x1). В результатетех или иных причин (например, под воздействием неожиданного толчка) объектможет выйти из рабочего состояния x1и оказаться в некотором другом состоянии x0.При этом точка x0, в которую можетпопасть объект, заранее не известна, и мы должны уметь так управлять объектом,чтобы из любой точки x0(или хотя быиз точек x0достаточно близких к x1) вернуть его в рабочее состояние x1 (рис. 6).

/>Такое управление частоосуществляется человеком (оператором), который следит за приборами и стараетсявыбирать управление, поддерживающее объект в требуемом рабочем режиме.

Однако всовременных условиях высокого развития техники оператор зачастую не можетуспешно справиться с этой задачей ввиду сложности поведения объекта, большойбыстроты протекания процессов и т. п. Поэтому чрезвычайно важно создать такиеприборы, которые сами, без участия человека, управляли бы работой объекта (например,в случае выхода объекта из рабочего состояния возвращали бы его в это рабочеесостояние). Такие приборы («регуляторы», «автоматические управляющие устройства»и т. п.) сейчас очень распространены в технике, их изучением занимается теорияавтоматического управления.

Первым устройством этого рода был центробежныйрегулятор Уатта, сконструированный для управления работой паровой машины (см.рис. 9). Схема этого регулятора показана на рис. 7. В общем случае (рис. 8) навход регулятора подаются фазовые координаты объекта.

/> <td/> />
Обычно требуется, чтобы переходный процесс (т. е. процесс перехода изначального фазового состояния x0впредписанное состояние x1, рис. 5)был в определённом смысле «наилучшим», например, чтобы время перехода былонаименьшим или чтобы энергия, затраченная в течение переходного процесса, быламинимальной и т. п. Такой «наилучший» переходный процесс называется оптимальнымпроцессом. Термин «оптимальный процесс» требует уточнения, т. к. необходиморазъяснить, в каком смысле понимается оптимальность. Если речь идёт онаименьшем времени перехода, то такие процессы называются оптимальными всмысле быстродействия. Иначе говоря, процесс, в результате которого объектпереходит из точки x0в точку x1 (рис. 5), называется оптимальным в смыслебыстродействия, если не существует процесса, переводящего объект из xx1за меньшее время (здесь и далее предполагается, что x1≠x0). Разумеется, желательно,чтобы регулятор не просто возвращал объект в рабочее состояние, а делал этонаилучшим образом, например, в смысле быстродействия (т. е. возвращал объект врабочее состояние за кратчайшее время). В связи с этим в теории автоматическогоуправления рассматриваются весьма различные регуляторы. Рассмотрениерегуляторов приводит к тому, что уменьшение времени переходного процессасвязано с усложнением конструкции регулятора; поэтому, усложняя конструкциюрегулятора, можно лишь приближаться к «идеальному», «оптимальному» регулятору,который во всех случаях осуществляет переходный процесс за кратчайшее время. Вточности же «оптимального» регулятора, по-видимому, осуществить нельзя. Однакотакой вывод является ошибочным, т. к. сейчас уже создали математический аппарат,рассчитывающий такие регуляторы. Можно предполагать, что оптимальные регуляторыбудут играть важную роль в технике будущего.

3.   />Уравнениядвижения объекта. Начнём с рассмотрения одного простого примера. Пусть G – тело, которое может совершать прямолинейное движение(рис. 10). Массу этого тела будем предполагать постоянной и равной m, а его размерами будем пренебрегать (т. е. будемсчитать G материальной точкой.) Координату тела G (отсчитываемую от некоторой точки Oтой прямой, по которой оно движется) будем обозначать через x1. При движении тела G его координата x1меняется с течением времени. Производная />представляетсобой скорость движения тела G. Будемпредполагать, что на тело G действуют двевнешние силы: сила трения ─/>и упругаясила ─ kx1 и что, кроме того,тело G снабженодвигателем. Развиваемую двигателем силу воздействия на тело G обозначим через u. Таким образом, по второму закону Ньютона движение телаG с течением временибудет описываться дифференциальным уравнением

/>

Обозначивскорость движения через x2(т. е.положив />), мы сможем записать этотзакон движения в виде следующей системы дифференциальных уравнений:

/>/>                                                       (1.1)

Здесь величины x1, x2являются фазовыми координатами тела G, авеличина u – управляющим параметром, т. е. мыимеем объект, схематически изображённый на рис. 11.

Уравнения (1.1) представляют собой закон измененияфазовых координат с течением времени (с учётом воздействия управляющегопараметра), т. е. представляют собой закон движения фазовой точки в фазовойплоскости.

Мы рассмотрели лишь одинчастный случай, но можно было бы указать целый ряд других примеров, в которыхзакон движения объекта описывается дифференциальными уравнениями. Чаще всего(см.(1.1)) эти уравнения дают выражения производных от фазовых координат черезсами фазовые координаты и управляющие параметры, т. е. имеют вид

/>                                                            (1.2)

где f1, f2,…, fn– некоторые функции, определяемые внутренним устройством объекта.

В дальнейшем мы сосредоточимсвоё внимание именно на таких объектах (рис. 2), закон движения которыхописывается системой дифференциальных уравнений вида (1.2). В векторной формесистему (1.2) можно записать в виде

/>                                                                                             (1.3)

где x ─ вектор с координатами x1,…,xn, u – вектор с координатами u1,…, urи, наконец,  f(x, u) – вектор, координатами которого служатправые части системы (1.2).

Разумеется, невозможно решитьсистему дифференциальных уравнений (1.2) (т. е. найти закон движения объекта),не зная каким образом будут меняться с течением времени управляющие параметры u1,u2,…, ur. Напротив, зная поведение величин u1,u2,…,ur, т. е. зная управляющие функции u1(t),u2(t),…, ur(t) для t>t0мы сможем из системы уравнений

/>                                                      (1.4)

или, что то же самое, из векторного уравнения

/>                                                                                        (1.5)

однозначно определить движениеобъекта (при t>t0), если нам известно начальноефазовое состояние объекта (в момент t=t0). Иначе говоря,задание управления u(t) и начального фазового состояния x0однозначно определяет фазовую траекторию x(t) при t>t0,что согласуется со сделанными ранее (стр. 1) предположениями о свойствахобъекта.

Тот факт, чтозадание начального фазового состояния (в момент t=t0)позволяет из системы (1.4) однозначно определить фазовую траекторию x(t), t>t0,вытекает из теоремы о существовании и единственности решений системыдифференциальных уравнений. />Предположим, что, знаяначальное фазовое состояние x0и управление u(t)=(u1(t),…,ur(t)), мы определили фазовую траекторию x(t) (с помощьюсистемы (1.4)). Если мы изменим управление u(t) (сохранив то женачальное состояние x0), то получим некоторую другую траекторию,исходящую из той же точки x0; вновьизменим управлениеu(t)– получим ещё одну траекторию и т. д. Таким образом, рассматривая различныеуправления u(t),мы получим много траекторий, исходящих из точки x0(рис. 12). (Разумеется, это не противоречит теореме единственности в теориидифференциальных уравнений, так как, заменяя функции u1(t),…,ur(t) другими функциями, мы переходим от системы дифференциальныхуравнений относительно фазовых координат x1,…,xn.)

Напомним, что задачаоптимального быстродействия заключается в отыскании такого управления u(t), для которого фазоваятраектория x(t),соответствующая этому управлению в силу уравнения (1.5), проходит через точку x1 и переход из xx1осуществляетсяза кратчайшее время. Такое управление u(t) будем называть оптимальным управлением (в смыслебыстродействия); точно так же соответствующую траекторию x(t) буде называть оптимальнойтраекторией.

4.  Допустимые управления. Обычно управляющие параметры u1,…,urне могут принимать совершенно произвольные значения, а подчинены некоторымограничениям. Так, например, в случае объекта, описанного на стр. 4,естественно предположить, что сила u, развиваемаядвигателем, не может быть как угодно большой по величине, а подчинена ограничениямαuβ, где α и  β – некоторыепостоянные, характеризующие двигатель. В частности, при α=─1,β=1 мы получаем ограничение ─1≤u≤1, которое означает, что двигатель можетразвивать силу, направленную вдоль оси x1как в положительном, так и в отрицательном направлении, но не превосходящуюединицы по абсолютной величине.

Для объектов,содержащих r управляющих параметров u1,…,ur,в приложениях часто встречается случай, когда эти параметры могут произвольноменяться в следующих пределах:

α1≤u1≤β1, α2≤u2≤β2,…,αrurβr.

Иначе говоря, каждая из величин u1, u2,…,ur в уравнениях (1.2)представляет собой отдельный управляющий параметр, область изменения которогоне зависит от значений остальных

управляющих параметров и задаётсянеравенствами

αiuiβi, i=1,…,r.                                                                                  (1.6)

Заметим, что при r=2 точки u=(u1, u2),координаты которых подчинены неравенствам (1.6), заполняют прямоугольник; при r=3 неравенства (1.6) определяют в пространстве переменныхu1,u2,u3 прямоугольный параллелепипед; в случаепроизвольного r говорят, что неравенства (1.6) определяютr-мерный параллелепипед.

В общем случаебудем считать, что в соответствии с конструкцией объекта и условиями егоэксплуатации задано в пространстве переменных u1,…,ur некоторое множество U и управляющие параметры u1,u2,…, urдолжны в каждый момент времени принимать лишь такие значения, чтобы точка u=(u1,u2,…,ur)принадлежала множеству U. Иначе говоря, разрешаетсярассматривать лишь такие управления u(t), что u(t) />U для любого t. Множество U в дальнейшем будем называть областью управления.Область управления U не всегда будетпараллелепипедом; она может иметь геометрически более или менее сложныйхарактер, так как в силу конструкции объекта между управляющими параметрами u1, u2,…,ur могут существовать связи, выражаемые, например,уравнениями вида φ(u1, u2,…, ur)=0или неравенствами ψ(u1, u2,…, ur)≤0.Так, если параметры u1,u2 характеризуют векторную величину на плоскости,модуль которой не превосходит единицы, а направление произвольно, то эти параметрыподчинены только одному условию

(u1)2 +(u2)2─1≤0                                                                                    (1.7)

и область управления U представляет собой круг. В дальнейшем будемпредполагать, что указание области управления входит в математическоеопределение объекта, т. е. что для математического задания управляемогообъекта надо указать закон его движения (1.2) и область управления U.

Наконец,сделаем ещё одно, весьма существенное предположение о характере управлений.Именно, будем предполагать, что «рули», положения которых характеризуются управляющимипараметрами u1,u2,…,ur,безынерционны, так что мы можем, если нужно, мгновеннопереключать эти «рули» из одного положения в другое, т. е. менять скачкомзначения управляющих параметров u1,u2,…,ur.В соответствии с этим будем рассматривать не только непрерывные, но и кусочно-непрерывныеуправления u(t).Кроме того, будем предполагать, что каждое рассматриваемое управление u(t) непрерывно на концахотрезка t0≤tt1, на котором оно  задано, т. е. что всеточки разрыва, если они есть, расположены на интервале t0<t<t1. Дляудобства условимся называть допустимым управлением всякуюкусочно-непрерывную функцию u(t), t0≤tt1, созначениями в области управления U, непрерывнуюсправа в точках разрыва (для определённости нам так удобно предполагать) инепрерывную в концах отрезка [t0; t1], на котором она задана.

Задача обоптимальных быстродействиях уточняется теперь следующим образом:

Среди всехдопустимых управлений u=u(t), под воздействием которых управляемый объект (1.3)переходит из заданного начального фазового состояния x0в предписанное конечное состояние x1,найти такое, для которого этот переход осуществляется за кратчайшее время

§ 2.  Об основныхнаправлениях в теории оптимальных процессов

5.  Метод динамического программирования. Для управляемогообъекта, описанного в предыдущем параграфе, мы рассмотрим задачу об оптимальномпереходе ─ в смысле быстродействия ─ из фазового состояния x в фазовое состояние x1.При этом конечную фазовую точку x1будем считать фиксированной, а в качестве начальной точки xбудем рассматривать различные точки фазового пространства. Мыбудем предполагать в этом пункте, что для рассматриваемого управляемого объектавыполняется следующая гипотеза:

Г и п о т е з а 1. Какова бы ни была отличная от x1 точка x фазовогопространства, существует оптимальный (в смысле быстродействия) процесс переходаиз точки x0в точку x1 (рис. 6).

Время, втечение которого осуществляется оптимальный переход из точки x0в точку x1,обозначим через T(x).В дальнейших рассуждениях будет удобно вместо T(x) ввести функцию ω(x), отличающуюся от неё знаком

ω(x)= ─T(x).                                                                                          (1.8)

Так как каждаяточка x фазового пространства имеет координаты x1,…,xn,то ω(x)=─T(x)является функцией от n переменных, т. е. ω(x)= ω(x1,…,xn). Поэтому имеет смысл говорить онепрерывности этой функции (по совокупности переменных x1,…,xn) и о дифференцируемости этой функции покаждой из переменных x1,…,xn.

Атакже будем предполагать, что для рассматриваемого управляемого объектавыполняется следующая гипотеза:

Ги п о т е з а 2.Функция ω(x) непрерывна и всюду, кроме точки x1, имеет непрерывные частные производные />

Пусть теперь x0─ произвольная отличная от x1 точка фазового пространства, а u0─ произвольная точка области U. Предположим, что объект находится в момент t0в фазовом состоянии x0и движется в течение некоторого  времени под воздействием постоянного управленияu= u0.Фазовую траекторию объекта при этом движении обозначим через y(t)=(y1(t),…, yn(t)). Таким образом, фазовая траектория y(t) при t>t0удовлетворяетуравнениям

/>                                                               (1.9)

(см. (1.2), (1.3)) и начальномуусловию

y(t0)=x0.                                                                                                (1.10)

Если мы будемдвигаться  из точки x0до точки y(t) (по рассматриваемойфазовой траектории), то затратим на это движение время tt0. Двигаясь затем из точки y(t) оптимально,  мызатратим на движение от точки y(t) до точки x1время T(y(t)). В результате мы совершим переход из точки x0в точку x1,затратив на этот переход время (tt0)+T(y(t)). Но так как оптимальноевремя движения от точки x0до точки x1 равно T(x0), т. е. равно T(y(t0)), то T(y(t0))≤(tt0)+T(y(t)).Заменяя функцию T через ω (см.(1.8)) и разделив обе части неравенства на положительную величину tt0,получаем отсюда />и поэтому,переходя к пределу при t→t0, находим

/>│при />≤1.                                                                       (1.11)

Но производная, указанная в левой части этогонеравенства, вычисляется по формуле полной производной /> Поэтому согласно (1.9) и(1.10) неравенство (1.11) принимает вид /> Точкиx0, u0здесь были произвольными. Таким образом,для любой (отличной от x1) точки xфазового пространства и любой точки u областиуправления U выполнено соотношение

/>                                                                         (1.12)

Пусть теперь (u(t), x(t))─ оптимальный процесс, переводящий объект из фазового состояния x0в состояние x1,и t0≤tt1 ─ отрезок времени, в течение которогоэто оптимальное движение происходит, так что x(t0)=x0,x(t1)=x1 и t1=t0 + T(x0). Движение по рассматриваемой оптимальнойтраектории от точки x0до точки x(t) осуществляется втечение времени tt0, а движение от точки x(t) до точкиx1─ в течение времени T(x0)─ (tt0).Быстрее, чем за время T(x0)─ (tt0),из точки x(t)попасть в точку x1 невозможно. Итак, T(x0) ─ (tt0)есть время оптимального движения из точки x(t) в точку x1,т. е. T(x(t))=T(x0) ─ (tt0). Заменив здесь T через ω, т. е. ω(x(t))=ω(x0) + tt0)и взяв производную по t, получаем

/> t0≤tt1.                 (1.13)

Таким образом, для каждого оптимального процессав течение всего движения выполняется равенство (1.13).

Если мы теперь введём в рассмотрение функцию

B(x, u(t))=/>,                                                              (1.14)

То соотношения (1.12) и(1.13) могут быть записаны следующим образом:

B(x, u)≤1 для всехточек xxu;                                                     (1.15)

B(x, u)≡1 для любогооптимального процесса (u(t),x(t)).              (1.16)

Итак, справедлива следующая

Т е о р е м а 1.1. Еслидля управляемого объекта, описываемого уравнением (1.5) и предписанногоконечного состояния x1выполнены гипотезы 1 и 2, то имеют место соотношения (1.15)и (1.16) (оптимальность понимается в смысле быстродействия).

Эта теорема исоставляет сущность метода динамического программирования для рассматриваемойзадачи. Эту теорему можно сформулировать и несколько иначе. Написав соотношение(1.16)

Для t=t0, получимB(x0,u(t0))=1,т. е. для любой точки x0(отличнойот x1)найдётся в U такая точка u (а именно u=u(t0)), что B(x0, u)=1. В сопоставлении с неравенством (1.15) получаемсоотношение

/> для любой точки xx1.         (1.16*)

Метод динамическогопрограммирования (1.15), (1.16) (или, что то же самое, (1.16*),(1.16)) содержит некоторую информацию об оптимальных процессах и потому можетбыть использован для их разыскания. Однако он имеет ряд неудобств. Во-первых,применение этого метода требует нахождения не только оптимальных управлений, нои функции ω(x), так как эта функциявходит в соотношения (1.15) ─ (1.16*). Во-вторых, уравнениеБеллмана (1.16*) (или соотношения (1.15), (1.16)) представляет собойуравнение в частных производных относительно функции ω, осложнённоек тому же знаком максимума. Указанные обстоятельства сильно затрудняютвозможность пользования методом динамического программирования для отысканияоптимальных процессов в конкретных примерах. Но самым главным недостатком этогометода является предположение о выполнении гипотез 1 и 2. Ведь оптимальныеуправления и функция ω нам заранее не известны, так что гипотезы 1и 2 содержат предположение о неизвестной функции, и проверить выполнение этихгипотез по уравнениям движения объекта невозможно. Этот недостаток можно былобы считать не особенно существенным, если бы после решения оптимальной задачиэтим методом оказалось, что функция ω(x)действительно является непрерывно дифференцируемой. Но дело заключается в том,что даже в простейших, линейных задачах оптимального управления функция ω(x) не является, как правило, всюду дифференцируемой. Темне менее, методом динамического программирования можно нередко пользоваться какценным эвристическим средством.

6.   Принципмаксимума. Продолжим теперь рассуждения предыдущего пункта, предположив функциюω(x) ужедважды непрерывно дифференцируемой (всюду, кроме точки x1).Итак, будем предполагать, что выполнена следующая

Ги п о т е з а 3.функция ω(x) имеет при x≠x1вторые непрерывные производные /> i,j=1,2,…,n, афункции fi(x,u) ─ первые непрерывные производные/> где  i, j=1,2,…,n.

Пусть  (u(t), x(t)), t0≤tt1, ─ оптимальный процесс, переводящийобъект (1.2) (или (1.3)) из фазового состояния x0в состояние x1. Фиксируем некоторыймомент времени t,t0≤tt1, ирассмотрим функцию B(x,u(t))=/> переменного x. В силу гипотезы 3 вытекает, что функция B(x, u(t)) всюду, кроме точки x1,имеет непрерывные производные по переменным x1,x2,…,xn:

/>       (1.17)

В частности, так как x(t)≠x1 (поскольку t<t1), то функция B(x, u(t))имеет вблизи точки x=x(t) непрерывные производные по переменным x1,x2,…,xn. Далее, мы имеем в силу (1.15), (1.16) B(x, u(t))≤1 для любого x≠x1; B(x, u(t))=1при x=x(t).

Эти два соотношения означают, чтофункция B(x,u(t)) достигает в точке x=x(t)максимума, и потому её частные производные по x1,…,xn обращаются в нуль в этой точке:

/>      (1.18)

Кроме того, дифференцируя функцию/> по t,находим

/>

Поэтому соотношение (1.18) может быть переписано вследующем виде:

/>                  (1.19)

Заметим теперь, что в формулы (1.15), (1.16),(1.17) и (1.19) сама функция ω не входит, а входят только еёчастные производные />. Поэтому мывведём для удобства следующие обозначения:

/>                        (1.20)

Тогда функция B (см. (1.14)) записывается таким образом:

B(x(t), u(t))=/>

и соотношение (1.16)принимает вид

/>, для оптимального процесса(x(t), u(t)), t0≤t<t1.          (1.21)

Кроме того, согласно (1.15)

/> для любой точки u/>U и всех t0≤t<t1.            (1.22)

Наконец, соотношения (1.19)записываются следующим образом:

/>                                    (1.23)

Итак, если (u(t), x(t)),t0≤t<t1, ─ оптимальный процесс, тосуществуют такие функции ψ1(t),ψ2(t),…, ψn(t) (ониопределяются равенствами (1.20)), что имеют место соотношения (1.21),(1.22), (1.23).

Рассмотрение левых частей соотношений (1.21),(1.22) подсказывает нам, что целесообразно ввести в рассмотрение следующуюфункцию:

/>                 (1.24)

зависящую от 2n+r аргументов ψ1,ψ2,…, ψn,x1,…, xn,u1,…, ur.С помощью этой функции соотношения (1.21), (1.22) записываются в следующем виде:

/>  для оптимального процесса(u(t), x(t)),  t0≤t<t1,            (1.25)

где ψ(t)=(ψ1(t),…,ψn(t)) определяютсяравенствами (1.20);

/>для любой точки u/>U и всех t0≤t<t1.                              (1.26)

Вместо неравенства (1.26) мы можем в силу (1.25) написатьследующее соотношение:

/> t0≤t<t1.                              (1.27)

Наконец, соотношения (1.23) можно, очевидно, переписатьтак:

/>                                           (1.28)

Итак, если (u(t), x(t)), t0≤t<t1,─ оптимальный процесс, то существует такая функция ψ(t)=(ψ1(t),…,ψn(t)),что выполняются соотношения (1.25), (1.27), (1.28), где функция H определяется соотношением (1.24).

Так как в соотношениях (1.24),(1.25), (1.27), (1.28) нигде не участвует явно функция ω(x), то равенства (1.20), выражающие функции ψ1(t),…, ψn(t) через ω, никаких добавочных сведений недают, и о них можно забыть, ограничившись утверждением, что какие-то функции ψ1(t),…, ψn(t), удовлетворяющие перечисленным соотношениям (1.25),(1.27), (1.28), существуют. Соотношения (1.28) представляют собой системууравнений, которым эти функции удовлетворяют. Заметим, что функции ψ1(t),…, ψn(t) составляют нетривиальное решение этой системы (т. е.ни в какой момент времени t всеэти функции одновременно в нуль не обращаются); действительно, если бы принекотором t было ψ1(t)=ψ2(t)=…=ψn(t)=0, то в силу(1.24) мы получили бы H(ψ(t), x(t),u(t))=0, чтопротиворечит равенству (1.25). Таким образом, мы получаем следующую теорему,которая носит название принципа максимума.

Т е о р е м а 1.2.Предположим, что для рассматриваемого управляемого объекта, описываемогоуравнением (в векторной форме)

/>                                                                                   (A)

и предписанного конечногосостояния x1выполненыгипотезы 1, 2 и 3. Пусть (u(t), x(t)),t0≤tt1, ─ некоторый процесс, переводящийобъект из начального состояния x0 всостояние x1. Введём врассмотрение функцию H, зависящую от переменных x1(t),…, xn(t), u1,…,urи некоторых вспомогательных переменных ψ1(t),…, ψn(t) (см. (1.24)):

/>                                                                       (B)

С помощью этой функции H запишем следующую систему дифференциальных уравнений длявспомогательных переменных:

/>                                                       (C)

где (u(t), x(t))─ рассматриваемый процесс (см. (1.28)). Тогда, если процесс (u(t), x(t)), t0≤t<t1,является оптимальным, то существует такое нетривиальное решение ψ(t)=(ψ1(t),…,ψn(t)),t0≤t<t1, системы (C),что для любого момента t, t0≤t<t1, выполнено условие максимума

/>                                               (D)

(см. (1.27))и условие (1.25)H(ψ(t),x(t),u(t))=1.

Однако в приведённой здесьформе принцип максимума страдает одним недостатком: он выведен в предположениедифференцируемости (и даже двукратной) функции ω(x), а эта функция в действительности не является (вобычно встречающихся случаях) всюду дифференцируемой.

Из-за предположения овыполнении сформулированных гипотез (о функции ω(x))  принцип максимума в том виде, в каком онсформулирован выше, не является удобным условием оптимальности. По форме онвыведен как необходимое условие оптимальности: если процесс оптимален, товыполнено соотношение (1.16*) и соответственно (D),т. е. выполнение этого условия необходимо для оптимальности. Однако это условиевыведено лишь в предположении выполнения гипотез 1, 2, 3, а их выполнениеотнюдь не необходимо для оптимальности. Вот почему сформулированные выше теоремыне могут считаться необходимыми условиями оптимальности.

Замечательным, однако,является тот факт, что если в теореме 1.2 решение ψ(t)и условие максимума (D)рассматривать на всём отрезке t0≤tt1(ане только при t0≤t<t1), азаключительное условие

 H(ψ(t1), x(t1),u(t1))≥0,                                                                             (E)

то в этой форме принцип максимума будет справедлив безкаких бы то ни было предположений о функции ω, т. е. принцип максимумастанет весьма удобным и широко применимым необходимым условием оптимальности.

§ 3.  Пример. Задача синтеза

7.  Пример применения принципа максимума. В этом пункте мыразберём один пример вычисления оптимальных процессов. Именно, рассмотримуправляемый объект, упомянутый в п. 3 (см. уравнения (1.1)), при условии, чтосила трения и упругая сила отсутствуют (т. е. b=0,k=0), масса m равна единице (m=1), ауправляющий параметр подчинён ограничениям |u|≤1.Иначе говоря, мы рассматриваем материальную точку Gмассы m=1 (см. рис. 10), свободно и без трениядвижущуюся по горизонтальной прямой и снабжённую двигателем, развивающим силу u, где |u|≤1.Согласно (1.1) уравнения движения этого объекта имеют вид:

/>                                                                                            (1.29)

─1≤u≤1.                                                                                               (1.30)

Для этого объекта рассмотримзадачу о быстрейшем попадании в начало координат (0, 0) из заданного начальногосостояния x0=(x01,x02). Иначе говоря, будемрассматривать задачу об оптимальном быстродействии в случае, когда конечнымположением служит точка x1=(0, 0).Механически это означает, что материальную точку, имеющую заданное положение x01 и заданную начальную скорость x02, мы хотим за кратчайшее времяпривести в начало отсчёта с нулевой скоростью (т. е. добиться того, чтобы точкапришла в начало отсчёта и остановилась там).

Функция Hв рассматриваемом случае имеет вид

H=ψ1x2+ψ2u                                                                                         (1.31)

(см. (1.29) и (B)). Далее, для вспомогательныхпеременных ψ1, ψ2 мы получаемсистему уравнений />. Из этой системыуравнений находим:       ψ1=d1; ψ2= ─d1t+d2, где d1, d2 ─постоянные интегрирования. Далее, в силу соотношения максимума (D) мы находим, учитывая (1.31) и (1.30):

u(t)= +1, если ψ2(t)>0;   u(t)= ─1, если ψ2(t)<0.

Иначе говоря, u(t)=sign ψ2(t)=sign (─ d1t + d2).Отсюда следует, чтокаждое оптимальное управление u(t), t0≤tt1,является кусочно-постоянной функцией, принимающей значения /> и имеющей не болеедвух интервалов постоянства (ибо линейная функция ─d1t + d2 не более одного раза меняет знак на отрезкеt0≤tt1).

Для отрезка времени, на которомu/>1, мы имеем(в силу системы (1.29)) />, откуданаходим

x1=1/2(x2)2+c.                                                                                       (1.32)

/> <td/> />
/>/>Такимобразом, кусок фазовой траектории, для которого u/>1, представляет собойдугу параболы (1.32). Семейство парабол (1.32) показано на рис. 13 (ониполучаются друг из друга сдвигом в направлении осиx1).По этим параболам фазовые точки движутся снизу вверх (ибо />= u/>1, т. е. />).

Аналогично для отрезка времени,на котором u/> ─1,мы имеем, откуда находим

x1= ─1/2(x2)2+ c’.                                                                                (1.33)

Семейство парабол (1.33) (также получающихся друг из другасдвигом в направлении оси x1)показано на рис. 14. По параболам (1.33) фазовые точки движутся сверху вниз(ибо />)

/> <td/> />
Как было указано выше, каждое оптимальное управление u(t) является кусочно-постоянной функцией, принимающейзначения /> и имеющей не более двухинтервалов постоянства. Если управление u(t) сначала, в течение некоторого времени, равно +1, азатем равно ─1, то фазовая траектория состоит из двух кусков парабол(рис. 15), примыкающих друг к другу, причём второй из этих кусков лежит на тойиз парабол (1.33), которая проходит через начало координат (ибо искомаятраектория должна вести в начало координат). Если же, наоборот, сначала u= ─1, а затем u= +1,то мы получаем фазовую траекторию, изображённую на рис. 16. На рис. 15, 16надписаны на дугах парабол соответствующие значения управляющего параметра u.

На рис. 17 изображено всёсемейство полученных таким образом фазовых траекторий (здесь AO ─ дуга параболы x1=1/2(x2)2, расположенная в нижнейполуплоскости; BO ─ дуга параболы x1= ─1/2(x2)2,расположенная в верхней полуплоскости).

/> <td/> />
Итак, согласно принципу максимума только изображённые на рис. 17траектории могут быть оптимальными, причём видно, что из каждой точкифазовой плоскости исходит только одна траектория, ведущая в начало координат,которая может быть оптимальной (т. е. задание начальной точки x0однозначно определяет соответствующуютраекторию).

8.  Проблема синтеза оптимальных управлений. Посмотрим наразобранный в предыдущих пунктах пример с несколько иной точки зрения.Найденное выше решение оптимальной задачи можно истолковать следующим образом.Обозначим через v(x)=+1 ниже линии AOBина дуге AO, v(x)= ─1 выше линии AOBи на дугеBO. Тогда (см. 17) на каждойоптимальной траектории значение u(t) управляющего параметра (в произвольный момент времени t) равно v(x(t)), т. е. равнозначению функции v в той точке, в которой в моментt находится движущаяся фазовая точка,пробегающая оптимальную траекторию u(t)=v(x(t)). Это означает, что, заменив в системе (1.29) величинуu функцией v(x), мы получим систему

/>                                                                                  (1.34)

решение которой (при произвольномначальном состоянииx0) даётоптимальную фазовую траекторию, ведущую в начало координат. Иначе говоря,система (1.34) представляет собой систему дифференциальных уравнений (сразрывной правой частью) для нахождения оптимальных траекторий, ведущих вначало координат.

Рассмотренный пример показывает, что решение задачиоб оптимальных управлениях естественно ожидать в следующей форме. Будем решатьоптимальную задачу в общей постановке:

/>  />

(см. п. 3), рассматриваявсевозможные начальные состояния и каждый раз предписывая в качестве конечногосостояния начало координат O фазовогопространства. Тогда (насколько можно судить по разобранному выше примеру) существуеттакая функция v(x),заданная в фазовом пространстве V принимающаязначения в области управления U, что уравнение

/>                                                                                  (1.35)

определяет все оптимальныетраектории, ведущие в начало координат. Иначе говоря, оптимальноеуправление оказывается естественным искать не в форме u=u(t), а в форме u=v(x),т. е. искомое оптимальное управление в каждый момент зависит лишь от того, вкакой точке пространства находится в данный момент фазовая точка.

Функцию v(x), дающую уравнениеоптимальных траекторий в форме (1.35), называют синтезирующей функцией, азадачу нахождения синтезирующей функции ─ задачей синтеза оптимальныхуправлений. В разобранном примере синтезирующая функция былакусочно-непрерывной (даже кусочно-постоянной).

Г л а в а II

ЛИНЕЙНЫЕ ОПТИМАЛЬНЫЕ БЫСТРОДЕЙСТВИЯ

§ 4.  Линейная задачаоптимального управления

9.  Формулировка задачи. Ниже будут подробно изучены управляемыеобъекты, движение которых описывается линейными дифференциальными уравнениямиотносительно величин x1,…,xn, u1,…,ur, т. е. уравнениями вида

/> i=1,2,…,n,                                                (2.1)

где aiαи biβ ─некоторые постоянные коэффициенты.

Одним изнаиболее важных для приложений является случай, когда каждая из величин u1,u2,…,ur в уравнениях (2.1) представляет собойотдельный управляющий параметр, область изменения которого не зависит отзначений остальных управляющих параметров и задаётся неравенствами

/> β=1,…,r.                                                                     (2.2)

Как было указано выше (см. п. 4),эти неравенства определяют r-мерныйпараллелепипед.

В дальнейшемпри рассмотрении объектов вида (2.1) будет предполагаться, что управляющийпараметр u=(u1,u2,…, ur)может меняться в замкнутой области управления U,представляющей собой выпуклый многогранник (лежащий в пространствепеременных u1,u2,…, ur).

Для того чтобызаписать уравнения (2.1) в векторной форме, мы введём в рассмотрение матрицы

/>                             (2.3)

элементами которыхявляются коэффициенты aiα,biβ, входящие вуравнения (2.1). Как обычно, результат применения матрицы Aк векторуx=(x1,x2,…, xn)мы будем обозначать символом Ax, т. е. y=Ax есть n-мерный вектор, координаты которого определяются формулами

/>                                                                      (2.4)

Аналогично длялюбого r-мерного вектора u=(u1, u2,…,ur) через Buобозначается вектор, i-я координата которогоравна /> Таким образом, матрица A определяет линейное отображение координатного n-мерного пространства снова в n-мерноепространство, а матрица B определяет отображениеr-мерного пространства в n-мерное.

Пользуясьматрицами A и B,мы можем теперь записать уравнения (2.1) в векторной форме:

/>                                                                                          (2.5)

Пусть u(t)=(u1,u2,…, ur)─ произвольное допустимое (в смысле п. 4) управление, заданное нанекотором отрезке t0≤tt1, и x0=(x10,…,xn0) ─ некотораяточка фазового пространства. Обозначим θ1,θ2,…,θk все точки, в которыххотя бы одна из функций  u1(t), u2(t),…, ur(t) терпит разрыв, причём занумеруем эти точки такимобразом, что t0<θ1<θ2<…<θk<t1.Подставив функции u1(t), u2(t),…, ur(t) в правые части системы (2.1), мы придём к системеуравнений

/>                                               (2.6)

или в векторной форме,

/>                                                                                      (2.7)

Систему (2.7)мы рассмотрим сначала для значений t,удовлетворяющих неравенствам t0≤tθ1.На этом отрезке изменения аргумента существуют такие функции x1(t),…, xn(t), определённыеи непрерывные на всём отрезке t0≤tθ1,которые, рассматриваемые на интервале t0<t<θ1,являются решениями системы (2.6) и, кроме того, удовлетворяют начальным условиямx1(t0)=x10, x2(t0)=x20,…,xn(t0)=xn0(согласно сведениям издифференциальных уравнений (см. книгу Л.С. Понтрягина «Обыкновенныедифференциальные уравнения», «Наука», М., 1965 (стр. 23, 24 и 168-172))).

Теперь мыможем рассмотреть систему (2.6) на отрезке θ1≤tθ2,воспользовавшись точкой γ1=(x1(θ1),…,xn(θ1),θ1) в качестве начального значения. На отрезке θ1≤tθ2 снова существует решение с начальнымзначением γ1. Это решение мы снова обозначим через x(t)=(x1(t),…, xn(t)). Теперь функция x(t) построена на отрезке t0≤tθ2и непрерывна на всём этом отрезке (и, в частности, в «точке сопряжения» θ1;).Воспользовавшись, далее, новым начальным значением γ2=(x1(θ2),…,xn(θ2),θ2), мы продолжим эту функцию x(t) на отрезок θ2≤tθ3и т. д. В конце концов мы определим x(t) на всём отрезке t0≤tt1.

Полученнаяфункция x(t)=(x1(t),…, xn(t))непрерывна на всём отрезке t0≤tt1 иявляется на нём кусочно-дифференцируемой; именно, во всех точкахинтервала t0<t<t1, кроме θ1,θ2,…,θk, функция x(t) непрерывнодифференцируема (и удовлетворяет системе (2.6)). Построенную функцию мы будемназывать решением системы (2.6) (или уравнения (2.7)), соответствующимуправлению u(t),при начальном условии x1(t0)=x10,x2(t0)=x20,…, xn(t0)=xn0.Наконец, мы будем говорить, что допустимое управление u(t), t0≤tt1, переводитфазовую точку из состояния x0всостояние x1 (в силу закона движения(2.1) или (2.5)), если соответствующее ему решение x(t) системы (2.1), удовлетворяющее начальному условию x(t0)=x0, приходит в момент t1в точку x1, т. е. удовлетворяет также«конечному» условию x(t1)=x1.

Теперь можноуточнить постановку задачи.

Линейнойзадачей оптимального управления мы будем называть задачу об отыскании оптимальныхбыстродействий в случае, когда выполнены следующие три условия:

1 )   уравнениядвижения объекта линейны (см. (2.1) или (2.5));

2)   предписанноеконечное состояние x1 совпадает сначалом координат (0, 0,…, 0) n-мерного фазовогопространства переменных x1, x2,…,xn;

3)   область управленияU является r-мернымвыпуклым многогранником в r-мерном пространстве(u1, u2,…,ur), причём начало координат этогопространства принадлежит многограннику U, но неявляется его вершиной.

Заметим, чтоначало координат xi=0, i=1,…,n, является положениемравновесия системы

/>                                                                      (2.8)

получающейся из системы (2.1)отбрасыванием управлений (т. е. получающейся из (2.1) при u1=u2=…=ur=0).Таким образом, условие 2) означает, что ищется управление, переводящее объектиз заданного начального состояния x0в положение равновесия.

10.   Принцип максимума. В пункте 6 мы сформулировалинеобходимое условие оптимальности, называемое принципом максимума.Данный пункт посвящён принципу максимума в случае линейной задачи оптимальногоуправления. Вначале укажем те упрощения в формулировке принципа максимума, которыевозникают в этом частном случае (т. е. в случае линейной задачи оптимальногоуправления).

Заметим,прежде всего, что функция H (см. формулу (B) на стр. 10) принимает вид

/>                (2.9)

(Здесь в правой части записаныскалярные произведения; например, ψAxесть скалярное произведение векторов ψ и Ax.)

Далее,рассмотрим систему дифференциальных уравнений для вспомогательных переменных ψ1, ψ2,…, ψn (см. формулу (C) на стр.10). Мы имеем

/>

Следовательно, система уравненийдля вспомогательных переменных принимает вид

/>                                                                      (2.10)

т. е. представляет собой так называемую сопряжённуюсистему (по отношению к линейной системе (2.8)). В векторной форме система(2.10) записывается в виде

/>                                                                                         (2.11)

где

/>

─ матрица, получающаяся изматрицы A транспонированием(т. е. заменой строк столбцами).

Так как в правой части соотношения (2.9) первоеслагаемое совсем не зависит от u, то принаписании соотношения (D) (см. стр. 11) достаточнорассмотреть лишь второе слагаемое. Таким образом, соотношение (D) принимает в рассматриваемом случае вид

/>                                                                    (2.12)

для любого момента τ,t0≤τt1.

Наконец, соотношение (E) (стр.11) становится просто ненужным, так как в рассматриваемом случае оно всегдавыполняется. Действительно, так как x(t1)=(0, 0,…, 0) (условие 2) на стр. 15), то в H(ψ(t1),x(t1),u(t1))первое слагаемое обращается в нуль (см. (2.9)). Второе же слагаемое, в силу(2.12), заведомо неотрицательно, ибо при u1=…=ur=0 (эта точка, в силу условия 3) на стр.15,принадлежит многограннику U) мы имеем ψ(τ)Bu=0, а потому максимальное значение выражения ψ(τ)Bu неотрицатнльно. Итак, соотношение H(ψ(t1), x(t1), u(t1))³0 для линейной оптимальной задачи всегдавыполнено.

Сказанное можно резюмировать следующим образом.Пусть u(t), tt£t1, — допустимое управление, переводящее объект (2.5) из заданного начальногосостояния x0в положение равновесия(0, 0,…, 0). Будем говорить, что управление u(t)удовлетворяет принципу максимума, еслисуществует такое нетривиальное решение y(t) уравнения (2.11), для которого выполняется условиемаксимума (2.12) (в каждый момент времени t,t0£t£t1). Для оптимальности управления u(t) необходимо, чтобыоно удовлетворяло принципу максимума. Это и есть та упрощённая формулировкапринципа максимума, к которой мы приходим в случае линейной задачи оптимальногоуправления.

11.   Принцип максимума — необходимое и достаточное условиеоптимальности. Замечательным фактом является то, что в случае линейнойзадачи оптимального управления принцип максимума представляет собой не тольконеобходимое, но и достаточное условие оптимальности. Однако факт этот имеетместо не для произвольной линейной задачи — имеются малосущественныеисключения. Поэтому мы наложим на линейную задачу некоторое ограничение,называемое условием общности положения. Сформулируем это условие:

Условие общности положения: если w — вектор, параллельный произвольному ребрумногогранника U, то вектор Bwне принадлежит никакому собственному инвариантному подпространству относительнопреобразования A. Невыполнение условияобщности положения означает, что хотя бы для одного ребра многогранника U векторы Bw, ABw, A2Bw,…,An-1Bw линейно зависимы, т. е.определитель n-го порядка, составленный изкоординат этих векторов, обращается в нуль. Однако всюду в дальнейшемусловие общности положения предполагается (если не оговорено противное)выполненным.

Теперь перейдём к теореме, упоминавшейся в началеэтого пункта.

Т е о р е м а 2.1. Пустьu(t), tt£t1, — допустимое управление, переводящееобъект из заданного начального состояния x0в положение равновесия (0, 0,…, 0). Для оптимальности управления u(t)необходимо идостаточно, чтобы оно удовлетворяло принципу максимума.

12.   Основные теоремы о линейных оптимальных быстродействиях.

Те о р е м а 2.2. Для каждого нетривиального решения y(t)уравнения (2.11)соотношение (2.12)однозначно определяетдопустимое управление u(t);при этом оказывается, что функция u(t)кусочно-постоянна и её значениями являются лишьвершины многогранника U.

Каждуюточку разрыва оптимального управления мы будем называтьточкой переключения.

Те о р е м а 2.3. Предположим, что многогранник Uявляется r-мерным параллелепипедом (2.2) ичто все собственные значения матрицы A=(aij), составленной из коэффициентовуравнений (2.1), действительны. Тогда в оптимальном управлении u(t)=(u1(t),…, ur(t)) каждая из функций ub(t),b=1,…,r, кусочно-постоянна,принимает только значения ab и bb(см.(2.2)) и имеет не более n-1переключений (т. е. не более nинтервалов постоянства), где n — порядоксистемы (2.1).

Те о р е м а 2.4 (т е о р е м а   е д и н с т в е н н о с т и). Пусть u1(t)и u2(t)— дваоптимальных управления, заданных соответственно на отрезках tt£t1и tt£t2и переводящих точку x0вначало координат. Тогда эти управления совпадают, т. е. t1=t2и u1(tu2(t) на отрезке tt£t1.

Областьюуправляемости для объекта (2.5)мы будем называть множество всехточек x0фазового пространстваX, из которых возможно при помощи какого-либодопустимого управления попасть в начало координат. Само начало координат мытакже будем причислять к области управляемости. Ясно, что вопрос о нахожденииоптимальных процессов разумно ставить лишь в случае, если начальное фазовое состояниеx0принадлежит области управляемости(ведь из точек, не принадлежащих области управляемости, вообще нельзя попасть вначало координат).

Те о р е м а 2.5 (т е о р е м а   с у щ е с т в о в а н и я). Областьуправляемости является выпуклым открытым множеством фазового пространства X; для любой точки x0,принадлежащей области управляемости, существует оптимальное управление,переводящее точку x0вначало координат.

Те о р е м а 2.6. Если в линейной задаче оптимального управления матрица A (см. (2.3)) устойчива, т. е. все еёсобственные значения имеют отрицательные действительные части, то областьуправляемости совпадает со всем фазовым пространством X.Следовательно, для любой точки x0ÎXсуществует оптимальное управление, переводящее фазовую точку x0в начало координат.

§ 5.Решение задачи синтеза для линейных задач второго порядка

13.   Упрощение уравнений линейного управляемого объекта.Нередко бывает, что в линейной задаче общая запись уравнений движения объекта ввиде (2.1) неудобна и целесообразно воспользоваться некоторыми упрощениями. Мыздесь отметим стандартные упрощения, которые можно осуществить с помощью заменыкоординат.

q  Прежде всего,рассмотрим вопрос о замене координат в фазовом пространстве X рассматриваемого управляемого объекта. Предположим, чтов пространстве X вместо координат x1,…, xnвведены новые координаты y1,…, yn, связанные с прежними координатамисоотношениями

/>                 />                                            (2.13)

(где матрицы P=(pij)и Q=(qij)взаимно обратны). Ясно, что при такой замене линейная система (2.1) превращаетсяв новую линейную систему

/>

коэффициентыкоторой легко вычисляются:

/>

Таким образом,      />,            />

Переходя квекторным обозначениям, можно сказать, что указанная замена координат переводитуравнение (2.5) в уравнение  /> гдематрицы C и Dвыражаются через матрицы A, B,P, Q поформулам C=QAP,  D=QB.

Очевидно, притакой замене условия 1), 2), указанные на стр. 15, сохраняются и для уравнения /> получаемого после замены.Далее, каждый процесс (u(t),x(t)), удовлетворяющийуравнению /> переходит в процесс (u(t), y(t)), удовлетворяющий уравнению /> (и обратно). Так как приэтом время t не меняется, то указанная замена переводитоптимальные процессы для уравнения />(инаоборот). В частности, синтез оптимальных управлений для уравнения /> переводится с помощьюпреобразования координат (2.13) в синтез оптимальных управлений для уравнения />.

Таким образом, если уравнение />окажетсяпроще и для него синтез оптимальных управлений можно будет построить, то изэтого синтеза можно (с помощью афинного преобразования (2.13)) получит синтез идля первоначального уравнения />. В этоми заключается смысл замены координат (2.13): она позволяет заменить матрицу A трансформированной матрицей C=QAP, в то же время вызывая лишь афинное искажение картинысинтеза оптимальных управлений. Таким образом, преобразованием (2.13) можновоспользоваться для упрощения матрицы A,составленной из коэффициентов при фазовых координатах.

q  Предположим,что в уравнении /> матрица A уже приведена к простейшему виду (с помощью описанноговыше приёма). Укажем теперь, каким образом может быть упрощена матрица B, составленная из коэффициентов при управляющихпараметрах.

С этой целью положим

/>                                                                 (2.14)

Это означает,что вместо r управляющих параметров u1,…,urвводятся n других управляющих параметров v1,…, vn,благодаря чему система (2.1) заменяется следующей:

/>

или ввекторной форме,  />

Нужно тольковыяснить, в каких пределах может изменяться точка v=(v1, v2,…,vn). Удобно считать, что эта точка v=(v1, v2,…, vn)расположена в том же пространстве X, что и точкаx=(x1,…,xn).

Соотношения (2.14) определяют линейное отображение r-мерногопространства переменных u1,…,ur в фазовое пространство X.Образом многогранника U при отображении (2.14)является некоторый выпуклый многогранник в пространстве X,который мы обозначим через V.

Таким образом, получаем два линейных уравнения:

/>                                                                (2.15)

/>                                                                (2.16)

Гл а в а III

СИНТЕЗ ОПТИМАЛЬНЫХ УПРАВЛЕНИЙДЛЯ УРАВНЕНИЯ ВТОРОГО ПОРЯДКА

§ 6. Решение задачи синтеза вслучае комплексных собственных значений

14.   Задача синтеза для малых колебаний маятника. Здесьбудет дано полное решение задачи синтеза оптимальных управлений для линейныхобъектов, описываемых уравнениями второго порядка. Фазовое пространство X в этом случае представляет собой плоскость.

Рассмотримколебание плоского маятника. Как известно колебание маятника, подвешенного кточке опоры, описывается дифференциальным уравнением второго порядка:

/>(в нашем случае положим β=1)

при малых колебаниях маятника Sinφ≈φ тогдауравнение движения маятника запишется в виде:

/>                                                                                  (3.1)

Управляющий параметр u (скалярный) будем предполагать изменяющимся в пределах -1£u£1.

Пусть />— угол отклонения, а /> — скорость маятника. Тогдауравнение (3.1) перепишется в виде следующей нормальной системы:

/>                                                                              (3.2)

На плоскости x1, x2«многогранник» U будет представляться отрезком [-1, 1], расположенным на оси x2. Легко видеть, что ось x2не является собственным инвариантным подпространством матрицы A, которая для системы (3.2) имеет вид:

A=/>,

и потому условие общностиположения всегда выполнено.

Найдёмсобственные значения матрицы A. Для этогосоставим характеристическое уравнение |λE─A|=0, т. е. λ2+λ+1=0.Откуда находим, что собственные значения матрицы Aтакие:

/>

т. е. собственные значенияматрицы A комплексные. Введём обозначения /> где b≠0.

Тогда матрица Aпреобразуется к виду:

/>=/>.

Будемрассматривать систему, соответствующую матрице />,т. е. систему вида:

/>                                                                     (3.3)

Вначалерассмотрим соответствующую однородную систему:

/>                                                                           (3.4)

Общее решениеэтой системы имеет вид:

/>

где c,γ – произвольные постоянныеинтегрирования.

Запишем функциюH и применим принцип максимума.

/>

где ψ1, ψ2определяются системой, сопряжённой к системе (3.3), т. е.системой вида:

/>                                                      (3.5)

Общее решениеэтой системы имеет вид:

/>

где c’,γ’ – произвольные постоянныеинтегрирования. Т. е. функция H имеет вид:

/>

Подставим вфункцию H представление решений x1, x2:

/>

Т. к. собственный вектор матрицы A, соответствующий собственному значению l имеет вид q1─iq2, где q1=(1;─1/2);q2=(0;─/>).

Пусть q1 и q2– базисные векторы новой косоугольной системы координат y1,y2. Тогда переход от системы y1, y2к системе x1, x2выражается формулами:

/>

Тогда в новыхкоординатах система уравнений (3.2) запишется в виде

/>

или, иначе, в виде

/>

где v=(v1, v2)─ управляющая точка, которая может меняться в пределах многогранника V, представляющего собой отрезок [/>] оси y2.

/>/>/>/>/>Согласнотеории вершинам e1=(0, />),  e2=(0,/>) многогранника V соответствуют точки h1=(1,-/>),h2=(-1, />)(координаты указаны в системе y1, y2), а каждый из углов a1, a2, соответствующихэтим вершинам, равен p.

Теперь уженетрудно построить синтез оптимальных управлений в плоскости y1, y2.Кусками фазовых траекторий будут дуги логарифмических спиралей, т. к. у нас b=1, т. е. b>0(рис. 18).

 При переходеот координат y1, y2к координатам x1, x2 картина синтеза афинно искажается.

Список используемойлитературы:1.   В.Г.Болтянский. «Математические методы оптимального управле­ния», М.: «Наука»,1968г.2.   Л.С.Понтрягин, В.Г. Болтянский, Р.В. Гамкрелидзе, Е.Ф. Мищенко. «Математическаятеория оптимальных процессов», 4-е издательство. М.: «Наука», 1983г.3.   Р.Габасов, Ф.М. Кириллова. «Методы  оптимизации», Минск, издательство БГУ, 1981г.
еще рефераты
Еще работы по математике