Higher-Order Iterative Learning Control Algorithms for Linear Systems

Мұқаба

Дәйексөз келтіру

Толық мәтін

Аннотация

Iterative learning control (ILC) algorithms appeared in connection with the problems of increasing the accuracy of performing repetitive operations by robots. They use information from previous repetitions to adjust the control signal on the current repetition. Most often, information from the previous repetition only is used. ILC algorithms that use information from several previous iterations are called higher-order algorithms. Recently, interest in these algorithms has increased in the literature in connection with robotic additive manufacturing problems. However, in addition to the fact that these algorithms have been little studied, there are conflicting estimates regarding their properties. This paper proposes new higher-order ILC algorithms for linear discrete and differential systems. The idea of these algorithms is based on an analogy with multi-step methods in optimization theory, in particular, with the heavy ball method. An example is given that confirms the possibility to accelerate convergence of the learning error when using such algorithms.

Толық мәтін

  1. ВВЕДЕНИЕ

Методы и алгоритмы управления с итеративным обучением появились как инструмент повышения точности выполнения повторяющихся операций роботами (см. [1]). После появления пионерской работы [1], в силу относительной простоты и естественной структуры конечных алгоритмов, управление с итеративным обучением (УИО) быстро приобрело широкую популярность, как среди теоретиков, так и среди практиков. Для первоначального знакомства с этим активно развивающимся направлением можно рекомендовать обзоры [2], [3], а также недавнюю монографию [4]. В настоящее время алгоритмы УИО находят эффективное применение в аддитивных производствах, в частности, в установках высокоточного многослойного лазерного напыления (см. [5], [6]) в медицинских роботах для реабилитации больных, перенесших инсульт (см. [7], [8]), в устройствах поддержки желудочка сердца (см. [9]) и в других многочисленных приложениях.

Одной из важнейших задач является повышение скорости сходимости алгоритмов УИО. Для решения этой задачи используются различные подходы. В настоящей работе предлагается подход, мотивированный идеей многошаговых методов в теории оптимизации (см. [10]). Хорошо известно, что такие двуxшаговые методы как метод тяжелого шарика и метод сопряженных градиентов позволяют существенно ускорить сходимость градиентного метода (см. [10]–[12]). Алгоритмы УИО, аналогично алгоритму градиентного метода, для формирования управления на текущем шаге используют информацию с текущего и предыдущего шагов и, как в многошаговых методах оптимизации, можно ожидать, что учет в этих алгоритмах более глубокой “предыстории” позволит ускорить сходимость. Далее алгоритмы УИО, использующие информацию с текущего и предыдущего шагов будем называть алгоритмами первого порядка, а при использовании информации с большего числа предыдущих шагов — алгоритмами высшего порядка.

Предлагаемый подход не является абсолютно новым и в различных версиях изучался в литературе (см. [13]–[21]). Однако во всех этих работах на текущем шаге используется лишь неполная информация об управлении на прошлых шагах, что представляется нелогичным в рамках указанных аналогий с многошаговыми методами оптимизации, где роль “управления” выполняет аргумент оптимизируемой функции. Тем не менее, в работах [14], [15] показано что даже такие “неполные” структуры УИО высшего порядка обеспечивают более высокую скорость сходимости, чем структуры УИО первого порядка. Такие же результаты были получены в [16]–[19], причем в [16]–[18] утверждаeтся, что эффект ускорения в алгоритмах высшего порядка достигается за счет эффектов обучения в течение нескольких предыдущих итераций. В [20] относительно УИО высшего и первого порядков представлены весьма неопределенные выводы. Авторы этой работы считают, что трудно обосновать достоинства той или иной стратегии УИО, хотя идея УИО высшего порядка кажется естественной. В работе [21] предложен алгоритм УИО на основе метода Нестерова (см. [22]), но скорость сходимости алгоритма по доказанному авторами составляет O (1 / k), в то время, как хорошо известно, она составляет O (1 / k2) (см. [22], [23]). Кроме того, предложенный алгоритм относится к типу причинных алгоритмов УИО и обладает известными недостатками (см. [2]), существенно ограничивающими их применение. Важно отметить, что выводы перечисленных работ сделаны на рассмотрении частных случаев и примеров, и ни в одной из них не приведен строгий сравнительный анализ в общей постановке даже для линейных систем.

В литературе изучались также другие свойства УИО высшего порядка (см. [24], [25]). В [24] утверждается, что реальной мотивацией использования УИО высшего порядка является уменьшение влияния помех и шума. В [25] рассматривается оптимальность УИО в смысле минимизации следа ковариационной матрицы ошибок управления в классе некоррелированных случайных возмущений. Показано, что УИО высшего порядка не уменьшает минимальное значение этого следа по сравнению с УИО первого порядка. Таким образом, выводы [24] и [25] противоречат друг другу. Окончательный вывод требует дополнительного исследования, поскольку в [24] не представлено достаточно полных доказательств, а в [25] в алгоритме УИО используется дискретный аналог производной необработанного случайного сигнала, и такое решение нельзя считать допустимым, поскольку уже само вычисление такой величины приводит к возрастанию дисперсии. Вопросы скорости сходимости ошибки обучения в [24] и [25] не изучались.

Наконец, отметим, что совсем недавно появился активный интерес к разработке и применению алгоритмов УИО высшего порядка в задачах аддитивных производств (см. [26]), мотивированный особенностями новых прикладных задач.

В настоящей работе, в отличие от упомянутых работ, строятся непричинные алгоритмы УИО, при этом по аналогии с многошаговыми методами на текущем повторении используется полная предыстория, т. е. полностью учитываются управляющие воздействия на определенном числе предыдущих повторений. Для построения алгоритмов используется разработанная авторами теория устойчивости повторяющихся процессов (см. [27]), в рамках которой условия сходимости ошибки обучения выражаются через свойства дивергенции векторной функции Ляпунова. В рассматриваемом линейном случае эта теория позволяет использовать эффективную технику линейных матричных неравенств. Общих результатов, доказывающих преимущество алгоритмов УИО высшего порядка в смысле увеличения скорости сходимости ошибки обучения, пока получить не удалось, но приведенный пример, использующий характеристики реального портального робота, убедительно подтверждает это преимущество и служит серьезной мотивацией для дальнейшего развития общей теории.

  1. ДИСКРЕТНЫЕ СИСТЕМЫ

2.1. Постановка задачи

Рассмотрим дискретную систему в повторяющемся режиме, описываемую линейной моделью в пространстве состояний

xkp+1=Axkp+bukp, ykp=cTxkp, 0pN1,  k0,, (1)

где k — номер повторения, xkpnx — вектор состояния, ukp — скалярная входная переменная, имеющая смысл управления, действующего на систему, ykp — выходная переменная, которая в рассматриваемом классе задач часто называется профилем повторения, N — продолжительность повторения, A, b и c — постоянная матрица и векторы соответствующих размеров.

Закон управления формируется в соответствии с алгоритмом

ukp=i=0dτivkip, (2)

vk+1p=vkp+Δvk+1p, k=0, 1, , (3)

где vk = 0, если k ∈[–d, 0], d — число предыдущих повторений, информация с которых используется на текущем повторении, Δvk+1 — обновляющая поправка на повторении k + 1, τi, i ∈[0, d] — весовые коэффициенты.

Обозначим через yrefp, 0 ≤ pN – 1, желаемую (эталонную) траекторию, которая должна воспроизводиться на выходе системы, тогда

ekp=yrefpykp (4)

представляет собой ошибку обучения на повторении k. Поставим задачу найти такую последовательность управлений {uk}, что выполняются условия

ekpκϱk, κ>0, 0<ϱ<1, (5)

limkukp=up<, p0,N1. (6)

Эти условия обеспечивают сходимость ошибки обучения к нулю при k → ∞ при сохранении ограниченности последовательности входных переменных. Далее эти условия будем называть условиями сходимости.

Из условий (2) и (3) следует, что эта задача сводится к нахождению обновляющей поправки и весовых коэффициентов, при которых гарантируется выполнение условий (5) и (6). В соответствии с концепцией, предложенной Я. З. Цыпкиным (см. [28]), эта задача относится к задачам обучения. При d = 0 и τi = 1, когда на текущем повторении используется только информация с предыдущего повторения, эта задача известна как задача построения алгоритма управления с итеративным обучением первого порядка, которая наиболее полно изучена в литературе. При d > 0 имеем задачу построения алгоритма управления с итеративным обучением высшего порядка, которая изучена значительно меньше.

Заметим, что рассмотрение систем со скалярными входными и выходными переменными связано лишь с возможностью более компактного изложения результатов, и в случае систем с векторными входными и выходными переменными принципиальных затруднений не возникает.

2.2. Построение модели относительно приращений переменных в форме повторяющегося процесса

Введем скалярные переменные xˇk,1(p) = vk(p), xˇk,2(p)=vk1(p), ..., xˇk,d(p)=vkd+1(p), xˇkd+1(p)=vkd(p) и вектор xˇk=[ xˇk,1 ... xˇk,d+1]T. Тогда по построению

xˇk(p)=Adxˇk1(p)+bdvk(p), (7)

где

Ad=0000100001000010,    bd=[1  0  0]T. (8)

С использованием (7) первое уравнение в (1) можно записать как

xk(p + 1)=Axk(p)+bθTxˇk(p), (9)

где

θ=[τ0  τ1τd]T.

Введем вспомогательные векторы

ηk(p)=xk(p)-xk1(p), ηˇk(p)=xˇk(p)-xˇk1(p). (10)

Тогда из (7) и (10) следует

ηˇk(p)=Adηˇk1(p)+bdvk(p), (11)

где Δvkp=vkpvk1p. Учитывая (10), запишем уравнение в приращениях вдоль траектории повторения в виде

ηk(p+1)=Aηk(p)+bθTAdηˇk1(p)+bθTbdvk(p). (12)

Учитывая, что согласно (4) ekp=yrefpcTxkp, и, используя (12), получим следующую систему уравнений в приращениях переменных:

ηk(p+1)=Aηk(p)+bθTAdηˇk1(p)+bθTbdvk(p),ηˇk(p)=Adηˇk1(p)+bdvk(p),eˇk(p)=-cTAηˇk(p)-cTbθTAdηˇk1(p)+eˇk1(p)-cTbθTbdvk(p), (13)

где eˇk(p)=ek(p+1).

Зададим корректирующую поправку в виде

Δvkp=k1Tηkp+k2ek1p+1, (14)

где вектор k1 и скаляр k2 подлежат определению из условий сходимости (5), (6). Подставляя (14) в (13), запишем модель в приращениях переменных в окончательном виде:

ηk(p+1)=A+bθTbdk1Tηkp+bθTAdηˇk1p+bθTbdk2eˇk-1p,ηˇkp=bdk1Tηkp+Adηˇk1p+bdk2eˇk-1p,eˇkp=-cTA+bθTbdk1Tηkp-cTbθTAdηˇk1p+1-cTbθTbdk2eˇk-1p. (15)

Модель (15) записана в форме дискретного повторяющегося процесса, относящегося к классу так называемых 2D cистем (см. [29]). Один из возможных подходов к получению условий сходимости ошибки обучения может быть основан на теории устойчивости повторяющихся процессов с использованием векторных функций Ляпунова (см. [27]). Эта теория далее используется в настоящей статье для построения алгоритмов управления с итеративным обучением.

2.3. Общие условия сходимости ошибки обучения

Введем в рассмотрение вектор e¯kp=ηˇk1Tpeˇk1pT и определим на траекториях системы (15) векторную функцию Ляпунова

Vηkp,e¯kp=V1ηkpV2e¯kp, (16)

где V1ηkp>0, ηkp)0, V2e¯kp>0,  e¯kp0, V10=0, V2i0=0. Определим на траекториях системы (15) дискретный аналог оператора дивергенции

DVηkp,e¯kp=V1ηkp+1V1ηkp+V2e¯k+1pV2e¯kp. (17)

Для краткости далее будем называть этот оператор просто дивергенцией. Дальнейший анализ основан на следующей теореме, которая является следствием теоремы 1 из [27].

Теорема 1. Предположим, что существует векторная функция Ляпунова (16) и положительные скаляры c1, c2 и c3 такие, что на траекториях системы (15) выполняются неравенства

c1ηkp2V1ηkpc2ηkp2, (18)

c1e¯kpV2e¯kpc2e¯kp2, (19)

DVηk+1p,e¯kpc3ηk+1p2+e¯kp2. (20)

Тогда алгоритм управления с итеративным обучением (2), (3) с обновляющей поправкой (14) гарантирует выполнение условий сходимости ошибки обучения (5), (6).

Доказательство. В соответствии с теоремой 1 из [27] при условиях (18)–(20) существуют α > 0 и 0 < λ < 1 такие, что

ηkp2+e¯kp2αλk+pαλk. (21)

Следовательно, ηkpκϱk, где κ=α, ϱ=λ, и, принимая во внимания определение e¯, ekpκϱk. Таким образом, справедливо (5). Далее, поскольку ∆vk(p) определено соотношением (14), из (3) c учетом (21) получим

vk+1pvkp+α0λk+p+1/2, (22)

где α0=2αmaxk1, k2. Из (22) следует, что

vkpv0p+α0λp+1/2n=0k1λn/2.

B правой части последнего неравенства стоит сходящаяся при k → ∞ геометрическая прогрессия, следовательно, предел в левой части |v(p)| при k → ∞ существует, и при этом справедлива оценка

vpv0p+α0λp+1/21λ1/2,

откуда в соответствии с (2) следует, что справедливо условие (6).

2.4. Построение алгоритма

Обозначим ξkp=ηˇkTpηˇk1Tpeˇk1pT и введем в рассмотрение матрицы согласованных размеров

A¯=AbθTAd00Ad0cTAcTbθTAd1, b¯=bθTbdbdcTbθTbd, Г=I00000001.

Рассмотрим дискретное неравенство Риккати

A¯TP¯A¯1σP¯A¯TP¯b¯[b¯TP¯b¯+R]1b¯TP¯A¯+Q_0 (23)

относительно матрицы P¯=diagP1  P20, где P1nx×nx,  P2d+2×d+2, 0 < σ < 1, Q0 и R > 0 — соответственно весовая матрица и весовой коэффициент. Применяя лемму о дополнении Шура, получим, что если линейные матричные неравенства

1σX¯XA¯TX¯A¯X¯X¯+b¯R1b¯T0X¯0Q1_0, X0, (24)

разрешимы относительно X=diagX1  X20, где X1 и X2 имеют те же размерности, что и P1, и P2, то P = X–1.

Определим

fT=[f1Tnx  0d+1  f31=b¯TP¯b¯+R]1b¯TP¯A¯Г (25)

и предположим, что выполняется следующее матричное неравенство:

MMГГMQГMMГI_0, (26)

где M=A¯TP¯b¯[b¯TP¯b¯+R]1b¯TP¯A¯. Выбирая компоненты векторной функции Ляпунова (16) в виде квадратичных форм

V1ηkp=ηkTpP1ηkp, V2e¯kp=e¯kTpP2e¯kp

и вычисляя дивергенцию функции (16) вдоль траекторий системы (15) с учетом (23) и (26), получим

DVηk+1p,e¯kp=ξkTpA¯TP¯A¯ГMMГ+ГMГP¯ξkp==ξkTpA¯TP¯A¯1σP¯A¯TP¯b¯b¯TP¯b¯+R]1b¯TP¯A¯+Q++ГMГГMMГQσP¯]ξkpξkTpσP¯ξkp. (27)

Поскольку P¯=diagP1  P20, из (27) следует, что выполнены все условия теоремы 1. Таким образом, доказан следующий результат.

Теорема 2. Предположим, что для некоторого выбора весовой матрицы Q0, вектора θ и скаляров R > 0 и 0 < σ < 1 линейное матричное неравенство (24) имеет решение X0, матрица P = X–1 удовлетворяет неравенству (26), k1 = f1, k2 = f3, где f1 и f3 — компоненты вектора f из (25). Тогда алгоритм управления с итеративным обучением (2), (3) с обновляющей поправкой (14) обеспечивает выполнение условий сходимости ошибки обучения (5), (6).

Заметим, что параметр  характеризует запас устойчивости системы (15). С его увеличением, при выполнении условий теоремы 2, спектр матрицы A+bθTbdk1T и число 1cTbθTbdk2, оставаясь внутри единичного круга, удаляются от его границы.

  1. ДИФФЕРЕНЦИАЛЬНЫЕ СИСТЕМЫ

3.1. Постановка задачи

Рассмотрим дифференциальную систему в повторяющемся режиме, описываемую линейной моделью в пространстве состояний

x˙kt=Axkt+bukt, ykt=cTxkt, 0tT,  k0, (28)

где все обозначения имеют тот же смысл, что и в (1).

Алгоритм управления формируется следующим образом:

ukt=k=0dτivkit, (29)

vk+1t=vkt+Δvk+1t, k=0, 1, , (30)

где vk = 0, если k ∈[–d, 0], d — число предыдущих повторений, информация с которых используется на текущем повторении, Δvk+1 — обновляющая поправка, τi, i ∈[0, d]  — весовые коэффициенты.

Обозначим через yreft, 0 ≤ tT, желаемую (эталонную) траекторию, тогда

ekt=yreftykt (31)

будет представлять собой ошибку обучения на повторении k. Для сходимости ошибки обучения последовательность входных переменных {uk(t)} должна обеспечивать выполнение условий

ektκϱk, κ>0, 0<ϱ<1, (32)

limkukt=ut<, t0,T. (33)

Из (29) и (30) следует, что, как и в случае дискретной системы, задача сводится к нахождению обновляющей поправки, и при которой выполняются условия (32) и (33).

3.2. Вывод модели в приращениях и условия сходимости

Вводя переменную

ηkt=0txkτ-xk-1τdτ,

перепишем (28) в виде

η˙kt=Aηkt+B0tukτdτ.

Тогда с учетом (29) имеем

η˙kt=Aηkt+bi=0dτi0tνk-iτdτ,

и окончательно, вводя переменные δvkit=0tvkiτdτ, i=0, 1, ..., d, имеем

η˙kt=Aηkt+bi=0dτiδvki. (34)

Введем вспомогательные переменные

ηˇk1t=δvkt, ηˇk2t=δvk-1t, ηˇk3t=δvk-2t, ..., ηˇkd+1t=δvk-dt

и запишем уравнения динамики относительно повторений:

ηˇkt=Adηˇk-1t+bdδνkt, (35)

где ηˇkt=ηˇk1t, ηˇk2t ... ηˇkd+1t, Ad и bd определены в (8). Уравнение (34) с учетом (35) можно переписать в виде

ηˇkt=bθTAdηˇk-1t+bθTbdδνkt, (36)

Из (36) и (31) следует

ekt=-cTAdηˇk-1t-cTbθTAdηˇk-1t+ek-1t-cTbθTbdδνkt. (37)

Уравнения (35) и (37) задают полное описание динамики относительно повторений. Зададим обновляющую поправку в виде

δνkt=k1Tηkt+k2ek-1t (38)

и запишем полную модель в приращениях:

η˙k(t)=A+bθTbdk1Tηkt+bθTAdηˇk1t+bθTbdk2eˇk-1t,ηˇkt=Adηˇk1t+bdk1ηkt+bdk2eˇk-1t,eˇkt=-cTA+bθTbdk1Tηkt-cTbθTAdηˇk1t+1-cTbθTbdk2ek-1t. (39)

Модель (39) записана в форме дифференциального повторяющегося процесса, относящегося к классу 2D систем. Как и в предыдущем разделе дальнейший анализ сходимости ошибки обучения будет основан на теории устойчивости повторяющихся процессов с использованием векторных функций Ляпунова из [27].

Введем в рассмотрение вектор  и векторную функцию Ляпунова

Vηkt,e¯kt=V1ηktV2e¯kt, (40)

где V1η>0,  η0, V2e¯>0,  e¯0, V10=0,  V20=0.

Аналог оператора дивергенции этой функции вдоль траекторий системы (39) имеет вид

DVηkt,e¯kt=dV1ηktdt+ΔkV2e¯kt, (41)

где ΔkV2e¯kt=V2e¯k+1tV2e¯kt.

Теорема 3. Предположим, что существует векторная функция Ляпунова (40) и положительные скаляры c1 — c4 такие, что на траекториях системы (39) выполняются неравенства

c1ηkt2V1ηktc2ηkt2,c1e¯kt2V2ektc2e¯kt2,DVηkt,e¯ktc3ηkt2+e¯kt2,V1ηηc4η. (42)

Тогда алгоритм управления с итеративным обучением (29), (30) с обновляющей поправкой (38) гарантирует выполнение условий сходимости ошибки обучения (32), (33).

Доказательство. В соответствии с теоремой 2 из [27] при условиях (42) существуют α > 0, λ > 0 и 0 < ζ < 1 такие, что

ηkt2+e¯kt2αexpλtζkαζk. (43)

Следовательно, ηkpκϱk где κ=α, ϱ=ζ и, принимая во внимание определение e¯, ekpκϱk. Таким образом, справедливо (32). Далее, поскольку δvk(p) определено соотношением (38), то, учитывая (43), по аналогии с доказательством теоремы 1 нетрудно получить оценку

δvk+1tα0exp12λtζk/2. (44)

Из (43) следует

ηktαexp12λtζk/2, ηˇktαexp12λtζk/2, ektαexp12λtζk/2. (45)

Из (36) c учетом (44) и (45) получим

η˙ktα1exp12λtζk1/2,

где α1=αmaxA, bθTAd, bθTbd, и

e˙kt=cTη˙ktα2exp12λtζk1/2,

где α2=α1cT. С учетом двух последних неравенств

Δvk+1t=ddtδvk+1t=k1η˙kt+k2e˙ktα3exp12λtζk1/2,

где α3=α0maxα1,α2. Из (30) с учетом последнего неравенства следует

vk+1tvkt+α3exp12λtζk1/2.

Условие (33) теперь следует из повторения, применительно к последнему неравенству, выводов, аналогичных сделанных в доказательстве теоремы 1 после неравенства (22) с учетом (29).

3.3. Построение алгоритма с использованием техники линейных матричных неравенств

Введем расширенный вектор ξkt=[ηk(t)T  e¯k(t)T]T, аналогичный введенному в предыдущем разделе для дискретных систем. Выбирая компоненты векторной функции Ляпунова (40) в виде квадратичных форм

V1ηkt=ηkTtP1ηkt, V2e¯kt=e¯kTtP2e¯kt

и вычисляя дивергенцию этой функции вдоль траекторий системы (39), получим

DVηkt,e¯kt=ξkTtA¯cTI1,0P¯+P¯I1,0A¯c+A¯cTI0,1P¯A¯cI0,1P¯ξkt, (46)

где

P1=P1Τ0,  P2=P2Τ0,  A¯c=A¯+b¯kTH¯,  P¯=diagP1  P2,  P2=diagP21  P22,  kT=k1T  k2,  H¯=I00001,  I1,0=I000,  I0,1=000I

и размеры блоков матриц P¯,  H¯, I1,0, I0,1 согласованы с размерностями переменных η, ηˇ, e¯. Проводя аналогию с теорией линейно-квадратичного регулятора (ЛКР), потребуем, чтобы выполнялось неравенство

DVηkt,e¯kt+ξkTt[Q¯+kTH¯)TRkTH¯ξkt0, (47)

где Q¯=diagQ1  Q20,  R0 — весовые матрицы, тогда нетрудно видеть, что все условия теоремы 3 будут выполнены. Неравенство (47) эквивалентно матричному неравенству

A¯cTI1,0P¯+P¯I1,0A¯c+A¯cTI0,1P¯A¯cI0,1P¯+Q¯+(kTH¯)TRkTH¯_0. (48)

Введем переменные X¯=P¯1 и Z как решение уравнения

H¯X=ZH¯. (49)

Тогда, применяя к (48) лемму о дополнении Шура, получим

M11M12X¯YTH¯TM12T-X¯00-X¯0-Q-10YTH¯00-R-10,

где

M11=(A¯X¯+b¯YTH¯)TI1,0+I1,0A¯X¯+b¯YTH¯I0,1X¯, M12=A¯X¯+b¯YTH¯I0,1.

Если система матричных уравнений и неравенств (49), (50) разрешима относительно X0, Y и Z, то

kT=YTZ1. (50)

Сделанные выводы можно объединить в виде следующей теоремы.

Теорема 4. Предположим, что для некоторого выбора весовой матрицы Q0, вектора θ и скаляра R > 0 система линейных матричных уравнений и неравенств (49), (50) разрешима относительно X0, Y и Z, а вектор k определяется по формуле (50). Тогда алгоритм управления с итеративным обучением (29), (30) с обновляющей поправкой (38) обеспечивает выполнение условий сходимости ошибки обучения (32), (33).

  1. ПРИМЕР

Рассмотрим управляемое движение манипулятора по горизонтальной оси, перпендикулярной направлению движения ленты конвейера многоосевого портального робота. Модель динамики, полученная экспериментально на основе частотного анализа [31], задается передаточной функцией

Gs=23.736s+661.2ss2+426.7s+1.744×105. (51)

Желаемая (эталонная) траектория движения продолжительностью 2 с представлена на фиг. 1. Для построения дискретной модели в пространстве состояний используем стандартные функции MATLAB, принимая период дискретности равным 0.01 с.

 

Фиг. 1. Желаемая траектория движения

 

Рассмотрим сначала случай d = 1, при этом согласно (2), (3), (14), как в методе тяжелого шарика, на текущем шаге используется информация с двух предыдущих шагов. Введем в рассмотрение среднеквадратическую ошибку (СКО) обучения

Ek=1Np=0Nekp2, (52)

и сравнение скорости сходимости алгоритмов будем проводить по числу шагов, при котором E(k) уменьшится в 10 раз относительно начального значения. Матрицa Q и положительные скаляры R, σ были выбраны, исходя из принципов теории ЛКР:

Q=diag1  1  1  10  10  5×105, R=103, σ=0.0125.

Отметим, что выбор этих параметров представляет отдельную нетривиальную задачу, для более детального ознакомления с которой заинтересованный читатель может обратиться к [32]–[35]. В данном случае были использованы асимптотические свойства ЛКР (см. [35]), в соответствии с которыми малый вес R не ограничивает энергию управления, а большой вес при ошибке обучения в матрице Q придает доминирующий характер этой переменной при формировании управления.

При τ0 = 1 и τ1 = 0 получаем стандартный алгоритм первого порядка, для которого

k1T=15.5  12.7  5180.4, k2=194.6.

Для алгоритмов второго порядка при τ0 = 1 естественно задавать τ1, не превышающим 1, иначе обновленная информация будет подавляться устаревшей. При 0 < τ1 < 1 получаем ускорение сходимости относительно алгоритма первого порядка. При τ1 > 1 в силу преобладания устаревшей информации происходит нарушение монотонности изменения E(k) и замедление скорости сходимости относительно алгоритма первого порядка. На фиг. 2 представлено сравнение алгоритма первого порядка и алгоритма второго порядка при τ1 = 0.8, при этом

k1T=7.2  5.6.  2296.3, k2=190.2.

 

Фиг. 2. Изменение СКО обучения в случаях алгоритма первого порядка (штриховая линия) и второго порядка (сплошная линия) при τ1 = 0.8

 

На фиг. 3 представлено то же сравнение при τ1 = 1.2, в этом случае

k1T=2.27  1.74  714.95, k2=75.72.

 

Фиг. 3. Изменение СКО обучения в случаях алгоритма первого порядка (штриховая линия) и второго порядка (сплошная линия) при τ1 = 1.2

 

Рассмотрим случай d = 2. При этом согласно (2), (3), (14) на текущем шаге учитывается информация с трех предыдущих шагов. Сохраним все параметры теми же, что и при d = 1. Единственное отличие будет в естественном увеличении размера среднего блока матрицы Q, в результате она примет вид

Q=diag1  1  1  10  10  10  5×105.

Расчеты и моделирование показали, что при τ0 = 1 обнуление одного из коэффициентов τ1 или τ2 при изменении второго в интервале (0, 1) дает практически то же самое ускорение сходимости ошибки обучения, что и при  (фиг. 4 и фиг. 5).

 

Фиг. 4. Изменение СКО обучения в случаях алгоритма первого порядка (штриховая линия) и третьего порядка (сплошная линия) при τ1 = 0.8, τ2 = 0

 

Фиг. 5. Изменение СКО обучения в случаях алгоритма первого порядка (штриховая линия) и третьего порядка (сплошная линия) при τ1 = 0, τ2 = 0.8

 

Близкая картина наблюдается, если оба коэффициента не равны нулю и τ2 < τ1 (фиг. 6), но при этом, начиная с некоторого значения τ1 ошибка обучения начинает расходиться.

 

Фиг. 6. Изменение СКО обучения в случаях алгоритма первого порядка (штриховая линия) и третьего порядка (сплошная линия) при τ1 = 0.8, τ2 = 0.4

 

При τ2 > τ1 ошибка всегда расходится (фиг. 7), что объясняется противоречивым характером информации, поступающей в алгоритм.

 

Фиг. 7. Изменение СКО обучения в случаях алгоритма первого порядка (штриховая линия) и третьего порядка (сплошная линия) при τ1 = 0.6, τ2 = 0.7

 

  1. ЗАКЛЮЧЕНИЕ

В статье предложены новые алгоритмы управления с итеративным обучением высшего порядка, отличающиеся от немногих известных тем, что они учитывают полную информацию о предыдущих шагах и по структуре аналогичны алгоритмам многошаговых методов в теории оптимизации. Примеры подтверждают ускорение сходимости ошибки обучения относительно алгоритмов первого порядка. В дальнейших исследованиях предполагается оценить робастность и эффективность предложенных алгоритмов в условиях неопределенности модели и с учетом внешних случайных возмущений и шумов измерений. Остается также открытым вопрос конструктивного выбора глубины памяти (параметр d) и весовых коэффициентов (τ1, ..., τd). Отдельным направлением является распространение полученных результатов на нелинейные системы.

Наконец, наиболее трудным является строгое общее теоретическое обоснование возможных преимуществ алгоритмов УИО высшего порядка в смысле скорости сходимости ошибки обучения. Хотя примеры вселяют определенную надежду, в общем случае эта задача пока остается открытой даже для линейных систем.

Идея этой работы появилась под влиянием докладов на традиционной молодежной летней школе им. Б. Т. Поляка (Нижний Новгород, 10—15 июля 2023 г.). Авторы выражают благодарность А. В. Гасникову за конструктивную дискуссию и указание на интересную работу [12].

×

Авторлар туралы

P. Pakshin

Arzamas Polytechnic Institute of the Nizhny Novgorod State Technical University n.a. R.E. Alekseev

Хат алмасуға жауапты Автор.
Email: pakshinpv@gmail.com
Ресей, Arzamas

Yu. Emelianova

Arzamas Polytechnic Institute of the Nizhny Novgorod State Technical University n.a. R.E. Alekseev

Email: emelianovajulia@gmail.com
Ресей, Arzamas

M. Emelyanov

Arzamas Polytechnic Institute of the Nizhny Novgorod State Technical University n.a. R.E. Alekseev

Email: mikhailemelianovarzamas@gmail.com
Ресей, Arzamas

Әдебиет тізімі

  1. Arimoto S., Kawamura S., Miyazaki F. Bettering operation of robots by learning // J. Robot. Syst. 1984. V. 1. P. 123—140.
  2. Bristow D. A., Tharayil M., Alleyne A. G. A survey of iterative learning control: A learning-based method for high-performance tracking control // IEEE Control Syst. Magaz. 2006. V. 26. № 3. P. 96—114.
  3. Ahn H-S., Chen Y. Q., Moore K. L. Iterative learning control: Survey and categorization // IEEE Trans. Syst. Man Cybern. Part C: Appl. Rev. 2007. V. 37. № 6. P. 1099—1121.
  4. Rogers E., Chu B., Freeman C., Lewin P. Iterative learning control algorithms and experimental benchmarking Chichester: John Wiley & Sons, 2023.
  5. Lim I., Hoelzle D. J., Barton K. L. A multi-objective iterative learning control approach for additive manufacturing applications // Control Engineer. Practice. 2017. V. 64. P. 74—87.
  6. Sammons P. M., Gegel M. L., Bristow D. A., Landers R. G. Repetitive process control of additive manufacturing with application to laser metal deposition // IEEE Transact. Control Syst. Technol. 2019. V. 27. № 2. P. 566—575.
  7. Freeman C. T., Rogers E., Hughes A.-M., Burridge J. H., Meadmore K. L. Iterative learning control in health care: electrical stimulation and robotic-assisted upper-limb stroke rehabilitation // IEEE Control Syst. Magaz. 2012. V. 47. P. 70—80.
  8. Meadmore K. L., Exell T. A., Hallewell E., Hughes A.-M., Freeman C. T., Kutlu M., Benson V., Rogers E., Burridge J. H. The application of precisely controlled functional electrical stimulation to the shoulder, elbow and wrist for upper limb stroke rehabilitation: a feasibility study // J. of NeuroEngineer. and Rehabilitation. 2014. P. 11—105.
  9. Ketelhut M., Stemmler S., Gesenhues J., Hein M., Abel D. Iterative learning control of ventricular assist devices with variable cycle durations // Control Engineer. Practice. 2019. V. 83. P. 33—44.
  10. Поляк Б. Т. О некоторых способах ускорения сходимости итерационных методов // Ж. вычисл. матем. и матем. физ. 1964. Т. 4. № 5. С. 791—803.
  11. Поляк Б. Т. Введение в оптимизацию. М.: Наука, 1983.
  12. d’Aspremont A., Scieur D., Taylor A. Acceleration Methods // arXiv:2101.09545v3. 2021.
  13. Ahn H.-S., Moore K. L., Cheh Y. Iterative Learning Control: Robustness and Monotonic Convergence for Interval Systems. London: Springer-Verlag, 2007.
  14. Bien Z., Huh K. M. Higher-order iterative learning control algorithm // IEE Proc. D-Control Theory Appl. 1989. V. 136. P. 105—112.
  15. Chen Y., Gong Z., Wen C. Analysis of a high-order iterative learning control algorithm for uncertain nonlinear systems with state delays // Automatica. 1998. V. 34. P. 345—353.
  16. Norrlof M., Gunnarsson S. A frequency domain analysis of a second order iterative learning control algorithm // Proc. 38th IEEE Conf. Decis. Control. 1999. V. 2. P. 1587—1592.
  17. Bu X., Yu F., Fu Z., Wang F. Stability analysis of high-order iterative learning control for a class of nonlinear switched systems // Abstract Appl. Anal. 2013. V. 2013. P. 1—13.
  18. Wei Y.-S., Li X.-D. Robust higher-order ILC for non-linear discrete-time systems with varying trail lengths and random initial state shifts // IET Control Theory Appl. 2017. V. 11. P. 2440—2447.
  19. Wang X., Chu B., Rogers E. Higher-order Iterative Learning Control Law Design using Linear Repetitive Process Theory: Convergence and Robustness // IFAC PapersOnLine. 2017. V. 50—1. P. 3123—3128.
  20. Phan M. Q., Longman R. W. Higher-order iterative learning control by pole placement and noise filtering // IFAC Proc. Volumes. 2002. V. 35. P. 25—30.
  21. Gu P., Tian S., Chen Y. Iterative learning control based on Nesterov accelerated gradient method // IEEE Access. 2019. V. 7. P. 115 836—115 842.
  22. Нестеров Ю. Е. Метод рeшения задачи выпуклого программирования со скоростью сходимости // Докл. АН СССР. 1983. Т. 269. № 3. С. 543—547.
  23. Kim D., Fessler J. A. Generalizing the optimized gradient method for smooth convex minimization // arXiv:1607.06764. 2018. P. 1—26.
  24. Moore K. L. An iterative learning control algorithm for systems with measurement noise // Proc. 38th IEEE Conf. Decis. Control. 1999. V. 1. P. 270—275.
  25. Saab S. S. Optimality of first-order ILC among higher order ILC // IEEE Transact. on Automatic Control. 2006. V. 51. P. 1332—1336.
  26. Afkhami Z., Hoelzle D. J., Barton K. Robust higher-order spatial iterative learning control for additive manufacturing systems // IEEE Transact. on Control Systems Technology. 2023. V. 31. P. 1692—1707.
  27. Pakshin P., Emelianova J., Emelianov M., Gałkowski K., Rogers E. Dissipativity and stabilization of nonlinear repetitive processes // Systems & Control Lett. 2016. V. 91 P. 14—20.
  28. Цыпкин Я. З. Адаптация и обучение в автоматических системах. М.: Наука, 1968.
  29. Rogers E., Gałkowski K., Owens D. H. Control systems theory and applications for linear repetitive processes. Berlin: Springer-Verlag, 2007.
  30. Hładowski Ł., Gałkowski K., Cai Z., Rogers E., Freeman C., Lewin P. Experimentally supported 2D systems based iterative learning control law design for error convergence and performance // Control Engineer. Practice. 2010. V. 18. P. 339—348.
  31. Hładowski Ł., Gałkowski K., Cai Z., Rogers E., Freeman C., Lewin P. Experimentally supported 2D systems based iterative learning control law design for error convergence and performance // Control Engineer. Practice. 2010. V. 18. P. 339—348.
  32. Solheim O. A. Design of optimal control systems with prescribed eigenvalues // Int. J. Control. 1972. V. 15. № 1. P. 143—160.
  33. Кухаренко Н. В. Определение коэффициентов квадратичных функционалов в задачах аналитического конструирования // Технич. кибернетика. 1977. № 4. С. 197—201.
  34. Богачев А. В., Григорьев В. В., Дроздов В. Н., Коровьяков А. Н. Аналитическое регуляторов по корневым показателям // Автоматика и телемехан. 1979. № 8. С. 21—28.
  35. Квакернаак Х., Сиван Р. Линейные оптимальные системы управления. М.: Мир, 1977.

Қосымша файлдар

Қосымша файлдар
Әрекет
1. JATS XML
2. Fig. 1. Desired motion trajectory

Жүктеу (128KB)
3. Fig. 2. Variation of learning RMS in the cases of the first-order algorithm (dashed line) and second-order algorithm (solid line) at τ1 = 0.8

Жүктеу (122KB)
4. Fig. 3. Variation of learning RMS in the cases of the first-order algorithm (dashed line) and second-order algorithm (solid line) at τ1 = 1.2

Жүктеу (126KB)
5. Fig. 4. Variation of learning RMS in the cases of the first-order (dashed line) and third-order (solid line) algorithm at τ1 = 0.8, τ2 = 0

Жүктеу (123KB)
6. Fig. 5. Variation of learning RMS in the cases of the first-order algorithm (dashed line) and third-order algorithm (solid line) at τ1 = 0, τ2 = 0.8

Жүктеу (125KB)
7. Fig. 6. Variation of training RMS in the cases of the first-order algorithm (dashed line) and third-order algorithm (solid line) at τ1 = 0.8, τ2 = 0.4

Жүктеу (124KB)
8. Fig. 7. Variation of learning RMS in the cases of first-order (dashed line) and third-order (solid line) algorithm at τ1 = 0.6, τ2 = 0.7

Жүктеу (112KB)

© Russian Academy of Sciences, 2024

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».