On the Redundancy of Hessian Non-Singularity for Linear Convergence Rate of the Newton Method Applied to the Minimization of Convex Functions
- Autores: Evtushenko Y.G.1,2, Tretyakov A.A.1,3
-
Afiliações:
- Information Science and Control Federal Research Center, Russian Academy of Sciences
- Moscow Institute of Physics and Technology
- Siedlce University
- Edição: Volume 64, Nº 4 (2024)
- Páginas: 637-643
- Seção: Optimal control
- URL: https://bakhtiniada.ru/0044-4669/article/view/269968
- DOI: https://doi.org/10.31857/S0044466924040045
- EDN: https://elibrary.ru/ZKJRII
- ID: 269968
Citar
Texto integral
Resumo
A new property of convex functions that makes it possible to achieve the linear rate of convergence of the Newton method during the minimization process is established. Namely, it is proved that, even in the case of singularity of the Hessian at the solution, the Newtonian system is solvable in the vicinity of the minimizer; i.e., the gradient of the objective function belongs to the image of the matrix of second derivatives and, therefore, analogs of the Newton method may be used.
Palavras-chave
Texto integral
В задаче поиска безусловного минимума рассматриваются функции f(.), определенные и достаточно гладкие в окрестности U(x*) точки минимума функции n вещественных переменных. Всюду далее множество точек минимума функции f обозначается как и предполагается непустым. Необходимое условие минимума функции f в точке x* задается равенством fʹ(x*) = 0, при этом матрица вторых производных функции в точке минимума является положительно полуопределенной. Следует отметить, что исследованиям по методу Ньютона посвящено значительное число научных работ, среди которых укажем [1—7]. Со многими работами можно ознакомиться в обзорной статье [8]. В данной работе показывается, что несмотря на возможную вырожденность матрицы Гессе в точке x*, в окрестности этой точки градиент целевой функции принадлежит образу ее второй производной и, следовательно, ньютоновская система относительно направления спуска разрешима в точках этой окрестности. Это топологическое свойство выпуклости и экстремальности позволяет по-новому взглянуть на численные методы ньютоновского типа и обосновать скорость сходимости этих методов без обременительного предположения относительно невырожденности матрицы Гессе в точке x*. Для задачи безусловной оптимизации получены свойства, уточняющие неравенство Лоясевича (см. [9—10]). Именно, неравенство обобщено для всего спектра производных до определенного порядка. В работе рассматриваются функции, производные которой равномерны по аргументу и в совокупности по порядку ограничены в некоторой окрестности U(x*) точки x*, т. е. для данной окрестности существует положительная константа M такая, что значения ее производных любого порядка не превосходят по абсолютному значению эту константу. Кроме того, объектом рассмотрения в работе будут достаточно гладкие в окрестности точки минимума функции, т. е. функции, имеющие неограниченное число порядков производных. Всюду далее без ограничения общности считаем f(x*) = 0 и обозначаем f(0)(x) = f(x). Для функции одной переменной справедлива
Лемма 1. Если x*-точка изолированного локального минимума достаточно гладкой в U(x*) функции f: R → R, производные которой равномерно по аргументу и в совокупности по порядку ограничены в некоторой окрестности U(x*), то существует четная степень , для которой справедливы неравенства
,
при всех x ∈Ů(x*), где положительные константы , k = 0, 1, 2, ..., 2p − 1, не зависят от x.
Доказательство. Поскольку x* — точка локального минимума функции f, то fʹ(x*) = 0. Сначала покажем, что в условиях леммы невозможна ситуация, когда производные f(k)(x*) = 0 при любом порядке k, k = 1, 2, .... Действительно в этом случае для фиксированной точки x = x* + t ∈U(x*) в силу ограниченности производных в окрестности x* из формулы Тэйлора при нулевых производных до любого фиксированного порядка k следует неравенство , где M ‒ обозначенная выше верхняя грань для множества значений производных функции f в указанной окрестности и θ ∈(0, 1). Отсюда и из условия изолированности локального минимума x* значение
При достаточно больших k это означает противоречие с возможным предположением fʹ(x) ≠ 0, x ≠ x* что противоречит изолированности локального минимума x*. Следовательно, существует конечное
.
При этом порядок k может быть только четным: и f(2p)(x*) > 0 поскольку x* — точка локального минимума функции f. Теперь для завершения доказательства достаточно обозначить через C0 значение , тогда из формулы Тэйлора и ограниченности производной порядка 2p + 1 в окрестности U(x*) будет вытекать первое неравенство леммы. Разложение в окрестности x* по формуле Тэйлора производной f(k)(x) дает остальные неравенства леммы при любом k = 1, 2, ..., 2p ‒ 1, если через Ck обозначить .
Следствие 1. При выполнении условий леммы 1 функция f локально выпукла.
Действительно, если f(2)(x*) > 0 то в малой окрестности x* вторая производная будет оставаться положительной, что означает локальную выпуклость f(x). Если же f(2)(x*) = 0 то, как показано в лемме 1, f(2p)(x*) > 0 для некоторого и при этом f(k)(x*) > 0, k = 1, 2, ..., 2p ‒ 1. Тогда для любого x ∈U(x*), положительная константа C2 определена ранее в лемме 1. Последнее неравенство также означает локальную выпуклость f.
Для функции n переменных производную k-го порядка по направлению h в точке x будем обозначать как .
Следствие 2. Если достаточно гладкая функция f: Rn → R производные которой равномерно по аргументу и в совокупности по порядку ограничены в некоторой окрестности U(x*) изолированной точки минимума x*, то для каждого h ∈Rn: ||h|| = 1, существует четная степень , для которой справедливы неравенства
,
где при всех t ∈ (0, δh] положительные константы Ck = Ck,h,f, не зависят от t, x* + δh ∈U(x*) при этом сама функция локально выпукла вдоль направления h.
Здесь элемент определяется направлением h, ||h|| = 1 и не зависит от малых t, для которых x* + δh ∈U(x*), но значение δh > 0 зависит от h и в общем случае эта величина может быть бесконечно малой относительно h. Далее в лемме 2 будет показано, что для случая выпуклой функции f можно гарантировать существование верхней границы для величины и положительной нижней границы для δh на множестве векторов h: ||h|| = 1.
Из леммы 1 вытекает, что в точках достаточно малой выколотой окрестности решения корректно определен оператор Ньютона . Для случая произвольной размерности пространства Rn лемма 1 означает выпуклость функции f вдоль любой прямой, проходящей через точку x*, при условии достаточной гладкости функции на пересечении прямой и окрестности U(x*)). Кроме того, для любой прямой, проходящей через точку x* вдоль вектора h, справедливо неравенство для некоторой степени 2p, , и некоторой константы C2 = C2,h > 0. Неравенство Лоясевича гарантирует выполнимость данного неравенства в случае аналитичности в окрестности U(x*) функции при некоторых p, C2, не зависящих от h. Выпуклость в указанной окрестности функции позволяет требовать лишь достаточную гладкость функции и получить свойство “устойчивости” неравенства Лоясевича, что расширяет область применения метода Ньютона. Имеет место
Лемма 2. Если выпуклая достаточно гладкая функция f: Rn = R, производные которой равномерно по аргументу и в совокупности по порядку ограничены в некоторой окрестности U(x*) изолированной точки минимума x*, то существует четная степень , константа C = Cf > 0 и величина δ = δf > 0 для которых
при всех h: ||h|| = 1, t ∈ (0, δ].
Доказательство. Докажем существование такого , обладающего свойством: если , то p'(h) ≤ p. Предположим противное, тогда для некоторых последовательностей имеет место неравенство , где Ck > 0 — элементы некоторой ограниченной, а — возрастающей последовательностей. Без ограничения общности можно считать, что hk → h, Ck → C, k → ∞. Обозначим через Vk. В случае dimVk < n указанный набор векторов изменяется путем прибавления к n ‒ dimVk векторам линейно независимых приращений длины порядка Ckt2p, Ck → 0, k → ∞ после чего можно считать dimVk = n. Пусть далее . Из выпуклости и непрерывности f следует . С другой стороны, из леммы 1 следует, что для некоторого существует степень , для которой производная для некоторого C2 > 0. Поскольку hk'' → h, k → ∞, то при достаточно больших номерах k будут выполняться неравенства , что противоречит предположению.
Следствие 3. Из доказательства леммы 2 следует существование степени 2p, , а также констант , для которых
,
при этом p' = p'(h) ≤ p при всех h: ||h|| = 1.
Для точки , определим базис пространства Rn и соответствующий индекс q = q(h) следующим образом. Рассмотрим матрицы
.
Тогда в точке x = x* + th для достаточно гладкой функции f справедливы соотношения
. (1)
Далее определим номер k1 ≥ 2 как минимальный среди тех номеров k, для которых одномерное пространство . Прямую L1 переобозначим через L1, вектор g1 определим как и далее номер k2 ≥ k1 определим как минимальный номер k, для которого Lin{akh} не содержится в L1. Тогда , одномерное подпространство L2 определяется как , вектор g2 определяется как нормированный вектор . При этом . Далее пространство L2 определим . Далее для каждого аналогично определяются прямые , и соответствующие единичные векторы gj, j = 1, 2, ..., q. Номер , прямая сумма обозначается как Lj и является подпространством в Rn размерности j. На конечном этапе построено подпространство Lq размерности q = q(h) ≤ n. Обозначим ортогональное дополнение подпространства Lq через в случае q < n и H = {0} при q = n. Определим базис G(h) пространства Rn как набор построенных единичных взаимно ортогональных векторов g1, g2, ..., gq, направленных вдоль построенных ортогональных прямых Ll , l = 1, 2, ..., q, и произвольного ортогонального базиса gq+1, gq+2, ..., gn подпространства H.
Справедлива
Теорема 1. Если для достаточно гладкой функции f:: Rn → R производные равномерно по аргументу и в совокупности по порядку ограничены в некоторой окрестности U(x*) изолированной точки минимума x*, то для любого фиксированного h: ||h|| = 1, система
(2)
разрешима относительно s при достаточно малых t.
Доказательство. Решение системы s в базисе G при любом фиксированном векторе h определим покоординатно следующим образом. Положим PrHS = 0 далее координата sq в соответствии с (1) определяется из условия . При этом . Подстановка координаты sq в систему (2) позволяет получить координату . Далее последовательно определяются координаты . Решение системы (2) вообще говоря, не единственно, но из (1) следует, что координаты любого решения s в базисе G = G(h) имеют вид
. (3)
Замечание 1. Для получения единственного решения системы (2) определим задачу
, (4)
решение которой существует при каждом фиксированном h при всех достаточно малых t, при условиях, указанных в теореме 1. При этом длина интервала для t, в пределах которого решение существует, зависит от h.
Пример 1. Для невыпуклой функции вывод теоремы 1 нарушается для точек параболы . Таким образом, длина интервала, для которого имеет место теорема 1, стремится к нулю, по мере приближения вектора h к (1, 0).
Далее будет показано, что в случае выпуклой функции можно указать общий для всех векторов единичной сферы радиус окрестности переменной t, в пределах которой задача (4) разрешима. Из вида целевой функции задачи (4) следует, что ее решение , где (.)+ означает псевдообратный оператор на своем образе. Координаты решения этой задачи в базисе G удовлетворяют условию PrHS = 0.
Теорема 2. При выполнении условий леммы 2 при всех x достаточно близких к x* задача (4) разрешима и ее решение удовлетворяет условиям
, (5)
где степень 2p определена в лемме 2, константы не зависят от x.
Доказательство. Из леммы 2 и (1) следует, что при всяком h: ||h|| = 1 номера kj, определяющие базис G удовлетворяют условию: существует индекс , для которого , степень 2p определена в лемме 2 и от h не зависит, константа C > 0 также не зависит от h и определяется в следствии к лемме 2. Последнее неравенство эквивалентно условию при малых t. Обозначая через M1, получим неравенство в утверждении теоремы. Аналогично из следствия к лемме 2 получается и второе неравенство.
Следствие 4. При выполнении условий леммы 2 для выпуклой функции f при всех x достаточно близких к x* имеет место разрешимость относительно s системы
, (6)
что равносильно справедливости включения
(7)
независимо от величины ранга матрицы f2(x).
Далее будем обозначать множество как , диаметр множества A как diamA. Справедлива
Теорема 3. При выполнении условий леммы 2 существует натуральное p и константа , для которых справедливо неравенство
. (8)
Замечание 2. Указанные ранее свойства справедливы в предположении, что множество точек минимума функции f(x) представляет изолированную точку. Если отказаться от данного предположения, то при выполнении остальных предположений теоремы 1 справедливо представление
, (9)
где L — собственное подпространство Rn, которое определяется условием для всякого натурального
Из теорем 1, 2 не следует положительная определенность матрицы f2(x) в окрестности точки минимума x*. Тем не менее они гарантируют применимость метода Ньютона для поиска точки минимума гладкой функции при условии подходящей начальной точки, поскольку задача (1) позволяет получить вектор перехода в итерационной схеме без предположения выпуклости целевой функции. Кроме того, в данном случае удается получить монотонность по аргументу метода Ньютона, а при более сильных предположениях — линейную скорость сходимости. В случае же выпуклости целевой функции полученное свойство справедливо без дополнительных предположений.
Рассмотрим сначала применение результата теоремы 1 для доказательства монотонности по аргументу схемы метода Ньютона. Именно, определим оператор Ньютона , где — решение задачи (4). Из процесса построения решения s в теореме 1, и замечания к теореме следует, что для любого фиксированного h: ||h|| = 1 при достаточно малых значениях t данный оператор корректно определен без предположения выпуклости функции f. Для получения оценки скорости сходимости дополнительно к предположениям теоремы 1 естественно определяется следующее свойство.
Определение 1. Функция f слабо регулярна в точке x*, если существует константа d = df > 0, для которой для всякого h, ||h|| = 1. Здесь, как и ранее — координата вектора h с номером j базисе G.
Теорема 4. Если функция f слабо регулярна в точке x*, то при выполнении условий теоремы 1 существует λ ∈ (0, 1) для которого при всех достаточно малых t.
Доказательство. Для любого решения системы (1) в силу предположения слабой регулярности в точке x* существует номер j, для которого . Отсюда
Замечание 3. Полученное неравенство не означает линейной сходимости метода Ньютона, поскольку знаменатель λ который участвует в оценке, вообще говоря, зависит от h. В случае выпуклой функции полученный результат справедлив в более сильном виде: при всех из достаточно малой окрестности x*, поскольку для выпуклых функций справедливо следущее свойство.
Определение 2. Функция f равномерно регулярна в точке x*, если существуют номер и константа d = df > 0, для которых найдется индекс j ≤ q: kj ≤ m, такой что .
Имеет место
Теорема 5. Если функция f равномерно регулярна в точке x*, то при выполнении условий теоремы 1 существует λ ∈ (0, 1), для которого при всех x из достаточно малой окрестности x*.
Доказательство. Из теоремы 4 следует, что полученный знаменатель λ = λ(h) ограничен сверху равномерно по h, , где j, kj ≤ m . Такой номер j существует, как показано в теореме 1. Кроме того, из условия равномерной регулярности следует, что для некоторого d > 0, не зависящего от h, где hA — проекция вектора h на подпространство A. Отсюда следует оценка для знаменателя λ, не зависящая от h.
Замечание 4. Из леммы 2 следует, выпуклая функция равномерно регулярна в точке x*: . Условие равномерной регулярности является необходимым и достаточным условием линейной скорости сходимости метода Ньютона при выполнении условий теоремы 1 без предположения о выпуклости функции f. Итерационная схема метода Ньютона имеет вид
,
а оценка скорости сходимости метода будет линейная:
,
при начальном приближении достаточно близком к решению x* в случае равномерно регулярной в точке минимума функции f.
Следствие 5. При выполнении условий теоремы 2 для выпуклой функции скорость сходимости итерационной схемы метода Ньютона является линейной при любом выборе начальной точки x из достаточно малой окрестности решения. Действительно, из теоремы 2 следует, что выпуклая функция является равномерно регулярной в решении x* откуда вытекает линейная оценка скорости сходимости.
Для получения сходимости метода Ньютона с более высокой скоростью, чем линейная, рассмотрим модифицированный оператор ψ1(x, s) покоординатная запись которого в базисе G представляет собой , где вектор-функция . Оператор ψ1(x, s)H позволяет определить модифицированную схему Ньютона . Из теоремы 1 следует
Теорема 6. Модифицированная схема Ньютона гарантирует сверхлинейную оценку скорости сходимости при хорошем начальном приближении в том и только том случае, когда функция g(x, h) удовлетворяет условию .
Sobre autores
Yu. Evtushenko
Information Science and Control Federal Research Center, Russian Academy of Sciences; Moscow Institute of Physics and Technology
Autor responsável pela correspondência
Email: yuri-evtushenko@yandex.ru
Rússia, Moscow; Dolgoprudny
A. Tretyakov
Information Science and Control Federal Research Center, Russian Academy of Sciences; Siedlce University
Email: prof.tretyakov@gmail.com
Rússia, Moscow; Siedlce, Poland
Bibliografia
- Бомадио Б., Лебедев К. А. Метод Ньютона для нахождения экстремумов сильно выпуклых функций // Международный научно-исследовательский журнал. 2015. Выпуск 6—2 (37). С. 11—14.
- Заботин В. И., Черняев Ю. А. Метод Ньютона для задачи минимизации выпуклой дважды гладкой функции на предвыпуклом множестве //Ж. вычисл. матем. и матем. физ. 2018. Т. 58. № 3. С. 340—345. doi: 10.7868/S0044466918030031.
- Budzko D., Cordero A., Torregrosa J. R. Modification of Newton’s Method to extend the convergence domain // SeMA Journal. 2014. Т. 66. № 1. С. 43—53. doi: 10.1007/s40324-014-0020-y.
- Nesterov Y. Accelerating the cubic regularization of Newton’s method on convex problems //Mathematical Programming. 2008. Т. 112. № 1. С. 159—181. doi: 10.1007/s10107—006—0089-x.
- Polyak B., Tremba A. New versions of Newton method: step-size choice, convergence domain and under-determined equations //Optimization Methods and Software. 2019. С. 1272—1303. doi: 10.1080/10556788.2019.1669154.
- Nesterov Y., Polyak B. T. Cubic regularization of Newton method and its global performance //Mathematical Programming. 2006. Т. 108. № 1. С. 177—205.
- Поляк Б. Т. Градиентные методы минимизации функционалов //Ж. вычисл. матем. и матем. физ. 1963. Т. 3. № 4. С. 643—653.
- Поляк Б. Т. Метод Ньютона и его роль в оптимизации и вычислительной математике //Труды Института системного анализа Российской академии наук. 2006. Т. 28. С. 44—62.
- Colding T. H., Minicozzi W. P. Lojasiewicz inequalities and applications //arXiv:1402.5087. 2014.
- Lojasiewicz S. Division d’une distribution par une fonction analytique de variables reelles //C. R. Acad. Sci. 1958. Т. 246. № 5. С. 683—686.
Arquivos suplementares
