ISSLEDOVANIE GRADIENTNOGO METODA S NETOChNOY INFORMATsIEY O GRADIENTE NA NEKOTORYKh KLASSAKh (L0, L1)-GLADKIKh NEVYPUKLYKh ZADACh

S. S ABLAEV; АБЛАЕВ С. С; F. S STONYaKIN; СТОНЯКИН Ф. С; M. N FEDOTOV; ФЕДОТОВ М. Н; M. S ALKUSA; АЛКУСА М. С; O. S SAVChUK; САВЧУК О. С; A. V GASNIKOV; ГАСНИКОВ А. В

doi:10.31857/S0005231025090015

ИССЛЕДОВАНИЕ ГРАДИЕНТНОГО МЕТОДА С НЕТОЧНОЙ ИНФОРМАЦИЕЙ О ГРАДИЕНТЕ НА НЕКОТОРЫХ КЛАССАХ (L0, L1)-ГЛАДКИХ НЕВЫПУКЛЫХ ЗАДАЧ

Авторы: АБЛАЕВ С.С¹^,2, СТОНЯКИН Ф.С²^,1, ФЕДОТОВ М.Н³, АЛКУСА М.С⁴, САВЧУК О.С⁵^,6, ГАСНИКОВ А.В⁷^,2
Учреждения:
1. Крымский федеральный университет им. В.И. Вернадского, Симферополь
2. Московский физико-технический институт (национальный исследовательский университет)
3. Национальный исследовательский университет «Высшая школа экономики», Москва
4. Университет Иннополис
5. Крымский федеральный университет имени В.И. Вернадского, Симферополь
6. Адыгейский государственный университет, Майкоп
7. Университет Иннополис, Долгопрудный
Выпуск: № 9 (2025)
Страницы: 3-27
Раздел: Тематический выпуск (окончание)
URL: https://kazanmedjournal.ru/0005-2310/article/view/691176
DOI: https://doi.org/10.31857/S0005231025090015
EDN: https://elibrary.ru/VMPJNF
ID: 691176

Цитировать

Полный текст

Открытый доступ
Доступ закрыт

Доступ предоставлен
Доступ закрыт

Доступ платный или только для подписчиков

Аннотация
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

Работа посвящена исследованию градиентного метода на классе (L0, L1)-гладких функций при условии, что на итерациях метода вместо точных значений градиента доступны лишь его приближенные значения, что соответствует ситуациям, возникающим при использовании зашумленных данных. Рассмотрено два класса задач: первый – квазивыпуклые функции относительно всякого решения, удовлетворяющие условию градиентного доминирования Поляка-Лоясиевича, второй – квазивыпуклые функции без требования выполнения условия Поляка-Лоясиевича, но с дополнительным ограничением на параметр квазивыпуклости. Для квазивыпуклых функций с PL-условием доказан результат о близкой к линейной скорости сходимости метода в окрестность точного решения. Если значения неточного градиента достаточно малы (что достигается за конечное число итераций), то метод сходится с близкой к линейной скоростью на классе задач с условием Поляка-Лоясиевича без дополнительного предположения о квазивыпуклости. Для (0, M)-гладких квазивыпуклых функций предложен адаптивный градиентный метод и получена оценка его скорости сходимости. Показано, что в случае использования точных значений градиента метод сходится с линейной скоростью.

Ключевые слова

градиентный метод, Δ-неточный градиент, (L, L)-гладкая функция, ρ-квазивыпуклая функция, условие Поляка-Лоясиевича, логистическая регрессия

Список литературы

Zhang J., He T., Sra S., Jadbabaie A. Why gradient clipping accelerates training: A theoretical justiﬁcation for adaptivity // International Conference on Learning Representations. 2020. P. 1–14.
Schmidt M., Le Roux N., Bach F. Minimizing ﬁnite sums with the stochastic average gradient // Mathematical Programming. 2017. V. 162. P. 83–112.
Johnson R., Zhang T. Accelerating stochastic gradient descent using predictive variance reduction // Advances in neural information processing systems. 2013. No. 26. P. 315–323.
Defazio A., Bach F., Lacoste-Julien S. SAGA: A Fast Incremental Gradient Method With Support for Non-Strongly Convex Composite Objectives // Advances in neural information processing systems. 2014. No. 2. P. 1646–1654.
Nguyen L., Liu J., Scheinberg K., Takaˇc M. Sarah: A novel method for machine learning problems using stochastic recursive gradient // 34th International Conference on Machine Learning (ICML). 2014. V. 6. P. 4009–4023.
Nguyen L., Scheinberg K., Takaˇc M. Inexact sarah algorithm for stochastic optimization // Optimization Methods and Software. 2021. V. 36. No. 1. P. 237–258.
Beznosikov A. Takaˇc M. Random-reshuﬄed SARAH does not need full gradient computations // Optim Lett. 2024. V. 18. P. 727–749.
Shi Z., Sadiev A., Loizou N., et al. Ai-sarah: Adaptive and implicit stochastic recursive gradient methods // Transactions on Machine Learning Research. 2023. P. 1–40.
Defazio A., Bottou L. On the ineﬀectiveness of variance reduced optimization for deep learning // Advances in Neural Information Processing Systems. 2019. V. 32. P. 1753–1763.
Zhang B., Jin J., Fang C., Wang L. Improved Analysis of Clipping Algorithms for Non-convex Optimization // Advances in Neural Information Processing Systems. 2020. V. 19. P. 15511–15522.
Chen Z., Zhou Y., Liang Y., Lu Z. Generalized-smooth nonconvex optimization is as eﬃcient as smooth nonconvex optimization // International Conference on Machine Learning (PMLR). 2023. P. 5396–5427.
Zhao S.-Y., Xie Y.-P., Li W.-J. On the convergence and improvement of stochastic normalized gradient descent // Science China Information Sciences. 2021. V. 64. P. 1–13.
Faw M., Rout L., Caramanis C., Shakkottai S. Beyond uniform smoothness: A stopped analysis of adaptive sgd // The Thirty Sixth Annual Conference on Learning Theory (PMLR). 2023. P. 89–160.
Wang B., Zhang H., Ma Z., Chen W. Convergence of adagrad for non-convex objectives: Simple proofs and relaxed assumptions // The Thirty Sixth Annual Conference on Learning Theory (PMLR). 2023. P. 161–190.
Li H., Rakhlin A., Jadbabaie A. Convergence of adam under relaxed assumptions // Advances in Neural Information Processing Systems. 2024. P. 1792–1804.
Hubler F., Yang J., Li X., He N. Parameter-agnostic optimization under relaxed smoothness // International Conference on Artiﬁcial Intelligence and Statistics (PMLR). 2024. P. 4861–4869.
Pascanu R., Mikolov T., Bengio Y. On the diﬃculty of training recurrent neural networks // International Conference on Machine Learning. 2013. V. 28. P. 1310– 1318.
Polyak B. Introduction to Optimization // Optimization Software. 1987. 438 p.
Koloskova A., Hendrikx H., Stich S. Revisiting gradient clipping: Stochastic bias and tight convergence guarantees // International Conference on Machine Learning. 2023. P. 17343–17363.
Takezawa Y., Bao H., Sato R. et al. Polyak meets parameter-free clipped gradient descent // 2024. arXiv:2405.15010
Li H., Qian J., Tian Y., Rakhlin A., Jadbabaie A. Convex and non-convex optimization under generalized smoothness // Advances in Neural Information Processing Systems. 2024. V. 36. P. 2675–2686.
Gorbunov E., Tupitsa N., Choudhury S., et al. Methods for Convex (L0, L1)-Smooth Optimization: Clipping, Acceleration, and Adaptivity // 2024. arXiv:2409.14989
Vankov D., Rodomanov A., Nedich A., et al. Optimizing (L0, L1)-Smooth Functions by Gradient Methods // 2024. arXiv:2410.10800
Lobanov A., Gasnikov A., Gorbunov E., Tak´aˇc M. Linear Convergence Rate in Convex Setup is Possible! Gradient Descent Method Variants under (L0, L1)-Smoothness // 2024. arXiv:2412.17050
Stonyakin F., Kuruzov I., Polyak B. Stopping Rules for Gradient Methods for Nonconvex Problems with Additive Noise in Gradient // Journal of Optimization Theory and Applications. 2022. V. 198. P. 531–551.
Wang J., Wibisono A. Continuized Acceleration for Quasar Convex Functions in Non-Convex Optimization // 2023. 10.48550/arXiv.2302.07851
Hermant J., Aujol J.F., Dossal C., Rondepierre A. Study of the behaviour of Nesterov accelerated gradient in a non convex setting: the strongly quasar convex case // 2024. arXiv:2405.19809
Hinder O., Sidford A., Sohoni N. Near-Optimal Methods for Minimizing Star-Convex Functions and Beyond // 2019. arXiv.1906.11985.
Karimi H., Nutini J., Schmidt M. Linear convergence of gradient and proximalgradient methods under the Polyak–Lojasiewicz condition // Joint European Conference on Machine Learning and Knowledge Discovery in Databases. 2016. P. 795–811.
Stonyakin F., Tyurin A., Gasnikov A., et al. Inexact Relative Smoothness and Strong Convexity for Optimization and Variational Inequalities by Inexact Model // 2024. arXiv preprint arXiv:2402.06319.

Дополнительные файлы

Доп. файлы

Действие

1. JATS XML

Скачать

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

№ 9 (2025)

ИССЛЕДОВАНИЕ ГРАДИЕНТНОГО МЕТОДА С НЕТОЧНОЙ ИНФОРМАЦИЕЙ О ГРАДИЕНТЕ НА НЕКОТОРЫХ КЛАССАХ (L0, L1)-ГЛАДКИХ НЕВЫПУКЛЫХ ЗАДАЧ

Полный текст

Аннотация

Ключевые слова

Об авторах

С. С АБЛАЕВ

Ф. С СТОНЯКИН

М. Н ФЕДОТОВ

М. С АЛКУСА

О. С САВЧУК

А. В ГАСНИКОВ

Список литературы

Дополнительные файлы