Специалисты лаборатории исследований ИИ Tinkoff Research открыли новый алгоритм для обучения ИИ, рассказали Хабру в пресс-службе лаборатории. По словам исследователей, новый метод, названный SAC-RND, обучает системы в 20 раз быстрее и на 10% качественнее всех существующих аналогов. Результаты показало тестирование метода на робототехнических симуляторах. Метод SAC-RND может повысить безопасность беспилотных автомобилей, упростить логистические цепочки, ускорить доставку и работу складов, оптимизировать процессы горения на энергетических объектах и сократить выбросы вредных веществ в окружающую среду, считают в Tinkoff Research.
Результаты исследования были представлены на Международной конференции по машинному обучению (ICML), проходящей на Гавайах в Гонолулу, Гавайи с 23 по 29 июля 2023 года.
Одно из наиболее перспективных видов обучения ИИ — обучение с подкреплением (RL), похожее на процессы человеческого обучения. Обучение с подкреплением может использоваться во всех сферах: от регулирования пробок на дорогах до рекомендаций в социальных сетях, которые предлагают пользователю контент, основанный на его предпочтениях. Ранее считалось, что использование случайных нейросетей (алгоритмов для последовательного и автоматического принятия решений, RND) не подходит для офлайн-обучения роботов с подкреплением.
Российские исследователи изучили предыдущие работы и обнаружили недостатки в проведённых экспериментах и полученных выводах. При использовании метода RND участвуют две нейросети — случайная и основная, которая пытается предсказать поведение первой. Важное свойство каждой нейросети — её глубина, то есть количество слоёв, из которых она состоит. У основной сети не должно быть меньше слоёв, чем у случайной, иначе она не сможет смоделировать её поведение, что приведёт к нестабильности или невозможности обучения.
Специалисты обнаружили, что в предыдущих работах на тему использования случайных нейросетей в обучении с подкреплением размер случайной сети составлял четыре слоя, а размер основной — два. Использование неправильных размеров сетей привело научное сообщество к ошибочному выводу, что метод RND не умеет дискриминировать данные — отличать действия, которые были в датасете, от тех, что там не было. Исследователи исправили глубины сетей, сделав их эквивалентными, и быстро обнаружили, что при таких настройках методу удаётся различать данные.
Далее специалисты решили оптимизировать метод. Роботы научились приходить к эффективным решениям благодаря использованию механизма слияния, основанного на модуляции сигналов и их линейном отображении. В предыдущих работах на тему RND сигналы не подвергались дополнительной обработке.
Метод SAC-RND был протестирован на робототехнических симуляторах и показал лучшие результаты при меньшем количестве потребляемых ресурсов и времени. Как уже заявляли специалисты, открытие поможет ускорить исследования в области робототехники и обучения с подкреплением, поскольку оно снижает время получения устойчивого результата в 20 раз и является важным шагом на пути к созданию универсального робота.
Tinkoff Research — это одна из российских исследовательских групп, которая занимается научными исследованиями внутри компании, а не на базе некоммерческой организации. Учёные Tinkoff Research исследуют наиболее перспективные области ИИ: обработку естественного языка (NLP), компьютерное зрение (CV), обучение с подкреплением (RL) и рекомендательные системы (RecSys). По результатам экспериментов они пишут научные статьи для наиболее авторитетных научных конференций: NeurIPS, ICML, ACL, CVPR и других.
За два года существования команды более 13 статей были приняты на крупнейшие конференции и воркшопы в области ИИ. Научные работы Tinkoff Research цитируются учёными из университетов Беркли и Стэнфорда, а также исследовательского проекта Google по изучению ИИ Google DeepMind. Команда курирует исследовательскую лабораторию «Тинькофф» на базе МФТИ.