ICML 2024: как это было и куда движется индустрия / Хабр

Привет! Меня зовут Владислав Офицеров, и я отвечаю за развитие нейронных технологий в международном Поиске в Яндексе. Недавно я впервые побывал на одной из крупнейших международных конференций по машинному обучению — ICML (The International Conference on Machine Learning). Конференция проходила в Вене, и в этом году от Яндекса туда приехала большая делегация — нас было 46 человек. Конференция продолжалась целую неделю, на ней в разных секциях представили 2600 статей. Масштабные конференции, такие как ICLR и ICML, всегда собирают огромное количество участников и гостей из академии, ведущих компаний в отрасли и перспективных стартапов — все стремятся понетворкаться, послушать интересные доклады и посетить воркшопы.

ICML проходила целую неделю и была максимально насыщенной — в некоторые дни программа начиналась с 8 утра. Компании-спонсоры не только заманивали публику на стенды с мерчем, где специалистов поджидали рекрутеры, но и устраивали вечеринки и ужины, где происходило больше всего неформального общения. Кстати, Яндекс в этом году возродил добрую традицию и провёл вечеринку для русскоязычных ML’щиков — KOI8-R. О ней расскажу чуть позже.

Как ни старайся, в таких условиях везде не успеешь, поэтому каждый день приходилось планировать заранее: на какой воркшоп сходить, с авторами каких постеров пообщаться, какой из устных докладов послушать. В этой статье я расскажу о самом интересном и с моей точки зрения, и по отзывам коллег — нас было много и приоритеты у ребят из разных команд были разными. Конечно, расскажу о статьях от Yandex Research, которые попали на конференцию, и поделюсь нашей коллективной подборкой полезных статей — наверняка вы захотите прочитать какие-то из них и опробовать новые методы в своей работе.

Общие впечатления

Конференция пользуется заслуженной популярностью в индустрии — в первый день можно посетить «будки» спонсоров, среди которых (традиционно) весь цвет индустрии: Google, Apple, Amazon, Netflix, Byte Dance, знакомые нам Nebius и Toloka и многие другие. В этом году было много компаний из сферы трейдинга и финансов, которые очень постарались и подготовили классный мерч — неплохой способ выделиться на фоне именитых конкурентов.

Как и всегда на подобных конференциях, самое интересное происходило на полуторачасовых постер-сессиях — здесь можно было пообщаться с авторами, задать вопросы и многое узнать. На каждой сессии висело по 200–300 постеров, поэтому очень важно выбрать заранее, какие доклады вам интересны. Ещё один важный момент — статьи подают сильно заранее, поэтому к дню конференции уже могут появиться новые данные и подходы — исследования получают продолжение, которое пока не представлено на ICML, но в личном общении авторы иногда рассказывают, что изменилось в их работе — главное не стесняться и задавать вопросы.

Избранные постеры представляют на oral-сессиях. Это 15-минутные устные выступления, которые скорее про пиар докладов — исследователи успевают немного рассказать о теме статьи, основных результатах и ответить максимум на 1–2 вопроса, поэтому если хочется углубиться, всё равно лучше найти постер после выступления.

Более камерный формат — воркшопы. Они занимают больше времени, привлекают экспертов, которые хотят детально обсудить какую-то узкую тему, поэтому обычно на воркшопе присутствует человек 30 (по ощущениям), а если тема хайповая, то можно собрать и 50+. На наших глазах вечерние воркшопы периодически меняли формат — когда время на обсуждение заканчивалось, компании исследователей перетекали в близлежащие бары и продолжали общаться — кажется, так и должна выглядеть настоящая научная дискуссия 😎

Ещё были туториалы — это самый большой формат с массой технических деталей и глубоким погружением в тему. Почти 2 часа рассказа от авторов и подробных ответов на вопросы. Отличный вариант для тех, кто хочет разобраться, что происходит у коллег в смежных направлениях или прийти на интересующую тему с конкретными вопросами и обсудить технические детали. Самым хайповым оказался туториал о физике LLM — о нём подробнее расскажу в разделе о трендах на ICML 2024.

Статьи от Yandex Research на ICML

В этом году 3 статьи от наших исследователей были представлены на постер-сессиях.

Extreme Compression of Large Language Models via Additive Quantization

В этой статье ребята совместно с исследователями из Института науки и технологий Австрии (ISTA) и Технического исследовательского университета в Саудовской Аравии (KAUST) предлагают улучшение для метода квантизации AQLM — продвинутый алгоритм файн-тюнинга PV-tuning, с которым модифицируются все параметры модели, включая дискретные.

На данный момент AQLM + PV-tuning — лучший алгоритм двухбитной квантизации LLM с точки зрения качества. Он сжимает Llama 2 13b до эффективного размера в 6,9b, лишь немного не дотягивая до 7b-модели. Кстати, историю появления метода мы уже рассказывали на Хабре.

Sarah Frank-Wolfe: Methods for Constrained Optimization with Best Rates and Practical Features

В этой статье авторы оптимизируют метод Фрэнка-Вульфа (FW) — один из классических и популярных подходов к решению задач оптимизации с «простыми» ограничениями (шары, симплексы и т. д.) в приложениях машинного обучения. В последние годы набрали популярность стохастические версии FW, мотивированные большими наборами данных, для которых вычисление полного градиента становится очень дорогим.

Наши ребята предложили два новых варианта алгоритмов FW для стохастической минимизации с конечной суммой. Изменения основаны на методах уменьшения дисперсии, в частности, SARAH и PAGE .

Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach

Робастное обучение с подкреплением (RRL) — многообещающий подход к RL, направленный на подготовку моделей, устойчивых к неопределенности или искажениям, что повышает эффективность их применения в реальном мире. В этом подходе неопределенность или искажения интерпретируются как действия враждебного агента, и, таким образом, проблема сводится к выработке политики агентов, устойчивой к действиям любого оппонента.

В этой статье впервые предлагается рассмотреть проблемы RRL в рамках теории дифференциальных игр. Авторы доказывают, что при выполнении условия Исаака (достаточно общем для реальных динамических систем) одну и ту же Q-функцию можно использовать в качестве приближенного решения как максиминных, так и минимаксных уравнений Беллмана. Основываясь на этих результатах, авторы предлагают свои алгоритмы и демонстрируют их преимущества по сравнению с другими базовыми алгоритмами RRL и мультиагентными алгоритмами RL в разных условиях.

Тренды

Было много работ из мира LLM и на связанные темы, например, RLHF. Отдельно RL и CV — активно развивающиеся направления исследований — интересные статьи на эти темы нам тоже попадались.

LLM и все, что связано с текстом

Туториал Physics of Language Models

Пожалуй, самый популярный доклад первых двух дней, по крайней мере у нас внутри компании о нём говорили много 🙂

Авторы предлагают разделить концепцию «интеллекта» на несколько измерений: структуры, знания, рассуждения и т. д. Для каждого измерения создают синтетические данные и идеализированную среду для обучения LLM, позволяющую модели понимать теорию и максимально расширять свои возможности в этом измерении. Большое количество контролируемых экспериментов помогло выявить универсальные законы работы всех LLM, а не только конкретной версии GPT-4. Подробности можно найти на очень хорошем и очень подробном сайте авторов статьи.

Алексей Гусаков (СТО Поиска), Zeyuan Allen-Zhu (автор Physics of Language Models), Екатерина Серажим (Руководитель управления качества Поиска)

Далее рассмотрим статьи об SFT и Reward/RL для LLM. За помощь в подготовке этой части большое спасибо Андрею Буту, руководителю команды YandexGPT Alignment.

Supervised fine-tuning (SFT)

Understanding Finetuning for Factual Knowledge Extraction

Гипотеза авторов состоит в том, что файн-тюнинг на малоизвестных фактах ухудшает качество моделей и приводит к галлюцинациям. Результаты экспериментов подтверждают эту гипотезу на синтетических и обычных данных. Другой интересный вывод — качество при обучении на случайных фактах лучше, чем только на малоизвестных.

A Closer Look at the Limitations of Instruction Tuning

В этой работе авторы задаются вопросом: какие есть минусы у Supervised Finetuning (SFT) и может ли обучение с LoRA побороть их? Исследователи опираются на тот факт, что при SFT модель чаще галлюцинирует и подстраивается под SFT-датасет. Проводятся различные эксперименты, чтобы доказать эту гипотезу. В статье показано, что LoRA выдаёт лучший результат на нескольких общепризнанных датасетах — например, SFT-Alpaca-52k, SFT-Wizard-LM и других.

Long Is More for Alignment: A Simple but Tough-to-Beat Baseline for Instruction Fine-Tuning

Как выбрать данные для SFT? Основной вывод статьи — вам нужны длинные ответы, так как модели сложнее просто запомнить их. При оценке с помощью GPT-4 предложенный подход превзошел LIMA и другие бейзлайны. При этом качество ответов замеряется другими моделями, которые могут быть склонны к более длинным ответам, и авторы дополнительно проверяют, чтобы длины ответов моделей, обученных на длинных инстрактах, не отличались от обычного обучения. Исследователи также повышают качество ответов с помощью GPT-3.5 и NEFTune.

Reward-модели

Существует немало проблем, связанных с reward-моделями. Две следующие статьи исследуют, как LLM’ки учатся использовать недостатки моделей вознаграждения и что делать, когда разные аспекты вознаграждения плохо агрегируются.

Transforming and Combining Rewards for Aligning Large Language Models

Авторы статьи предлагают использовать лог-сигмоидную функцию. Использование такого подхода оказывается строго лучше, чем простое взвешивание нескольких ревордов.

WARM: On the Benefits of Weight Averaged Reward Models

Авторы из DeepMind обучают несколько разных reward-моделей и усредняют их веса, получая таким образом улучшения даже относительно ансамбля моделей. Сетап эксперимента:

модель — PALM-XXS,
датасет — TLDR-суммаризации,
разметка — PALM-L,
RL — Reinforce.

Self-Rewarding Language Models

В этой работе исследователи задаются вопросом: можно ли отказаться от дорогой человеческой разметки пар? Авторы предлагают подход, в котором исходная модель используется для генерации новых инструкций и ответов, а также для их оценки! За три итерации такой метод выдаёт сильные результаты, превосходящие Claude 2, Gemini Pro и GPT-4 0613.

RLHF

Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

Авторы этой публикации рассматривают преимущества двух популярных алгоритмов для RLHF: DPO и PPO. В работе есть как интересные теоретические находки (область решений PPO строго вложена в область решений DPO), так и практические советы о том, как добиться лучших результатов для каждого из подходов. В экспериментах авторы тестируют DPO и PPO на множестве типичных для RLHF задач, начиная с диалога и заканчивая генерацией кода. Результаты показывают, что PPO может превзойти другие методы элаймента и достигать лучших результатов в сложных тестах на написание кода.

ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models

Авторы утверждают, что PPO-алгоритм сильно переосложнен для LLM, поэтому предлагают использовать Reinforce, немного улучшив его — убрав дисперсию алгоритма. Преимуществ относительно PPO получается много — от меньшего использования памяти GPU до более быстрой сходимости.

Суперэлаймент

Weak-to-strong Generalization: Eliciting Strong Capabilities With Weak Supervision

Пейпер от OpenAI (уже довольно старый), в котором авторы рассуждают о том, что популярные методы элаймента, такие как RLHF, основаны на способности людей контролировать поведение модели — например, оценивать, точно ли модель следует инструкциям и выдает ли безопасные результаты. Однако будущие модели станут вести себя иначе, и людям будет слишком сложно надежно их оценить. Поэтому авторы решили исследовать вопрос: сможет ли слабая модель выявить все возможности гораздо более мощной модели?

Авторы обучают умную модель (GPT-4) на разметке от более слабой модели (GPT-2). При этом сильная модель существенно превосходит слабую, вплотную приближаясь к результатам, которые получаются при обучении сразу на правильной разметке.

Debating with More Persuasive LLMs Leads to More Truthful Answers

Статья получила награду организаторов конференции. В ней исследуется примерно тот же вопрос, которым задавались авторы предыдущей статьи от OpenAI, но у исследователей получается улучшить слабую модель (не эксперта) с помощью интерактивных дебатов двух более сильных моделей-экспертов.

Еще из интересного: с помощью метода дебатов, когда два эксперта LLM отстаивают разные варианты ответа, а итоговую версию выбирает неспециалист, получается улучшить качество ответов не только для нейросетей, но и для человека.

Несколько интересных статей на тему RL

Находками поделился руко��одитель R&D в Геосервисах Дмитрий Бабаев.

Stop Regressing: Training Value Functions via Classification for Scalable Deep RL

Oral-статья от авторов из DeepMind. В ней прекрасно не только название, но и содержание. Авторы развивают идеи из старых статей — например, из Improving Regression Performance with Distributional Losses — о том, что замена MSE-функции потерь на нечто, похожее на классификацию, делает обучение нейросетей более стабильным. Исследователи показывают, что такая замена очень полезна для обучения прогнозу будущих наград во многих задачах в RL-постановке. Статья не только представляет интерес для исследователей и пользователей RL, но и наводит на мысли о том, где еще такая модификация задачи регрессии может помочь.

Individual Contributions as Intrinsic Exploration Scaffolds for Multi-agent Reinforcement Learning

Авторы предлагают оценивать индивидуальный вклад агента как встроенный механизм разведки (ICES) для мультиагентного обучения с подкреплением, с учетом того, к насколько интересному глобальному состоянию приведет работа агента. В частности, ICES создает механизмы разведки с байесовской неожиданностью, способствуя глобальному трансферу информации. Эти механизмы, используемые только во время обучения, помогают отдельным агентам ориентироваться в действиях, существенно влияющих на глобальное состояние.

In-Context Reinforcement Learning for Variable Action Spaces

Трансформеры, предварительно обученные на наборах данных с многоэпизодными контекстами, могут выполнять новые задачи обучения с подкреплением в контексте. Ключевым ограничением ранее предложенных моделей является их зависимость от заранее определенного размера и структуры пространства действий. Внедрение нового пространства действий часто требует восстановления данных и переподготовки моделей, а это стоит дорого.

Авторы статьи показывают, что проблему можно решить, предложив Headless-AD модель, которая, несмотря на то, что была обучена только один раз, может обобщаться на пространства действий с переменным размером, семантическим наполнением и порядком. Экспериментируя с Bernoulli и contextual bandits, а также со средой gridworld, авторы показали, что Headless-AD обладает большими возможностями для обобщения на пространства действий, с которыми она не сталкивалась, даже лучше некоторых специализированных моделей.

Learning to Model the World with Language

Oral-статья от авторов из Беркли, в том числе от таких известных исследователей как Данияр Хафнер и Питер Аббил. Интересно, что предыдущую версию этой публикации не взяли на ICLR, а на ICML она попала сразу в список oral-статей.

Авторы использовали DreamerV3 и добавили к входным наблюдениям-картинкам еще и полезный текст. Оказалось, что агент начинает эффективно использовать текст и неявно учится связывать текстовую и картиночную информа��ию.

DreamerV3 и сам по себе достаточно интересен. Например, с его помощью впервые удалось решить задачу получения алмазов в Minecraft без каких-либо подсказок или демонстраций.

Диффузия

Статьями о своей предметной области поделился Александр Шишеня, ведущий разработчик генеративных моделей в Поиске.

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

Довольно старая статья от Stability. Из разговора с авторами удалось выяснить, что они пытались менять архитектуру Unet, но она все равно работает хуже трансформеров. На вопрос, пробовали ли добавлять больше attention-слоев, сказали, что получится почти то же, что UVit, а он по их экспериментам тоже хуже трансформеров.

Также авторы пришли к выводу, что валидационный лосс хорошо согласуется с предпочтениями пользователей, что не противоречит и нашим выводам, а еще рассказали, что помимо DPO пытались использовать PPO, но узнать больше о результатах мне не удалось.

Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution

Авторы адаптируют диффузию к дискретному распределению, в частности, генерируют текст. Для этого они зашумляют строку с помощью марковского процесса с матрицей перехода Q. Обратный марковский процесс (который расшумляет) будет иметь матрицу перехода Q * p(i) / p(j), поэтому достаточно выучить отношение p(i) / p(j). Оказывается, что лучше всего работает не зашумление случайными токенами, а маскирование, поэтому сам метод становится похож на предобучение BERT. Сравниваются с GPT-2, признавая, что их модель медленная и довольно слабая по качеству. Концептуально интересная статья, но результаты пока оставляют желать лучшего.

Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion

В статье утверждается, что DDPM-инверсия работает стабильнее, чем DDIM. Также авторы используют собственные вектора какой-то матрицы ковариации, чтобы не редактировать аудио без использования промта, но я не вполне понял, как и зачем.

Slicedit: Zero-Shot Video Editing With Text-to-Image Diffusion Models Using Spatio-Temporal Slices

Редактирование видео с использованием DDPM-инверсии от близкой к авторам прошлой статьи команды. Основная фишка работы в том, что авторы инвертируют видео покадрово и послайсово (слайс — это вертикальный срез по всем кадрам), после чего кадры и слайсы снова мерджатся. За счет этого достигается плавность в итоговом видео.

Немного статей о картинках и видео

Показалось, что было не так много докладов по компьютерному зрению. Возможно из-за того, что есть хорошие специализированные конференции. Почти не попадались статьи о классическом ML. Но все же интересные работы, связанные с CV, мы увидели. Находками поделились Александр Шишеня и Сергей Овчаренко из службы компьютерного зрения.

Genie: Generative Interactive Environments

Доклад от DeepMind — исследователи обучили две модели на датасете из видеоигр — в основном на 2D-платформерах. Одна модель кодирует возможные действия игрока в латентное дискретное пространство, а другая — предсказывает следующие фреймы по предыдущим. В итоге Genie способна генерировать видеоигровые уровни из текстовых промтов, рисунков и фотографий. Статья получила награду Best Paper Award.

Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization

Доклад об авторегрессионной модели, способной предсказывать текстовые токены и видео. Она обучена на next-token prediction с диффузионной моделью для генерации кадров в пиксельном пространстве и motion-векторы. С помощью DDIM-инверсии авторы получают «шумную» версию последнего кадра и сопоставляют ее с предыдущими. Получившаяся модель умеет генерировать длинные видео по промту или первому кадру.

LCA-on-the-Line: Benchmarking Out of Distribution Generalization with Class Taxonomies

Если обобщать, авторы говорят следующее: пусть у нас есть сильная корреляция таргета с фичами, которые будут не очень полезны в проде по тем или иным причинам. Объясняют идею на основе классификатора картинок, где по фону объекта можно найти неплохую корреляцию, а оставшиеся примеры — просто запомнить. Но тогда классификатор легко обмануть. В статье предлагается метод автоматического поиска строчек без лика таргета. На них нужно поднимать вес в датасете или файн-тюниться в конце — интересный подход для решения специфических задач.

Полезное и забавное на разные темы

Pi-DUAL: Using privileged information to distinguish clean from noisy labels

Статья о том, как бороться с шумом асессоров. Разметка неизбежно содержит ошибки, и мы тратим capacity модели на «заучивание шума». Ошибки асессоров могут быть системными, следовательно, можно научиться их распознавать. Для этого авторы предлагают end-to-end обучить несколько моделей: основной предиктор, модель для «оверфита» в шум и модель-gate для переключения между первыми двумя. В результате основная модель лучше учится и обобщается.

Discovering environments with XRM

Одна из немногих статей об обучении в целом. Авторы предлагают метод перекрестной минимизации рисков (XRM) — учат 2 сети, каждая из которых использует случайную половину обучающих данных, тем самым повышая внимание к примерам, на которых ошибается текущая версия модели.

Enforced Amnesia as a Way to Mitigate the Potential Risk of Silent Suffering in Conscious AI

Не обошлось без забавного — здесь название говорит само за себя. Да, на ICML попадают и такие статьи. Едва ли их можно назвать практичными, но внимание публики подобные темы, конечно, привлекают!

A Touch, Vision, and Language Dataset for Multimodal Alignment

Еще одна оригинальная тема — авторы обучали роборуку осязанию — трогать разные поверхности и описывать их: «мягкое, с пупырышками», «гладкое и твердое» и т. д.

Self-Correcting Self-Consuming Loops for Generative Model Training

Еще один важный тренд — синтетические данные. Именно им посвящена статья от DeepMind, суть которой можно описать просто и элегантно: если обучать генеративную модель на ее же генерациях, могут возникать проблемы, такие, как например, mode collapse. НО! Если обучать генеративную модель на ее же скорректированных генерациях, все будет хорошо. В тексте авторы предлагают теоретическую базу и конкретные техники, позволяющие улучшить работу моделей на синтетических данных.

Все вечеринки вчерашнего дня

О науке поговорили, теперь можно перейти к мирскому 😊 Я уже упоминал, что нетворкинг — одна из самых важных составляющих таких больших конференциях, которая порой даже затмевает научную сторону. Живое общение заменить невозможно — в диалоге рождаются мысли и идеи, которые ни за что не посетили бы вас во время одинокого бдения и размышлений о проблеме. Поэтому (а также ради найма, чего уж греха таить) компании, представленные на ICML, старались и организовывали неформальные мероприятия вне расписания. Каждый день появлялось несколько вариантов — было куда пойти. На некоторые участников активно зазывали, а другие наоборот были максимально закрытыми, и люди охотились за приглашениями. Чаще всего это были ужины или фуршеты, главный бонус которых — познакомиться и пообщаться с представителями компаний и просто интересными исследователями из своей (и не только) предметной области.

Яндекс возродил вечеринку для русскоязычных ML-специалистов KOI8-R, которая не проводилась со времён пандемии. Единой темы не было — только свободное общение, приятная и местами ностальгическая музыка, вкусная еда и хорошие люди. В итоге на вечеринку пришло больше 95 человек — много бывших коллег и «выпускников» Yandex Research, которые работают в самых разных компаниях и исследовательских институтах по всему миру. Было очень душевно (надеюсь, фотографии передают атмосферу), а приятным открытием для меня стало, что ICML — это не только про науку и технологии, но и про дружное международное сообщество исследователей, которые сообща ищут решения для самых сложных проблем в сфере машинного обучения и готовы делиться друг с другом опытом и знаниями

Кстати, другими обзорами свежих научных статей мы с коллегами делимся в канале Душный NLP →

ICML 2024: как это было и куда движется индустрия