ICLR 2026 в Рио-де-Жанейро: главные ML-тренды, математика и инсайты / Хабр

В конце апреля в Рио-де-Жанейро прошла ICLR 2026 (International Conference on Learning Representations) — одна из главных конференций по искусственному интеллекту и машинному обучению.

Конкурс и сито рецензирования (peer review) оказались жёсткими:

подано ~ 19 000 заявок;
принято более 5000 статей;
уровень одобрения (Acceptance Rate) составил ~26%.

Команда Яндекса прошла этот отбор, представив на конференции свои результаты:

шесть статей вошли в основную программу (Main Track);
одна работа была презентована на воркшопе ICBINB (I Can't Believe It's Not Better) — известной площадке для разбора подходов, которые по всем законам логики должны были «взлететь», но столкнулись с неочевидными фундаментальными ограничениями.

Меня зовут Мария Никифорова, я старший разработчик службы качества претрейна. Вместе с Дарьей Шатько @DariaSatco , руководителем ML в Yandex Crowd, и другими коллегами мы побывали на конференции и в статье расскажем, как конференция начиналась уже в аэропорту, какие главные инсайты были в статьях и какие постеры оказались самыми запоминающимися.

Контекст и атмосфера

Что за ивент впереди, стало понятно уже в аэропорту. Соседи по очереди с тубусами для постеров, делегации исследователей со всего мира, пассажиры, разбирающие препринты с arXiv прямо в кресле самолёта. ML-комьюнити, академическое и индустриальное, слеталось в Бразилию.

Рио встретил контрастом. Местные дружелюбны, но мегаполис диктует свои правила: лучше не доставать дорогую технику на улице, перемещаться только на такси, маршруты планировать на светлое время суток.

Внутри конгресс-центра об этом забываешь — там не до прогулок. Два огромных павильона под постерные сессии, которые сменяют друг друга дважды в день. Параллельные треки в амфитеатре. Стенды компаний-партнёров, где вместо маркетинга шли полноценные технические мини-доклады. На обед времени не оставалось.

Главный тренд: агентские системы

ICLR 2026 можно смело называть годом автономных агентов. Ещё пару лет назад работы крутились вокруг цепочек в духе «LLM + пара внешних API». В 2026 году планка другая: агента проектируют как программную систему, которая живёт долго, сама учится на своём опыте и сама исправляет свои ошибки.

В основном обсуждают пять тем:

Long-horizon planning — удержание долгосрочной цели на горизонтах в сотни шагов.
Complex toolchains — построение динамических цепочек зависимых вызовов инструментов.
Persistent & Episodic memory — управление долговременной памятью и накопление опыта.
Self-evolving agents — способность агента эволюционировать и обучаться без дообучения базовой модели.
Multi-agent coordination — оркестрация и синергия узкоспециализированных агентов.

Вот три работы, на примере которых видно, как меняется подход.

Оптимизация топологии vs оптимизация промптов в мультиагентных системах

Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies

Когда инженер проектирует мультиагентную систему, он думает про граф взаимодействия: какой агент кому передаёт задачу. Фреймворк MASS (Multi-Agent System Search), который представили авторы этой работы, показывает, что граф — это только половина дела.

Фреймворк помогает оптимизировать систему в три этапа:

Локально оптимизирует промпты отдельных блоков.
Ищет оптимальную топологию графа.
Глобально оптимизирует промпты всей системы.

Главный вывод: оптимизировать граф в отрыве от того, что происходит внутри узлов, бессмысленно. Промпты блоков повлияли на метрики не меньше, чем сама архитектура связей.

Инкрементальный инжиниринг контекста

Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

Классическая проблема агентов — раздувание и деградация контекста при длительной работе. Фреймворк ACE (Agentic Context Engineering) решает эту задачу через замкнутый цикл саморефлексии.

Агент работает по следующему алгоритму:

Выполняет задачу и логирует полные цепочки шагов.
Запускает отдельный поток рефлексии для анализа успехов и критических ошибок.
Инкрементально обновляет свой системный плейбук.

ACE не переписывает системный промпт целиком, а работает как система контроля версий: точечно добавляет новые правила, уточняет формулировки и вычищает устаревшие и неэффективные инструкции.

Авторы заявляют о росте метрик в среднем на 10,6% на агентских бенчмарках при одновременном снижении задержки (latency) и стоимости работы за счёт оптимизации длины контекста.

Эволюция промптов как альтернатива RL

GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

Доклад спорит с тем, что качество агентов можно тянуть вверх только обучением с подкреплением (RL). Авторы GEPA отталкиваются от простого наблюдения: у LLM-систем почти всё записано на естественном языке — логи, цепочки рассуждений, вызовы инструментов, ответы валидаторов. А раз так, то и чинить агента можно прямо на этом уровне, не трогая веса.

Вместо обновления весов через алгоритмы вроде GRPO — дорогого и капризного — GEPA работает с промптами по эволюционной схеме:

Модель верхнего уровня читает логи ошибок агента.
Из них она собирает пул промптов-исправлений — мутаций исходного.
Эволюционный отбор оставляет те, которые лучше отработали на валидации.

В части задач такой текстовый отбор промптов обошёл классический RL на GRPO в среднем на 10%, а на отдельных доменах разрыв доходил до 20%. Практический смысл простой: систему можно адаптировать прямо в проде, не гоняя дорогое дообучение модели.

Эволюция агентской памяти

Расширить контекстное окно до миллионов токенов казалось простым решением проблемы забывчивости — но не сработало. Чем длиннее история диалога, тем больше в контексте шума, тем дороже вычисления и тем хуже в итоге ответы.

На ICLR 2026 из этого оформился отдельный тренд: агенту нужна не просто большая память, а управляемая — такая, которую можно сжимать и обобщать. На постерных сессиях разошлись два подхода, противоположных по идее, но закрывающих слабые места друг друга.

Семантические графы знаний вместо сырых трейсов

PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents

PlugMem предлагает вообще не хранить сырые логи. Вместо этого в агента встраивается подключаемый модуль, который на лету сворачивает трейсы в компактный граф знаний — Knowledge-Centric Memory Graph.

Узлы графа — это извлечённые факты, проверенные бизнес-правила и сработавшие стратегии поведения. Что это даёт: при поиске агент опирается не на текстовую близость эмбеддингов, а на логические связи между сущностями.

Трёхуровневая компрессия и предсказание интента

SimpleMem: Low-Cost and Compact Memory Management for Autonomous Agents

PlugMem делает ставку на структуру, SimpleMem — на экономию токенов. Здесь память устроена как конвейер из трёх шагов:

Memory Units. Сырые логи сжимаются до атомарных блоков информации, лингвистический шум выкидывается.
Abstract Concepts. Внутри одной длинной сессии связанные блоки сворачиваются в высокоуровневые концепты.
Intent Planning. На извлечении система сначала решает, какая глубина памяти нужна под конкретный ответ, и только потом поднимает ровно столько контекста, сколько требуется.

Speculative Execution в агентах

Чем автономнее агент, тем больше задержка. Если для ответа пользователю агенту нужно последовательно вызвать пять инструментов, дождаться ответов каждого, провести рефлексию и спланировать следующий шаг — задержка на инференс улетает за десятки секунд.

Исследователи предложили решение: перенести принцип спекулятивного выполнения (Speculative Execution) из многопоточных CPU и спекулятивного декодирования LLM непосредственно на уровень агентской оркестрации.

Архитектурный паттерн: Speculator & Actor

Speculative Actions: A Lossless Framework for Faster Agentic Systems

Вместо того чтобы ждать следующего шага, система запускает быстрый Speculator, который предсказывает вероятные следующие действия. Эти действия заранее выполняются параллельно, но результат доводится до завершения, только если позже медленный Actor подтвердил, что это действительно правильный следующий шаг. В этой же работе авторы предлагают формулы оценки costs и снижения latency в зависимости от количества веток, запускаемых Speculator.

В результате предлагается действовать так: Speculator генерирует кандидатов с confidence, система сортирует их, запускает только top-K веток, а K выбирается динамически по правилу «пока ожидаемый latency gain выше дополнительного cost».

Новый стек оценки: от статических метрик к интерактивным средам

Статичный датасет с вопросом и правильным ответом всё хуже отражает то, что мы на самом деле хотим проверить. Агент может ошибиться не только в финальном ответе — он может выбрать не тот инструмент, плохо спланировать шаги, зациклиться, неправильно прочитать состояние среды, сломаться на изменении интерфейса, не восстановиться после ошибки или дать формально правильный ответ, но через очень странный путь.

На смену жёстким тестам пришли динамические платформы, которые изолируют агента в интерактивном окружении и замеряют его живучесть на долгих задачах. Оформились три вектора тестирования:

Динамика во времени.
Стратегия сбора информации.
Устойчивость к изменениям UI.

Асинхронность и динамика: среда, которая не ждёт агента

Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments

Большинство старых симуляций работало по пошаговому принципу: агент выполнил действие → среда обновилась → среда ждёт следующего действия агента. В реальности так не бывает. Фреймворк Gaia2, построенный на базе платформы Agents Research Environments (ARE), тестирует агентов в условиях, когда мир вокруг них меняется независимо от их действий.

В чём сложность: в среду подмешиваются зашумлённые события, асинхронные апдейты данных от других систем и жёсткие временные ограничения.

Главный вывод авторов: ни одна из топовых моделей не выигрывает по всем фронтам. GPT-5 даёт сильный общий результат, но почти полностью проваливает задачи, чувствительные ко времени. Там, где среда требует мгновенной реакции, модели слишком долго «думают».

Активное исследование: баланс «Разведка vs действие»

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

Получив размытое ТЗ, агент в проде часто сразу хватается за тяжёлые инструменты, вместо того чтобы сначала локализовать задачу. Чтобы это починить, авторы добавили инференс-стратегию на основе методов Монте-Карло: прежде чем сделать первый пришедший в голову шаг, модель прикидывает, сколько информации этот шаг реально принесёт (ожидаемый прирост информации, EIG).

OpenApps: стресс-тестирование UI-агентов на изменения в интерфейсе

OpenApps: Simulating Environment Variations to Measure UI-Agent Reliability

Допустим, вы учите UI-агента кликать по кнопкам в стандартном приложении — календаре, мессенджере, картах. Он отлично выучит геометрию элементов на тренировочной версии. А дальше выкатывается редизайн, иконки меняются местами, приложение открывают на другом разрешении — и агент ломается.

OpenApps — это легковесная инфраструктура (запускается на одном CPU), которая умеет генерировать тысячи уникальных вариаций интерфейса для шести базовых приложений, меняя их визуальный стиль, расположение блоков и контент.

RL нового поколения: обучение поведению, а не ответам

RL для агентов — это уже не просто «дообучить модель давать лучший финальный ответ», а попытка научить систему правильно вести себя в процессе: исследовать, пользоваться памятью, выбирать инструменты, общаться с пользователем и не делать лишних действий.

Понравились четыре работы, меняющие подход к обучению агентов через RL.

Борьба с Belief Deviation

T³: Tracking, Tuning, and Truncating for Reinforcement Learning in Long-Horizon Agent Tasks

В многошаговых задачах агенты часто страдают от эффекта Belief Deviation — постепенного накопления мелких ошибок в понимании текущего состояния среды. Потеряв верный контекст на пятом шаге, агент продолжает генерировать десятки мусорных действий, полностью ломая финальную метрику.

Авторы T³ показывают, как отбирать траектории для RL так, чтобы выкидывать бесполезные зацикливания — даже те, которые формально проходят как допустимые.

Динамическая перезапись памяти через Multi-Conv DAPO

MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent

MemAgent отказывается от внешних векторных баз под краткосрочную память и вместо них заводит «рабочую тетрадь» (scratchpad) прямо внутри контекстного окна модели.

Чтобы научить модель ею пользоваться, авторы взяли DAPO и доработали под многошаговые диалоги. Награда выдаётся за три типа внутренних действий: сохранить важный факт, убрать дубли и шум, переписать старый опыт в обобщённую стратегию. Так модель привыкает держать контекст чистым — и финальный ответ получается точнее.

AgentGym-RL: от простого к сложному

AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

Чтобы массово гонять эксперименты с RL, нужна общая стандартизированная среда. Исследователи презентовали AgentGym-RL — фреймворк-песочницу с открытым исходным кодом для обучения и оценки LLM-агентов в многошаговых интерактивных окружениях.

Главная ценность работы — алгоритм ScalingInter-RL, реализующий концепцию Curriculum Learning (обучение от простого к сложному) в пространстве агентских задач:

Агент обучается на простых изолированных задачах (от двух до пяти шагов). Задача — научить модель базовому синтаксису вызова инструментов и реакциям на ошибки API.
Как только поведение модели стабилизируется, фреймворк автоматически открывает доступ к более сложным задачам, увеличивая длину целевой цепочки действий.
Выход на комплексные сценарии, где модель эффективно переиспользует навыки, закреплённые на первом этапе, не уходя в бесконечные циклы.

Оптимизация вызовов: избавление от инструментальной зависимости

Acting Less is Reasoning More! Teaching Model to Act Efficiently

Современные агенты часто склонны к избыточным рассуждениям: они начинают вызывать внешние калькуляторы или поисковые движки для тривиальных логических задач, которые базовая LLM способна решить в уме. Это раздувает стоимость инференса и увеличивает latency.

Авторы работы Acting Less is Reasoning More использовали RL для выработки у агентов «эко-привычек» при работе с инструментами. В функцию награды (reward function) был жёстко зашит штраф за каждый вызов внешнего тула.

Модель научилась планированию и задействует внешнюю среду и API только тогда, когда внутренняя уверенность в ответе падает ниже заданного порога. Агенты стали более бережливыми (lean agents), существенно сократив издержки на инференс без потери качества.

Альтернативный фронтир: Diffusion LLMs выходит в продакшен

Ещё недавно текстовая диффузия воспринималась скорее как необычная альтернатива авторегрессионным языковым моделям, но к ICLR 2026 она уже оформилась в заметную исследовательскую область. Самое интересное здесь в том, что исследователи больше не ограничиваются вопросом «Может ли такой подход вообще работать?».

Теперь вопросы стали практичнее: как масштабировать DLM, при каких режимах обучения они ведут себя лучше или хуже авторегрессионных моделей и в каких задачах их параллельная генерация действительно даёт преимущество.

Главный плюс DLM — неавторегрессионная параллельная генерация. В отличие от классических LLM, которые генерируют текст строго по одному токену слева направо, диффузионные модели способны уточнять и генерировать все токены текста одновременно за фиксированное число шагов денойзинга.

Законы масштабирования дискретной диффузии

Scaling Behavior of Discrete Diffusion Language Models

Авторы системно исследовали законы масштабирования для дискретной диффузии и доказали, что их траектория обучения сильно зависит от математической природы накладываемого шума.

В экспериментах модель Uniform Diffusion разогнали до 10 млрд параметров, а суммарные вычислительные затраты на обучение превысили 10²² FLOPs.

Способна ли параллельная диффузия рассуждать

On the Reasoning Abilities of Masked Diffusion Language Models

Авторы работы связали Masked Diffusion Language Models с концепциями пошагового логического вывода и Looped Transformers. Главным выводом стало то, что параллельная генерация не только не мешает рассуждениям, но для определённых классов задач (например, верификация кода или решение графовых структур) вычислительно более выгодна. Модель способна одновременно корректировать и посылку, и следствие, избегая эффекта накопления ошибки, свойственного авторегрессионному декодированию.

До сих пор главным препятствием для внедрения LLM в реальные продукты оставалась скорость генерации. Модель генерирует токены параллельно, но для получения качественного текста ей требовалось совершить до 1024 последовательных шага денойзинга, что сводило на нет все преимущества параллелизма.

На ICLR 2026 было представлено сразу несколько сильных подходов к аппаратно-программному сжатию шагов семплирования:

FS-DFM (Fast Sampling for Diffusion Fractional Models): авторы предложили новый математический солвер для траекторий денойзинга. Им удалось сократить число необходимых шагов с 1024 до 8 шагов семплирования без потери перплексии и качества генерации, обеспечив 128-кратное ускорение инференса.
Fast-dLLM v2: фреймворк позволяет взять предобученные веса стандартной авторегрессионной LLM и на этапе инференса перестроить их в Block Diffusion Model. Это даёт стабильное ускорение генерации в 2,5 раза по сравнению со стандартным потаймстоповым декодингом.

Дискретную текстовую диффузию сегодня не стоит рассматривать как «убийцу трансформеров». Это рабочая альтернатива, которая превосходит классический подход в специфических продуктовых сценариях.

Экономить всё ещё круто

В эпоху больших моделей и датасетов становится всё сложнее проводить обычные эксперименты по улучшению моделей. Когда каждый полноценный прогон стоит слишком дорого, исследователи начинают оптимизировать не только сам инференс, но и все предварительные решения: какую смесь данных брать, какие гиперпараметры переносить на большой масштаб, как понять, какие примеры реально повлияли на поведение модели.

Исследователи фокусируются на двух фазах: выжать максимум предсказательной силы из малых прогонов (proxy-driven data curation) и алгоритмически сжимать контекст при инференсе длинных последовательностей.

Проблема переносимости прокси-моделей при фильтрации данных

Can Small Training Runs Reliably Guide Data Curation? Rethinking Proxy-Model Practice

Стандартная практика бигтеха при подготовке Data Mixture — запуск уменьшенной прокси-модели, например 150M параметров вместо 70B для оценки качества различных доменов данных. Предполагается, что домен, дающий лучший лосс на маленькой модели, отработает так же хорошо и на большой.

Авторы работы доказывают: прямая экстраполяция результатов прокси-моделей часто ошибочна. При изменении масштаба сети кардинально меняется динамика обучения, особенно если вместе с размером модели масштабируются гиперпараметры.

Спекулятивный инференс: борьба с бутылочным горлышком KV-кеша

Draft-based Approximate Inference for LLMs

Экономия на инференсе — это одновременно снижение затрат на оборудование и уменьшение задержки для конечного пользователя (Time-to-First-Token и Inter-Token Latency). В задачах с длинным контекстом (Long-Context Generation) главным ограничителем производительности становится раздувание и деградация пропускной способности KV-кеша.

Авторы работы переосмыслили концепцию спекулятивного декодирования. Вместо того чтобы использовать маленькую draft-модель исключительно для предсказания следующих токенов, они заставили её выполнять роль Attention Filter.

Симбиоз и барьеры: индустрия vs академия на ICLR 2026

ICLR — место, где традиционно сталкиваются два мира: академические исследователи, которых среди авторов большинство, и R&D-команды глобального бигтеха. По их спорам хорошо видно, как обе стороны заново определяют для себя, что вообще считать масштабом.

В «академии» ограничения заметны сразу. Даже на сильных постерах рано или поздно звучит вопрос: «А на модели побольше пробовали?» И ответ почти всегда упирается не в отсутствие интереса, а в стоимость вычислений. Бесполезными такие работы это не делает.

Скорее наоборот: на ICLR 2026 было показано, что маленький масштаб сам стал предметом исследования. Как строить прокси-эксперименты и когда им можно доверять? Какие закономерности из данных переносятся на большие модели, а какие ломаются при первом же изменении гиперпараметров?

Да что там эксперименты — оптимизируют уже сами замеры бенчмарков. Например, в статье How Reliable is Language Model Micro-Benchmarking? авторы искали минимальное число примеров, которого хватает, чтобы сравнивать модели быстро и при этом надёжно.

Индустрия выглядит иначе, но не обязательно масштабнее в прямом смысле. На открытых постерах вы всё равно редко видите настоящее frontier-scale обучение с нуля. Зато видите масштаб другого типа: не одну гигантскую модель, а сотни и тысячи запусков, абляций и проверок. Хороший пример — How to Train Data-Efficient LLMs, где работа о data selection опирается на 170 обучений с нуля и 2500 запусков дообучений.

Отдельно чувствуется, что индустрия стала осторожнее делиться тем, что происходит внутри frontier-разработки. Компании по-прежнему приходят на конференции, спонсируют их, показывают постеры и демо, но самые интересные детали — архитектура, данные, инфраструктура — всё чаще остаются за скобками.

Исследовательский стек Яндекса на ICLR 2026: от теории оптимизации до FP4-квантования

В 2026 году команда Яндекса защитила на основном треке конференции шесть работ. Их можно разделить на три технологических домена.

Домен 1. Хардверная оптимизация и ультранизкое квантование

Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

Команда представила детальный разбор и закрыла гэп между теоретической эффективностью и реальной производительностью новых микромасштабируемых 4-битных форматов хранения весов и активаций от NVIDIA (MXFP4 и NVFP4).

Посттренировочное квантование (PTQ) в ультранизкие форматы вроде FP4 обычно ломало модели: перплексия взлетала, качество проваливалось. Исследователи Яндекса предложили метод, который позволяет реально использовать поддержку FP4 в свежих GPU и при этом почти не терять в точности при сжатии весов.

Домен 2. Прогрессивное ускорение и кондиционирование диффузионных моделей

Scale-wise Distillation of Diffusion Models

Авторы заходят в дистилляцию диффузионных моделей с другой стороны. Вместо того чтобы сжимать модель в лоб, они учат её генерировать прогрессивно — от низкого разрешения к высокому. За счёт этого инференс ускоряется в разы, а детализация финального изображения не страдает.

Rethinking Global Text Conditioning in Diffusion Transformers

Здесь авторы пересобирают механизм глобального текстового кондиционирования в диффузионных трансформерах (DiT) — метод интеграции сжатых (pooled) текстовых эмбеддингов. Главное его свойство: он не привязан к одной модели и даёт прирост качества сразу в нескольких мультимодальных задачах (генерация картинок и видео по тексту, локальное редактирование готовых изображений).

Домен 3. Фундаментальная оптимизация и методы Parameter-free

Парадокс современного ML: чтобы научить нейросеть экономить ресурсы, сначала приходится спалить кучу вычислений на подбор гиперпараметров — того же learning rate. Три математические работы Яндекса — про оптимизаторы, которые настраивают себя сами.

Nesterov Finds GRAAL: Optimal and Adaptive Gradient Method for Convex Optimization

Команда скрестила алгоритм GRAAL с классическим ускорением Нестерова и получила оптимальный градиентный метод, в котором инженеру уже не нужно вручную крутить ручки и подбирать шаг.

SGD with Adaptive Preconditioning: Unified Analysis and Momentum Acceleration

Работа подводит общий теоретический базис под стохастический градиентный спуск (SGD) с адаптивным предобусловливанием и моментум-ускорением. По сути, закладывает фундамент того, как сделать сходимость больших сетей предсказуемее.

Sign-SGD is the Golden Gate between Multi-Node to Single-Node Learning: Significant Boost via Parameter-Free Optimization

Метод Parameter-free на базе Sign-SGD. Алгоритм сам адаптирует шаг обучения прямо по ходу оптимизации и закрывает давнюю боль распределённого обучения — переносить процесс между огромными кластерами (Multi-Node) и отдельными узлами (Single-Node), не настраивая всё заново под каждую конфигурацию.

Куда без постеров? Научный креатив, мемы и «продам гараж»

Утренние треки в амфитеатре — строгая наука и битва за десятые доли процента на бенчмарках. Вечерние постерные сессии — наоборот, гиковская самоирония.

Постер на ICLR давно перестал быть просто распечатанным препринтом статьи. В условиях, когда в павильоне одновременно выставляются сотни исследователей, авторам приходится включать креатив на максимум, чтобы зацепить взгляд проходящего мимо AI-архитектора или лид-ресёчера.

Нам попадались работы, оформленные в стиле традиционной китайской техники вырезания из бумаги — цзяньчжи:

И постеры по глубокому обучению, визуальный стиль которых больше напоминал мрачные комиксы про лечебницу Аркхем, чем научный доклад:

Пока одни команды соревновались в гигантизме своих стендов, другие устраивали концептуальные перформансы. На полях конференции можно было встретить:

Огромные плакаты во всю стену.

Аккуратные постеры стандартного формата.

Экстремально крошечные распечатки размером чуть больше визитки, авторы которых заявляли: «Нашей статье не нужен большой постер, ей нужен только один внимательный слушатель».

На постеры добавляют фотографии собак для привлечения внимания.

А локальный мем русскоязычного ML-комьюнити вышел на международный уровень: на досках объявлений конференции появились классические варианты в стиле «продам гараж», затесавшиеся между предложениями о постдок-позициях в MIT и стажировках в OpenAI.

На интерактивной стене Microsoft среди сотен пожеланий и автографов со всего мира теперь есть и тег команды Яндекса.

А вот как выглядел постер Яндекса:

Вместо заключения: выводы и мысли, с которыми уезжали

ICLR 2026 стала ярким событием для нас и для многих других участников. В соцсетях добавились новые контакты, в заметках — списки статей, о которых обязательно нужно рассказать коллегам. Напоследок расскажем о двух главных мыслях, с которыми уезжали после трёх дней основной конференции и двух дней воркшопов.

Первая мысль: очень приятно было понять, что ты не одинок в своей работе. Где-то в мире почти наверняка есть человек, который параллельно с тобой решает похожую задачу, сталкивается с теми же ограничениями и задаёт себе те же вопросы. Конечно, изначально немного наивно думать, что только ты крутишь LLM’ки и никто больше с такими проблемами не сталкивался. Но когда внутри твоей команды люди занимаются другими направлениями, а друзья из других компаний не встречали именно твоих кейсов, такое ощущение действительно может возникнуть.

Конференция в этом смысле работает как быстрый способ найти своих: людей с похожими интересами, задачами и болью. В один из дней я проходила мимо постера, которого даже не было в моём шорт-листе, но на нём крупными буквами была сформулирована насущная проблема: «LLM могут давать правильные ответы даже при неправильных рассуждениях». Спустя 15 минут мы с автором всё ещё обсуждали работу и обменивались идеями о том, как каждый из нас планирует подходить к этой проблеме.

Вторая мысль логично продолжает первую: если уникальных проблем почти не существует, то где-то в мире есть люди, которым могут быть полезны твои идеи. А значит, ими нужно делиться.

Вечерами после постерных сессий мы не раз слышали примерно такой рассказ: «Видел статью, они делают вот это. А мы тоже это делали, только статью не писали». Вопрос открытости индустрии частично закрывают Practical ML Conf, DataFest и другие локальные площадки, но конференции вроде ICLR — это совсем другой, международный масштаб. Там особенно хорошо видно, что инженерные находки, внутренние эксперименты и практический опыт могут быть интересны не только внутри компании, но и большому исследовательскому сообществу.

Бонус: встретили легенду — Яна ЛеКуна. Это один из самых влиятельных учёных в области AI, лауреат премии Тьюринга. Его работы лежат в основе разработки современных нейросетей

Больше интересного о прошедшей ICLR 2026 читайте в наших телеграм-каналах.

ICLR 2026 в Рио-де-Жанейро: главные ML-тренды, математика и инсайты