
Аналитический центр red_mad_robot продолжает обозревать топовые технологические конференции. В этот раз подготовили для вас инсайты с прошедшей в Сингапуре International Conference on Learning Representations (ICLR), посвящённой искусственному интеллекту и машинному обучению.
На ICLR 2025 из более 3 тыс. работ наивысшие оценки получили 36 статей, из которых три были отмечены как «outstanding papers». Разберём выдающиеся работы этого года, а также достойные упоминания и получившие высокие оценки.
Выдающиеся работы
Safety Alignment Should be Made More Than Just a Few Tokens Deep
В статье исследователи из Princeton University и Google DeepMind ввели понятие «shallow safety alignment». Они утверждают, что меры безопасности в моделях часто поверхностны и применяются лишь к нескольким конкретным словам или начальным токенам. Так, модель может начать ответ с безопасной фразы, а затем выдать нежелательную информацию, что делает её уязвимой для атак.
Авторы предлагают более глубокие меры безопасности — deepening safety alignment:
оценивать намерения запроса, а не одни токены
настраивать не только последние слои, отвечающие за генерацию текста, но и ранние — на этапе понимания контекста;
учиться противостоять вредным запросам в процессе обучения.
Эксперименты внедрения deep safety alignment показывают более предсказуемое и надёжное поведение модели, рост устойчивости к jailbreak-атакам и однородную безопасность ответов.
Learning Dynamics of LLM Finetuning
Фреймворк от University of British Columbia и Alberta Machine Intelligence Institute исследует, как разные методы дообучения (SFT, DPO) приводят к непредсказуемым изменениям в выводах моделей.
Из наблюдений:
Во-первых, дообучение по методу DPO часто приводит к эффекту сжатия — Squeezing Effect — когда модель слишком фокусируется на определенных типах ответов и может игнорировать более подходящие варианты.
Во-вторых, после дообучения модель может использовать фразы или факты из одного вопроса при ответе на другой, а также повторять одинаковые простые фразы.
Авторы предлагают включать в SFT как положительные, так и отрицательные примеры для снижения проблем со сжатием и галлюцинациями. Применение такого метода повышает стабильность обучения и качество ответов.
AlphaEdit: Null-Space Constrained Model Editing for Language Models
Исследователи из University of Science and Technology of China и National University of Singapore представили AlphaEdit — способ точечного редактирования знаний в LLM, который не затрагивает уже сохраненную информацию. Модель проецирует изменения параметров в «нулевое пространство» (null-space), которое не влияет на правильные знания — исправления вносятся только в нужные части модели.
В ходе экспериментов AlphaEdit улучшила производительность редактирования моделей на 36.7%, требуя всего одну дополнительную строку кода для проекции изменений в «нулевом пространстве».
Работы, достойные упоминания
Data Shapley in One Training Run
Учёные из Princeton University, University of California, Berkeley и Virginia Tech разработали «In-Run Data Shapley» — улучшенный подход для оценки пользы разных элементов данных при обучении модели. Он отслеживает влияние каждого обучающего примера на общую производительность — без необходимости многократного переобучения модели с разными подмножествами данных, как это было в предыдущей версии Data Shaple.
SAM 2: Segment Anything in Images and Videos
Meta FAIR (запрещена в России) представила усовершенствованную версию Segment Anything Model (SAM). Новая версия модели с высокой скоростью и точностью сегментирует объекты — в шесть раз быстрее на изображениях и в три раза на видео — чем это делали предшественники. SAM 2 может сегментировать даже неизвестные заранее объекты, а также работать по пользовательскому промпту. Продвинутая система памяти SAM 2 позволяет учитывать информацию из предыдущих кадров, что улучшает сегментацию в сложных сценах с перекрытиями или временным исчезновением объектов.
Faster Cascades via Speculative Decoding
Исследователи из Google Research объединили преимущества двух подходов «cascades» и «speculative decoding» в единый «speculative cascades», чтобы ускорить генерацию текста в LLM. В новом подходе маленькая модель сначала «предсказывает» несколько вариантов продолжения текста, а затем большая модель корректирует или подтверждает эти варианты — так получается улучшить качество и скорость ответов.

Работы, получившие высокие оценки
Scaling In-the-Wild Training for Diffusion-based Illumination Harmonization and Editing by Imposing Consistent Light Transport
Stanford University и Hong Kong University of Science and Technology предложили метод Imposing Consistent Light для лучшей редактуры освещения на изображениях. IC-Light основывается на физическом принципе согласованного светового переноса и помогает модели фокусироваться только на освещении, не изменяя другие свойства изображения.
Simplifying, Stabilizing and Scaling Continuous-time Consistency Models
OpenAI представила sCM (scaled consistency model) — улучшенную версия Consistency Model — она генерирует высококачественные изображения или короткие видео за 0,11 секунды на одном графическом процессоре A100, обучаясь с помощью 1,5 млрд параметров. Качество сгенерированных образцов сопоставимо с лучшими диффузионными моделями.
Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models
Исследователи из U. Politècnica de Catalunya, Barcelona Supercomputing Center и ETH Zürich системно подошли к вопросу, как LLM «осознают» свои знания и почему иногда «галлюцинируют». Они собрали датасет с четырьмя различными типами сущностей и задали модели вопросы об атрибутах каждой. По итогу создался двоичный лейбл: «известные» и «неизвестные».
Далее разреженные автоэнкодеры (SAE) проанализировали внутренние представления модели. Они обнаружили у модели формы самоосознания относительно своих знаний — определённые направления, которые активируются, когда модель сталкивается с известной или неизвестной сущностью. Этими направлениям можно манипулировать — модель можно заставить отказаться от ответов на вопросы об известных сущностях или, наоборот, сгенерировать ранее неизвестную информацию.
Artificial Kuramoto Oscillatory Neurons
University of Tübingen и University of Amsterdam представили Artificial Kuramoto Oscillatory Neurons (AKOrN) — новый подход к построению нейросетей, вдохновлённый синхронным поведением биологических нейронов.
Нейроны в AKOrN обладают динамическим осцилляторным поведением: фаза их внутреннего состояния меняется во времени, что позволяет им синхронизироваться и формировать согласованные представления данных. Каждый осциллятор имеет собственную частоту, и его «подталкивают» входные данные, что обеспечивает динамическую и контекстно-зависимую обработку информации.
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions
BigCodeBench — бенчмарк для оценки работы LLM в сложных задачах программирования, требующих многократного вызова функций и композиционного мышления. Для оценки используются два варианта: BigCodeBench-Complete — задачи с подробными структурированными описаниями функций и BigCodeBench-Instruct — задачи с короткими естественно-языковыми инструкциями, которые сложнее для моделей.
В эксперименте лучшие модели решали не более 60% задач в BigCodeBench-Complete и менее 50% в BigCodeBench-Instruct, что значительно ниже человеческого уровня (~97%). Это показывает, что современные LLM пока не умеют точно следовать сложным инструкциям и эффективно использовать множество функций из разных библиотек.
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models
Stanford University разработал Cybench — бенчмарк из 40 профессиональных задач из разных соревнований, предназначенный для оценки способности LLM-агентов выявлять уязвимости и выполнять эксплойты в реалистичных сценариях. Результаты исследования показали, что передовые модели могут успешно решать задачи, которые занимают у человека до 11 минут времени — более сложные задачи пока непреодолимы без дополнительной помощи.
Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment
Korea Advanced Institute of Science and Technology (KAIST) и Yonsei University предложили метод Spread Preference Annotation (SPA), который повышает качество ответов LLM при минимальном количестве вводных данных — нужно лишь 3.3% от объёма данных, необходимых традиционным методам для сопоставимого качества.
SPA дообучается на небольшом объеме исходных данных, затем модель генерирует ответы и сама выставляет им оценки, определяя лучшие варианты. Эти оценки используются как новые метки предпочтений, расширяя обучающую выборку без дополнительной ручной разметки. Кроме того, внедряется алгоритм, учитывающий возможный шум и ошибки в автоматически сгенерированных метках, что повышает надежность обучения. Процесс повторяется — модель генерирует новые данные, учится на них и становится лучше.
LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization
UCLA, Google и UT Austin представили LoRA-RITE — новый метод оптимизации LoRA, который обеспечивает инвариантность к преобразованиям. Обновления весов не зависят от масштабирования или поворота двух матриц-факторов LoRA, что ведет к эффективному обучению при низких вычислительных затратах. Точность LoRA-RITE выше чем у других оптимизаторов примерно на 5%.
OLMoE: Open Mixture-of-Experts Language Models
OLMoE — метод создания модели, использующий разреженные смеси экспертов (Mixture-of-Experts, MoE). Создание OLMoE-моделей основано на декодер-трансформере с заменой плотных слоёв на MoE-модули, состоящие из экспертов. Маршрутизатор управляет экспертами — выбирает кого активировать для обработки входящих токенов. Обучение OLMoE-моделей проходит примерно в два раза быстрее чем у плотных моделей с тем же числом активных параметров.
Над материалом работали
текст — Валера Горланов
редактура — Игорь Решетников
иллюстрации — Петя Галицкий