Что я вынес из Oxford Machine Learning Summer School 2025 / Хабр

Mathematical Institute, University of Oxford

Вдохновлено обзором про похожую школу — EEML.

Цель данной статьи показать внутренности коротких курсов, проводимых в одном из старейших университетов мира, дать короткий пересказ, поделиться личными впечатлениями, и, возможно, замотивировать кого‑нибудь на участие в подобных мероприятиях.

Немного о себе: я работаю machine learning engineer уже более пяти лет, в основном в области computer vision. Пока что у меня только степень бакалавра: и это важно упомянуть, мой взгляд на школу скорее индустриальный, чем академический.

Итак, в этом году мне повезло получить приглашение на Oxford Machine Learning Summer School 2025. Школа проходила в центре города Оксфорда в здании Andrew Wiles Building математического института. В течение 4-х дней мы слушали лекции ведущих исследователей, обсуждали последние течения и полезные технологии в глубоком обучении, и что не менее важно, знакомились и нетворкались с единомышленниками со всего мира.

Введение

Oxford Machine Learning Summer School (OxML 2025) — крупнейшая международная летняя школа по машинному обучению, проводимая в Оксфорде, Лондоне и онлайн. Организована AI for Global Goals и предлагала 4 мощных программы:

MLx Fundamentals (онлайн) — базовые методы ML, статистика и оптимизация.
MLx Generative AI (Лондон и онлайн) — теория и разработки в генеративном AI, агентных системах и AI-продуктах высокого уровня.
MLx Health & Bio (Оксфорд и онлайн) — применение ML в биомеде, включая медицинскую визуализацию, открытие медицинских препаратов, биоинформатику.
MLx Representation Learning & Gen AI (Оксфорд и онлайн) — Representation learning, computer vision, Reinforcement learning, NLP.

Школа OxML впервые стартовала в 2020 году, с акцентом на deep learning и прикладное использование ML в медицине. Уже тогда организовывал��сь в сотрудничестве с Deep Medicine Program Университета Оксфорда и при поддержке CIFAR.

По мере роста и развития, от сессии к сессии, шестая OxML 2025 собрала более 1700 участников из 110 стран, став самой масштабной за всю историю курсов.

Однако количество мест для персонального участия было ограничено: отбор проводился по резюме и коротким сопроводительным анкетам, где учитывался релевантный опыт.

Регистрационный взнос был весьма большим: от 150 фунтов за онлайн-формат до 950 за очное присутствие, в зависимости от выбранной программы. Для участия во всех программах сразу можно было приобрести билет за 1500 фунтов. Для жителей стран Low- and middle-income (в том числе России) можно было запросить стипендию, которая даёт скидку 20%. Это всё ещё дорого, но в целом приемлемая цена, за возможность послушать доклады и пообщаться с ведущими мировыми специалистами отрасли. В отличие от некоторых других летних школ, грантов на проживание и транспортные расходы не было.

Мне больше всего подошла программа MLx Representation Learning & Gen AI.

Контингент очных участников в основном составляли магистранты, аспиранты и исследователи с PhD, преимущественно из европейских стран — Великобритании, Германии, Франции, Швейцарии, Польши, Италии, Португалии. Из России, насколько мне удалось заметить, был только я, хотя встретил нескольких российских эмигрантов, которые работают/пишут диссертации в университетах Германии.

Перейдем к самому интересному, к докладам и представленным на OxML мероприятиям.

Четверг (7 Августа)

AI Safety & Alignment

Автор: Fazl Barez — старший научный сотрудник Оксфорда, работающий в области технической безопасности и управления ИИ. Он участвовал в разработке методов, которые сегодня используют OpenAI, Anthropic, Schmidt Sciences, Future of Life Institute, NVIDIA и другие.

Основная тема лекции была в том, как модели могут демонстрировать скрытое или нежелательное поведение, и что мы можем сделать, чтобы его выявлять и контролировать.

Ключевая мысль проста: мы наблюдаем только выходы модели, но не её внутреннее рассуждение. Это делает возможными такие риски, как deception (обман, модель ведёт себя «хорошо» под проверкой, но иначе в реальности), manipulation (скрытое влияние на пользователей) и bias/fairness (смещения и несправедливость, прорастающие из данных или архитектуры).

Чтобы противостоять этому, исследователи предлагают подходить к модели не как к «чёрному ящику», а как к «белому» т.е. разбирать внутренние активации и трансформации, прослеживать, как именно формируются ответы. Один из любопытных инструментов activation patching, когда активации отдельных слоёв можно заменять или фиксировать, чтобы понять их роль в итоговом поведении модели. В совокупности такие методы механистической интерпретируемости открывают возможность не просто фиксировать ошибки «на выходе», а изучать, где именно внутри сети рождаются обман или смещения.

В целом лекция оказалась очень увлекательной и наглядно показала, что подобные методы особенно ценны при работе с большими языковыми моделями. Именно на них рассматривались основные примеры, поскольку LLM сегодня наиболее ярко демонстрируют и склонность к манипуляциям, и уязвимость к смещениям. Раньше я встречал схожие подходы в контексте CNN, например, в статье Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps или в библиотеке TensorFlow Lucid. Тогда это воспринималось скорее, как занимательная визуализация, не имеющая серьёзного влияния на надёжность моделей. Лекция же показала, что в случае LLM ситуация принципиально иная: если мы хотим обучать их безопасно и устойчиво, нужно заглядывать глубже, чем просто в их ответы.

Strengths and Limits of Conformal Prediction

Автор: Aymeric Dieuleveut — профессор статистики и обучения факультета прикладной математики École Polytechnique.

Исключая большое количество математики, суть подхода можно описать так: вместо того чтобы модель выдавала лишь одно предсказание с не всегда понятной вероятностью, мы строим доверительный набор (prediction set), в который с заранее заданной вероятностью попадёт правильный ответ.

Представим простую задачу классификации: модель говорит, что объект «собака» с вероятностью 0.6 и «кошка» с вероятностью 0.4. Обычно мы берём максимум и доверяем выводу «собака». Но в реальности эта уверенность может быть обманчива. Конформное предсказание позволяет сказать: «с вероятностью 90% истинный класс находится в наборе {собака, кошка}». Для регрессии принцип тот же: вместо одного числа модель выдаёт интервал, в котором истинное значение окажется с гарантированной вероятностью.

Сила метода в том, что он даёт строгие статистические гарантии, которые не зависят от конкретной архитектуры модели. Конформное предсказание можно применить поверх любой модели: нейросети, бустинга или даже линейной регрессии. Благодаря этому подход активно применяют там, где критически важна надёжность: в медицинской диагностике, при кредитном скоринге, в автономных системах.

Мне это напомнило мой опыт с re-identification сеткой MagFace, где для оценки уверенности встраивается специальная loss-функция: норма эмбеддинга отражает, насколько надёжным считается предсказание. Это, конечно, другой приём, но цель похожая — учить систему не только выдавать ответы, но и сообщать, насколько им можно доверять.

Однако у метода есть и свои ограничения. Prediction sets могут получаться слишком широкими, особенно на несбалансированных данных или в ситуациях, где сама модель слаба. В таком случае практическая ценность снижается: получить набор «{собака, кошка, лошадь, енот}» при классификации не намного лучше, чем признать, что модель просто не уверена. Поэтому активное направление исследований: как сузить эти множества, сохранив при этом статистические гарантии.

Конформное предсказание даёт формальный и в то же время практичный инструмент для понимания того насколько можно доверять предсказаниям модели.

Disassembling Multimodal LLM

Автор: Xuan-Son Nguyen — software engineer из Hugging Face и основной мейнтейнер проекта llama.cpp, благодаря которому большие языковые модели можно запускать локально и даже на сравнительно слабом железе.

Структура выглядела как пошаговое разложение мультимодальной модели на составные части. После короткого введения следовало объяснение, как современные LLM умеют работать не только с текстом, но и с изображениями и аудио, и как все эти компоненты объединяются в единый pipeline.

Главная идея мультимодальности проста: каждый тип данных имеет свой энкодер.

Для изображений это vision encoder, который переводит картинку в векторное представление (эмбеддинг). Чаще всего Vision Transformer (ViT), обученный отдельно от языковой модели. Для корректного совмещения пространств используется проектор, который переводит визуальные эмбеддинги в пространство, совместимое с языковым декодером.
Для аудио audio encoder, который работает либо с исходным сигналом, либо с мел-спектрограммой. Здесь также применяется трансформер и проектор; в качестве примеров были упомянуты Whisper (классический энкодер) и Mimi (с токенизацией аудио).
Ядром всей системы остаётся language decoder языковая модель (LLaMA, Gemma, Qwen и др.), которая принимает эти эмбеддинги и интерпретирует их, формируя связный текстовый ответ.

Отдельно обсуждались инженерные детали: использование позиционных эмбеддингов (от CLIP-ViT до 2D-RoPE и M-RoPE), работа с динамическим разрешением и соотношением сторон, а также разные схемы обучения (CLIP, MAE, SimCLR, DINO, BEiT). Также продемонстрировали демо SmalVLM, иллюстрирующее работу мультимодального пайплайна в действии.

В итоге лекция была о практической логике построения мультимодальных систем: наборе специализированных энкодеров для каждой модальности и языковых декодеров, которые объединяют их в общий контекст. Для меня, как для computer vision инженера, в секции «вопрос-ответ» прозвучало важное наблюдение: индустрия постепенно уходит от чисто свёрточных архитектур в сторону гибридных решений и трансформеров, которые сегодня становятся новым стандартом для мультимодальных моделей.

Autonomous Data Science Agents

Автор: Haitham Bou-Ammar, Ph.D., исследователь из Маастрихтского университета, специализирующийся на Automated Transfer in Reinforcement Learning.

Захватывающий доклад начался с постановки амбициозной цели: построить generalist AI-агента, который мог бы помогать человеку, увеличивать эффективность и самостоятельно адаптироваться к новым задачам. Haitham Bou-Ammar озвучил классические определения «интеллектуального агента» (от J. S. Albus до Russell & Norvig), а затем предложил взглянуть на проблему через призму человеческой психологии. В частности, он ссылался на теорию опытного обучения Колба и концепцию зоны ближайшего развития (ZPD), введённую советским психологом Львом Выготским. По его словам, именно ZPD можно формализовать как способ направлять агента так, чтобы он учился максимально эффективно, не перегружаясь и не оставаясь на слишком простых задачах.

Основной фокус лекции был на автоматизации задач data science. Современный процесс работы аналитика включает множество этапов: очистку данных, создание загрузчиков, стандартизацию, выбор метрик, дизайн моделей, гиперпараметрический поиск, ансамблирование и отчётность. Всё это требует широких навыков и занимает много времени. Лектор показал, почему существующие AutoML-фреймворки (AutoKeras, Auto-sklearn, AutoGluon) ограничены: они используют фиксированный набор эвристик и всё равно требуют ручной настройки. В отличии от LLM-агентов, способных работать с сырыми данными: описывать их содержимое, фильтровать, дополнять, формулировать задачу, а затем выстраивать полный ML-пайплайн: от подготовки данных до итеративного обучения модели. В процессе была продемонстрирована работа такого агента.

Haitham Bou-Ammar подчеркнул, что подобные системы пока не совершенны, но именно комбинация идей reinforcement learning, LLM агентов и «человеко-ориентированных» принципов обучения открывает путь к по-настоящему автономным системам не только в data science, но и в embodied AI, включая робототехнику.

В то же время подобные концепции вызывают тревогу: если развитие продолжится теми же темпами, в ближайшем будущем заменить можно будет не только программистов, но и специалистов по data science и machine learning.

Пятница (8 Августа)

Representation Learning & Generative AI in Robotics

Автор: Edward Johns директор лаборатории обучения роботов Dyson в Имперском колледже Лондона, где он также является доцентом.

Доклад был посвящён тому, как современные подходы к обучению представлений и генеративные модели меняют робототехнику. Основная задача: соединить зрение, язык и действие в единый цикл. Робот должен уметь воспринимать изображение, понимать текстовую инструкцию и переводить это в корректное действие. Для этого существует множество архитектурных выборов: обучение end-to-end против модульных схем, обучение политик против планирования по моделям, использование специализированных робототе��нических данных или заимствование данных из других областей.

Интересным вопросом стал потенциал больших языковых моделей в робототехнике. Были представлены результаты работы “Language Models as Zero-Shot Trajectory Generators” (RA-Letters 2024), где LLM, получив простое текстовое задание вроде «протри тарелку губкой» или «положи яблоко в миску», способна сгенерировать траекторию действий без примеров и оптимизаторов.

Демонстрация управления роборукой через LLM

Затем обсуждалась роль генеративных моделей как «движков воображения». На примере проекта DALL-E-Bot (RA-Letters 2023) показывалось, как диффузионные модели, обученные на веб-масштабе данных, могут помогать роботам планировать поведение в новых условиях, визуализируя сцены и проверяя варианты действий.

Большой блок был посвящён обучению по демонстрациям и идее one shot imitation learning. Edward Johns провёл параллель с in-context learning в LLM: человек может показать задачу один раз, и робот должен уметь воспроизвести её по аналогии. Для этого используется комбинация графовых представлений и генеративных методов (Graph Diffusion), которая позволяет мгновенно выучивать политики по единичным демонстрациям.

В завершение прозвучала важная мысль: генеративные модели хороши для планирования на высоком уровне, но недостаточны для более сложных взаимодействий.
Смоделированные данные открывают путь к расширению методик сбора данных в робототехнике.

Reasoning with Foundation Models

Авторы: Cheng Zhang — руководитель исследовательской группы Llama в GenAI, генеральный председатель и член совета директоров NeurIPS; и Yingzhen Li — доцент кафедры машинного обучения факультета вычислительной техники Имперского колледжа Лондона.

Лекция была посвящена тому, как формировались foundation models и почему у них появилась способность к рассуждениям (reasoning).

Авторы выделили три ключевых этапа:

Pre-training — базовое обучение на огромных корпусах (большие собрания текстов), когда модель учится предсказывать следующий токен. Здесь работает правило: чем больше данных и параметров, тем выше качество.
Mid-training — дообучение на более специализированных задачах, чтобы модель научилась не просто продолжать текст, а решать конкретные вопросы.
Post-training — доводка при помощи SFT, RLHF или DPO, чтобы модель лучше соответствовала задачам, человеческим ценностям и требованиям безопасности.

Отдельный акцент был сделан на reasoning — способности модели делать шаги рассуждения, а не выдавать ответ «сходу».

Для этого используют техники:

Chain-of-Thought — побуждают модель рассуждать пошагово.
Tree of Thoughts — модель рассматривает несколько возможных решений и выбирает лучшее.
DeepSeek-R1 — новая работа, где способность рассуждать усиливают через обучение с подкреплением.

Авторы отметили, что обучение и запуск таких моделей очень дорогие: нужны тысячи GPU и специальные системы распределения (шардинг). Поэтому активно исследуются методы оптимизации:

Хранение и вычисления с очень низкой точностью (BitNet, 1-bit Transformers).
Ускоренные методы генерации (спекулятивное декодирование, когда быструю черновую гипотезу проверяет большая модель).
Проектирование архитектур сразу с учётом «железа» (model–hardware co-design).

В финале была выведена идея, что сегодняшние foundation models с элементами reasoning это только начало. У нас уже есть впечатляющие возможности, но впереди остаются вопросы: как масштабировать эти способности, как их интерпретировать и каковы реальные пределы таких систем.

A Journey of Tabular Benchmarks: Lessons in Method Comparison and Curation

Автор: David Salinas — научный сотрудник университета ELLIS и бывший Senior Applied Scientist в Amazon.

Доклад был посвящён tabular prediction, задачам машинного обучения, где данные представлены в виде таблиц: строки соответствуют объектам, а столбцы признакам (например, транзакции в банке, медицинские записи пациентов или лог-файлы). Цель алгоритма, по известным признакам предсказать нужный таргет, например: цену квартиры, вероятность покупки, диагноз. Это один из самых старых и востребованных типов данных в индустрии, но, в отличие от картинок или текста, здесь нет универсальной архитектуры вроде CNN или Transformer, поэтому тема остаётся актуальной для исследований.

Докладчик сообщил про AutoML Benchmark (2023), масштабное исследование, где сравнивались девять AutoML-фреймворков на десятках реальных датасетов. Лучшие результаты показал AutoGluon, который строит ансамбли из множества разных моделей (CatBoost, LightGBM, RandomForest, MLP и др.), комбинируя их через бэггинг и стекинг. Интересный вывод: простое ансамблирование хорошо подобранных моделей зачастую эффективнее, чем дорогая оптимизация гиперпараметров. Среди отдельных алгоритмов особо выделялся CatBoost — библиотека, разработанная в Яндексе, которая благодаря своей работе с категориальными признаками и встроенной регуляризации до сих пор считается одним из лучших «коробочных» решений для табличных данных.

Однако такой масштабный benchmarking стоит дорого: тысячи экспериментов могут потребовать десятков тысяч CPU-часов. Чтобы снизить эту цену, команда David Salinas предложила TabRepo репозиторий готовых результатов (предсказаний и метрик) более чем на 200 датасетах. Вместо запуска сотен моделей с нуля исследователь может просто взять сохранённые конфигурации и за минуты воспроизвести анализ, который раньше занимал недели.

Следующий шаг TabArena, «живая арена» для табличных моделей. В отличие от классических статичных бенчмарков, TabArena задуман как постоянно обновляемая экосистема: сюда входят Dataset Curation (удаление дублей, исправление ошибок), устойчивые протоколы оценки (повторные сплиты, Elo-рейтинг для парных сравнений) и открытое хранение всех метаданных. Это должно сделать сравнение алгоритмов более честным и воспроизводимым.

В заключение было отмечено, что, хотя отдельные модели вроде CatBoost по прежнему блестяще справляются с задачами, на практике именно ансамбли и портфели моделей показывают наилучшие результаты. TabArena задуман как площадка, где и академия, и индустрия смогут проверять свои методы без огромных вычислительных затрат, а значит ускорять развитие AutoML для табличных данных.

Denoising: A Powerful Building-Block – from Imaging to Machine Learning

Автор: Peyman Milanfar — заслуженный учёный в Google, где он возглавляет команду по вычислительной визуализации. До этого он был профессором электротехники в Калифорнийском университете в Санта-Крузе.

Peyman Milanfar начал с истории: задача денойзинга (устранения шума на изображениях) исследуется с 1960-х годов и породила более 20 тысяч публикаций. Методы развивались от простых линейных фильтров и статистики до PDE-моделей, Wavelet, Sparsity - подходов и знаменитого алгоритма BM3D.

В 2010-е пришли нейросети, и именно на них задача «классического» гауссового денойзинга считается почти решённой: уже сегодня можно очищать 12-мегапиксельные фото за доли секунды на смартфоне с качеством, близким к пределам MSE, то есть до уровня, где ошибка восстановления практически совпадает с теоретическим минимумом, допустимым при заданном уровне шума. Но на этом роль денойзинга не заканчивается.

Ключевой тезис лекции: денойзеры стали фундаментальным строительным блоком для гораздо более широкого круга задач.

Докладчик выделил три направления:

Разложение изображений. Деноизер можно рассматривать как оператор, который разделяет картинку на «чистую» часть и остаток шума или мелких деталей. Это открывает путь к построению адаптивных фильтров и улучшению качества изображения (dehazing, super-resolution, artifact removal).
Ядро диффузионных моделей. Diffusion models (DDPM, Imagen, Stable Diffusion) по сути основаны на многократном денойзинге: постепенно добавляем шум к данным, а затем обучаем модель по шагам убирать его, пока не восстановится «новый» сэмпл. Итеративный денойзинг плавно перерос в ядро современного генеративного AI.
Регуляризация в обратных задачах. В задачах вроде super-resolution или устранения размытия обычно требуется знать модель искажения изображения, но на практике это часто невозможно. Подход RED (Regularization by Denoising) предлагает другой путь: использовать денойзер как «встроенное знание» о том, как выглядят реальные изображения. Фактически он играет роль приора, т.е. помогает алгоритму ориентироваться, какие варианты решения более правдоподобны. Благодаря этому можно восстанавливать изображения высокого качества даже без точной информации о том, как именно они были искажены.

Peyman Milanfar представил метод InDI (Inversion by Direct Iteration, 2023), альтернативу диффузионным моделям для восстановления. Он работает напрямую с парами «плохое–хорошее изображение» и показал конкурентные результаты в задачах Super-resolution и Deblurring.

Главная мысль лекции: денойзинг это не узкая задача «почистить шумное фото», а универсальный инструмент, лежащий в основе и прикладного image restoration, и новейших генеративных моделей.

Суббота (9 Августа)

Building Foundation Models for Time Series

Автор: Abdul Fatir Ansari — старший научный сотрудник-исследователь в Amazon Web Services (AWS), специалист по прогнозированию временных рядов, лог-аналитике и генеративным моделям.

Лекция была посвящена построению foundation models для временных рядов, области, которая долгое время развивалась отдельно от NLP и CV, но сегодня активно перенимает их идеи. Abdul Fatir Ansari отметил, что речь идёт не столько о формальном определении, сколько об инженерной цели создать модель, которая способна работать в zero-shot режиме, то есть решать новые задачи без дополнительного обучения на них, перенося уже накопленные знания между разными доменами.

Затем он объяснил природу временных рядов: данные изменяются во времени, содержат тренды, шум, пропуски и сезонность, повторяющиеся циклы вроде роста продаж в праздники или суточных колебаний потребления энергии. Такие данные повсеместны в индустрии: от финансов и IoT до здравоохранения и лог-аналитики.

Далее был обзор моделей. Локальные методы (ARIMA, ETS, Holt-Winters) строят отдельную модель на каждый ряд: они интерпретируемы и работают в условиях малых данных, но плохо масштабируются. Глобальные методы (DeepAR, Temporal Fusion Transformer, PatchTST) обучаются сразу на множестве рядов, обеспечивая универсальность и быстрый инференс, но требуя больших датасетов.

Основной поинт — строить foundation models для временных рядов, по аналогии с языковыми моделями. Для этого необходимо уметь преобразовывать непрерывные сигналы в форму, пригодную для трансформеров. Этот процесс называется tokenization: данные нормализуются, квантуются и превращаются в токены. Примеры AWS Chronos и более эффективный Chronos-Bolt, где прогноз строится сразу на несколько шагов вперёд.

Abdul Fatir Ansari отдельно подчеркнул важность улучшенной токенизации временных рядов. Поскольку значения сигналов являются непрерывными числами, перед подачей в трансформер их нужно дискретизировать, по другому заквантовать. Обычно используют простую равномерную квантизацию, когда весь диапазон значений делится на равные интервалы, а каждое число заменяется индексом ближайшего интервала. Такой подход прост, но плохо передаёт важные локальные колебания и структуру сигнала. Поэтому сейчас исследуются более гибкие способы токенизации, например, основанные на вейвлет-разложениях, где сохраняется как амплитуда, так и частотная динамика временного ряда. Для расширения обучающих данных применяются аугментации вроде TSMixup (смешивание рядов) и генерация синтетических примеров с помощью KernelSynth.

Наконец, большое внимание уделяется covariates, внешним факторам (например, погода, праздники, маркетинговые акции). В AWS исследуют комбинацию foundation models с covariate regressors, что значительно повышает качество прогноза.

В завершение было отмечено, что временные ряды сегодня находятся примерно там же, где был NLP до появления GPT. Первые шаги уже сделаны — Chronos и Chronos-Bolt, они показывают, что foundation models способны стать универсальным инструментом для самых разных задач: от финансов до IoT и промышленности.

State, Action and Policy Representations for Reinforcement Learning

Автор: Gerhard Neumann — профессор Технологического института Карлсруэ (KIT), где с 2020 года возглавляет кафедру Autonomous Learning Robots в Институте антропоматики и робототехники. Ранее руководил группой в Bosch Center for AI, а также работал профессором в университетах Тюбингена и Линкольна.

Лекция была посвящена тому, как в Reinforcement Learning (RL) строятся представления состояний, действий, политик и наград. Докладчик упомянул, что главная проблема RL это не столько сам алгоритм оптимизации, сколько способ описания мира для агента. Если подавать в алгоритм «сырые» данные, вроде пикселей с камеры или углов сочленений (углы поворота суставов робота, например, локтя или запястья), обучение становится очень неэффективным. Нужны более информативные и компактные представления.

Gerhard Neumann рассмотрел четыре ключевых уровня:

State representations. Состояния можно описывать через world models (например, Dreamer), которые учат агента «воображать» будущие состояния. Если робот получает данные сразу от множества сенсоров (мультимодальных: камеры, лидары, тактильные датчики, IMU), то репрезентации помогают объединить их в единый формат. Перспективным направлением стали эквивариантные графовые репрезентации: они позволяют роботу узнавать объект независимо от того, как он повернут, благодаря учёту симметрий и связей между объектами.
Action representations. Управлять роботом низкоуровневыми сигналами (например, крутящий момент на каждом моторе) сложно. Поэтому используют motion primitives, шаблоны движений вроде «схватить», «шагнуть», «толкнуть». Это ускоряет обучение и делает поведение плавным.
Policy representations. В RL политика это стратегия, которая определяет, какое действие выбрать в данном состоянии. Стохастические политики выбирают действия случайно с некоторой вероятностью (например, в одинаковой ситуации робот 60% времени тянется к объекту и 40% времени отходит от него). Это полезно для исследования, но часто приводит к «усреднению» поведения. Решение Mixture of Experts, где несколько «экспертов» (подмоделей) отвечают за разные типы действий, а отдельная сеть-диспетчер (gating network) выбирает подходящего эксперта. Ещё один современный вариант — диффузионные политики, которые позволяют описывать сложные и многомодальные распределения действий.
Reward representations. Конструировать функцию вознаграждения вручную крайне трудно: всегда есть риск reward hacking, когда агент находит лазейку и «читерит», максимизируя награду, но не решая задачу. Пример: если вознаграждать робота за приближение к объекту, он может бесконечно кружить вокруг него, не беря предмет в руки. Альтернатива, обучение от человека: через демонстрации, корректировки и предпочтения.

Главный вывод: будущее RL связано не только с новыми алгоритмами, но и с качественными представлениями состояний, действий, политик и наград. Именно они позволяют агентам учиться быстрее, надёжнее и переносить навыки в реальные сценарии.

Generative AI for images & videos

Автор: Ashley Edwards — старший научный сотрудник Google DeepMind, специализирующийся над reinforcement learning и foundational world models.

Лекция была посвящена стремительному развитию генеративных моделей для изображений и видео. Ashley Edwards начала с личного контекста: её исследования связаны с reinforcement learning и обучением агентов по видео, а интерес к генеративным моделям возник из идеи создавать синтетические среды для тренировки таких агентов.

В первой части она рассказала, что основой прогресса стали репрезентации данных.
Ещё до эпохи deep learning инженеры вручную задавали признаки (например, SIFT и HOG — выделение краёв и текстур), но эти методы плохо масштабировались. Deep learning позволил автоматически учить представления, сначала через autoencoders, затем через variational autoencoders (VAE). Эти модели сжимают изображение в компактное представление, так называемые латенты (latent variables). Латенты это не пиксели, а скрытые признаки, описывающие изображение: например, что на нём есть «кот», «трава» или «солнце». Из этого пространства можно реконструировать исходное фото или даже сгенерировать новые, слегка изменяя координаты латентов.

Следом было показано, как появление GANs (Generative Adversarial Networks) дало толчок задачам image-to-image translation. Это когда модель переводит картинку из одного домена в другой, сохраняя структуру, но меняя стиль. Например: скетч превращается в реалистичное фото, дневная сцена преобразуется в ночную, лошадь в зебру. Такие методы (Pix2Pix, CycleGAN) стали классикой и до сих пор применяются в практике.

Затем речь пошла о трансформерах и токенизации изображений. По аналогии с NLP, изображения стали представлять в виде токенов (через VQ VAE и codebooks), а генерацию трактовать как autoregressive prediction последовательности токенов. Это подход DALL-E 1 (2021). Однако autoregressive-предсказание оказалось медленным. Поэтому появились методы вроде MaskGIT, где сразу предсказывается множество токенов, что быстрее и устойчивее.

Отдельный блок был посвящен генерации видео. Здесь главные вызовы:

Временная согласованность (объекты должны выглядеть одинаково от кадра к кадру).
Физическая правдоподобность (движения должны подчиняться законам реального мира).
Вычислительная сложность (10 секунд видео — сотни изображений).

Ранние подходы (VideoGPT) переносили идеи autoregressive токенизации на 3D CNN и трансформеры для пространственно-временных «трубок». Более современные решения строятся на diffusion models, которые обучаются восстанавливать изображение или видео из шума. Этот подход оказался устойчивее GAN и дал прорыв в качестве. Так появились DALL-E 2, Stable Diffusion, Stable Video Diffusion и, наконец, OpenAI Sora это первая система, демонстрирующая реально правдоподобные длинные видеоролики, с учётом физики и сценовой динамики.

В заключении Ashley Edwards отметила, что главные проблемы теперь не столько в архитектуре, сколько в масштабируемости и контролируемости. Нужно ускорять генерацию (сотни шагов диффузии слишком медленны), делать модели управляемыми (conditioned generation), интегрировать звук и действия.

On-Device AI using PyTorch (Empowering Private, Real-Time Intelligence with PyTorch)

Автор: Mergen Nachin — научный сотрудник Signal Kinetics Research Group, инженер-программист open-source AI и On-Device AI в Meta*. В компании он работает над библиотекой ExecuTorch, которая делает возможным запуск моделей PyTorch на мобильных и встраиваемых устройствах. Ранее занимался инфраструктурой Meta* и исследовал локализацию с помощью RFID в MIT Media Labs.

Лекция была посвящена переносу ИИ с облака на устройства. Под on-device AI понимается выполнение моделей прямо на смартфоне, носимых устройствах, очках или IoT-сенсорах, без отправки данных на сервер. Это даёт три главных преимущества:

Конфиденциальность (данные не покидают устройство, что критично для медицины, психологии, юридических документов).
Низкая задержка (реакция в реальном времени, например, для перевода речи или отслеживания движений в AR/VR).
Работа офлайн (например, в удалённых районах или в медоборудовании без подключения к интернету).

Mergen Nachin подробно остановился на четырёх фундаментальных проблемах on-device AI:

Энергопотребление. Батарея смарт-часов всего 200–400 мАч, смартфона до 5000 мАч. Даже простая модель вроде YOLO для детекции объектов расходует около 1 Вт, что быстро съедает заряд. Главный «пожиратель энергии» память DRAM, так как доступ к ней требует в 100 раз больше энергии, чем к SRAM. Решения: квантование (FP32 → INT8/INT4), иерархические пайплайны (маленькая модель запускает большую при срабатывании события), специализированные процессоры DSP/NPU.
Память. Устройство IoT может иметь всего 1 МБ ОЗУ, смартфон 4-12 ГБ. Для сравнения, Llama 3.2 с 3 млрд параметров в FP16 занимает ~6 ГБ и требует 90 ГБ/с пропускной способности памяти при скорости генерации 15 токенов/с смартфон с таким не справляется. Приёмы оптимизации: упрощённые свёртки (depthwise convolution), объединение операторов (fused ops), tiling (разделение данных на блоки, чтобы они помещались в кэш), перестановка каналов, sparsity/pruning.
Тепловыделение. Устройства не должны нагреваться выше 40–43°C (по требованиям FDA). Перегрев снижает точность, вызывает троттлинг и портит пользовательский опыт. Здесь снова помогают NPU и DSP, а также адаптивное качество: при перегреве модель может переключаться на облегченную версию.
Фрагментация железа. У каждого производителя (Apple, Qualcomm, MediaTek, Samsung, Arm) свои SDK, поддержка операторов и форматы. Это приводит к «размножению» кода и сложной поддержке.

Чтобы решить эти проблемы, PyTorch развивает ExecuTorch — нативное решение для on-device AI. В отличие от традиционного подхода PyTorch → ONNX → hardware-specific runtime format (TFLite/TensorRT/CoreML/RKNN), ExecuTorch напрямую экспортирует модель в промежуточное представление и компилирует под целевое устройство.

Основные свойства:

Единая экосистема PyTorch (без «потери информации» при конверсии).
Минимальный runtime на C++ (~50 КБ), работающий даже на микроконтроллерах.
Модульность (можно подмешивать квантование, планировщики памяти, аппаратные делегаты).
Поддержка партнёров (Apple, Arm, Qualcomm, NXP и др.).

В качестве кейса Mergen Nachin показал запуск Llama 3.2 8B на смартфоне. Для этого применили:

Групповое квантование весов до 4 бит.
Динамическое квантование активаций в INT8.
Оптимизации внимания через «стриминг» и tiling, деление данных на блоки (chunks) и обработка их по мере поступления.
Уменьшение размера эмбеддингов.

В итоге стало возможно достичь скорости около 8 токенов/с на Android, что ещё недавно считалось невозможным.

Особенно близко мне прозвучала часть про фрагментацию железа — разнообразие аппаратных платформ и SDK. У каждого производителя (Apple, Qualcomm, MediaTek, Samsung и др.) свои чипы, свои инструменты и ограниченные наборы поддерживаемых операций.

В своей работе с умными камерами на базе встраиваемых чипов (например, Rockchip RV1126/RV1109 или Raspberry Pi) я не раз сталкивался с тем, что популярные тулкиты для on-device AI не поддерживают нужные операции или нейросетевые слои. Это вынуждает вручную переписывать части моделей, искать хаки и идти на компромиссы по качеству. ExecuTorch выглядит как потенциальное решение этой проблемы: он обещает единый пайплайн от PyTorch до конечного устройства, где поддержка операторов и оптимизаций обеспечивается самим фреймворком и его партнёрами.

Воскресенье (10 Августа)

From Human Knowledge to Cooperative AI: Leveraging LLM-based Reasoning

Автор: Доктор Yali Du — старший преподаватель (доцент) в Королевском колледже Лондона, научный сотрудник Института Алана Тьюринга и руководитель Cooperative AI Lab. Её исследования сосредоточены на обучении с подкреплением, мультиагентных системах и том, как сделать ИИ кооперативным, безопасным и ориентированным на взаимодействие с человеком.

Лекция началась с постановки проблемы: в реальной жизни агенты почти всегда действуют не в одиночку. Автомобили на дорогах должны учитывать друг друга, дроны делят пространство в воздухе, а роботы в команде должны согласовывать действия. Для описания таких взаимодействий используются игровые модели. В командных играх (team games) все агенты стремятся к общей цели, как футболисты в одной команде. В играх со смешанными мотивами (mixed-motive games) интересы у каждого свои, но приходится координироваться ради общей безопасности, примером может быть дорожное движение.

Один из исследовательских блоков касался задачи: может ли ИИ скоординироваться с человеком, с которым он никогда раньше не взаимодействовал? Обычно для этого агента тренируют с множеством разных «виртуальных партнёров», чтобы он привык к разнообразию стилей поведения. Но это очень дорого и медленно. Yali Du представила метод E3T (Efficient End-to-End Training), где вместо десятков сложных партнёров агент учится на упрощённых моделях поведения. Например, партнёр может вести себя полностью случайно или играть чисто в своих интересах, не обращая внимания на команду. Такой набор «характеров» оказался достаточно богатым, чтобы агент потом смог лучше подстраиваться под настоящих людей. В эксперименте с кооперативной игрой Overcooked агенты, обученные этим способом, показывали более слаженное сотрудничество.

Вторая часть лекции была посвящена использованию человеческой обратной связи. Вместо того чтобы полагаться только на числовые награды, людям показывали игровые ситуации и просили их оценить. Даже неточная или неполная обратная связь оказывалась полезной, а в сочетании с экспертной значительно улучшала стратегию агентов.

Была представлена любопытная идея — учить ИИ по учебникам. В методе URI (Understanding, Rehearsing, Introspecting) агент сначала извлекает правила из текстовых материалов (например, из туториала по игре в футбол), затем проигрывает возможные ситуации, а после корректирует своё поведение. Это позволяет обучаться даже без прямого взаимодействия с реальной средой.

В итоге лекция показала три пути вовлечения человека в обучение агентов: совместная игра, обратная связь и передача знаний через тексты. Всё это помогает строить ИИ, который сможет не просто действовать в одиночку, а кооперироваться с людьми и другими агентами в реальных условиях.

Foundation models in Computer Vision

Автор: Christian Rupprecht — доцент кафедры компьютерных наук Оксфорда, член Visual Geometry Group и научный сотрудник Колледжа Магдалины. Его исследования лежат на стыке представлений в CV, обучения без учителя и трёхмерной реконструкции.

Доклад был посвящён фундаментальным моделям для компьютерного зрения и вопросу, почему, несмотря на успехи NLP, в CV мы до сих пор не имеем настоящих foundation models. Он начал с примера: ChatGPT может описать велосипед, но если попросить генеративную модель нарисовать его, то результат будет с ошибками: не хватает педали, тормозов или искажены спицы. Это иллюстрирует разрыв между качеством моделей в NLP и CV.

Christian Rupprecht разобрал, что обычно относят к свойствам foundation models:

Крупномасштабное предобучение, обучение на огромных массивах данных, позволяющее модели усваивать базовые закономерности.
Универсальность — способность одной модели работать сразу в нескольких задачах (например, и для классификации, и для сегментации).
Адаптивность — умение быстро подстраиваться под новые домены и задачи, в том числе при ограниченном числе примеров (few-shot).
Эмерджентное поведение — появление неожиданных способностей, которых специально не закладывали в обучение (например, у DINO без разметки проявились свойства сегментации).
Мультимодальность — возможность совмещать разные типы данных (текст, изображение, видео).

Он отметил, что далеко не все эти критерии обязательны: главное, чтобы модель умела обобщать и адаптироваться к новым задачам.

В качестве известных попыток в данном направлении были рассмотрены:

CLIP (OpenAI) — модель, обученная на сотнях миллионов пар изображение–тек��т.
Она хорошо работает для поиска по изображениям и тексту, но мало где применяется за пределами этой парадигмы.
DINO v2 (Meta*) — self-supervised модель, выдающая сильные фичи для задач CV: от сегментации и предсказания глубины до поиска соответствий между изображениями. Несмотря на простую обучающую цель (сравнение кропов), её признаки оказались универсальными.

Дальше он перешёл к собственным работам:

CoTracker — серия моделей для отслеживания множества точек на видео. В отличие от классических методов (одиночные трекеры или оптический поток), CoTracker отслеживает множество точек сразу и учитывает долгосрочные зависимости. Обучение велось сначала на синтетических видео (рендеры из Blender), позже добавлялись псевдоразметки реальных роликов. Такие модели нашли применение не только в VFX, но и в робототехнике, медицине (например, отслеживание движений сердца на УЗИ) и биологии (анализ поведения животных). Более неожиданно, CoTracker стал использоваться как «motion prior» источник информации о движении. Его траектории служат условием (conditioning) для генеративных видеомоделей, позволяя управлять динамикой видео и делать его согласованным. Например, если есть задача сгенерировать видео, где человек танцует. Вместо того чтобы описывать движение словами (человек танцует сальсу), можно подать траектории точек (например, по суставам или контуру тела), которые CoTracker извлёк из реального видео. Генеративная модель берёт эти траектории как условие и дорисовывает всё остальное (текстуры, фон, детали), создавая правдоподобный ролик.
VGGT (Visual Geometry Grounded Transformer) — свежая работа по 3D-реконструкции. Цель уйти от сложных классических пайплайнов (как COLMAP), где нужна оптимизация, к единому end-to-end решению. VGGT получает на вход набор изображений сцены и предсказывает сразу глубину, карту точек, позы камер и соответствия. Благодаря архитектуре с чередованием глобального и покадрового внимания модель умеет работать с разным количеством кадров от пары до сотен. Интересно, что, хотя её обучали только на реконструкцию, VGGT показал state-of-the-art и в других задачах, например, в monocular depth estimation и novel view synthesis.

В финале был поднят вопрос: действительно ли нам нужны foundation models в CV?
С одной стороны, их пока нет в том же смысле, что в NLP. С другой появляются альтернативы. Например, «динамическое обучение» (dynamic learning), где генеративные модели создают данные под конкретные задачи. Такой подход может частично заменить универсальные foundation models, если он позволит получать нужные датасеты «на лету».

Accelerating the Science of Language Modeling: Findings of Training an Open LLM

Автор: Valentina Pyatkin — аспирант Института искусственного интеллекта Аллена (AI2) и Вашингтонского университета. Её исследования сосредоточены на разработке генеративных ИИ-систем, которые будут устойчивыми к контексту, ответственными и максимально открытыми.

Лекция началась с обсуждения того, что прогресс в области больших языковых моделей (LLM) стал возможен во многом благодаря открытой науке: публикациям данных, кода и моделей. Но сегодня большая часть индустрии закрыта: весами делятся, а вот датасеты, рецепты обучения и контрольные точки скрыты. В итоге воспроизвести исследования сложно.

В качестве альтернативы лектор представила работу над OLMo, полностью открытой моделью от AI2. Последняя версия, OLMo-2-32B, обучена на 5,6 триллионах токенов и впервые обогнала GPT-3.5 и GPT-4o-mini в ряде метрик.

Далее она подробно разобрала практики работы с данными фундаментальный этап, от которого зависит качество любой LLM.

Acquisition (сбор). Источники текстов бывают разные. Самый крупный и универсальный это Common Crawl (многолетний архив веб-страниц). Кроме того, используются уже подготовленные корпусные сборки, такие как Pile, RedPajama, Dolma, FineWeb.

Каждый такой датасет имеет свою «философию»:
- Pile — набор тщательно собранных доменов (книги, arXiv, Википедия).
- Dolma — фокус на чистоте и балансе источников.
- FineWeb — попытка отобрать только качественные тексты из веба, отсеивая мусор.
Сбор — это первый шаг, но уже здесь есть риски: слишком много англоязычных данных, перекос в сторону популярных сайтов, дубликаты.
Transformation (обработка). Сырые данные из интернета нельзя просто скормить модели. Их нужно подготовить:
- Конвертировать в текст (HTML → plain text, PDF → текст без разметки).
- Фильтровать (убирать низкокачественный текст: спам, автосгенерированные страницы, тексты без смысла).
- Удалять дубликаты (иначе модель начинает «зазубривать» и хуже обобщает).
- Нормализовать (приводить к единому формату, чистить от артефактов).
Experimentation (эксперименты). Когда есть несколько корпусов, их можно смешивать в разных пропорциях, как ингредиенты в рецепте. Например, чуть больше научных текстов, меньше новостных статей или форумов. На этом этапе применяют и curriculum learning, идею давать модели разные данные на разных стадиях обучения.
На ранних этапах, общий «шумный» веб (чтобы модель научилась языку и разнообразию стиля).
На более поздних, источники ценнее: статьи, код, задачи с точным ответом. Такой порядок работает лучше, чем случайное перемешивание всего корпуса.

Подробно была раскрыта техника mid-training: в середине или ближе к концу обучения модель переводят на небольшой корпус более ценных данных (например, научные статьи, задачи с точным ответом, код). Такая финальная подача качественного материала заметно улучшает способности модели.

Затем речь пошла о post-training (пост-обучении) этапе, который превращает «болтливый автодополнитель текста» в ассистента. Это дообучение (fine-tuning) на инструкциях и обратной связи от человека. В AI2 для этого сделали открытую серию Tülu (название от гибридного верблюда символа «смешанного подхода»).

Она объединяет три метода:

Supervised fine-tuning (SFT) — обучение на готовых инструкциях (например, «переведи», «составь список», «объясни, как для школьника»).
Preference tuning (DPO/PPO) — настройка под человеческие предпочтения.
RL с проверяемыми вознаграждениями (RLVR) — когда модель учат с помощью тестов и правил, а не только с шумными оценками людей.

После была рассмотрена тема Precise Instruction Following: способность модели выполнять задания точно по формату.

Например:

Ответь только да/нет.
Верни JSON с ключами name, age и score.
Сформулируй ровно пять предложений.

Сегодняшние модели часто «оверфитятся» — хорошо отрабатывают именно на тех форматах, на которых их учили (например, верни JSON), но проваливаются на новых («верни YAML», «ответь в виде таблицы»). AI2 показал, что обучение от base-модели (чистой версии без fine-tuning) даёт лучшее обобщение на новые ограничения, чем обучение от instruct-версий (LLaMA-2-Chat, Alpaca и др.), которые слишком зафиксированы на старых паттернах.

В заключение было подчеркнуто:

Разнообразие инструкций критически важно, иначе модель привыкает к слишком узкому набору команд.
Можно использовать синтетические персоны — искусственно сгенерированные роли («врач», «учитель», «менеджер»), чтобы расширять сценарии и делать модель более универсальной.
Даже простые практики, вроде удаления повторов или ручной проверки данных, оказывают заметное влияние.
Полностью открытые пайплайны позволяют не только воспроизводить результаты, но и реально ускорять науку: исследователи могут изучать, как именно данные и методы влияют на поведение модели.

Beyond the lectures & Summary

Кроме прекрасных и насыщенных лекций нас ждали и небольшие «культурные вкрапления». Так, вечером первого дня организаторы провели экскурсию по центру Оксфорда.
Мы увидели главные достопримечательности города: старинные университетские здания и колледжи, обсерваторию, музеи. Были и забавные «поп-культурные» детали — здание, где снимали сцены из «Гарри Поттера», место, где когда-то стояли искупители грехов, и даже легендарный паб-таверна, в которой, по слухам, Эмма Уотсон потеряла свои водительские права.

Участникам также вручили памятные подарки — брендированные термокружки, а ещё дали доступ на обучающую платформу elandi.ai, где по окончании обучения выдали CPD (Continuous Professional Development) сертификат.

Но, пожалуй, самое ценное в таких школах это люди. На OxML было невероятно много открытых и заинтересованных участников, специалистов высокого уровня, с которыми удалось пообщаться, обсудить идеи и взгляды на будущее развития искусственного интеллекта и машинного обучения. Такой обмен опытом и энергией оказался не менее важным, чем сами лекции.

Я с удовольствием посетил бы следующие летние школы ради новых знаний, новых знакомств и ощущения, что находишься в самом центре мирового диалога об искусственном интеллекте.

* Компания Meta признана экстремистской организацией и запрещена на территории РФ.

Что я вынес из Oxford Machine Learning Summer School 2025