Обновить
8K+
4

Пользователь

37
Рейтинг
2
Подписчики
Отправить сообщение

По пунктам в ответе:

  1. Ошибка для диффузии действительно копится быстрее из-за генерации сразу нескольких токенов за один проход. Тут может помочь способность модели редактировать уже сгенерированные токены (пример). DiffusionGemma это умеет, но по Вашим словам это ей не очень сильно помогает.

  2. Ответ построен так, как будто диффузионная модель использует bidirectional attention по всей последовательности из >32k токенов, хотя это не так. DiffusionGemma тоже использует блочную диффузию, но размер блока равен 256.

  3. Больше похоже на причину глюков. Есть серия работ, которые исследовали качество моделей с разными размерами блоков, и везде вывод был +/- один и тот же — максимальное ускорение генерации без существенной потери качества достигается на блоке размером 32-64 токенов. При дальнейшем увеличении способности моделей начинают стремительно деградировать.

Модель инициализируется весами предобученной авторегрессионной модели из-за чего на самом старте имеет высокую точность MMLU.

Дальше она постепенно переходит в режим диффузии, где задача предсказания следующего токена меняется на задачу реконструкции целого блока. В ходе этого процесса веса модели начинают перестраиваться, и прежние "авторегрессионные способности" теряются, поэтому падает и accuracy.

Когда модель уже адаптируется к новой постановке и начинает сходиться, качество на бенчмарках начинает частично расти обратно. В наших экспериментах оно оказывалось тем выше, чем меньше была просадка в самом начале обучения.

Идея постепенного увеличения размера блока и дополнительного AR-лосса как раз в том, чтобы сгладить этот переход и по максимуму сохранить исходные знания.

Информация

В рейтинге
249-й
Зарегистрирован
Активность