Обновить

Geometry > Scale: Как 40М параметров на решетке E8 обходят классические трансформеры

Уровень сложностиСредний
Время на прочтение2 мин
Охват и читатели6.9K
Всего голосов 9: ↑7 и ↓2+6
Комментарии14

Комментарии 14

Ничего непонятно, но очень интересно.

Автор - оригинальный bootstraptor?

Автор - оригинальный bootstraptor? - да это я

Почему это работает?

Для такого короткого текста нужна llm'ка?

В последнее время триггерит с этих "why it works", когда вообще не "works"

за "таким коротким текстом" стоит 6 месяцев сложной работы и кодинга, которые дают 0.37 Train Loss, (если вам это о чем-то говорит) надеюсь, ответил на ваш вопрос

Поясните, пожалуйста, как именно вы сравниваете loss c TinyStories-33M. Там словарь 50257, у Lila словарь 2048. Подскажите, как loss сравнивать правильно

Вы правы, TinyStories в оригинале использует токенизатор на 10k (или 50k в некоторых портах на HF, но в их тесте 10'000), а у LILA - 2048. Прямое сравнение loss "в лоб" здесь некорректно. Однако, если мы перейдем к Perplexity: У TinyStories 33M (v=10k) Loss ~1.8-2.0 дает PPL ~6.0. У LILA (v=2048) Loss ~0.36 дает PPL ~1.43.

(в статье TinyStories у 22M модели после 20k шагов loss ~2.4, у 33M ожидаемо ниже - loss ~1.8–2.0)

После приведения к битам на символ Е8-LILA показывает значительно лучший результат (0.128 bpc против 0.742 bpc у TinyStories-33M). (Расчёт bpc: loss / (ln(2) x средняя длина токена), для BPE‑2048 ≈ 4.5 символа, для словаря 10k ≈ 3.5 символа.)

(Все это приблизительные значения, полученные усреднением по корпусу - средняя длина токена может немного отличаться в зависимости от конкретного корпуса)

Задача проекта LILA - показать, что E8-решетка позволяет достичь этой плотности при экстремально малом количестве параметров (20-40M).

Сегодня начал обучать новую модель с геометрическим внимание ( Leech Lattice Lila 20млн параметров wip) На шаге 40 000 лучший validation loss = 0.4018, что даёт PPL = exp(0.4018) ≈ 1.49. Это практически идентично E8 (1.43) - но у Е8 такой loss на 100,000+ шагах у Leech всего на 40K. Leech обучается быстрее при меньшем числе параметров (≈20M против 40M E8)

Пересчёт в bits-per-character для объективности

  • Leech-Lila: loss = 0.4018, средняя длина токена для BPE-2048 ≈ 4.5 символа. bpc = 0.4018 / (ln(2) 4.5) ≈ 0.4018 / (0.6931 4.5) ≈ 0.4018 / 3.119 ≈ 0.129 бит/символ.

  • TinyStories-33M (оценка): loss ≈ 1.8, средняя длина токена для словаря 10k ≈ 3.5 символа. bpc = 1.8 / (0.6931 * 3.5) ≈ 1.8 / 2.426 ≈ 0.742 бит/символ.

  • E8-LILA (оценка): loss = 0.36, средняя длина токена для BPE-2048 ≈ 4.5. bpc = 0.36 / (0.6931 * 4.5) ≈ 0.36 / 3.119 ≈ 0.115 бит/символ.

Таким образом, Leech‑Lila (0.129 bpc) почти догоняет E8 (0.115 bpc), но с меньшими параметрами и быстрее. Обе геометрические модели кардинально превосходят TinyStories-33M по эффективности сжатия текста.

Таким образом, геометрические модели (E8, Leech) демонстрируют на порядок лучшее сжатие текста (bpc 0.115–0.129 против 0.742), чем стандартная TinyStories‑33M, при существенно меньшем количестве параметров и более быстрой сходимости.

Несмотря на впечатляющие цифры, сохраняются некоторые вопросы:

Обобщаемость на другие датасеты
TinyStories — это очень специфичный корпус: простые короткие истории с ограниченной лексикой и синтаксисом. Возможно, геометрические модели так хорошо работают именно из-за этой простоты. Нужны тесты на:

  • OpenWebText (более разнообразный)

  • WikiText-103 (более формальный язык)

  • Код (например, The Stack)

Сравнение с современными small-моделями
Baseline TinyStories-33M — это модель 2023 года. Сегодня есть более эффективные small-модели (например, MobileBERT, DistilGPT2, современные реализации трансформеров с оптимизациями). Хорошо бы сравнить с ними по bpc.

Теоретическое объяснение
Почему именно плотная упаковка в 8D или 24D дает такое преимущество? Автор предлагает интуицию ("меньше вязкости", "лучшая организация"), но строгого математического или информационно-теоретического обоснования пока нет?

Полностью согласен, что TinyStories - это только первый шаг. Именно поэтому я начал с самого простого датасета, чтобы быстро проверить гипотезу. Сейчас модель обучена, и следующий этап - как раз перенос на более сложные корпуса (WikiText, OpenWebText). TinyStories был выбран как контрольная среда для проверки гипотезы.

Если геометрия Лича работает на простых смыслах в 5-6 раз эффективнее (0.129 vs 0.742 bpc),  предполагается, что при переходе на WikiText она не "сломается", а проявит свою топологическую устойчивость.  В 2016 году Марина Вязовская доказала, что решётка E8 является оптимальной упаковкой шаров в 8-мерном пространстве (плотность π⁴/384 ≈ 0,2537). Для 24-мерного случая (решётка Лича) оптимальность была доказана Вязовской совместно с соавторами (Cohn, Kumar, Miller, Radchenko, Viazovska).

В языковых моделях мы работаем с семантическим пространством, где каждый токен - это точка. Чем плотнее и равномернее мы можем упаковать смыслы, тем больше оттенков значения можно различить при фиксированной размерности. Именно поэтому "геометрические модели" достигают такого низкого bpc (0.115–0.129) - они просто не тратят пространство впустую. 

В модели Leech не просто используется решётка как статический базис. Геометрическая потеря (LeechResonanceLoss) заставляет скрытые состояния резонировать с направлениями этой оптимальной упаковки. Это аналогично тому, как в работе Вязовской использовались модулярные формы для построения "магической функции", идеально оценивающей плотность. (плотная упаковка шаров эквивалентна максимизации минимального расстояния между центрами, в пространстве представлений это означает, что векторы различных токенов находятся на максимально возможном расстоянии друг от друга, что минимизирует их перепутывание и улучшает дискриминацию близких семантических оттенков). Код Lila делает то же самое, но в контексте обучения нейросети: принуждает представления выстраиваться вдоль этих математически оптимальных направлений.

Больше о математике Lila вы можете прочитать в моих работах на Zenodo: DOI 10.5281/zenodo.18731390 DOI 10.5281/zenodo.18784423

(p.s. Также вот эта работа  DOI 10.5281/zenodo.18791657  демонстрирует изоморфизм между элементами физической модели и компонентами архитектуры трансформатора на основе E8)

Ради интереса, почему Zenodo, а не arXiv?

Публикация на arXiv в процессе peer review и подготовки.

Baseline TinyStories-33M — это модель 2023 года. Сегодня есть более эффективные small-модели (например, MobileBERT, DistilGPT2, современные реализации трансформеров с оптимизациями).

Нейронка "размышляла"? DistilGPT2 примерно того же времени как и TinyStories. А MobileBERT вообще 2020-го.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации