Комментарии 14
Ничего непонятно, но очень интересно.
Автор - оригинальный bootstraptor?
Автор - оригинальный bootstraptor? - да это я

E8 плотная упаковка, но Leech Lattice еще плотнее (WIP) https://github.com/SPUTNIKAI/LeechTransformer
Поясните, пожалуйста, как именно вы сравниваете loss c TinyStories-33M. Там словарь 50257, у Lila словарь 2048. Подскажите, как loss сравнивать правильно
Вы правы, TinyStories в оригинале использует токенизатор на 10k (или 50k в некоторых портах на HF, но в их тесте 10'000), а у LILA - 2048. Прямое сравнение loss "в лоб" здесь некорректно. Однако, если мы перейдем к Perplexity: У TinyStories 33M (v=10k) Loss ~1.8-2.0 дает PPL ~6.0. У LILA (v=2048) Loss ~0.36 дает PPL ~1.43.
(в статье TinyStories у 22M модели после 20k шагов loss ~2.4, у 33M ожидаемо ниже - loss ~1.8–2.0)
После приведения к битам на символ Е8-LILA показывает значительно лучший результат (0.128 bpc против 0.742 bpc у TinyStories-33M). (Расчёт bpc: loss / (ln(2) x средняя длина токена), для BPE‑2048 ≈ 4.5 символа, для словаря 10k ≈ 3.5 символа.)
(Все это приблизительные значения, полученные усреднением по корпусу - средняя длина токена может немного отличаться в зависимости от конкретного корпуса)
Задача проекта LILA - показать, что E8-решетка позволяет достичь этой плотности при экстремально малом количестве параметров (20-40M).
Сегодня начал обучать новую модель с геометрическим внимание ( Leech Lattice Lila 20млн параметров wip) На шаге 40 000 лучший validation loss = 0.4018, что даёт PPL = exp(0.4018) ≈ 1.49. Это практически идентично E8 (1.43) - но у Е8 такой loss на 100,000+ шагах у Leech всего на 40K. Leech обучается быстрее при меньшем числе параметров (≈20M против 40M E8)
Пересчёт в bits-per-character для объективности
Leech-Lila: loss = 0.4018, средняя длина токена для BPE-2048 ≈ 4.5 символа. bpc = 0.4018 / (ln(2) 4.5) ≈ 0.4018 / (0.6931 4.5) ≈ 0.4018 / 3.119 ≈ 0.129 бит/символ.
TinyStories-33M (оценка): loss ≈ 1.8, средняя длина токена для словаря 10k ≈ 3.5 символа. bpc = 1.8 / (0.6931 * 3.5) ≈ 1.8 / 2.426 ≈ 0.742 бит/символ.
E8-LILA (оценка): loss = 0.36, средняя длина токена для BPE-2048 ≈ 4.5. bpc = 0.36 / (0.6931 * 4.5) ≈ 0.36 / 3.119 ≈ 0.115 бит/символ.
Таким образом, Leech‑Lila (0.129 bpc) почти догоняет E8 (0.115 bpc), но с меньшими параметрами и быстрее. Обе геометрические модели кардинально превосходят TinyStories-33M по эффективности сжатия текста.
Таким образом, геометрические модели (E8, Leech) демонстрируют на порядок лучшее сжатие текста (bpc 0.115–0.129 против 0.742), чем стандартная TinyStories‑33M, при существенно меньшем количестве параметров и более быстрой сходимости.
Несмотря на впечатляющие цифры, сохраняются некоторые вопросы:
Обобщаемость на другие датасеты
TinyStories — это очень специфичный корпус: простые короткие истории с ограниченной лексикой и синтаксисом. Возможно, геометрические модели так хорошо работают именно из-за этой простоты. Нужны тесты на:
OpenWebText (более разнообразный)
WikiText-103 (более формальный язык)
Код (например, The Stack)
Сравнение с современными small-моделями
Baseline TinyStories-33M — это модель 2023 года. Сегодня есть более эффективные small-модели (например, MobileBERT, DistilGPT2, современные реализации трансформеров с оптимизациями). Хорошо бы сравнить с ними по bpc.
Теоретическое объяснение
Почему именно плотная упаковка в 8D или 24D дает такое преимущество? Автор предлагает интуицию ("меньше вязкости", "лучшая организация"), но строгого математического или информационно-теоретического обоснования пока нет?
Полностью согласен, что TinyStories - это только первый шаг. Именно поэтому я начал с самого простого датасета, чтобы быстро проверить гипотезу. Сейчас модель обучена, и следующий этап - как раз перенос на более сложные корпуса (WikiText, OpenWebText). TinyStories был выбран как контрольная среда для проверки гипотезы.
Если геометрия Лича работает на простых смыслах в 5-6 раз эффективнее (0.129 vs 0.742 bpc), предполагается, что при переходе на WikiText она не "сломается", а проявит свою топологическую устойчивость. В 2016 году Марина Вязовская доказала, что решётка E8 является оптимальной упаковкой шаров в 8-мерном пространстве (плотность π⁴/384 ≈ 0,2537). Для 24-мерного случая (решётка Лича) оптимальность была доказана Вязовской совместно с соавторами (Cohn, Kumar, Miller, Radchenko, Viazovska).
В языковых моделях мы работаем с семантическим пространством, где каждый токен - это точка. Чем плотнее и равномернее мы можем упаковать смыслы, тем больше оттенков значения можно различить при фиксированной размерности. Именно поэтому "геометрические модели" достигают такого низкого bpc (0.115–0.129) - они просто не тратят пространство впустую.
В модели Leech не просто используется решётка как статический базис. Геометрическая потеря (LeechResonanceLoss) заставляет скрытые состояния резонировать с направлениями этой оптимальной упаковки. Это аналогично тому, как в работе Вязовской использовались модулярные формы для построения "магической функции", идеально оценивающей плотность. (плотная упаковка шаров эквивалентна максимизации минимального расстояния между центрами, в пространстве представлений это означает, что векторы различных токенов находятся на максимально возможном расстоянии друг от друга, что минимизирует их перепутывание и улучшает дискриминацию близких семантических оттенков). Код Lila делает то же самое, но в контексте обучения нейросети: принуждает представления выстраиваться вдоль этих математически оптимальных направлений.
Больше о математике Lila вы можете прочитать в моих работах на Zenodo: DOI 10.5281/zenodo.18731390 DOI 10.5281/zenodo.18784423
(p.s. Также вот эта работа DOI 10.5281/zenodo.18791657 демонстрирует изоморфизм между элементами физической модели и компонентами архитектуры трансформатора на основе E8)
Baseline TinyStories-33M — это модель 2023 года. Сегодня есть более эффективные small-модели (например, MobileBERT, DistilGPT2, современные реализации трансформеров с оптимизациями).
Нейронка "размышляла"? DistilGPT2 примерно того же времени как и TinyStories. А MobileBERT вообще 2020-го.


Geometry > Scale: Как 40М параметров на решетке E8 обходят классические трансформеры