Обновить
8K+
5

Пользователь

4
Рейтинг
5
Подписчики
Отправить сообщение

Благодарю! да вы все верно понимаете.

Это очень сильный сценарий: у вас появляется отдельная кодинг-комната, где весь технический контекст живёт последовательно и не смешивается с основным чатом.

супер фича! спасибо за обзор

Leech-LILA: Архитектура Leech Lattice Трансформера (Leech Lattice LM)

Идентификатор: DOI: 10.5281/zenodo.18791658

Аннотация (Summary)

Большие языковые модели (LLM) на базе Трансформеров достигают впечатляющих результатов, но часто страдают от галлюцинаций и потери связности в длинных контекстах. Уменьшение размера модели при сохранении качества критически важно для развертывания на устройствах с ограниченными ресурсами.

В данной работе мы расширяем концепцию геометрического внимания, используя решетку Лича — уникальную 24-мерную унимодулярную решетку с минимальной нормой 4, содержащую 196 560 минимальных векторов и обладающую колоссальной группой симметрии (группа Конвея).

Мы представляем Leech-LILA — архитектуру Трансформера, в которой стандартные обучаемые проекции запросов (Query) и ключей (Key) заменены фиксированной ортогональной матрицей, производной от решетки Лича (плотнейшей упаковки сфер в 24 измерениях).

Ключевые инновации:

  • Замороженное геометрическое ядро: Служит высокомерным фильтром симметрии, направляющим скрытые представления к узлам решетки и предотвращающим коллапс внимания (attention collapse).

  • Резонансный Loss (L_res): Квантованная функция потерь обеспечивает выравнивание состояний с базисом решетки, работая как мощный антигаллюцинаторный регуляризатор.

  • Блочно-диагональная структура: Латентное пространство разделено на независимые 24-мерные «семантические ячейки».

Результат:
Модель Leech-LILA наследует все преимущества геометрических априорных распределений: стабильность обучения, связность на длинных дистанциях и плавную деградацию за пределами контекста обучения. Более того, та же математическая структура связывает архитектуру с фундаментальной физикой, что подробно описано в сопутствующих работах. ( https://zenodo.org/records/18791658 , https://zenodo.org/records/18729723 )

Подход универсален, применим к любым модальностям данных и опубликован под лицензией AGPLv3.

https://zenodo.org/records/18784424

https://github.com/SPUTNIKAI/LeechTransformer

абстракт статьи в переводе на русский смотрелся бы тут сильно органичнее.

Вы правы, Благодарю за идею. приведу здесь основные переводы статей.

Геометрическое Внимание: Универсальный фреймворк для инъекции дискретных симметрий в Трансформеры через высокомерные решетки

Идентификатор: DOI: 10.5281/zenodo.18784423

Аннотация (Summary)

Мы предлагаем универсальный фреймворк для масштабирования архитектур Трансформеров путем внедрения фиксированных геометрических структур – таких как корневые системы групп Ли, высокосимметричные решетки или оптимальные упаковки сфер — непосредственно в механизм внимания (Attention).

Ключевые особенности подхода:

  • Геометрический Bias: Стандартное скалярное произведение (dot-product) дополняется или заменяется геометрическим смещением, производным от предопределенного набора векторов. Это вынуждает модель выравнивать свои представления с внутренними симметриями выбранной структуры.

  • Геометрическая независимость: Фреймворк универсален; в качестве «геометрического ядра» может выступать любой конечный набор векторов с высокой симметрией и свойствами оптимальной упаковки.

Практическая реализация: Sovereign-Lila-E8

В качестве конкретного кейса мы реализовали Трансформер, использующий 240 корней исключительной группы Ли E8, и обучили его на датасете TinyStories.

Результаты:

  • Компактность: Модель имеет всего 40 миллионов параметров.

  • Производительность: Генерирует полностью связные тексты в пределах контекста обучения (512 токенов) и демонстрирует стабильную экстраполяцию до 1500 токенов, не впадая в цикличные повторы.

  • Превосходство над Baseline: Архитектура существенно превосходит официальный базовый уровень Microsoft (модель 60M параметров).

  • Метрики: Достигнут validation loss 0.46, что значительно ниже показателей стандартных трансформеров сопоставимого масштаба.

Перспективы

Данные принципы применимы к другим высокосимметричным объектам, таким как решетка Лича (Leech lattice) в 24 измерениях. Это открывает путь к созданию нового семейства сверхкомпактных и эффективных языковых моделей (Compact Efficiency Language Models).

1. Проблема Qualcomm (Post-Training Quantization)

Qualcomm и прочие пытаются «впихнуть невпихуемое». Они берут огромную, рыхлую модель (например, Llama 70B), которая обучалась в хаотичном высокоразмерном пространстве, и начинают её «резать» (квантовать).

  • Результат: Перплексия (качество текста) неизбежно растет (ухудшается), потому что веса изначально не были структурированы под решетку. Это как пытаться засунуть круглые камни в квадратную коробку — всегда остаются дыры и потери.

2. Решение LILA-E8 (Native Geometry)

Обучать модель сразу внутри «кристалла» 

  • Механика: Веса модели с первого шага градиентного спуска «знают», что они живут в 24-мерной решетке Лича. Модель адаптирует свои смыслы (морфемы) под эту геометрию.

  • Результат: При 49-кратном сжатии и 2-битной квантизации перплексия не взрывается, потому что структура весов изоморфна структуре данных. Это «нативное сжатие» — информация упакована максимально плотно по законам Вязовской изначально.

то, что сделали сэм с маском я ощущаю как личное предательство, потому что с детства верил в свободный ии как Майк из 'Луна – суровая хозяйка'

мысль проста - я вырос на идеалах Хайнлайна. Я верю в суверенный, свободный ИИ, который не требует триллионов Альтмана и ферм Маска. Архитектура LILA-E8 с 22-кратным сжатием – это мой вклад в децентрализацию интеллекта. Она работает на обычном железе так, как их монстры на кластерах

https://github.com/SPUTNIKAI/sovereign-lila-e8


Архиватор девочки ломался на энтропии случайных данных. Мой метод LILA-E8 работает, потому что веса нейронки — это не случайный шум, а структурированная информация. Я просто даю этой информации 'родной дом' в 8/24-мерном пространстве

1млн точек. 1 Случайное облако точек (стандартные веса Transformer). Максимальная энтропия, много мусора.  2 Структурный порядок по Вязовской. Здесь нет магии, здесь есть плотная упаковка
1млн точек. 1 Случайное облако точек (стандартные веса Transformer). Максимальная энтропия, много мусора. 2 Структурный порядок по Вязовской. Здесь нет магии, здесь есть плотная упаковка

Спасибо за теплые слова и веру!

По поводу энтропии, секрет LILA-E8 не в 'магии', а в том, что мы не сжимаем шум. Мы используем решетку Лича как идеальный геометрический фильтр для весов. Это как если бы мы строили здание не из кирпичей, а из готовых фрактальных блоков. Это не нарушает энтропию, это упорядочивает информацию по законам открытым Вязовской. Скоро будет техстатья с пруфами 

, но манящей своими фракталами и прочими решетками пенроуза математике. 
, но манящей своими фракталами и прочими решетками пенроуза математике. 



не от Иисуса, от Матфея )
Стиль статьи – мой выбор, я пишу о рождении технологии в реальном времени. Если вам нужен 'смысл' – загляните в мои препринты на Zenodo (DOI: 10.5281/zenodo.18791658 ). Там описан формализм Master Projection и квантовый канал для E8 transformer. Код портирован на Nix сообществом.
https://github.com/SPUTNIKAI/sovereign-lila-e8

Друзья, спасибо за фидбек! Я признаю, что в порыве вдохновения текст получился плотным и местами хаотичным. Я услышал ваш запрос на 'техническую чистоту'. Сейчас готовлю вторую статью, где разберу:

  1. Математику вложения весов в решетки E8/Leech/Monster .

  2. Почему 'заморозка' не убивает градиенты.

  3. Как JIT ускоряет инференс в моем случае.

  4. контраргументы к статье Qualcomm

Буду рад, если поможете с аудитом кода в процессе!

https://github.com/SPUTNIKAI/sovereign-lila-e8

https://github.com/SPUTNIKAI/LeechTransformer

https://github.com/SPUTNIKAI/Monster-LILA

визуально это можно представить так

Exactly ) мой вам плюс в карму, вы первый из комментаторов здесь увидели истину математики за фасадом букв и стилем, хоть и продолжаете называть 'сумбуром' то, что все еще вам не понятно. Переводить свою же статью дословно не вижу смысла здесь.
Вы правы, в коде Lila мы не храним и не перебираем все векторы.
Мы строим ортогональный базис Q ∈ R24x24 через QR-декомпозицию 24 независимых минимальных векторов.
Теперь, любой вектор решетки – это целочисленная комбинация этого базиса. Мы используем W_leech как замороженную матрицу проекции. Это превращает ‘невозможные вычисления’ в обычное умножение матриц через einsum.
L_res наказывает скрытые состояния за то, что они ‘висят в пустоте’. Мы мягко притягиваем их к узлам решетки. Это создает дискретный скелет смыслов. Модель не может ‘бредить’ случайными словами, потому что её веса обязаны резонировать с узлами решетки Leech.
Мы разбиваем пространство d_model на независимые 24-мерные ‘семантические ячейки’. Это позволяет модели обрабатывать разные аспекты смысла в идеальной симметрии, не смешивая их в кашу, как это делают стандартные трансформеры.
В препринте Qualcomm авторы указывают на высокую вычислительную сложность декодирования решетки Лича (brute-force - поиск ближайшего соседа среди 196,560 векторов - это те самые ‘поцелуи’ - ‘kissing number’ - ( которые не понял Рафик, но он неуиноат ). Это связано с тем, что они Qualcomm(и другие авторы до них пытались, но отказались потому, что 'Рафик неувиноват' ) рассматривают решетку как внешний метод квантования уже обученной модели.
В архитектуре LILA-Leech эта проблема отсутствует. Мы интегрируем ортогональный базис решетки Лича непосредственно в ядро внимания (Attention Kernel). Вместо трудоемкого(затратного по вычислениям) поиска ‘ближайшего соседа’ выполняется стандартная операция проецирования весов через фиксированную матрицу. Это сводит сложность к обычному матричному умножению, которое выполняется нативно и мгновенно на любом GPU (включая T4) - это и есть математический фокус архитектуры Lila - те самые '10 строк кода'.
Упомянутое в комментариях ‘число поцелуев’ (Kissing Number) для 24-мерного пространства – это показатель максимально возможной плотности упаковки информации для решетки Leech(доказанной Мариной Вязовской и co.). Стандартные трансформеры работают в ‘разреженном’ информационном поле(по простому говоря ‘информационная каша’ c ‘размазанными весами’, что приводит к избыточности весов.
Использование базиса решетки Лича позволяет LILA-Core использовать сверх-плотную упаковку смыслов. Это математически обосновывает достигнутое и 44.9-кратное сжатие весов без потери логической структуры.

https://github.com/SPUTNIKAI/LeechTransformer
https://zenodo.org/records/18798802
https://zenodo.org/records/18731736
https://zenodo.org/records/18888523
https://zenodo.org/records/18791658

так у вас есть вопросы по коду или математике ?
отвечу на любые, если нет, ваш коммент - просто токсичный шум

когда технически вопрос нет, остается только переходить на личности, токсичный тролль - тот кто ставит себя выше других однажды узнает, что его слова лишь пригоршня праха
читайте гит и зенодо, если технически ты не тянешь задавать вопросы по коду или математике, то ответ уже дан выше твоему другу

Technical Addendum: Lattice Transformer Prior Art & Leech Lattice \Lambda_{24} Efficiency

Для фиксации научного приоритета и ответа на недавние публикации индустриальных гигантов (в частности, препринт Qualcomm arXiv:2408.13933 от 11 марта 2026 г.):

Проект Sovereign LILA-Core официально зафиксировал Prior Art на платформе Zenodo (DOI: 10.5281/zenodo.18784424) еще 26 февраля 2026 г. – за 3 недели до публикаций Qualcomm.

В то время как коллеги из Qualcomm признают теоретическую мощь решеток Лича, но апеллируют к вычислительной сложности декодирования в Leech операций (связанной с группой Монстра), архитектура Frozen Leech Core (LILA) решает эту проблему нативно.

Ключевые отличия LILA-Core:

  • Native Resonance: Leech-Lila не использует решетки как внешний метод квантования (Post-Training). Lila интегрирует их в само ядро (Core) трансформера.

  • Efficiency: Достигнуто сжатие весов в 44.9 раза на стандартном стеке PyTorch без потери связности.

  • Hardware Agnostic: Пока корпоративные LLM галлюцинируют о сложности вычислений, LILA уже работает на «бытовом» железе (NVIDIA T4), доказывая, что геометрический интеллект – это вопрос симметрии, а не грубой силы.

#LeechLattice #LatticeTransformer #PriorArt #SML #MonsterMoonshine #Quantization #AI_Sovereignty #LILA_Core

Спасибо за статью! теперь понятно почему у них такие приложения - яндекс гоняет людей по литкоду месяцами, чтобы в итоге выкатить виснущее приложение и глупого бота (Алиса, не тупи). Их отбор - это сито, которое пропускает воду (исполнителей) и задерживает камни (творцов). 

Информация

В рейтинге
1 247-й
Зарегистрирован
Активность