Comments 4

Описанная вами проблема решается с помощью множества residual связей. В последних исследованиях, как раз пришли к этому решению.
В этом случае обучение более качественное, а loss остаётся стабильным. Так как в этом случае каждый блок вносит свой вклад во все последующие и модели не нужно пытаться одновременно обеспечить этот проброс на уровне одного FFN и одновременно делать обобщение данных.
Как уже сказал выше, сейчас такие же результаты получили другие исследователи.
Про "дальние skip-connections".
То, что вы описываете, это напоминает densenet, адаптированная под трансформеры. Идея прошивки всей сети сквозными связями действительно помогает градиентам течь лучше, но она не заменяет LayerScale.
LayerScale решает проблему информационного давления в RS на старте обучения (когда блоки еще шумят), а Dense Connections просто создают больше путей для градиента. Это разные инструменты: один управляет амплитудой входа, другой типом путей.
Про беспрецедентный результат на 1000 примерах.
Вы пишете, что классические LLM не могут выучить морфологию на таком объеме. Это не соответствует реальности.
Любой мини трансформер (уровня nanoGPT или TinyLlama) на 1000 примерах русского текста за 4 эпохи неизбежно начнет выдавать слова "что", "я", "он" и ставить заглавные буквы. Это не постижение структуры языка, это простая статистика. В русском языке "что", "я", "он" это стоп слова с колоссальной частотностью. Модели не нужно "понимать теорию рангов", чтобы запомнить, что после точки идет большая буква, а после "я" часто идет глагол.
Генерация вашей модели
Цитата:
«Да я что и что он?, не что не уже с шу»
Это уровень обучения модели на символьных триграммах. Если это "впервые в мире показанная структура", то мы, кажется, очень низко опустили планку для определения структуры языка.
Я показал там сравнение, где обучил такую же llm того же размера на тех же данных. Там это есть и результат виден. Там дело не только в связях, там другой токенизатор, который не BPE или другой частотный я там токенизатор построен на цепях Маркова. Что касается связей, то я провел вам исследования. Я пока не понимаю, что делает вас слой, чему модель не может обучиться через уже имеющиеся слои.
Вам следует в пользу своих аргументов приводит обучение. Показать, вот я обучил llm с этим слоем и без него. Данные одинаковые, вот кривая обучения я вот результат. Я буду рад, если вы сделаете такое обучение покажите разницу.
недооцененный пост
Как технология LayerScale спасает сверхглубокие трансформеры (и почему о ней молчат туториалы)