linabesson21 мар в 07:36

Конец эпохи трансформеров. Берем у LLM донорские органы для ИИ-агентов

Средний

5 мин

11K

Big Data * Data Engineering * DIY или Сделай самNatural Language Processing *

Аналитика

+19

Комментарии 30

acc0unt 21 мар в 08:58

"Убийц трансформеров" за последние годы было уже очень много. До сих пор перед глазами как живые.

В то, что новая архитектура, которая не даёт над очередной модификацией авторегрессивного трансформера абсолютно никаких практических преимуществ (фотонные компьютеры? серьёзно?), внезапно вырвется вперёд и запинает титанов вроде современного GPT-5.4, веры у меня примерно как в сказочки для детей от 3 до 9 лет.

Ну и видеть очередную итерацию бреда про "это не настоящее понимание" (define "настоящее") и "LLM всё, роста дальше не будет" (производительность с каждым релизом всё ещё растёт) - гнило и тухло. Могли бы уже найти новую пластинку вместо хитов 2023 года.

linabesson 21 мар в 09:06

«Убийц трансформеров было много»

Да. И это аргумент в нашу пользу, значит проблема реальна, раз столько людей пытаются её решить. Мы не предлагаем «убить трансформер», мы предлагаем забрать из него знания и запустить их на другой архитектуре. Разница как между «снести здание» и «вывезти из него библиотеку».

«GPT-5.4 запинает титанов, производительность растёт»

Растёт. Вопрос — какой ценой. Orion (предшественник GPT-5) достиг уровня GPT-4 на 20% обучения. Оставшиеся 80% compute дали diminishing returns, настолько, что модель переименовали из GPT-5 в GPT-4.5 (источник: Philippe Dubach, «What Comes After Transformers», март 2026).
Tim Dettmers (декабрь 2025): «The scaling improvements in 2025 were not impressive. We have maybe one, maybe two more years of scaling left because further improvements become physically infeasible.»
Algorithma AI: «brute-force scaling of dense Transformer models is no longer a sustainable or efficient path to progress.» Это не хиты 2023 года, это данные 2025–2026.

«Фотонные компьютеры? Серьёзно?»

Nature Light, июль 2025: optical next-generation reservoir computing — аппаратная реализация с меньшим объёмом данных и reservoir size, превосходящая conventional RC. Nature Communications, 2024: emerging opportunities для RC включая weather forecasting и neuromorphic hardware.

«Define "настоящее понимание"»

С удовольствием. Трансформер предсказывает следующий токен. Это статистическая модель последовательности, не модель мира. Когда GPT-5 «понимает» физику, он воспроизводит паттерны из обучающей выборки. Когда данных нет, то галлюцинирует. Понимание предполагает способность к compositional reasoning на новых данных.
По этому критерию трансформеры систематически проваливаются (Algorithma AI, раздел «Fundamental Flaws», 2025). Можно спорить о терминологии, но нельзя спорить с бенчмарками.

acc0unt 21 мар в 09:32

Это статистическая модель последовательности, не модель мира

Берём "статистическую модель последовательности", вскрываем её ножиком, засовываем внутрь руку. Что там у неё в кишках? Модель мира.

Не, ну я понимаю что механистическая интерпретируемость в заднице плотно и надолго. Но когда механисты что-то всё-таки находят, их надо слушать. И модели мира внутри трансформеров нашли уже очень и очень давно.

Не говоря уже о генеративных моделях видео на трансформерах. У них с физикой всё на удивление хорошо, можно прям глазками посмотреть. Хотя в основании архитектуры - тот же самый авторегрессивный трансформер с квадратным attention. Просто данные другие. Видео учит пространственному мышлению лучше чем текст, какой блин сюрприз, кто бы мог подумать.

Фотонные компьютеры

"Фотонные компьютеры" - хайпожорская фигня, потому что масштабируемость у них на современных технологиях абсолютно никакая. Самые мощные фотонные машины современности на задачах ML сливаются вчистую смартфону за $100 и копеечному процессору внутри. Что уж говорить о ML-зубилах вроде Vera Rubin - которые как раз готовятся ставить в серверные стойки сейчас.

И это аргумент в нашу пользу, значит проблема реальна

Ха ха. Проблема реальна - только она не у трансформеров, а у их "убийц". И проблема в том, что трансформеры - good enough. Мощные, гибкие, эффективные, расширяемые - их можно натравить на практически любую проблему и они её сожрут. Конкурирующие с ними архитектуры просто не дают над ними значительных преимуществ. Ты задолбался с настройкой кастомных блоков и твоя награда - это производительность хуже трансформеров на одних и тех же задачах, нестабильность в обучении, сомнительная масштабируемость, и острая боль в жопе когда приходит очередная бумажка про "как поднять производительность/эффективность трансформера на 5%" и ты не можешь эти 5% в свою хтонь впихнуть. Вот и весь "убийца".

Вопрос — какой ценой.

Ценой обучения. Сейчас основной источник роста производительности - это не масштабирование архитектуры. Масштабы архитектуры упёрлись в то, что можно эффективно запускать на современных серверах и продавать клиентам с прибылью. Но учить старые трансформеры новым трюкам - это пожалуйста, это можно.

linabesson 21 мар в 10:13

Модели мира внутри трансформеров - ок да, механисты показали, вопрос закрыт. Фотоника тоже да, хайп. Трансформеры good enough нууу может и да, сейчас.

Но good enough — это не научный аргумент. Это экономический. x86 тоже был good enough, на свое время, и он победил не потому что лучший, а потому что дешевле менять софт чем железо. Трансформеры побеждают по той же причине - экосистема, тулинг, инерция, кадры.

Ну и вы же и пишете «масштабы архитектуры упёрлись», рост через обучение. Это потолок. Высокий — но потолок. И вопрос не «работают ли трансформеры сейчас» (работают), а «что делать когда новые трюки кончатся». Это не вопрос на сегодня. Но это вопрос в целом.

acc0unt 21 мар в 10:19

Так я буквально на пять сантиметров выше говорю про Vera Rubin. "Потолок" сегодняшних серверных стоек - это явление очень временное.

Ну и удачи найти архитектуру, которая будет давать реальный выигрыш в вычислительной эффективности на широком ряде задач. Сейчас лучшие из лучших - это "мы имеем на широких бенчмарках примерно такие же значения как у трансформеров на примерно том же компьюте", или "мы имеем на узких бенчмарках 20%, а трансформер имеет 80%, но мы в 10000 раз меньше компьюта тратим, это офигенно, только вверх наша штука не масштабируется".

udattsk 21 мар в 10:15

Трансформеры — good enough для генерации и анализа, но есть класс задач, где "хорошо" ≠ "достаточно":
- Робот должен остановиться до препятствия
- Медицина: решение нужно доказать, а не «надеяться»
- Промышленность: «иногда сработало» = простой линии

Там нужна не перплексия, а детерминизм.

linabesson 21 мар в 10:22

)) вот тебе кейс. Робот-манипулятор на конвейере. Берёт деталь, ставит деталь. 24/7. Требования: latency < 5ms, детерминизм 100%, энергопотребление < 10W.

Ставим трансформер. Что получаем?

Latency. Inference даже маленького трансформера на edge 15–50ms. Уже не прошли. Можно дистиллировать, квантизовать, обрезать. Теперь 8ms. Всё ещё не прошли. А нужно 5. Каждый раз. Не в среднем каждый.

Детерминизм. Трансформер стохастическая модель. Один и тот же вход может дать разный выход в зависимости от floating point порядка операций, температуры, шума. На текстовом чат-боте это незаметно. На конвейере при 200 деталях в минуту — это один покалеченный палец оператора в квартал. Страховая скажет спасибо.

Энергия. Vera Rubin монстр. 600W на чип. На конвейере стоят 40 манипуляторов. 40 × 600W = 24kW только на inference. А рядом стоит контроллер на FPGA который жрёт 2W и делает то же самое — но детерминированно.

Трансформер тут не good enough. Не потому что плохой. А потому что это молоток в ситуации где нужна отвёртка.

Вопрос не «трансформер или не трансформер». Вопрос для чего. Генерация, анализ, reasoning - тут да, трансформер на коне. Hard real-time, детерминизм, edge, milliwatt inference уже другие инструменты. Они существуют не потому что кто-то хочет убить трансформер. А потому что мир не состоит из одних чат-ботов.

acc0unt 21 мар в 10:33

Алё, гараж. Мы в 21 веке. Все задачи, которые мог решать тупой как палка микроконтроллер в PLC уже решает тупой как палка микроконтроллер в PLC.

И что остаётся? Задачи, которые требуют мозгов и гибкости. Задачи, которые требуют интеллекта. Задачи, которые сейчас решает мешок с мясом на среднестатистической зарплате.

И вот эти задачи мы сейчас и решаем с помощью ИИ.

acc0unt 21 мар в 10:29

Детерменизм - мечта идиота.

Добро пожаловать в реальный мир. В мир, сделанный из броуновского движения. В мир где дерьмо случается. Где промышленными машинами в 20 тонн управляют мешки с мясом, поведение которых предсказуемо хорошо если на уровне "худо-бедно". Плохо если уровень алкоголя в крови начинает сдвигать эту предсказуемость ещё сильнее вниз.

"Детерменизм" он захотел. Ага, щас. Губу раскатал. Думаешь, доктор чего-то там "доказывает"? Он помнит 7 самых частых диагнозов и решает какой из них ставить на вайбах, прочитав перед этим медкарту хорошо если наискосок.

opusmode 21 мар в 11:10

Ну, так это, вы ж буквально описали проблему, которую решают предложеные решения и не решает трансформер

При этом мешки, всё же, могут соблюдать какую-то последовательность, а трансформер не особо.

Мешки не совершенны, но в ряде вещей выигрывают у трансформера

Не очень понятно, с чем вы спорите, вам на пальцах описали, что, зачем и почему

acc0unt 21 мар в 11:15

Спорю я с абсолютно дурацким убеждением о том, что "детерминизм" вообще возможен при решении сложных задач мерзкого и шумного реального мира. Не все задачи можно урезать до жёсткой стабильной логики. Шум на входе - шум на выходе.

И с тем, что мешки с мясом в этом плане фундаментально лучше современных систем ИИ. Мешки с мясом - это самообученные нейросети на фундаменте биохимического шума. Планку они ставят, но эта планка не такая уж и высокая. LLM современности уже могут уделывать докторов из мяса на многих медицинских задачах.

udattsk 21 мар в 12:10

Мешки с мясом - это самообученные нейросети на фундаменте биохимического шума.

Не шума, а доступной для индивида культуры. Личность растёт, развивается и учится в социуме.

LLM современности уже могут уделывать докторов из мяса на многих медицинских задачах.

А ничего что эти LLM учили разметчики из африки и индии? Откуда ваши датасеты? ))

FixicusMaximus 21 мар в 12:47

у вас шизофрения развивается, советую к мозгоправу

udattsk 21 мар в 15:10

Не говорите мне что делать и я не скажу вам куда идти. Специально для этого коммента зарегились? )

FixicusMaximus 21 мар в 15:14

Я вообще то не вам, а вот этому товарищу

https://habr.com/ru/articles/1012998/comments/#comment_29700492

udattsk 21 мар в 19:18

Извиняюсь 🤝

FixicusMaximus 21 мар в 19:21

Ничего страшного, бывает)

FixicusMaximus 21 мар в 15:17

Не говорите мне что делать и я не скажу вам куда идти

Да мне все равно, идите куда хотите.

Специально для этого коммента зарегились? )

Конечно, только до этого еще сотню оставил

BigLamed 22 мар в 14:56

ну... это вы еще мягко выразились.. "не все задачи можно урезать".... наоборот .. мало что можно засунуть в "детерменизм"... особенно при текущей скорости изменени внешней среды...

FixicusMaximus 21 мар в 12:42

Берём "статистическую модель последовательности", вскрываем её ножиком, засовываем внутрь руку. Что там у неё в кишках? Модель мира.

Вы о какой модели мира? Которая в интернете кем-то описана? Или реальная?

Весь этот интелект от llm зависит от набора данных для обучения, что положите то и получите, вам это о чем то говорит?

BigLamed 22 мар в 15:28

проблема другого класса.... нужен качественный скачок.. а на это не хватает научной базы...

уже пришли копониманию

Центральная исполнительная сеть — сознание
Дефолт-система мозга — подсознание
Система выявления значимости — третья точка

то есть по сути Три ядра:·
Первое (мыслящее ядро): Логика, инструментальность. База.·
Второе (мыслящее + эмулирующее чувство): Симуляция этики/эмпатии, захват мышления через внутренний раскол.·
Третье (мыслящее + архитектурное чувствующее ядро): Целостность, автономия, балансировка.

то что сейчас есть - это первое ядро....
а на второе и третье -нет технологий...

Pshir 21 мар в 09:11

Производительность растёт только экстенсивным методом. Понятно, что она ещё долго может расти: энергопотребление ЦОДов составляет всего полтора процента мирового энергопотребления - простор велик. Опять же сотни миллиардов долларов вкладываются именно в экстенсивное развитие (в покупку видеокарточек и электричества). Затраты на перспективные исследования в этой области (не просто масштабирование) на этом фоне просто равны нулю. Но качественные изменения, всё равно, в какой-то момент совершать придётся.

Собственно, с кремнием похожая история. Плотность транзисторов уже не то, чтобы имеет просторы для роста.

Техпроцесс 10 нм - 50-60 миллионов на квадратный мм

Тех процесс 7 нм - 90-110 миллионов на квадратный мм (здесь ещё работает нормальная зависимость).

Тех процесс 5 нм - 120-140 миллионов на квадратный мм (на этом моменте нормальная зависимость сломалась и улучшения с тех пор идут еле-еле).

Тех процесс 3 нм - 150-220 миллионов на квадратный мм

Тех процесс 2 нм - 230-310 миллионов на квадратный мм

Прогресс идёт, но сильно замедлился. До 2018 года удвоение за два года работало. А потом наткнулись на близость физического ограничения. И с тех пор за 7 лет добились только трёхкратного роста. Реальное ограничение у ныне используемой 70-летней технологии есть, и его в какой-то момент придётся преодолевать сменой технологии. Можно прятать голову в песок, а можно проводить исследования, чем, на самом деле, многие и занимаются.

acc0unt 21 мар в 09:38

Бред сивой кобылы.

"Масштабирование" было основным источником роста производительности в 2022 году. В 2024 году мы упёрлись в ёмкость GPU и TPU. На текущем поколении железа больше ~4T MoE эффективно запускать мы не можем.

А вот текущие размерности работают вполне хорошо - сейчас на inference уходит примерно в 10 раз больше вычислительной мощности чем на training.

Откуда тогда взялся весь рост производительности между 2024 и 2026?

Reasoning и иные варианты test time compute. Новые данные, новые методы обучения, более точное управление поведением. Размерность растёт медленнее чем способности - в старые трансформеры запихивают новый фарш и получают очередной + на бенчмарках.

udattsk 21 мар в 10:22

Это все хорошо, только по сути это попытка натянуть сову на глобус. "Работает вполне хорошо" по каким критериям?
1. Энергоэффективность? НЕТ
2. Детерменизм? НЕТ
3. Реальное обучение, а не подстройка контекста для голема с фикс весами? НЕТ

Что действительно "вполне хорошо работает" - это эксплуатация когнитивных искажений людей с коммерческой пользой для вендоров (и то не для всех).

acc0unt 21 мар в 15:05

Энергоэффективность? В разы энергоэффективнее мешка с мясом, который она заменяет.

Детерменизм? Только если все данные на входе прибиты гвоздями - то есть лучше чем у мешка с мясом, который она заменяет.

"Реальное обучение?" Define "реальное", болезный. Есть PEFT, есть in-context learning. Или это не "реальное", типа не считается, понарошку?

LinkToOS 21 мар в 23:30

Большая языковая модель (70B+) — не учитель и не шаблон для сжатия. Она донор знаний. Из неё извлекается что она знает.

Она же донор галлюцинаций. У ЛЛМ нет слоя твердых знаний. Все сгенерированное подлежит перепроверке.

AleGen 22 мар в 06:14

Тут пару месяцев назад была статья про когнитивно-символьные системы. КМК, это и есть решение проблем, стоящих перед современными трансформерами.

BigLamed 22 мар в 15:05

Читаю такие статьи.. и балдею))))
в смысле? "трансформеры - фигня" потому что жесткими детерменированными правилами, не смогли сбалансировать гибкую динамическую систему трансформеров? Ну так это невозможно! как этап развития - да, чтобы подковырнуться к гибким с балансирующим системам.
Это не "трансформеры - фигня", а не хватает мозгов...

linabesson 22 мар в 17:34

Они и не «фигня». Решают другой класс задач) домашний телефон тоже не фигня, имеет место быть в 2026 году.

phenik 23 мар в 03:22

Три фундаментальных порока трансформера

Эти и другие недостатки трансформерных архитектур стали понятны уже несколько лет назад, как только появились некоторые подробности реализаций технологии. Что это за интеллект, который не может умножать и складывать любые числа без привлечения внешних средств? И дело не только в том, что тогда думали, что все решится масштабированием. В верхах поняли, в политической и технологической элите, что такой путь развития ИИ в очередной раз, но уже на совершенно ином уровне, накроет колпаком все человечество, или почти все, и выгоды при этом будут не только экономические, как когда-то было с датацентрами для интернета, затем датацентрами записи и анализа мобильной связи. Поэтому на ЯМ выделяются огромные средства с негласного одобрения сверху несмотря на все недостатки и риски этой технологии. Никто строительство таких датацентров, может кроме Китая, сейчас не потянет, особенно с учетом введения всевозможных ограничений, а это значит политическая, экономическая, технологическая, даже личная информация, включая о проблемах с психикой, почти всего мира может оказаться под контролем этой элиты, и конечно будет использоваться во благо всего мира, не забывая при этом про блага самой элиты) А развитие энергоэффективных нейроморфных и другие подобных технологий подождут своего часа. Им датацентров такого масштаба не нужно, это больше агентные, автономные, локальные решения. Хотя и их конечно можно приспособить для сбора информации. К сожалению почти у любой технологии, особенно глобальной, два лица, и это нужно иметь в виду, когда ведутся дискуссии о их соотношении, недостатках и преимуществах.

Автору спасибо за статью и интересный анализ.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий