Комментарии 25
"Убийц трансформеров" за последние годы было уже очень много. До сих пор перед глазами как живые.
В то, что новая архитектура, которая не даёт над очередной модификацией авторегрессивного трансформера абсолютно никаких практических преимуществ (фотонные компьютеры? серьёзно?), внезапно вырвется вперёд и запинает титанов вроде современного GPT-5.4, веры у меня примерно как в сказочки для детей от 3 до 9 лет.
Ну и видеть очередную итерацию бреда про "это не настоящее понимание" (define "настоящее") и "LLM всё, роста дальше не будет" (производительность с каждым релизом всё ещё растёт) - гнило и тухло. Могли бы уже найти новую пластинку вместо хитов 2023 года.
«Убийц трансформеров было много»
Да. И это аргумент в нашу пользу, значит проблема реальна, раз столько людей пытаются её решить. Мы не предлагаем «убить трансформер», мы предлагаем забрать из него знания и запустить их на другой архитектуре. Разница как между «снести здание» и «вывезти из него библиотеку».
«GPT-5.4 запинает титанов, производительность растёт»
Растёт. Вопрос — какой ценой. Orion (предшественник GPT-5) достиг уровня GPT-4 на 20% обучения. Оставшиеся 80% compute дали diminishing returns, настолько, что модель переименовали из GPT-5 в GPT-4.5 (источник: Philippe Dubach, «What Comes After Transformers», март 2026).
Tim Dettmers (декабрь 2025): «The scaling improvements in 2025 were not impressive. We have maybe one, maybe two more years of scaling left because further improvements become physically infeasible.»
Algorithma AI: «brute-force scaling of dense Transformer models is no longer a sustainable or efficient path to progress.» Это не хиты 2023 года, это данные 2025–2026.
«Фотонные компьютеры? Серьёзно?»
Nature Light, июль 2025: optical next-generation reservoir computing — аппаратная реализация с меньшим объёмом данных и reservoir size, превосходящая conventional RC. Nature Communications, 2024: emerging opportunities для RC включая weather forecasting и neuromorphic hardware.
«Define "настоящее понимание"»
С удовольствием. Трансформер предсказывает следующий токен. Это статистическая модель последовательности, не модель мира. Когда GPT-5 «понимает» физику, он воспроизводит паттерны из обучающей выборки. Когда данных нет, то галлюцинирует. Понимание предполагает способность к compositional reasoning на новых данных.
По этому критерию трансформеры систематически проваливаются (Algorithma AI, раздел «Fundamental Flaws», 2025). Можно спорить о терминологии, но нельзя спорить с бенчмарками.
Это статистическая модель последовательности, не модель мира
Берём "статистическую модель последовательности", вскрываем её ножиком, засовываем внутрь руку. Что там у неё в кишках? Модель мира.
Не, ну я понимаю что механистическая интерпретируемость в заднице плотно и надолго. Но когда механисты что-то всё-таки находят, их надо слушать. И модели мира внутри трансформеров нашли уже очень и очень давно.
Не говоря уже о генеративных моделях видео на трансформерах. У них с физикой всё на удивление хорошо, можно прям глазками посмотреть. Хотя в основании архитектуры - тот же самый авторегрессивный трансформер с квадратным attention. Просто данные другие. Видео учит пространственному мышлению лучше чем текст, какой блин сюрприз, кто бы мог подумать.
Фотонные компьютеры
"Фотонные компьютеры" - хайпожорская фигня, потому что масштабируемость у них на современных технологиях абсолютно никакая. Самые мощные фотонные машины современности на задачах ML сливаются вчистую смартфону за $100 и копеечному процессору внутри. Что уж говорить о ML-зубилах вроде Vera Rubin - которые как раз готовятся ставить в серверные стойки сейчас.
И это аргумент в нашу пользу, значит проблема реальна
Ха ха. Проблема реальна - только она не у трансформеров, а у их "убийц". И проблема в том, что трансформеры - good enough. Мощные, гибкие, эффективные, расширяемые - их можно натравить на практически любую проблему и они её сожрут. Конкурирующие с ними архитектуры просто не дают над ними значительных преимуществ. Ты задолбался с настройкой кастомных блоков и твоя награда - это производительность хуже трансформеров на одних и тех же задачах, нестабильность в обучении, сомнительная масштабируемость, и острая боль в жопе когда приходит очередная бумажка про "как поднять производительность/эффективность трансформера на 5%" и ты не можешь эти 5% в свою хтонь впихнуть. Вот и весь "убийца".
Вопрос — какой ценой.
Ценой обучения. Сейчас основной источник роста производительности - это не масштабирование архитектуры. Масштабы архитектуры упёрлись в то, что можно эффективно запускать на современных серверах и продавать клиентам с прибылью. Но учить старые трансформеры новым трюкам - это пожалуйста, это можно.
Модели мира внутри трансформеров - ок да, механисты показали, вопрос закрыт. Фотоника тоже да, хайп. Трансформеры good enough нууу может и да, сейчас.
Но good enough — это не научный аргумент. Это экономический. x86 тоже был good enough, на свое время, и он победил не потому что лучший, а потому что дешевле менять софт чем железо. Трансформеры побеждают по той же причине - экосистема, тулинг, инерция, кадры.
Ну и вы же и пишете «масштабы архитектуры упёрлись», рост через обучение. Это потолок. Высокий — но потолок. И вопрос не «работают ли трансформеры сейчас» (работают), а «что делать когда новые трюки кончатся». Это не вопрос на сегодня. Но это вопрос в целом.
Так я буквально на пять сантиметров выше говорю про Vera Rubin. "Потолок" сегодняшних серверных стоек - это явление очень временное.
Ну и удачи найти архитектуру, которая будет давать реальный выигрыш в вычислительной эффективности на широком ряде задач. Сейчас лучшие из лучших - это "мы имеем на широких бенчмарках примерно такие же значения как у трансформеров на примерно том же компьюте", или "мы имеем на узких бенчмарках 20%, а трансформер имеет 80%, но мы в 10000 раз меньше компьюта тратим, это офигенно, только вверх наша штука не масштабируется".
Трансформеры — good enough для генерации и анализа, но есть класс задач, где "хорошо" ≠ "достаточно":
- Робот должен остановиться до препятствия
- Медицина: решение нужно доказать, а не «надеяться»
- Промышленность: «иногда сработало» = простой линии
Там нужна не перплексия, а детерминизм.
)) вот тебе кейс. Робот-манипулятор на конвейере. Берёт деталь, ставит деталь. 24/7. Требования: latency < 5ms, детерминизм 100%, энергопотребление < 10W.
Ставим трансформер. Что получаем?
Latency. Inference даже маленького трансформера на edge 15–50ms. Уже не прошли. Можно дистиллировать, квантизовать, обрезать. Теперь 8ms. Всё ещё не прошли. А нужно 5. Каждый раз. Не в среднем каждый.
Детерминизм. Трансформер стохастическая модель. Один и тот же вход может дать разный выход в зависимости от floating point порядка операций, температуры, шума. На текстовом чат-боте это незаметно. На конвейере при 200 деталях в минуту — это один покалеченный палец оператора в квартал. Страховая скажет спасибо.
Энергия. Vera Rubin монстр. 600W на чип. На конвейере стоят 40 манипуляторов. 40 × 600W = 24kW только на inference. А рядом стоит контроллер на FPGA который жрёт 2W и делает то же самое — но детерминированно.
Трансформер тут не good enough. Не потому что плохой. А потому что это молоток в ситуации где нужна отвёртка.
Вопрос не «трансформер или не трансформер». Вопрос для чего. Генерация, анализ, reasoning - тут да, трансформер на коне. Hard real-time, детерминизм, edge, milliwatt inference уже другие инструменты. Они существуют не потому что кто-то хочет убить трансформер. А потому что мир не состоит из одних чат-ботов.
Алё, гараж. Мы в 21 веке. Все задачи, которые мог решать тупой как палка микроконтроллер в PLC уже решает тупой как палка микроконтроллер в PLC.
И что остаётся? Задачи, которые требуют мозгов и гибкости. Задачи, которые требуют интеллекта. Задачи, которые сейчас решает мешок с мясом на среднестатистической зарплате.
И вот эти задачи мы сейчас и решаем с помощью ИИ.
Детерменизм - мечта идиота.
Добро пожаловать в реальный мир. В мир, сделанный из броуновского движения. В мир где дерьмо случается. Где промышленными машинами в 20 тонн управляют мешки с мясом, поведение которых предсказуемо хорошо если на уровне "худо-бедно". Плохо если уровень алкоголя в крови начинает сдвигать эту предсказуемость ещё сильнее вниз.
"Детерменизм" он захотел. Ага, щас. Губу раскатал. Думаешь, доктор чего-то там "доказывает"? Он помнит 7 самых частых диагнозов и решает какой из них ставить на вайбах, прочитав перед этим медкарту хорошо если наискосок.
Ну, так это, вы ж буквально описали проблему, которую решают предложеные решения и не решает трансформер
При этом мешки, всё же, могут соблюдать какую-то последовательность, а трансформер не особо.
Мешки не совершенны, но в ряде вещей выигрывают у трансформера
Не очень понятно, с чем вы спорите, вам на пальцах описали, что, зачем и почему
Спорю я с абсолютно дурацким убеждением о том, что "детерминизм" вообще возможен при решении сложных задач мерзкого и шумного реального мира. Не все задачи можно урезать до жёсткой стабильной логики. Шум на входе - шум на выходе.
И с тем, что мешки с мясом в этом плане фундаментально лучше современных систем ИИ. Мешки с мясом - это самообученные нейросети на фундаменте биохимического шума. Планку они ставят, но эта планка не такая уж и высокая. LLM современности уже могут уделывать докторов из мяса на многих медицинских задачах.
Мешки с мясом - это самообученные нейросети на фундаменте биохимического шума.
Не шума, а доступной для индивида культуры. Личность растёт, развивается и учится в социуме.
LLM современности уже могут уделывать докторов из мяса на многих медицинских задачах.
А ничего что эти LLM учили разметчики из африки и индии? Откуда ваши датасеты? ))
у вас шизофрения развивается, советую к мозгоправу
Не говорите мне что делать и я не скажу вам куда идти. Специально для этого коммента зарегились? )
Я вообще то не вам, а вот этому товарищу
https://habr.com/ru/articles/1012998/comments/#comment_29700492
Не говорите мне что делать и я не скажу вам куда идти
Да мне все равно, идите куда хотите.
Специально для этого коммента зарегились? )
Конечно, только до этого еще сотню оставил
Берём "статистическую модель последовательности", вскрываем её ножиком, засовываем внутрь руку. Что там у неё в кишках? Модель мира.
Вы о какой модели мира? Которая в интернете кем-то описана? Или реальная?
Весь этот интелект от llm зависит от набора данных для обучения, что положите то и получите, вам это о чем то говорит?
Производительность растёт только экстенсивным методом. Понятно, что она ещё долго может расти: энергопотребление ЦОДов составляет всего полтора процента мирового энергопотребления - простор велик. Опять же сотни миллиардов долларов вкладываются именно в экстенсивное развитие (в покупку видеокарточек и электричества). Затраты на перспективные исследования в этой области (не просто масштабирование) на этом фоне просто равны нулю. Но качественные изменения, всё равно, в какой-то момент совершать придётся.
Собственно, с кремнием похожая история. Плотность транзисторов уже не то, чтобы имеет просторы для роста.
Техпроцесс 10 нм - 50-60 миллионов на квадратный мм
Тех процесс 7 нм - 90-110 миллионов на квадратный мм (здесь ещё работает нормальная зависимость).
Тех процесс 5 нм - 120-140 миллионов на квадратный мм (на этом моменте нормальная зависимость сломалась и улучшения с тех пор идут еле-еле).
Тех процесс 3 нм - 150-220 миллионов на квадратный мм
Тех процесс 2 нм - 230-310 миллионов на квадратный мм
Прогресс идёт, но сильно замедлился. До 2018 года удвоение за два года работало. А потом наткнулись на близость физического ограничения. И с тех пор за 7 лет добились только трёхкратного роста. Реальное ограничение у ныне используемой 70-летней технологии есть, и его в какой-то момент придётся преодолевать сменой технологии. Можно прятать голову в песок, а можно проводить исследования, чем, на самом деле, многие и занимаются.
Бред сивой кобылы.
"Масштабирование" было основным источником роста производительности в 2022 году. В 2024 году мы упёрлись в ёмкость GPU и TPU. На текущем поколении железа больше ~4T MoE эффективно запускать мы не можем.
А вот текущие размерности работают вполне хорошо - сейчас на inference уходит примерно в 10 раз больше вычислительной мощности чем на training.
Откуда тогда взялся весь рост производительности между 2024 и 2026?
Reasoning и иные варианты test time compute. Новые данные, новые методы обучения, более точное управление поведением. Размерность растёт медленнее чем способности - в старые трансформеры запихивают новый фарш и получают очередной + на бенчмарках.
Это все хорошо, только по сути это попытка натянуть сову на глобус. "Работает вполне хорошо" по каким критериям?
1. Энергоэффективность? НЕТ
2. Детерменизм? НЕТ
3. Реальное обучение, а не подстройка контекста для голема с фикс весами? НЕТ
Что действительно "вполне хорошо работает" - это эксплуатация когнитивных искажений людей с коммерческой пользой для вендоров (и то не для всех).
Энергоэффективность? В разы энергоэффективнее мешка с мясом, который она заменяет.
Детерменизм? Только если все данные на входе прибиты гвоздями - то есть лучше чем у мешка с мясом, который она заменяет.
"Реальное обучение?" Define "реальное", болезный. Есть PEFT, есть in-context learning. Или это не "реальное", типа не считается, понарошку?
Большая языковая модель (70B+) — не учитель и не шаблон для сжатия. Она донор знаний. Из неё извлекается что она знает.
Она же донор галлюцинаций. У ЛЛМ нет слоя твердых знаний. Все сгенерированное подлежит перепроверке.
Тут пару месяцев назад была статья про когнитивно-символьные системы. КМК, это и есть решение проблем, стоящих перед современными трансформерами.

Конец эпохи трансформеров. Берем у LLM донорские органы для ИИ-агентов