Обновить

Комментарии 25

"Убийц трансформеров" за последние годы было уже очень много. До сих пор перед глазами как живые.

В то, что новая архитектура, которая не даёт над очередной модификацией авторегрессивного трансформера абсолютно никаких практических преимуществ (фотонные компьютеры? серьёзно?), внезапно вырвется вперёд и запинает титанов вроде современного GPT-5.4, веры у меня примерно как в сказочки для детей от 3 до 9 лет.

Ну и видеть очередную итерацию бреда про "это не настоящее понимание" (define "настоящее") и "LLM всё, роста дальше не будет" (производительность с каждым релизом всё ещё растёт) - гнило и тухло. Могли бы уже найти новую пластинку вместо хитов 2023 года.

«Убийц трансформеров было много»

Да. И это аргумент в нашу пользу, значит проблема реальна, раз столько людей пытаются её решить. Мы не предлагаем «убить трансформер», мы предлагаем забрать из него знания и запустить их на другой архитектуре. Разница как между «снести здание» и «вывезти из него библиотеку».

«GPT-5.4 запинает титанов, производительность растёт»

Растёт. Вопрос — какой ценой. Orion (предшественник GPT-5) достиг уровня GPT-4 на 20% обучения. Оставшиеся 80% compute дали diminishing returns, настолько, что модель переименовали из GPT-5 в GPT-4.5 (источник: Philippe Dubach, «What Comes After Transformers», март 2026).
Tim Dettmers (декабрь 2025): «The scaling improvements in 2025 were not impressive. We have maybe one, maybe two more years of scaling left because further improvements become physically infeasible.»
Algorithma AI: «brute-force scaling of dense Transformer models is no longer a sustainable or efficient path to progress.» Это не хиты 2023 года, это данные 2025–2026.

«Фотонные компьютеры? Серьёзно?»

Nature Light, июль 2025: optical next-generation reservoir computing — аппаратная реализация с меньшим объёмом данных и reservoir size, превосходящая conventional RC. Nature Communications, 2024: emerging opportunities для RC включая weather forecasting и neuromorphic hardware.

«Define "настоящее понимание"»

С удовольствием. Трансформер предсказывает следующий токен. Это статистическая модель последовательности, не модель мира. Когда GPT-5 «понимает» физику, он воспроизводит паттерны из обучающей выборки. Когда данных нет, то галлюцинирует. Понимание предполагает способность к compositional reasoning на новых данных.
По этому критерию трансформеры систематически проваливаются (Algorithma AI, раздел «Fundamental Flaws», 2025). Можно спорить о терминологии, но нельзя спорить с бенчмарками.

Это статистическая модель последовательности, не модель мира

Берём "статистическую модель последовательности", вскрываем её ножиком, засовываем внутрь руку. Что там у неё в кишках? Модель мира.

Не, ну я понимаю что механистическая интерпретируемость в заднице плотно и надолго. Но когда механисты что-то всё-таки находят, их надо слушать. И модели мира внутри трансформеров нашли уже очень и очень давно.

Не говоря уже о генеративных моделях видео на трансформерах. У них с физикой всё на удивление хорошо, можно прям глазками посмотреть. Хотя в основании архитектуры - тот же самый авторегрессивный трансформер с квадратным attention. Просто данные другие. Видео учит пространственному мышлению лучше чем текст, какой блин сюрприз, кто бы мог подумать.

Фотонные компьютеры

"Фотонные компьютеры" - хайпожорская фигня, потому что масштабируемость у них на современных технологиях абсолютно никакая. Самые мощные фотонные машины современности на задачах ML сливаются вчистую смартфону за $100 и копеечному процессору внутри. Что уж говорить о ML-зубилах вроде Vera Rubin - которые как раз готовятся ставить в серверные стойки сейчас.

И это аргумент в нашу пользу, значит проблема реальна

Ха ха. Проблема реальна - только она не у трансформеров, а у их "убийц". И проблема в том, что трансформеры - good enough. Мощные, гибкие, эффективные, расширяемые - их можно натравить на практически любую проблему и они её сожрут. Конкурирующие с ними архитектуры просто не дают над ними значительных преимуществ. Ты задолбался с настройкой кастомных блоков и твоя награда - это производительность хуже трансформеров на одних и тех же задачах, нестабильность в обучении, сомнительная масштабируемость, и острая боль в жопе когда приходит очередная бумажка про "как поднять производительность/эффективность трансформера на 5%" и ты не можешь эти 5% в свою хтонь впихнуть. Вот и весь "убийца".

Вопрос — какой ценой.

Ценой обучения. Сейчас основной источник роста производительности - это не масштабирование архитектуры. Масштабы архитектуры упёрлись в то, что можно эффективно запускать на современных серверах и продавать клиентам с прибылью. Но учить старые трансформеры новым трюкам - это пожалуйста, это можно.

Модели мира внутри трансформеров - ок да, механисты показали, вопрос закрыт. Фотоника тоже да, хайп. Трансформеры good enough нууу может и да, сейчас.

Но good enough — это не научный аргумент. Это экономический. x86 тоже был good enough, на свое время, и он победил не потому что лучший, а потому что дешевле менять софт чем железо. Трансформеры побеждают по той же причине - экосистема, тулинг, инерция, кадры.

Ну и вы же и пишете «масштабы архитектуры упёрлись», рост через обучение. Это потолок. Высокий — но потолок. И вопрос не «работают ли трансформеры сейчас» (работают), а «что делать когда новые трюки кончатся». Это не вопрос на сегодня. Но это вопрос в целом.

Так я буквально на пять сантиметров выше говорю про Vera Rubin. "Потолок" сегодняшних серверных стоек - это явление очень временное.

Ну и удачи найти архитектуру, которая будет давать реальный выигрыш в вычислительной эффективности на широком ряде задач. Сейчас лучшие из лучших - это "мы имеем на широких бенчмарках примерно такие же значения как у трансформеров на примерно том же компьюте", или "мы имеем на узких бенчмарках 20%, а трансформер имеет 80%, но мы в 10000 раз меньше компьюта тратим, это офигенно, только вверх наша штука не масштабируется".

Трансформеры — good enough для генерации и анализа, но есть класс задач, где "хорошо" ≠ "достаточно":
- Робот должен остановиться до препятствия
- Медицина: решение нужно доказать, а не «надеяться»
- Промышленность: «иногда сработало» = простой линии

Там нужна не перплексия, а детерминизм.

)) вот тебе кейс. Робот-манипулятор на конвейере. Берёт деталь, ставит деталь. 24/7. Требования: latency < 5ms, детерминизм 100%, энергопотребление < 10W.

Ставим трансформер. Что получаем?

Latency. Inference даже маленького трансформера на edge 15–50ms. Уже не прошли. Можно дистиллировать, квантизовать, обрезать. Теперь 8ms. Всё ещё не прошли. А нужно 5. Каждый раз. Не в среднем каждый.

Детерминизм. Трансформер стохастическая модель. Один и тот же вход может дать разный выход в зависимости от floating point порядка операций, температуры, шума. На текстовом чат-боте это незаметно. На конвейере при 200 деталях в минуту — это один покалеченный палец оператора в квартал. Страховая скажет спасибо.

Энергия. Vera Rubin монстр. 600W на чип. На конвейере стоят 40 манипуляторов. 40 × 600W = 24kW только на inference. А рядом стоит контроллер на FPGA который жрёт 2W и делает то же самое — но детерминированно.

Трансформер тут не good enough. Не потому что плохой. А потому что это молоток в ситуации где нужна отвёртка.

Вопрос не «трансформер или не трансформер». Вопрос для чего. Генерация, анализ, reasoning - тут да, трансформер на коне. Hard real-time, детерминизм, edge, milliwatt inference уже другие инструменты. Они существуют не потому что кто-то хочет убить трансформер. А потому что мир не состоит из одних чат-ботов.

Алё, гараж. Мы в 21 веке. Все задачи, которые мог решать тупой как палка микроконтроллер в PLC уже решает тупой как палка микроконтроллер в PLC.

И что остаётся? Задачи, которые требуют мозгов и гибкости. Задачи, которые требуют интеллекта. Задачи, которые сейчас решает мешок с мясом на среднестатистической зарплате.

И вот эти задачи мы сейчас и решаем с помощью ИИ.

Детерменизм - мечта идиота.

Добро пожаловать в реальный мир. В мир, сделанный из броуновского движения. В мир где дерьмо случается. Где промышленными машинами в 20 тонн управляют мешки с мясом, поведение которых предсказуемо хорошо если на уровне "худо-бедно". Плохо если уровень алкоголя в крови начинает сдвигать эту предсказуемость ещё сильнее вниз.

"Детерменизм" он захотел. Ага, щас. Губу раскатал. Думаешь, доктор чего-то там "доказывает"? Он помнит 7 самых частых диагнозов и решает какой из них ставить на вайбах, прочитав перед этим медкарту хорошо если наискосок.

Ну, так это, вы ж буквально описали проблему, которую решают предложеные решения и не решает трансформер

При этом мешки, всё же, могут соблюдать какую-то последовательность, а трансформер не особо.

Мешки не совершенны, но в ряде вещей выигрывают у трансформера

Не очень понятно, с чем вы спорите, вам на пальцах описали, что, зачем и почему

Спорю я с абсолютно дурацким убеждением о том, что "детерминизм" вообще возможен при решении сложных задач мерзкого и шумного реального мира. Не все задачи можно урезать до жёсткой стабильной логики. Шум на входе - шум на выходе.

И с тем, что мешки с мясом в этом плане фундаментально лучше современных систем ИИ. Мешки с мясом - это самообученные нейросети на фундаменте биохимического шума. Планку они ставят, но эта планка не такая уж и высокая. LLM современности уже могут уделывать докторов из мяса на многих медицинских задачах.

Мешки с мясом - это самообученные нейросети на фундаменте биохимического шума.

Не шума, а доступной для индивида культуры. Личность растёт, развивается и учится в социуме.

LLM современности уже могут уделывать докторов из мяса на многих медицинских задачах.

А ничего что эти LLM учили разметчики из африки и индии? Откуда ваши датасеты? ))

у вас шизофрения развивается, советую к мозгоправу

Не говорите мне что делать и я не скажу вам куда идти. Специально для этого коммента зарегились? )

Извиняюсь 🤝

Ничего страшного, бывает)

Не говорите мне что делать и я не скажу вам куда идти

Да мне все равно, идите куда хотите.

Специально для этого коммента зарегились? )

Конечно, только до этого еще сотню оставил

Берём "статистическую модель последовательности", вскрываем её ножиком, засовываем внутрь руку. Что там у неё в кишках? Модель мира.

Вы о какой модели мира? Которая в интернете кем-то описана? Или реальная?

Весь этот интелект от llm зависит от набора данных для обучения, что положите то и получите, вам это о чем то говорит?

Производительность растёт только экстенсивным методом. Понятно, что она ещё долго может расти: энергопотребление ЦОДов составляет всего полтора процента мирового энергопотребления - простор велик. Опять же сотни миллиардов долларов вкладываются именно в экстенсивное развитие (в покупку видеокарточек и электричества). Затраты на перспективные исследования в этой области (не просто масштабирование) на этом фоне просто равны нулю. Но качественные изменения, всё равно, в какой-то момент совершать придётся.

Собственно, с кремнием похожая история. Плотность транзисторов уже не то, чтобы имеет просторы для роста.

Техпроцесс 10 нм - 50-60 миллионов на квадратный мм

Тех процесс 7 нм - 90-110 миллионов на квадратный мм (здесь ещё работает нормальная зависимость).

Тех процесс 5 нм - 120-140 миллионов на квадратный мм (на этом моменте нормальная зависимость сломалась и улучшения с тех пор идут еле-еле).

Тех процесс 3 нм - 150-220 миллионов на квадратный мм

Тех процесс 2 нм - 230-310 миллионов на квадратный мм

Прогресс идёт, но сильно замедлился. До 2018 года удвоение за два года работало. А потом наткнулись на близость физического ограничения. И с тех пор за 7 лет добились только трёхкратного роста. Реальное ограничение у ныне используемой 70-летней технологии есть, и его в какой-то момент придётся преодолевать сменой технологии. Можно прятать голову в песок, а можно проводить исследования, чем, на самом деле, многие и занимаются.

Бред сивой кобылы.

"Масштабирование" было основным источником роста производительности в 2022 году. В 2024 году мы упёрлись в ёмкость GPU и TPU. На текущем поколении железа больше ~4T MoE эффективно запускать мы не можем.

А вот текущие размерности работают вполне хорошо - сейчас на inference уходит примерно в 10 раз больше вычислительной мощности чем на training.

Откуда тогда взялся весь рост производительности между 2024 и 2026?

Reasoning и иные варианты test time compute. Новые данные, новые методы обучения, более точное управление поведением. Размерность растёт медленнее чем способности - в старые трансформеры запихивают новый фарш и получают очередной + на бенчмарках.

Это все хорошо, только по сути это попытка натянуть сову на глобус. "Работает вполне хорошо" по каким критериям?
1. Энергоэффективность? НЕТ
2. Детерменизм? НЕТ
3. Реальное обучение, а не подстройка контекста для голема с фикс весами? НЕТ

Что действительно "вполне хорошо работает" - это эксплуатация когнитивных искажений людей с коммерческой пользой для вендоров (и то не для всех).

Энергоэффективность? В разы энергоэффективнее мешка с мясом, который она заменяет.

Детерменизм? Только если все данные на входе прибиты гвоздями - то есть лучше чем у мешка с мясом, который она заменяет.

"Реальное обучение?" Define "реальное", болезный. Есть PEFT, есть in-context learning. Или это не "реальное", типа не считается, понарошку?

Большая языковая модель (70B+) — не учитель и не шаблон для сжатия. Она донор знаний. Из неё извлекается что она знает.

Она же донор галлюцинаций. У ЛЛМ нет слоя твердых знаний. Все сгенерированное подлежит перепроверке.

Тут пару месяцев назад была статья про когнитивно-символьные системы. КМК, это и есть решение проблем, стоящих перед современными трансформерами.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации