Pull to refresh
195

Софт и железо, инженеринг и реверс-инженеринг

0,2
Rating
222
Subscribers
Send message

Энергоэффективность? В разы энергоэффективнее мешка с мясом, который она заменяет.

Детерменизм? Только если все данные на входе прибиты гвоздями - то есть лучше чем у мешка с мясом, который она заменяет.

"Реальное обучение?" Define "реальное", болезный. Есть PEFT, есть in-context learning. Или это не "реальное", типа не считается, понарошку?

Спорю я с абсолютно дурацким убеждением о том, что "детерминизм" вообще возможен при решении сложных задач мерзкого и шумного реального мира. Не все задачи можно урезать до жёсткой стабильной логики. Шум на входе - шум на выходе.

И с тем, что мешки с мясом в этом плане фундаментально лучше современных систем ИИ. Мешки с мясом - это самообученные нейросети на фундаменте биохимического шума. Планку они ставят, но эта планка не такая уж и высокая. LLM современности уже могут уделывать докторов из мяса на многих медицинских задачах.

Алё, гараж. Мы в 21 веке. Все задачи, которые мог решать тупой как палка микроконтроллер в PLC уже решает тупой как палка микроконтроллер в PLC.

И что остаётся? Задачи, которые требуют мозгов и гибкости. Задачи, которые требуют интеллекта. Задачи, которые сейчас решает мешок с мясом на среднестатистической зарплате.

И вот эти задачи мы сейчас и решаем с помощью ИИ.

Детерменизм - мечта идиота.

Добро пожаловать в реальный мир. В мир, сделанный из броуновского движения. В мир где дерьмо случается. Где промышленными машинами в 20 тонн управляют мешки с мясом, поведение которых предсказуемо хорошо если на уровне "худо-бедно". Плохо если уровень алкоголя в крови начинает сдвигать эту предсказуемость ещё сильнее вниз.

"Детерменизм" он захотел. Ага, щас. Губу раскатал. Думаешь, доктор чего-то там "доказывает"? Он помнит 7 самых частых диагнозов и решает какой из них ставить на вайбах, прочитав перед этим медкарту хорошо если наискосок.

Так я буквально на пять сантиметров выше говорю про Vera Rubin. "Потолок" сегодняшних серверных стоек - это явление очень временное.

Ну и удачи найти архитектуру, которая будет давать реальный выигрыш в вычислительной эффективности на широком ряде задач. Сейчас лучшие из лучших - это "мы имеем на широких бенчмарках примерно такие же значения как у трансформеров на примерно том же компьюте", или "мы имеем на узких бенчмарках 20%, а трансформер имеет 80%, но мы в 10000 раз меньше компьюта тратим, это офигенно, только вверх наша штука не масштабируется".

Бред сивой кобылы.

"Масштабирование" было основным источником роста производительности в 2022 году. В 2024 году мы упёрлись в ёмкость GPU и TPU. На текущем поколении железа больше ~4T MoE эффективно запускать мы не можем.

А вот текущие размерности работают вполне хорошо - сейчас на inference уходит примерно в 10 раз больше вычислительной мощности чем на training.

Откуда тогда взялся весь рост производительности между 2024 и 2026?

Reasoning и иные варианты test time compute. Новые данные, новые методы обучения, более точное управление поведением. Размерность растёт медленнее чем способности - в старые трансформеры запихивают новый фарш и получают очередной + на бенчмарках.

Это статистическая модель последовательности, не модель мира

Берём "статистическую модель последовательности", вскрываем её ножиком, засовываем внутрь руку. Что там у неё в кишках? Модель мира.

Не, ну я понимаю что механистическая интерпретируемость в заднице плотно и надолго. Но когда механисты что-то всё-таки находят, их надо слушать. И модели мира внутри трансформеров нашли уже очень и очень давно.

Не говоря уже о генеративных моделях видео на трансформерах. У них с физикой всё на удивление хорошо, можно прям глазками посмотреть. Хотя в основании архитектуры - тот же самый авторегрессивный трансформер с квадратным attention. Просто данные другие. Видео учит пространственному мышлению лучше чем текст, какой блин сюрприз, кто бы мог подумать.

Фотонные компьютеры

"Фотонные компьютеры" - хайпожорская фигня, потому что масштабируемость у них на современных технологиях абсолютно никакая. Самые мощные фотонные машины современности на задачах ML сливаются вчистую смартфону за $100 и копеечному процессору внутри. Что уж говорить о ML-зубилах вроде Vera Rubin - которые как раз готовятся ставить в серверные стойки сейчас.

И это аргумент в нашу пользу, значит проблема реальна

Ха ха. Проблема реальна - только она не у трансформеров, а у их "убийц". И проблема в том, что трансформеры - good enough. Мощные, гибкие, эффективные, расширяемые - их можно натравить на практически любую проблему и они её сожрут. Конкурирующие с ними архитектуры просто не дают над ними значительных преимуществ. Ты задолбался с настройкой кастомных блоков и твоя награда - это производительность хуже трансформеров на одних и тех же задачах, нестабильность в обучении, сомнительная масштабируемость, и острая боль в жопе когда приходит очередная бумажка про "как поднять производительность/эффективность трансформера на 5%" и ты не можешь эти 5% в свою хтонь впихнуть. Вот и весь "убийца".

Вопрос — какой ценой.

Ценой обучения. Сейчас основной источник роста производительности - это не масштабирование архитектуры. Масштабы архитектуры упёрлись в то, что можно эффективно запускать на современных серверах и продавать клиентам с прибылью. Но учить старые трансформеры новым трюкам - это пожалуйста, это можно.

"Убийц трансформеров" за последние годы было уже очень много. До сих пор перед глазами как живые.

В то, что новая архитектура, которая не даёт над очередной модификацией авторегрессивного трансформера абсолютно никаких практических преимуществ (фотонные компьютеры? серьёзно?), внезапно вырвется вперёд и запинает титанов вроде современного GPT-5.4, веры у меня примерно как в сказочки для детей от 3 до 9 лет.

Ну и видеть очередную итерацию бреда про "это не настоящее понимание" (define "настоящее") и "LLM всё, роста дальше не будет" (производительность с каждым релизом всё ещё растёт) - гнило и тухло. Могли бы уже найти новую пластинку вместо хитов 2023 года.

То, что RAG эволюционный тупик - верно. То, что привет-из-80х "графы знаний" в этом плане намного лучше - офигеть как сомнительно.

Фундаментальная проблема RAG - это его тупизна. "Поиск по схожести на основе запроса" ограничен, и вещи вроде реранка - заплатки. Единственное, что похоже на адекватную замену - это варианты agentic RAG. Где LLM сама делает и запросы, и реранк, и удержание нужных фрагментов - итеративно, пока не найдёт нужное. Этот метод хорош тем, что масштабируется от способностей агентов LLM, а они растут.

Одно дело готовые вакцины для известных типов рака, и другое - собирать вакцину "на лету" под конкретный выдранный из организма тип рака.

Впрочем, если "собирать на лету" даёт преимущество, то и до людей доползёт. Потому на последних стадиях рака часто терять уже особо нечего.

Очередная фигня про "model collapse" - классический случай изнасилования учёных журналистами. В реальности он проблемой не является.

Пайплайн сам по себе интересный, но статья пляшет не столько вокруг пайплайна, сколько вокруг этого самого "TAPe". Который весь офигенный, но мы никому не покажем.

И это при том, что сейчас в датасатанизме столько новых игрушек и методов, что даже настоящие прорывные технологии, опубликованные с бумагами, кодом и готовыми моделями, могут год на полке лежать прежде чем в них кто-то потенциал увидит. Если у них нет громких имён, за которыми народ следит.

Что уж тут говорить про "у нас прорыв, но мы его никому не покажем".

Если оптимизация I-фреймов даёт на 5% лучше сжатие при прочих равных, то ты на объёмах какого-нибудь YouTube на эти 5% сможешь себе самолёт купить.

Впрочем, эта статья даже не пытается показывать применимость к реальным задачам. Что уныло.

Архитектура, код, датасет, модель, хоть что-то для реального сравнения есть? Или тупо "мы сделали аналоговнет, но не покажем и не дадим, джентльменам у нас верят наслово"?

Не на одном. Но людей, на которых она держится, не так-то много. И Путин во главе списка.

Если интересно, то чуть ниже по списку - два Кириенко.

Мясо. Презентации с конф это круто конечно, но разобрать как оно реально делается на практике и подбить в статью - офигеть как полезно.

Кинуть промеж делом заметку про "полноценный SPI снифер-эмулятор" на RP2350 (и разгон этой бедной железки за пределы 1ГГц) - это конечно флекс. Если есть ссылки на эту радость, кидай. Такая штука точно полезной будет для ковыряния всяких ублюдочных девайсов, которые с SPI пытаются грузиться.

К слову, у 2D принтера тоже можно голову отпилить и поставить свою. Но сложно, и зачем?

Под гибридами я имею в виду вещи вроде CNN-backed ViT, DiT, рекуррентных трансформеров (включая HRM), трансформеров со state space компонентами, и прочих вариаций на тему "пришьём идеи из старых архитектур к трансформерам и посмотрим взлетит ли".

Что характерно, часто взлетает. А тем временем есть ли хоть какие-то успехи у символьных подходов в последние годы? Ну, только если считать Claude Code технически нейросимвольной системой.

Зачем истребителю датацентр? LLM работают и локально, на зубилах вроде 4080.

Если нам нужны системы под автомобили или роботехнику, к чему "управление истребителями" ближе всего, то тут вообще радость и прелесть. Передовые ИИ такого типа - гибридные VLA, асимметричные трансформеры - меньше 30B, и при сильном желании упихиваются в современный смартфон.

Датацентры нужны не для запуска ИИ. Датацентры нужны для тренировки следующих поколений ИИ, и запуска ИИ под десятки миллионов пользователей одновременно. Истребитель уже натренирован, и "пользователей" у него очень мало.

Ну и если ты думаешь что какая-то "новая волшебная архитектура" избавит ИИ от галлюцинаций, то ты сильно ошибаешься. Галлюцинации - это проблема не архитектуры, а обучения. И "референсные" мешки с мясом, у которых обучение иное, огибают проблему галлюцинаций далеко не идеально. Фразы вроде "врёт как очевидец" появились не просто так.

Может. Но нет ни одной причины ждать этого прорыва от символистов.

Больше шансов что квантовые компьютеры станут чем-то полезным в ближайшие 10 лет и прорыв придёт оттуда.

И я говорю "больше", но этот шанс абсолютно крохотный. Просто у символистов ещё меньше. Символьные подходы зашли в тупик давно и прочно, и масштаб дел не исправляет. Тогда как масштабирование коннекционизма даёт гибкие, мощные и до смешного человекоподобные системы.

1
23 ...

Information

Rating
3,333-rd
Location
Россия
Registered
Activity