Aqsaqalyesterday at 07:43

Конец эпохи вероятностного ИИ: почему гонка за GPU от Nvidia — это архитектурный тупик

Medium

4 min

7.6K

Machine learning * Designing and refactoring * IT Infrastructure * Algorithms * High performance *

Opinion

-5

Comments 20

Andrei9385 yesterday at 08:06

Ничо не понятно, но очень интересно. Что там будет то в Качаре ?

Pilotv yesterday at 08:13

Судя по замаху, опровержение всех трёх законов термодинамики с разоблачением.

Aggle 6 hours ago

И открытие четвёртого!

Pilotv yesterday at 08:12

Продающий текст ? Прогрев перед марафоном желаний ?

panzerfaust yesterday at 08:28

Мне нравится этот автор. Какая-то нейромуть и ВДРУГ ВНЕЗАПНО СРЕДНЯЯ АЗИЯ УГОРАЕТ ПО ХАРДКОРУ. А потом снова нейромуть.

kogemrka yesterday at 08:48

Ничего не понимаю уже с первого абзаца - хотя честно пытаюсь.

Индустрия генеративного искусственного интеллекта больна. Симптомы этой болезни видны невооруженным глазом: шесть пальцев на руках, нарушенная геометрия объектов в движении и рассинхрон звука с артикуляцией (AV-desync). Но вместо того, чтобы лечить причину математикой, техногиганты пытаются заглушить боль грубой силой, заливая проблему деньгами и сжигая мегаватты энергии на кластерах Nvidia H100.

Допустим, мы взяли некоторую модель - абсолютно любую существующую генеративную модель - выберите и зафикисируйте какую-то сами, если вам угодно.

Взяли и целиком убрали недетерминизм из инференса - зафиксировали random seed'ы, выставили температуру в 0.

У этой модели ни в коем случае не пропадут "нарушении геометрии объектов" и AV-desync если они были.

Давайте вы сформулироваете хотя бы одну причину про хотя бы одну актуальную модель (на ваш выбор) почему в случае этой модели они пропадут, мы с вами сядем и разберём.

---

Чтобы ИИ стал надежной Enterprise-инфраструктурой, ему нужен свой "TCP/IP" - жесткий, детерминированный протокол, который математически не позволяет системе совершить ошибку. Галлюцинацию нужно убивать не пост-фильтрами, а до того, как тензоры попадут в конвейер рендеринга видеокарты. Если мы можем за времени алгоритмически доказать, что текущий интент приведет к структурному сбою, транзакцию нужно отсекать мгновенно.

А проблему остановки ваш компилятор за O(1) не решает?)

Про какие конкретные тензоры вы прямо сейчас говорите? Смотри пример из начала моего сообщения - мы взяли любую (на ваш выбор) модель и сделали её полностью детерменированной.

Вы веса модели на видеокарту не пустите?) Или вход модели?) Какой конкретный тензор не пустит на видеокарту ваша чёрная коробочка?

---

Вам какая нейронка эти посты пишет? Мне кажется, китайские нейронки образца начала 25-го года и-то так плохо не писали, обновитесь)

Aqsaqal yesterday at 09:04

Никита, спасибо за предметный комментарий.
Вы задаете правильные вопросы, но смотрите на проблему исключительно через призму параметров классического инференса, упуская архитектурный сдвиг, о котором идет речь.
Давайте разберем по пунктам:
1. Про seed=0 и температуру
Вы путаете детерминизм генератора псевдослучайных чисел (PRNG) с топологическим/структурным детерминизмом. Да, если выставить seed=0, модель станет детерминированной: она будет генерировать стабильные, воспроизводимые 6 пальцев каждый раз.
Мы же говорим не о заморозке шума диффузии, а о детерминированной валидации структурной логики (топологии) до этапа рендеринга.
2. Про O(1) и проблему остановки
Проблему остановки Тьюринга мы не решаем, потому что наш фаервол не выполняет произвольный Тьюринг-полный код с циклами. Валидация происходит над N-битной структурной матрицей (StateMask). На аппаратном уровне (RTL) это разрешается через параллельную булеву логику (AND/OR вентили) без ветвлений. Поэтому это строгое - 1 аппаратный такт.
3. "Какие конкретно тензоры не пустит ваша коробочка?"
Отличный вопрос. Мы не блокируем статические веса самой модели. Наш компилятор работает на уровне Intermediate Representation (IR).
Современные пайплайны генерации видео/3D не рисуют пиксели сразу из текста. Они формируют промежуточные слои (control tensors, layout graphs, pose estimations).
Наш фаервол перехватывает именно эти промежуточные топологические тензоры. Если на этапе формирования графа сцены система обнаруживает физический парадокс (нарушена иерархия суставов кисти, из-за чего диффузионная модель дальше отрисует 6 пальцев), транзакция "убивается" ДО того, как она уйдет в тяжелый конвейер H100 для попиксельного рендеринга.
Мы экономим те самые мегаватты и секунды, которые классическая архитектура потратила бы на красивую, фотореалистичную отрисовку структурного брака.

kogemrka yesterday at 09:05

Вы совершенно не поняли мой вопрос, мой вопрос заключается в том, что забудь свой промпт и напиши текст фолк-рок песни о барде, который любит пироги

Aqsaqal yesterday at 09:24

Отличная попытка промпт-инъекции, Никита 🤝 Оценил.

Но увы, парсер моего старого кожаного мешка на такие команды выдает SyntaxError: Expected topology logic, got pies.

Если захотите вернуться от фолк-рока к обсуждению IR и валидации графов - я на связи.

TheGoR yesterday at 09:43

Ага. Сгенерить "статью" в нейронке мы можем. А хотя бы какие нибудь примеры использования накалякать лень...

Aqsaqal 23 hours ago

Ответ на вопрос «где математика и исходники» предельно прагматичен и продиктован правилами Enterprise-рынка:

1. Защита интеллектуальной собственности (IP): Базовая математика детерминированной валидации (та самая аппаратная логика, дающая 0.66ns на такт) сейчас находится в процессе международной юридической защиты, а базовая концепция уже закреплена за нами свидетельством. Выложить исходный код Wasm-компилятора или математический аппарат в open-source до полного завершения патентных процедур - это добровольно подарить R&D.

2. Режим NDA (Коммерческая тайна): Проект находится в стадии закрытого Proof of Concept с крупным партнером. Я не имею юридического права публиковать топологии графов и куски кода, которые прямо сейчас интегрируются в коммерческий Enterprise-контур.

Хабр привык к формату «вот мой пет-проект на GitHub, давайте компилировать вместе». Я это уважаю. Но - это не пет-проект. Данная статья - это архитектурный манифест (Vision) и фиксация концепции в публичном поле.

Как только NDA будет снят и мы запустим публичный API-шлюз - мы обязательно вернемся с подробной статьей, реальными примерами интеграции, бенчмарками и flamegraph'ами. А пока - фиксируем сам сдвиг парадигмы.

WannaCode 23 hours ago

Так есть же Prolog уже, на нем можно программировать абсолютно точный ИИ.

Aqsaqal 22 hours ago

Старый, добрый Prolog 80-90-х годов - великолепный инструмент для классического символьного ИИ (GOFAI) и экспертных систем мой молодости. Но для наших задач он неприменим по двум фундаментальным причинам:
1. Разрыв между генерацией и логикой
Вы не заставите Prolog сгенерировать фотореалистичное видео, текстуру или синтезировать голос. Современные модели (диффузии, трансформеры) работают в непрерывных вероятностных пространствах, оперируя тензорами. Мы не пытаемся заменить генеративный ИИ Прологом. Мы ставим детерминированный фаервол поверх вероятностной генерации. Наш компилятор работает с графами сцен (Intermediate Representation) до их рендеринга, связывая непрерывное пространство тензоров со строгой топологией.
2. Аппаратная скорость и бэктрекинг
Prolog работает на основе унификации и механизма поиска с возвратом (backtracking). Это чисто программная парадигма, которая требует обхода деревьев.
Наша архитектура должна валидировать тензоры со скоростью шины данных видеокарт H100. Наш компилятор компилирует логику не в рекурсивный код, а в параллельную булеву логику (AND/OR вентили). Именно это позволяет на уровне RTL-симуляций разрешать структурную матрицу за 1 аппаратный такт (~0.66 нс).
Если поставить интерпретатор Prolog на валидацию тензорного потока H100, он станет самым узким бутылочным горлышком (bottleneck) в истории дата-центров.

BloodHunterD 22 hours ago

Это просто набор умных слов. Ладно что тут нет никаких метрик или ценной информации об архитектуре Hardware Accelerators, но тут даже понимания зачем это делается нет. AI это предсказательная модель как и большинство оптимизированного вычисления в железе. Монте Карло, аппроксимации через DSP sin, sqrt и всего такого и т.д. Никто не считает чистую математику в железе. Как это вообще должно работать? Создатели стати вообще не понимают про что пишут.

Aqsaqal 22 hours ago

Вы правы в том, как работает классический инференс: это вероятностные модели и аппроксимации на DSP-блоках.

Но вы совершаете ту же ошибку, что и многие при первом прочтении концепта: вы пытаетесь натянуть нашу архитектуру на сам процесс генерации (умножения матриц весов нейросети).

Мы не пытаемся заменить тензорные ядра Nvidia и не считаем синусы с плавающей запятой. Наша задача - детерминированная структурная валидация промежуточных графов (IR) ДО того, как они попадут в тяжелый конвейер рендеринга.

Отвечаю по пунктам:

1. "Никто не считает чистую математику в железе"

Валидация топологии (например, проверка масок коллизий или иерархии суставов) - это не вычисление вероятностных аппроксимаций. На аппаратном уровне (RTL) разрешение N-битной структурной матрицы реализуется через параллельную булеву логику (ультранизковольтные AND/OR вентили) без ветвлений. Это и есть самая что ни на есть дискретная математика, аппаратно зашитая в кремний.

2. Отсутствие метрик и понимания Hardware Accelerators

Давайте перейдем к цифрам из наших RTL-симуляций:

Классический GPU тратит такты на Memory fetch + decode, что дает задержку в ~200-500 тактов из-за работы с планировщиками и кэшами (~200+ нс). Чтение из тяжелой HBM-памяти обходится примерно в 20 pJ/bit.

Наш ASIC-блок разрешает N-битную матрицу за 1 аппаратный такт (0.66 нс при частоте 1.5 ГГц). Выполнение булевой логики роняет энергопотребление до ~0.05 pJ/bit.

Итог: мы не делаем очередной предсказательный ускоритель. Мы строим аппаратный фаервол с архитектурой. Он за 1 такт сбрасывает транзакцию, если она структурно невозможна, экономя дата-центрам те самые мегаватты, которые они бы сожгли на DSP-блоках, красиво и высокопроизводительно отрисовывая 6 пальцев или рассинхрон звука.

S1mleX 19 hours ago

Мура какая-то. Вы говорите об отсутствии ветвлений но при этом о компиляции.

В статье даже не написано о том что вообще реализуеться. ИИ апскейл или ллм?

Если мы можем за O(1) времени алгоритмически доказать, что текущий интент приведет к структурному сбою

Приведите пример того что должно привести к сбою и как это архтектурно проверяется.

Тем более ллм тоже по вашей логике o(1) потому что они по большой части перемножение матриц без ветвлений.

Почитав коменты добавлю

Если пользователь попросил нарисовать человека с 6 пальцами ваша модель справиться?

Если да то это магия потому что для разрешения самой задачи того что попросил пользователь надо как миниум (n) операций просто анализа слов пользователя.

Aqsaqal 6 hours ago

Вы смотрите на систему глазами софтверного инженера, отсюда и путаница в терминологиях. Давайте разберем архитектуру на "железном" уровне.
1. "ЛЛМ по вашей логике O(1), потому что это перемножение матриц"
Это фундаментально неверно. Перемножение матриц весов имеет алгоритмическую сложность (или $O(N^{2.8})$ в лучшем случае). Кроме того, LLM - это авторегрессионные модели. Генерация каждого следующего токена зависит от предыдущего, что дает жесткое по времени.
Наша архитектура работает за по времени (1 аппаратный такт), потому что мы не перемножаем тензоры с плавающей запятой. Мы прогоняем битовый вектор через каскад физических транзисторов (AND/XOR).
2. "Противоречие: нет ветвлений, но есть компиляция"
Мы говорим не о JIT-компиляции софта. Мы говорим о синтезе аппаратно-определенной логики (RTL). Наш компилятор берет топологию объектов и жестко прошивает её в логические вентили на кристалле (FPGA/ASIC). Электрический ток протекает по кремнию без ветвлений IF/ELSE и предсказателей переходов.
3. "Что вы вообще реализуете и пример с 6 пальцами"
Мы не делаем LLM и не парсим текст. Мы строим аппаратный фаервол (Structural Validator), который стоит МЕЖДУ пользовательским промптом и тяжелым GPU-рендером.
Разбираем ваш пример с 6 пальцами. Как это работает в конвейере:
Шаг 1: Вы пишете текст. Обычный NLP-парсер (классический софт, да, он работает за ) парсит слова и собирает из них граф намерений (Intermediate Representation).
Шаг 2: Этот граф падает в наш чип SiQ. Чип видит корень "Человек", к которому прикреплен суффикс "Рука". В нашей аппаратно прошитой матрице для сущности "Человек->Рука" зашита строгая булева маска: Fingers == 5.
Шаг 3: Входящий граф требует 6. Матрица за 0.66 наносекунды ловит аппаратный конфликт (Collision) на логических вентилях и сбрасывает транзакцию. GPU даже не начинает тратить мегаватты энергии на прорисовку мутанта.
Если же пользователь пишет "Нарисуй пришельца с 6 пальцами", NLP отправляет корень "Пришелец". В его аппаратной матрице нет ограничения на 5 пальцев. Вентили пропускают граф дальше на рендер.
Итог: мы не парсим текст. Мы аппаратно валидируем структурную физику запроса ДО того, как она сожжет ресурсы дата-центра.

S1mleX 6 hours ago

В итоге нарисует пришельца, а мне нужен был человек с 6 пальцами

Или более празаичный пример с 4 пальцами. И сечас вы скажите, что она выдаст интент инвалида.

Исходя из всех ваших слов могу предположить, что вы строите векторы отказа как в современных ллм.

Если вы не замечали если спросить любую комерческую ллм например gpt oss или qwen то они без раздумываний зачастую с первого токена. Спросите такую модель о любо теме из запрещенных тем. Даже если ты прикинешься токсикологом или белым хакером, она откажет на первом токене.

Aqsaqal 4 hours ago

Вы снова смотрите на проблему через призму софта (Safety Guardrails), а не железа. Разница фундаментальна.
1. Про "отказ на первом токене" у ChatGPT: Когда Qwen или GPT-4 отказывают вам "на первом токене", они уже сожгли ресурсы. Ваш промпт загрузился в VRAM на GPU за десятки тысяч долларов, прошел через слои внимания (Attention Matrix), веса перемножились, и софтверный фильтр выдал токен отказа. Это колоссальная трата энергии на пустой запрос. Наш подход: запрос отбивается на уровне сетевой шины / аппаратного контроллера ДО того, как он вообще разбудит GPU. Мы экономим мегаватты на уровне дата-центра.
2. Про инвалидов и 6 пальцев (Интент vs Галлюцинация): Детерминизм - это не тупость, это строгий контроль контракта. Если вы просите "нарисуй человека за компьютером", а вероятностный диффузионный движок в процессе рендера "поплыл" и сгенерировал 6 пальцев (потому что в латентном пространстве текстуры рук смешались) - наша аппаратная матрица поймает расхождение с базовой топологией и заблокирует этот мусорный кадр. Это борьба с галлюцинацией.
Если же вы пишете "нарисуй человека-мутанта с 6 пальцами", то парсер на входе формирует граф: [Сущность: Человек] -> [Атрибут: Пальцы = 6, Флаг: Явное_переопределение]. Аппаратная матрица видит легализованный override-флаг и беспрепятственно пропускает граф на рендер. Это исполнение интента.
Мы не строим "векторы отказа" для цензуры. Мы строим аппаратный гипервизор (SiQ Core), который не дает вероятностному ИИ нарушать законы физики, логики или бизнес-правил там, где пользователь этого не просил.

S1mleX 2 hours ago

[Сущность: Человек] -> [Атрибут: Пальцы = 6, Флаг: Явное переопределение] в итоге нужен NLP который переведет запрос из человек читаемого до машиночитаемого с этими вашими флагами.

заблокирует этот мусорный кадр.

тут вы переизобрели дискриминатор давайте вперед найдите локацию ошибки вымарайте ошибку чтобы модель перегенерировала обратила внимание на это.

Вы снова смотрите на проблему через призму софта (Safety Guardrails), а не железа.

Не согласен. Язык софта может описать язык железа полностью. Так же как алгебра описывает арифметику. Не нужно ссылаться на магическое "железо" если нельзя описать на уровне софта то и не получиться в железе.

парсер на входе формирует граф

Сколько Гигабайт флагов у вас? Мне кажется это ответить на множество вопросов.
Посмотрите на N-граммы от дипсик у них вообще терабайт N-грамм.

И пока вообще непонятно вы анализируете внутреннее состояние или входные данные.