Мы уткнулись в потолок. Почему видеокарты перестали быстро расти

Мы уткнулись в потолок. Почему видеокарты перестали быстро расти — и что с этим делать
....
Откуда взялась проблема

Из хорошего - в статье берётся известная с 2000х проблема "memory wall".
Из плохого - примеры в статье некачественные, а предлагаемые решения - или вовсю используются или расхайпленные но бесполезные (in memory computing). Эдакая сборная солянка из парсенга нейросетью интернета за 5 минут, без реального понимания.

Давайте пройдёмся по конкретике:

> H100 стоит $30 000 и потребляет 700 Вт. RTX 5090 — $2 000 (де-факто больше) и 575 Вт.
Проблема №1 - вы сравниваете enterprise решение H100 и consumer решение RTX 5090. Они никогда не предполагались сравнивать их "впрямую", хотя да для некоторого класса "небольших сеток" они взаимозаменяемы.

> Для нагрузок с большими матрицами GPU простаивает до 70% времени, просто ожидая данные.
Проблема №2 - вы приводите манипулятивные метрики (скидка до 70%), а не репрезентативные - в среднем простаивает.

> Возьмём конкретный пример — умножение матриц FP16 на H100:
Проблема №3 - вы пишите "конкретный пример", но не приводите его. Сеть, кёрнел, нагрузка?

> GPU умеет вычислять несравнимо быстрее, чем получать данные. H100 теоретически выдаёт ~67 TFLOPS для FP32, но пропускная способность памяти — всего 3,35 ТБ/с.
Проблема №4 - вы сравниваете величины в разных размерностях, даже не разбираясь можно ли их сравнивать. Сложноть умножения матриц - близка к O(n^1.5) в реальных cublas кернелах.

Проблема №5 в выводах:
О чём они вообще?

Chiplet / 2.5D packaging.

Уже используется.

In-Memory Computing.

Одна из самых расхайпленных "в теории" технологий без практического пока применения.
Т.к. нарушает фундаментальные основы эффективных вычислений для реальных задач - временную и пространственную локальность.

Sparse Computation.

Уже используется

Domain-Specific Accelerators.

Уже используется.

entze 4 мая в 17:43

Нубский вопрос - почему вообще речь идет про GPU, а не про NPU? Или просто исторически удобное понятие? Потому что NVIDIA эксплуатирует и развивает архитектуру GPU?

Еще не понял почему у автора для 70B модели - скажем так средней по нынешним временам, надо аж 13,5ТБ памяти. Даже 1,35 не нужно. Квантование уже не так отупляет модели. Сокращение на несколько попугаев при возможности запускать 30B вообще локально в 90 токенов (правда индивидуально).

entze 4 мая в 17:52

Не, мне правда интересно. Зачем условно мне 5090 с монстрами на коробке, если нужен только ИИ, лучше чтобы Flash-память прям там же со стримингом данных в память NPU.

WASD1 4 мая в 18:21

google: GPU TPU NPU - в чём разница и почему в статьях про "железо" для ИИ обсуждают в основном GPU. Ответ будет вполне хорошим, поверьте.

*) Один момент - в последнее время разница сокращается. GPU становится TPU-образным, т.е. обзаводится MMA (блоками умножения матриц) всё бОльшего размера, а TPU - GPU-образным, т.е. вспомогательными блоками, чтобы исполнять дополнительные операции.

dmitrye1 4 мая в 19:00

Еще момент, разделите площадь кристалла на количество транзисторов и сравним с заявленными нанометрами, получим декларируемую и эффективную площадь площадь транзистора - собачья будка на футбольном поле.

Мы уткнулись в потолок. Почему видеокарты перестали быстро расти — и что с этим делать

Комментарии 5

Публикации