
Комментарии 5
Мы уткнулись в потолок. Почему видеокарты перестали быстро расти — и что с этим делать
....
Откуда взялась проблема
Из хорошего - в статье берётся известная с 2000х проблема "memory wall".
Из плохого - примеры в статье некачественные, а предлагаемые решения - или вовсю используются или расхайпленные но бесполезные (in memory computing). Эдакая сборная солянка из парсенга нейросетью интернета за 5 минут, без реального понимания.
Давайте пройдёмся по конкретике:
> H100 стоит $30 000 и потребляет 700 Вт. RTX 5090 — $2 000 (де-факто больше) и 575 Вт.
Проблема №1 - вы сравниваете enterprise решение H100 и consumer решение RTX 5090. Они никогда не предполагались сравнивать их "впрямую", хотя да для некоторого класса "небольших сеток" они взаимозаменяемы.
> Для нагрузок с большими матрицами GPU простаивает до 70% времени, просто ожидая данные.
Проблема №2 - вы приводите манипулятивные метрики (скидка до 70%), а не репрезентативные - в среднем простаивает.
> Возьмём конкретный пример — умножение матриц FP16 на H100:
Проблема №3 - вы пишите "конкретный пример", но не приводите его. Сеть, кёрнел, нагрузка?
> GPU умеет вычислять несравнимо быстрее, чем получать данные. H100 теоретически выдаёт ~67 TFLOPS для FP32, но пропускная способность памяти — всего 3,35 ТБ/с.
Проблема №4 - вы сравниваете величины в разных размерностях, даже не разбираясь можно ли их сравнивать. Сложноть умножения матриц - близка к O(n^1.5) в реальных cublas кернелах.
Проблема №5 в выводах:
О чём они вообще?
Chiplet / 2.5D packaging.
Уже используется.
In-Memory Computing.
Одна из самых расхайпленных "в теории" технологий без практического пока применения.
Т.к. нарушает фундаментальные основы эффективных вычислений для реальных задач - временную и пространственную локальность.
Sparse Computation.
Уже используется
Domain-Specific Accelerators.
Уже используется.
Нубский вопрос - почему вообще речь идет про GPU, а не про NPU? Или просто исторически удобное понятие? Потому что NVIDIA эксплуатирует и развивает архитектуру GPU?
Еще не понял почему у автора для 70B модели - скажем так средней по нынешним временам, надо аж 13,5ТБ памяти. Даже 1,35 не нужно. Квантование уже не так отупляет модели. Сокращение на несколько попугаев при возможности запускать 30B вообще локально в 90 токенов (правда индивидуально).
Не, мне правда интересно. Зачем условно мне 5090 с монстрами на коробке, если нужен только ИИ, лучше чтобы Flash-память прям там же со стримингом данных в память NPU.
google: GPU TPU NPU - в чём разница и почему в статьях про "железо" для ИИ обсуждают в основном GPU. Ответ будет вполне хорошим, поверьте.
*) Один момент - в последнее время разница сокращается. GPU становится TPU-образным, т.е. обзаводится MMA (блоками умножения матриц) всё бОльшего размера, а TPU - GPU-образным, т.е. вспомогательными блоками, чтобы исполнять дополнительные операции.
Еще момент, разделите площадь кристалла на количество транзисторов и сравним с заявленными нанометрами, получим декларируемую и эффективную площадь площадь транзистора - собачья будка на футбольном поле.
Мы уткнулись в потолок. Почему видеокарты перестали быстро расти — и что с этим делать