maksimov_m10 дек 2025 в 18:37

Как квантовать LLM. Практическое руководство для начинающих

Средний

12 мин

14K

Искусственный интеллектPython * Natural Language Processing *

Туториал

Сезон ИИ в разработке

+12

Комментарии 3

Bardakan 11 дек 2025 в 04:30

тема не раскрыта. Не хватает информации о том, какое железо рекомендуется и сколько времени займет квантизация. Конечно если вы действительно запускали квантизацию

alexanderfedyukov 11 дек 2025 в 06:03

Падение скорости на FP8 скорее всего обусловлено тем, что на аппартном уровне для выполнения целочисленных арифметических операций идет приведение к int32, а потом результата обратно к fp8 (+как-то надо броться с переполнением). Т.е. в размере можно выиграть, а в скорости - врядли. Но следует добавить, что современные nvidia вроде бы научились обрабатывать и fp8 нативно.

TimurZhoraev 11 дек 2025 в 08:00

На рисунке int8 - там точно экспонента? Которая занимает всё число. Вроде как int8 это линейное представление. То есть увеличение значащего разряда на 1 ведёт к увеличению числа на 1. Либо это число хранит значение, на которое влево/вправо сдвигаются операнды при работе с ним, тогда это уже экспонента.
int8 также можно представить в q-формате. Например, q6. В этом случае числа представляются как (для беззнака) $a \cdot 2^1+b \cdot 2^0+c \cdot 2^{-1}+d \cdot 2^{-2}+e \cdot 2^{-3}+f \cdot 2^{-4}+g \cdot 2^{-5}+h \cdot 2^{-6}$ , где двоичная запятая расположена после второго разряда. С ними можно производить такие же действия. Если число нормализовано - запятая стоит формально сразу после знакового разряда и это будет формат q7. Единственное что после каждого умножения необходимо корректировать результат (8x8=16 бит, 7x7=14->15) сдвигом влево, но некоторые архитектуры для нормированных чисел делают это автоматически. Вообщем все значения лежат в диапазоне от -1 до $1- 2^{-N}$

Зарегистрируйтесь на Хабре, чтобы оставить комментарий