Комментарии 3
тема не раскрыта. Не хватает информации о том, какое железо рекомендуется и сколько времени займет квантизация. Конечно если вы действительно запускали квантизацию
Падение скорости на FP8 скорее всего обусловлено тем, что на аппартном уровне для выполнения целочисленных арифметических операций идет приведение к int32, а потом результата обратно к fp8 (+как-то надо броться с переполнением). Т.е. в размере можно выиграть, а в скорости - врядли. Но следует добавить, что современные nvidia вроде бы научились обрабатывать и fp8 нативно.
На рисунке int8 - там точно экспонента? Которая занимает всё число. Вроде как int8 это линейное представление. То есть увеличение значащего разряда на 1 ведёт к увеличению числа на 1. Либо это число хранит значение, на которое влево/вправо сдвигаются операнды при работе с ним, тогда это уже экспонента.
int8 также можно представить в q-формате. Например, q6. В этом случае числа представляются как (для беззнака), где двоичная запятая расположена после второго разряда. С ними можно производить такие же действия. Если число нормализовано - запятая стоит формально сразу после знакового разряда и это будет формат q7. Единственное что после каждого умножения необходимо корректировать результат (8x8=16 бит, 7x7=14->15) сдвигом влево, но некоторые архитектуры для нормированных чисел делают это автоматически. Вообщем все значения лежат в диапазоне от -1 до

Как квантовать LLM. Практическое руководство для начинающих