Обновить

Как квантовать LLM. Практическое руководство для начинающих

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели14K
Всего голосов 10: ↑10 и ↓0+12
Комментарии3

Комментарии 3

тема не раскрыта. Не хватает информации о том, какое железо рекомендуется и сколько времени займет квантизация. Конечно если вы действительно запускали квантизацию

Падение скорости на FP8 скорее всего обусловлено тем, что на аппартном уровне для выполнения целочисленных арифметических операций идет приведение к int32, а потом результата обратно к fp8 (+как-то надо броться с переполнением). Т.е. в размере можно выиграть, а в скорости - врядли. Но следует добавить, что современные nvidia вроде бы научились обрабатывать и fp8 нативно.

На рисунке int8 - там точно экспонента? Которая занимает всё число. Вроде как int8 это линейное представление. То есть увеличение значащего разряда на 1 ведёт к увеличению числа на 1. Либо это число хранит значение, на которое влево/вправо сдвигаются операнды при работе с ним, тогда это уже экспонента.
int8 также можно представить в q-формате. Например, q6. В этом случае числа представляются как (для беззнака)a \cdot 2^1+b \cdot 2^0+c \cdot 2^{-1}+d \cdot 2^{-2}+e \cdot 2^{-3}+f \cdot 2^{-4}+g \cdot 2^{-5}+h \cdot 2^{-6}, где двоичная запятая расположена после второго разряда. С ними можно производить такие же действия. Если число нормализовано - запятая стоит формально сразу после знакового разряда и это будет формат q7. Единственное что после каждого умножения необходимо корректировать результат (8x8=16 бит, 7x7=14->15) сдвигом влево, но некоторые архитектуры для нормированных чисел делают это автоматически. Вообщем все значения лежат в диапазоне от -1 до 1- 2^{-N}

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации