Comments 2
Чем придуманный метод отличается от того, который применяется при обучении сетей BitNet?
Отличие прежде всего в области применения. BitNet для больших нейронок используют (для LLM, например), а этот метод для небольших сетей.
UBQ квантует и веса, и активации, а BitNet только веса.
UBQ — это про умное и стабильное обучение. Метод постоянно оценивает, насколько сеть уверена в знаке каждого веса, и в зависимости от этого выбирает более осторожную (гладкую) или агрессивную стратегию обновления.
BitNet — это про простоту и масштабируемость, он предназначен для огромных нейронок.
Алгоритм UBQ значительно сложнее устроен. Ну и если UBQ работает с полностью бинарными сетями, то BitNet работает с тремя состояниями (+1, -1, 0).
В релизе я написал на основе содержания статьи на эту тему:
"Эксперименты показали, что новый метод превосходит прежние при работе с небольшими сетями и демонстрирует сопоставимые результаты с методом прямой оценки для больших сетей. "
Прорыв в обучении бинарных нейронных сетей: новый метод квантования обеспечивает их стабильность и высокое качество