All streams
Search
Write a publication
Pull to refresh

Comments 2

Чем придуманный метод отличается от того, который применяется при обучении сетей BitNet?

Отличие прежде всего в области применения. BitNet для больших нейронок используют (для LLM, например), а этот метод для небольших сетей.

UBQ квантует и веса, и активации, а BitNet только веса.

UBQ — это про умное и стабильное обучение. Метод постоянно оценивает, насколько сеть уверена в знаке каждого веса, и в зависимости от этого выбирает более осторожную (гладкую) или агрессивную стратегию обновления.

BitNet — это про простоту и масштабируемость, он предназначен для огромных нейронок.

Алгоритм UBQ значительно сложнее устроен. Ну и если UBQ работает с полностью бинарными сетями, то BitNet работает с тремя состояниями (+1, -1, 0).


В релизе я написал на основе содержания статьи на эту тему:

"Эксперименты показали, что новый метод превосходит прежние при работе с небольшими сетями и демонстрирует сопоставимые результаты с методом прямой оценки для больших сетей. "

Sign up to leave a comment.

Articles