BitNet b1.58 2B4T — это новая языковая модель от Microsoft, разработанная для работы с минимальным потреблением энергии и памяти. В отличие от традиционных языковых моделей, которые полагаются на 16- или 32-битные числа с плавающей точкой, BitNet использует всего 1,58 бита на вес. Это сокращение значительно снижает требования к памяти, сокращает потребление энергии и улучшает время отклика, особенно на устройствах с ограниченными вычислительными ресурсами. Модель основана на более ранней работе команды BitNet.

Хотя BitNet основан на стандартной архитектуре трансформатора, он включает в себя несколько модификаций, направленных на большую эффективность. Например, разработчики заменили традиционные вычислительные компоненты так называемыми слоями BitLinear, которые полагаются на упрощенные числовые представления. Функции активации также были сокращены до 8-битных значений. Несмотря на эти сокращения, BitNet, как сообщается, работает сопоставимо с моделями, которые в два-три раза больше.
Модель была обучена на четырех триллионах слов, взятых из общедоступного веб-контента, образовательных материалов и синтетических математических задач. Затем она была доработана с помощью специализированных наборов диалоговых данных и оптимизирована для получения ответов, которые одновременно полезны и безопасны.
В тестах производительности BitNet превзошла другие компактные модели и выступила на равных с гораздо более крупными и менее эффективными системами. С объемом памяти всего 0,4 гигабайта модель подходит для развертывания на ноутбуках или в облачных средах. По сравнению с моделями, которые были упрощены post hoc, например, с использованием квантования INT4, BitNet демонстрирует более сильный баланс производительности и эффективности.
Чтобы облегчить принятие, Microsoft выпустила специальные инструменты вывода для выполнения как на GPU, так и на CPU, включая облегченную версию C++. Планы на будущее включают расширение модели для поддержки более длинных текстов, дополнительных языков и многомодальных входов, таких как изображения. Microsoft также работает над другим эффективным семейством моделей в рамках серии Phi.