Как стать автором
Обновить
395.62
BotHub
Агрегатор нейросетей: ChatGPT, Claude, Midjourney

BitNet- новая энергоэффективная языковая модель Microsoft

Время на прочтение2 мин
Количество просмотров1K

BitNet b1.58 2B4T — это новая языковая модель от Microsoft, разработанная для работы с минимальным потреблением энергии и памяти. В отличие от традиционных языковых моделей, которые полагаются на 16- или 32-битные числа с плавающей точкой, BitNet использует всего 1,58 бита на вес. Это сокращение значительно снижает требования к памяти, сокращает потребление энергии и улучшает время отклика, особенно на устройствах с ограниченными вычислительными ресурсами. Модель основана на более ранней работе команды BitNet.

Хотя BitNet основан на стандартной архитектуре трансформатора, он включает в себя несколько модификаций, направленных на большую эффективность. Например, разработчики заменили традиционные вычислительные компоненты так называемыми слоями BitLinear, которые полагаются на упрощенные числовые представления. Функции активации также были сокращены до 8-битных значений. Несмотря на эти сокращения, BitNet, как сообщается, работает сопоставимо с моделями, которые в два-три раза больше.

Модель была обучена на четырех триллионах слов, взятых из общедоступного веб-контента, образовательных материалов и синтетических математических задач. Затем она была доработана с помощью специализированных наборов диалоговых данных и оптимизирована для получения ответов, которые одновременно полезны и безопасны.

В тестах производительности BitNet превзошла другие компактные модели и выступила на равных с гораздо более крупными и менее эффективными системами. С объемом памяти всего 0,4 гигабайта модель подходит для развертывания на ноутбуках или в облачных средах. По сравнению с моделями, которые были упрощены post hoc, например, с использованием квантования INT4, BitNet демонстрирует более сильный баланс производительности и эффективности.

Чтобы облегчить принятие, Microsoft выпустила специальные инструменты вывода для выполнения как на GPU, так и на CPU, включая облегченную версию C++. Планы на будущее включают расширение модели для поддержки более длинных текстов, дополнительных языков и многомодальных входов, таких как изображения. Microsoft также работает над другим эффективным семейством моделей в рамках серии Phi.

Источник

Теги:
Хабы:
+1
Комментарии1

Другие новости

Информация

Сайт
bothub.chat
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
veseluha