daniilshat 25 июн в 17:29

Исследователи DeepSeek выпустили nano-vLLM — компактный движок для запуска языковых моделей

1 мин

4.3K

Машинное обучение * Искусственный интеллект

Команда исследователей DeepSeek выпустила nano-vLLM — легковесный движок для запуска языковых моделей. Проект написан с нуля на Python и занимает около 1200 строк, что меньше существующих решений. Код nano-vLLM опубликован на GitHub.

Авторы проекта отмечают, что существующие движки для запуска языковых моделей, например vLLM, обеспечивают впечатляющую производительность. Они используют продвинутые алгоритмы и оптимизацию, что позволяет ускорить инференс. При этом кодовая база таких движков зачастую перегруженная и запутанная. Это мешает менее опытным командам модифицировать код и дорабатывать его под свои нужды.

Для решения этой проблемы команда разразработала nano-vLLM — компактный движок, который сочетает в себе высокую скорость работы и компактную кодовую базу без сложных механизмов и запутанных реализаций. При этом nano-vLLM поддерживает кэширование префиксов, тензорный параллелизм, компиляцию с torch.compile() и работу с CUDA. Всё это в 1200 строках кода на Python.

Команда проекта сравнила возможности nano-vLLM и vLLM. Для тестов использовали видеокарту RTX 4070 для ноутбуков с 8 ГБ памяти, на которой запускали модель Qwen3-0.6B. Ниже результаты:

Движок	Выходные токены	Время (с)	Пропускная способность (токенов в секунду)
vLLM	133 966	98,37	1361,84
nan0-vLLM	133 966	93,41	1434,13

Кому может пригодиться nano-vLLM:

Разработчикам, которые создают пользовательские приложения на базе языковых моделей.
Преподавателям, которые обучают инфраструктуре глубокого обучения.
Инженерам, которые развёртывают языковые модели на устройствах с ограниченными ресурсами.

Код проекта разработчики опубликовали на GitHub. Код распространяется по лицензии MIT, а в репозитории также есть инструкции по запуску.

Хабы:

Исследователи DeepSeek выпустили nano-vLLM — компактный движок для запуска языковых моделей

Другие новости

Ближайшие события