
Создатель Redis Сальваторе Санфилиппо (antirez) выложил на GitHub проект voxtral.c — реализацию инференса модели Voxtral Realtime 4B от Mistral на чистом C. Модель с 4 миллиардами параметров распознает речь в текст, работает с микрофона или из аудиофайлов, а весь процесс сборки укладывается в одну команду make. Внешних зависимостей — ноль: ни Python, ни PyTorch, ни vLLM.
Voxtral Realtime 4B — потоковая speech-to-text модель от Mistral, построенная на основе Ministral 3B с аудиоэнкодером на базе Whisper large-v3. Она поддерживает аудио длительностью до 30 минут и работает с контекстным окном в 32 000 токенов. Веса модели занимают около 8,9 ГБ и доступны под лицензией Apache 2.0. Официально Mistral предлагает запускать её через vLLM — полноценный ML-стек на Python. Реализация antirez делает то же самое без всего этого.
Проект поддерживает ускорение через Metal Performance Shaders на Apple Silicon и OpenBLAS на Linux. Помимо работы с файлами, voxtral.c умеет захватывать звук с микрофона в реальном времени на macOS и принимать аудио через stdin — можно подать любой формат через ffmpeg. В репозитории также лежит простая референсная реализация на Python для тех, кто хочет разобраться в архитектуре модели, не погружаясь в код vLLM.
Это уже третий проект antirez в серии "ИИ на чистом C". До voxtral.c он выпустил flux2.c — инференс модели генерации изображений Flux 2 (1 682 звезды на GitHub), а также gte-pure-C для вычисления текстовых эмбеддингов. Все три проекта написаны с помощью Claude Code — в каждом репозитории есть файл CLAUDE.md. По духу серия продолжает традицию llama2.c Андрея Карпати: минималистичные реализации, которые показывают, что для запуска нейросетей не обязательно нужен тяжёлый ML-стек.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
