Команда Mozilla Ocho, которая разрабатывает экспериментальные функции браузера Firefox, сейчас занимается технологией локального перевода аудио в текст. Проект построен на базе Llamafile — другой разработки Mozilla, предназначенной для простого распространения моделей машинного обучения в виде всего одного файла.
Технология получила название Whisperfile, а разработали её на базе модели машинного обучения Whisper от OpenAI. Помимо расшифровки аудио поддерживается и перевод на английский язык. В исполняемый файл Whisperfile упакованы веса нейросети, поэтому её можно без проблем запустить на Linux, MacOS, Windows, FreeBSD, NetBSD (AMD64 и ARM64) и OpenBSD.
Система может обрабатывать аудио в форматах WAV, MP3, OGG или FLAC. На выходе получается транскрибированный текст, который можно использовать далее или сохранить. Также есть возможность использовать для запуска GPU, чтобы разгрузить процессор. Система поставляется вместе с системой проверки соответствия распознанных слов, которая окрашивает их в красный (очень плохо), оранжевый, жёлтый и зелёный (превосходно).
Код проекта, документация и всё необходимое для запуска опубликовано на площадке Hugging Face.