
На Хабре уже было аж 3 статьи про развитие нашего публичного детектора голоса Silero VAD (последняя тут). А вот что стало лучше в этот раз:
Все прошлые фишки и улучшения были сохранены в этой версии (скорость, работа с большим количеством языков, и т.д.);
Был опубликован pip-пакет (благодарность комьюнити, всего сейчас порядка 250-300к скачиваний в месяц);
Был изменён принцип тренировки, что сделало детектор более устойчивым;
Общее число ошибок на мульти-доменной валидации было снижено на 11%;
На шумных данных число ошибок было снижено на 16%;
Разные мелкие доработки, примеры и обёртки на разных языках от сообщества, возможность использовать ретроспективу старых версий детектора через GitHub.
Путь опять проделан огромный, опять все изменения умещаются над катом Хабра.
Сравнение с аналогами
Относительно недавно появился новый детектор голоса TenVAD. Его основная фишка - портативность. Он напрямую построен на использовании библиотеки Aten, минуя PyTorch или ONNX. Но вот с качеством есть проблемы:

Больше всего проблем с шумными данными (методология по ссылке):
Модель | ESC-50 | Приватный шум |
---|---|---|
Webrtc | 0 | 0.15 |
Silero v4 | 0.51 | 0.24 |
Silero v3 | 0.51 | 0.06 |
Unnamed commercial VAD | 0.53 | 0.18 |
Silero v5 | 0.61 | 0.44 |
TenVad | 0.42 | 0.47 |
Silero v6 | 0.65 | 0.53 |
Цитирование и аффилиации
Детектор создан при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации».
Цитировать детектор можно следующим образом:
@misc{Silero VAD,
author = {Silero Team},
title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/snakers4/silero-vad}},
commit = {insert_some_commit_here},
email = {hello@silero.ai}
}
Ссылки
Репозиторий - https://github.com/snakers4/silero-vad;
Более подробное описание изменений - https://github.com/snakers4/silero-vad/releases/tag/v6.0;
Метрики - https://github.com/snakers4/silero-vad/wiki/Quality-Metrics;