Мы уже рассказывали про наш детектор голоса на Хабре тут, тут и тут. Кратко опишу, что стало лучше в этот раз:
Поддержка 6 000+ языков;
Общий рост качества на 5-7%;
Существенно повышена устойчивость на шумных данных;
TorchScript (*) стал в 3 раза быстрее, а ONNX - на 10% (теперь они примерно равны по скорости, обработка 1 кусочка аудио занимает 325 и 189 μs соответственно);
Качество работы теперь почти не зависит от частоты дискретизации и размера окна, поэтому мы перешли на фиксированный размер окна (256 и 512 семплов для 8 и 16 килогерц, соответственно);
Добавлены метрики на 9 датасетах (7 публичных, 2 приватных);
Путь проделан огромный, но почти все изменения умещаются над катом Хабра.
Цитирование и аффилиации
Детектор создан при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации».
Цитировать детектор можно следующим образом:
@misc{Silero VAD,
author = {Silero Team},
title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/snakers4/silero-vad}},
commit = {insert_some_commit_here},
email = {hello@silero.ai}
}
Также нами опубликован датасет, в том числе на котором основан данный детектор.
Ссылки
Репозиторий - https://github.com/snakers4/silero-vad;
Более подробное описание изменений - https://github.com/snakers4/silero-vad/releases/tag/v5.0;
Метрики - https://github.com/snakers4/silero-vad/wiki/Quality-Metrics;