Как стать автором
Обновить

Наш публичный детектор голоса стал быстрее в 3 раза (*), качественнее, устойчивее и теперь работает на 6 000 языках

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров3.4K
Сравнение качества версий v5, v4 и v3.1
Сравнение качества версий v5, v4 и v3.1

Мы уже рассказывали про наш детектор голоса на Хабре тут, тут и тутКратко опишу, что стало лучше в этот раз:

  • Поддержка 6 000+ языков;

  • Общий рост качества на 5-7%;

  • Существенно повышена устойчивость на шумных данных;

  • TorchScript (*) стал в 3 раза быстрее, а ONNX - на 10% (теперь они примерно равны по скорости, обработка 1 кусочка аудио занимает 325 и 189 μs соответственно);

  • Качество работы теперь почти не зависит от частоты дискретизации и размера окна, поэтому мы перешли на фиксированный размер окна (256 и 512 семплов для 8 и 16 килогерц, соответственно);

  • Добавлены метрики на 9 датасетах (7 публичных, 2 приватных);

Путь проделан огромный, но почти все изменения умещаются над катом Хабра.

Цитирование и аффилиации

Детектор создан при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации».

Цитировать детектор можно следующим образом:

@misc{Silero VAD,
  author = {Silero Team},
  title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/snakers4/silero-vad}},
  commit = {insert_some_commit_here},
  email = {hello@silero.ai}
}

Также нами опубликован датасет, в том числе на котором основан данный детектор.

Ссылки

  1. Репозиторий - https://github.com/snakers4/silero-vad;

  2. Более подробное описание изменений - https://github.com/snakers4/silero-vad/releases/tag/v5.0;

  3. Метрики - https://github.com/snakers4/silero-vad/wiki/Quality-Metrics;

Теги:
Хабы:
Всего голосов 17: ↑17 и ↓0+24
Комментарии1

Публикации

Истории

Работа

Data Scientist
76 вакансий
Python разработчик
131 вакансия

Ближайшие события

27 августа – 7 октября
Премия digital-кейсов «Проксима»
МоскваОнлайн
19 сентября
CDI Conf 2024
Москва
20 – 22 сентября
BCI Hack Moscow
Москва
24 сентября
Конференция Fin.Bot 2024
МоскваОнлайн
24 сентября
Astra DevConf 2024
МоскваОнлайн
25 сентября
Конференция Yandex Scale 2024
МоскваОнлайн
28 – 29 сентября
Конференция E-CODE
МоскваОнлайн
28 сентября – 5 октября
О! Хакатон
Онлайн
30 сентября – 1 октября
Конференция фронтенд-разработчиков FrontendConf 2024
МоскваОнлайн
3 – 18 октября
Kokoc Hackathon 2024
Онлайн