Обновить

Релиз v6.2 публичного детектора голоса Silero VAD

v6 по сравнению с прошлыми версиями
v6 по сравнению с прошлыми версиями

На Хабре есть уже много статей про наш детектор голоса (последняя тут). В этот раз с точки зрения юзеров видимых изменений не очень много, но работы было проделано очень много.

Мы в очередной раз полностью перебрали с нуля механизм тренировки нашего детектора голоса. С точки зрения юзера есть следующие улучшения:

  • Повышена общая стабильность на краевых случаях;

  • В целом незначительно повышено качество детекции на всех доменах;

  • Есть существенные улучшения на следующих краевых случаях:

    • Детские голоса;

    • Необычные голоса;

    • Мультяшные голоса;

    • Приглушённая речь;

    • Более сложные телефонные звонки;

    • Музыкальные инструменты, похожие на речь.

Будем признательны пользователям за ваши краевые случаи!

Детектор создан при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации».

Цитировать детектор можно следующим образом:

@misc{Silero VAD,
  author = {Silero Team},
  title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/snakers4/silero-vad}},
  commit = {insert_some_commit_here},
  email = {hello@silero.ai}
}

Ссылки

  1. Репозиторий - https://github.com/snakers4/silero-vad;

  2. Более подробное описание изменений - https://github.com/snakers4/silero-vad/releases/tag/v6.2;

  3. Метрики - https://github.com/snakers4/silero-vad/wiki/Quality-Metrics;

Теги:
+7
Комментарии0

Публикации

Ближайшие события