snakers4 Aug 26 2025 at 07:50

Новый релиз публичного детектора голоса Silero VAD v6

Medium

2 min

14K

Machine learning * Artificial IntelligenceVoice user interfaces * Open source * Python *

Tutorial

+28

Comments 17

igor_suhorukov Aug 26 2025 at 12:36

@snakers4 спасибо!

Подскажи есть ли примеры как встроить детектор в пайпалайн потоковой обработки звука? Как я понял что это всего лишь компонент чтобы не обрабатывать тишину и фоновые звуки.

snakers4 Aug 26 2025 at 13:35

Наш ВАД это тулкит, то есть голый функционал. По сути малюсенькая нейросеть и несколько функций, которые одну модальность (аудио) превращают в сигнал (есть речь) по кусочкам.

В репозитории есть рудиментарный пример для обработки 1 аудио на питоне (с большим числом эвристик) и рудиментарный интерфейс для стриминга.

Также комьюнити подпилило свои примеры на разных ЯП (не факт, что они все идеально работают).

igor_suhorukov Aug 27 2025 at 07:05

Отлично! Будет чем поразвлечься, как доберусь. К распознаванию речи я не возвращался с момента использования Dragon Dictate в 1998 году.

Пару недель назад пробовал запустить whisper docker на cuda и coqui-ai TTS но с первой попытки у меня это не заработало. Идея была подключить это к openweb-ui и взаимодействовать с базой данных голосом и слушать результаты.

krabdb Aug 26 2025 at 16:00

Смотря что вы под потоковой понимаете. Если не прямо риалтайм, а есть масса выплевываемых wav/mp3 из основной системы, то silero прекрасно использует whisper.cpp без всяких лишних телодвижений.

igor_suhorukov Aug 27 2025 at 06:58

Смотря что вы под потоковой понимаете.

Когда звук с источника(микрофона) поступает сразу же в пайпалайн обработки, распознаётся и передает распознанный текст так же в виде потока, только символов или токенов в другой пайпалайн.

Например для синхронного перевода с одного языка на другой. Или для взаимодействия с какой-либо программой.

silero прекрасно использует whisper.cpp

Спасибо, поизучаю и этот подход!

zoldaten Aug 26 2025 at 14:05

КодИИ-427407

Современный нейросетевой модуль для расстановки ударений и буквы "ё" Силеро

3 000 000

Неплохо сейчас букву "ё" финансируют https://fasie.ru/press/fund/kod-ai-7-results/

Как вы два гранта получили в рамках одного отбора ?

snakers4 Aug 26 2025 at 14:11

Рекомендую вам хотя бы проверить информацию и внимательно ознакомиться с правилами конкурса прежде чем набрасывать.

zoldaten Aug 26 2025 at 17:40

да вы не обижайтесь. у вас отличный проект. только про ё и ударения у вас гораздо раньше было (или это про другое?):

в целом интересно было посмотреть, на что государство деньги выдает.
тоже пользовался вашими открытыми моделями - https://youtu.be/yzllC1Es6VQ . они, правда, тогда цифры не озвучивали.
поэтому перешел на piper. но, возможно, стоит вернуться.

zoldaten Aug 27 2025 at 08:33

p.s. все так же не читает цифры в text-to-speech:
example_text = 'в списке 4 элемента' - 4 не было переведено в "четыре"
тот же piper это делает:
os.system(f'echo {l} | ./piper/piper --model piper/ru_RU-irina-medium.onnx --output_file waves/{l}.wav')

а в speech-to-text вообще нет русских моделей!, не говоря об их onnx имплементации:

за что вам вообще гранты выдают ?
так что правильно вам "накидали".

snakers4 Aug 27 2025 at 08:42

Объясните, какое отношение нормализация в синтезе и 4+ года не обновляемые иностранные модели имеют к теме гранта и этой статье? Потрудитесь подумать и почитать, а то совсем как-то некрасиво получается.

zoldaten Aug 27 2025 at 08:56

а очень даже прямое: грант выдается под модуль, который уже, судя по issue реализован (про букву "ё" и т.д.)
модели, выложенные в рамках средств гранта, не содержат русскую модель. возможно ее и вообще нет. но тогда непонятно под что выделялся грант "Современный нейросетевой синтез речи Силеро для языков народов России и СНГ". Речь именно про синтез. Да, среди моделей, есть "Ukrainian", но все остальные явно не народов России.

к данной статье эти позиции, понятно, не имеют отношения. но вы предложили проверить информацию.

так что теперь вы потрудитесь объяснить, чтобы красиво получилось.

snakers4 Aug 27 2025 at 11:07

Да, среди моделей, есть "Ukrainian", но все остальные явно не народов России.
так что теперь вы потрудитесь объяснить, чтобы красиво получилось.
модели, выложенные в рамках средств гранта, не содержат русскую модель

Все ответы, на самом деле, находятся по первой ссылке в гугле и документах, на которые вы ссылаетесь.

Видимо модели, выложенные в 2022 году, должны были быть выложены в рамках средств гранта, решение конкурсной комиссии по которому было от ~декабря 2024 (!). А отсутствие модуля нормализации текста в демке от 2022 года как-то должно быть связано с обсуждением публичного детектора голоса и / или гранта конца 2024 года.

а очень даже прямое: грант выдается под модуль, который уже, судя по issue реализован (про букву "ё" и т.д.)

Можете, пожалуйста, подсказать точную дату выдачи этого гранта? Можете также привести выдержку из ТЗ этого гранта и результаты тестирования, которые показывают, что кто-то где-то там реализован?

Но тогда непонятно под что выделялся грант "Современный нейросетевой синтез речи Силеро для языков народов России и СНГ"
к данной статье эти позиции, понятно, не имеют отношения. но вы предложили проверить информацию.

Вы сами ответили на свой вопрос. По сути вы просто нашли какую-то случайную информацию (в том числе информацию от 2021-2022 года, лол) только ради наброса и набросили под статьёй, которая вообще про другое. Было бы неплохо, если бы вы публично извинились.

Newm Aug 28 2025 at 12:12

А какие вообще впечатления о piper? Меня вполне устраивает silero_tts, кроме одного момента... Если "убрать акцент", тогда она не дает проставить жестко ударение, в результате "мука" всегда читается с единственным вариантом ударения, в то время как в русском от ударения это слово имеет 2 совершенно различных значения. Ну и еще куча проблем с ударениями. Вопрос с цифрами решается предварительной обработкой строки на вход, преобразуя числа в текст, это в принципе решаемо. А вот отсутствие возможности ударение поставить - это для меня неприятно. Или же это я может быть косяк и ударения все же можно ставить вручную?

zoldaten Aug 29 2025 at 06:01

в piper с ударениями все просто решается - просто букву добавляете - "мукаа". также piper хорош тем, что загрузив в него объемный текст, он начинает выдавать построчно, параллельно продолжая обработку всего остального. т.е. не нужно ждать, пока весь фрагмент обработается целиком. ускорения и замедления речи там тоже есть и onnx модели, которые можно сформировать. на edge устройствах это тоже все быстро работает. и "ё" там есть.

zoldaten Aug 27 2025 at 12:14

Видимо модели, выложенные в 2022 году, должны были быть выложены в рамках средств гранта, решение конкурсной комиссии по которому было от ~декабря 2024 (!).

Ну, во-первых, не декабря 2024, а пораньше (Победители_Код-ИИ (очередь VII) (21.08.2024-23.09.2024)).
Во-вторых, нет, модели от 2022 г. не должны были быть выложены в 2024г. Это так. Но среди них нет ни одной, которая была бы в составе "языков народов России и СНГ ". То есть за год не появилось ни одной новой модели, а уж тем более модели из списка. Вы же грант под языки народов России и СНГ брали ?

Можете, пожалуйста, подсказать точную дату выдачи этого гранта? Можете также привести выдержку из ТЗ этого гранта и результаты тестирования, которые показывают, что кто-то где-то там реализован?

Нет, это я подсказать не могу. У меня нет публичного доступа к информации о ваших грантах, кроме той, что публично доступна. Может вы подскажете ?

По сути вы просто нашли какую-то случайную информацию (в том числе информацию от 2021-2022 года, лол) только ради наброса и набросили под статьёй, которая вообще про другое.

Эта информация не случайная. Она взята с официального сайта фонда, на который вы ссылались в статье. Информация от 2021-2022 (если вы про changelog от 2020 г.) тоже не случайная, она взята с вашего репозитория на github. Моя информация подтверждена ссылками на документы. А ваша ссылками на что подтверждена ?
По поводу несоответствия тематике статьи, под которым был оставлен комментарий, - вы сами решили развить тему выдачи грантов и обсудить это.

snakers4 Aug 27 2025 at 13:08

Ну, во-первых, не декабря 2024, а пораньше (Победители_Код-ИИ (очередь VII) (21.08.2024-23.09.2024)).Во-вторых, нет, модели от 2022 г. не должны были быть выложены в 2024г. Это так. Но среди них нет ни одной, которая была бы в составе "языков народов России и СНГ ". То есть за год не появилось ни одной новой модели, а уж тем более модели из списка. Вы же грант под языки народов России и СНГ брали ?

Документ на который вы ссылаетесь датирован 27 ноября 2024 года. Это дата вынесения решения о предоставлении гранта. Подписание договора может занимать какое-то время. Работы по гранту могут занимать до 12-18 месяцев, согласно регламенту фонда.

Большая часть этой информации написана буквально в шапке документа, на который вы ссылаетесь.

Отсюда очевидный вывод - работа над этим проектом ведется как раз сейчас. К нему не имеют никакого отношения:

Модели 2021 года;
Модели 2022 года;
Эта статья;
Пункт ниже.

Может вы подскажете ?

Ну у вас какие-то претензии, плюс вы явно очень выборочно читаете даже публичную информацию.

Если вы прочитаете документ внимательнее, то узнаете, что именно этот второй грант, скорее всего никогда не выдавали.

zoldaten Aug 27 2025 at 13:33

Отсюда очевидный вывод - работа над этим проектом ведется как раз сейчас.

что ж, чудно. время еще есть. очень надеюсь, что у вас все получится.

Если вы прочитаете документ внимательнее, то узнаете, что именно этот второй грант, скорее всего никогда не выдавали.

из документа это не следует. там написано (мы же заголовок обсуждаем) -
при появлении средств для их финансирования
Сам факт, что государство готово вложиться в букву "ё" имеет место быть.

Поэтому моя реплика про получение вами двух грантов вполне обоснована. Не знал, что эта тема так для вас болезненна, что это вызвало такую переписку.