Pull to refresh

Comments 15

https://github.com/alphacep/vosk - вот этим можно распознать русскую речь, качество на уровне. скорость не очень, зато бесплатно.

для английского я использую вот это решение: https://github.com/snakers4/silero-models#speech-to-text качество примерно такое же, как у гугла за деньги. а скорость лучше всех. у них и для русского есть, но за деньги. так что если вас устроит такой вариант, можете автору написать.

что касается запятых, то опять же у @snakers4 есть решение:

https://habr.com/en/post/581946/

Попробуем, заодно сравним с яндексом и сбером, спасибо!

На летней стажировке ребята пробовали, сказали, что нашли более точную модель)

Что за модель? Ищу чем лучше распознать продолжительные (больше часа) интервью.

пользуемся яндексом, вроде никто не жалуется) модели +- одинаково работают, больше дело в качестве записи, хорошей дикции говорящего. И не надо рассчитывать, что машина даст готовый результат, всё равно надо потом всё отслушивать и руками править.

Попробовал Яндекс по руководству из вашей статьи. Руководство рабочее, а результат так себе - уж очень ошибок много.

Зашёл плюсануть воск. Поднимали его в своём тг-боте. Быстро и Мега-круто

grep 'id' <имя-файла> | sed 's/^.: "//' | sed 's/",$//'

Ответ ведь в JSON, почему бы не использоватьjq?

Честно говоря, не знал про него, спасибо! А так, концепция с минимальными дополнительными установками)

cat result.json | jq -r '.response.chunks[].alternatives[].text' > result.txt

Просто оставлю это здесь.

Еще добавить перекод mp3 в ogg – совсем кузяво будет

Пользуемся ffmpeg, вполне хорошо работает, но там одно цепляет другое, сперва mp3, потом wav, потом думаешь уже и о конвертации видео, тексты выводить тоже лучше в док, чем txt.

https://github.com/Sstoryteller2/spttx вот тут собрал примерно всё что может пригодится, но и этого кажется мало

Я все это обернул в телеграм бот и основная проблема была в том что яндекс часто говорил что ogg не валидный, так и не разобрался почему, в итоге пришлось в pcm загружать перед запуском распознавания.

У меня тоже были сложности, но быстро нашёл решение: кодек libopus, вполне стабильно работает

ffmpeg -i <имя-входящего-файла> \
  -c:a libopus \ #кодек 
  <имя-конвертированного-файла>.opus			

А голосовые сообщения telegram, кажется можно не конвертировать вообще

Sign up to leave a comment.

Articles