Story-teller Oct 13 2021 at 14:05

Распознание длинных аудио сервисом Yandex SpeechKit из командной строки bash/shell через API

5 min

7.4K

Programming *Yandex API *Development for Linux *

Comments 15

AigizK Oct 13 2021 at 16:06

https://github.com/alphacep/vosk - вот этим можно распознать русскую речь, качество на уровне. скорость не очень, зато бесплатно.

для английского я использую вот это решение: https://github.com/snakers4/silero-models#speech-to-text качество примерно такое же, как у гугла за деньги. а скорость лучше всех. у них и для русского есть, но за деньги. так что если вас устроит такой вариант, можете автору написать.

что касается запятых, то опять же у @snakers4 есть решение:

https://habr.com/en/post/581946/

Story-teller Oct 13 2021 at 17:54

Попробуем, заодно сравним с яндексом и сбером, спасибо!

chemtech Jan 24 2023 at 16:06

Сравнили https://github.com/alphacep/vosk с Yandex SpeechKit ? Какие результаты?

Story-teller Jan 27 2023 at 09:40

На летней стажировке ребята пробовали, сказали, что нашли более точную модель)

ris58h Oct 19 2023 at 00:24

Что за модель? Ищу чем лучше распознать продолжительные (больше часа) интервью.

Story-teller Oct 19 2023 at 05:40

пользуемся яндексом, вроде никто не жалуется) модели +- одинаково работают, больше дело в качестве записи, хорошей дикции говорящего. И не надо рассчитывать, что машина даст готовый результат, всё равно надо потом всё отслушивать и руками править.

ris58h Oct 26 2023 at 20:54

Попробовал Яндекс по руководству из вашей статьи. Руководство рабочее, а результат так себе - уж очень ошибок много.

sunsexsurf Oct 14 2021 at 09:20

Зашёл плюсануть воск. Поднимали его в своём тг-боте. Быстро и Мега-круто

A1EF Oct 13 2021 at 16:43

grep 'id' <имя-файла> | sed 's/^.: "//' | sed 's/",$//'

Ответ ведь в JSON, почему бы не использоватьjq?

Story-teller Oct 13 2021 at 17:46

Честно говоря, не знал про него, спасибо! А так, концепция с минимальными дополнительными установками)

ris58h Oct 26 2023 at 20:55

cat result.json | jq -r '.response.chunks[].alternatives[].text' > result.txt

Просто оставлю это здесь.

mmxplorer Oct 13 2021 at 17:47

Еще добавить перекод mp3 в ogg – совсем кузяво будет

Story-teller Oct 13 2021 at 17:53

Пользуемся ffmpeg, вполне хорошо работает, но там одно цепляет другое, сперва mp3, потом wav, потом думаешь уже и о конвертации видео, тексты выводить тоже лучше в док, чем txt.

https://github.com/Sstoryteller2/spttx вот тут собрал примерно всё что может пригодится, но и этого кажется мало

softkot Oct 14 2021 at 00:11

Я все это обернул в телеграм бот и основная проблема была в том что яндекс часто говорил что ogg не валидный, так и не разобрался почему, в итоге пришлось в pcm загружать перед запуском распознавания.

Story-teller Oct 14 2021 at 00:22

У меня тоже были сложности, но быстро нашёл решение: кодек libopus, вполне стабильно работает

ffmpeg -i <имя-входящего-файла> \
  -c:a libopus \ #кодек 
  <имя-конвертированного-файла>.opus

А голосовые сообщения telegram, кажется можно не конвертировать вообще