Comments 15
https://github.com/alphacep/vosk - вот этим можно распознать русскую речь, качество на уровне. скорость не очень, зато бесплатно.
для английского я использую вот это решение: https://github.com/snakers4/silero-models#speech-to-text качество примерно такое же, как у гугла за деньги. а скорость лучше всех. у них и для русского есть, но за деньги. так что если вас устроит такой вариант, можете автору написать.
что касается запятых, то опять же у @snakers4 есть решение:
Попробуем, заодно сравним с яндексом и сбером, спасибо!
Сравнили https://github.com/alphacep/vosk с Yandex SpeechKit ? Какие результаты?
На летней стажировке ребята пробовали, сказали, что нашли более точную модель)
Что за модель? Ищу чем лучше распознать продолжительные (больше часа) интервью.
пользуемся яндексом, вроде никто не жалуется) модели +- одинаково работают, больше дело в качестве записи, хорошей дикции говорящего. И не надо рассчитывать, что машина даст готовый результат, всё равно надо потом всё отслушивать и руками править.
Зашёл плюсануть воск. Поднимали его в своём тг-боте. Быстро и Мега-круто
grep 'id' <имя-файла> | sed 's/^.: "//' | sed 's/",$//'
Ответ ведь в JSON, почему бы не использоватьjq
?
Еще добавить перекод mp3 в ogg – совсем кузяво будет
Пользуемся ffmpeg, вполне хорошо работает, но там одно цепляет другое, сперва mp3, потом wav, потом думаешь уже и о конвертации видео, тексты выводить тоже лучше в док, чем txt.
https://github.com/Sstoryteller2/spttx вот тут собрал примерно всё что может пригодится, но и этого кажется мало
Я все это обернул в телеграм бот и основная проблема была в том что яндекс часто говорил что ogg не валидный, так и не разобрался почему, в итоге пришлось в pcm загружать перед запуском распознавания.
Распознание длинных аудио сервисом Yandex SpeechKit из командной строки bash/shell через API