Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!

AI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM Google Meet Zoom Личный опыт Elixir Rust macOS Apple Silicon Speech-to-Text Text-to-Speech
???
Привет!
Я автор опенсорс голосового помощника Ирина (на Хабре 4 статьи + Гитхаб есть).
Могу порекомендовать рассмотреть в воркфлоу еще следующие технологии:
STT - Vosk STT, у меня стриминговый, отдает ответ по ходу разговора, минимальная задержка. Отлично работает локально, не надо ничего отсылать никуда (хотя качество, вероятно, ниже DeepGram). И да - одноязычный.
TTS - можно посмотреть в сторону Vosk TTS или Silero - тоже оба локальные, VOSK TTS очень быстрый. Тоже под один язык, правда.
Все переводчики речи в реальном времени — херня. Я написал свой. Тоже херня, но бесплатная