Обновить

Комментарии 4

Интересно. Я примерно тем же занимаюсь для анализа консультаций с клиентами. А сервис DeepGram, который собственную модель и диаризацию имеет, не рассматривали? А тайминги для фраз у Gemini у вас получилось для транскрипта указывать?

а как же модели Mistral?

Как я ранее говорил, я технически неподкованный специалист (вайбкодинг и общее понимание — мои основные инструменты), поэтому в технические аспекты лезть не буду.

Тогда вы просто обязаны рассказать про использование speech-to-text для вайбкодинга. Насколько я понял, здесь модель может быть не такой точной, но должна быть достаточно быстрой. И локальные модели здесь как будто не подходят

локальные модели не рассматривал, так как требовательность к железу снижает порог входа. да, есть модели, которые можно запустить даже на смартфоне, но WER будет очень высоким.
Мистраль ранее использовал small модели для определенных задач, но в контексте статьи опыта не было. Нужно посмотреть, что там и как

Учу японский и наблюдаю парадоксальную ситуацию: оффлайн TTS приложение VoivoTTS с движками на 55 мегабайт, с 5 тысячами скачиваний в GooglePlay и анимешными голосами, произносит на японском предложения правильнее всех голосовых движков мира. Не только оффлайн TTS движков от Google и Samsung, но и всех перепробованных AI движков. Неплохо справились Azure speach и Google text to speach AI. Они говорят приятным голосом, но часто с неправильным питч акцентом и в продвинутых версиях добавляют в озвучку какую-то рандомную эмоцию, не связанную с текстом. Путают wa и ha, делают какие-то странные ошибки, говорят с английско-инопланетным акцентом, всё это с приличной задержкой качается из интернета, ну в общем пока такое себе ...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации