bobastia1 мар 2025 в 06:30

Обзор лучших API для транскрибации речи 2025

Простой

8 мин

50K

Python * Машинное обучение *

Обзор

+12

Комментарии 22

Закреплённые комментарии

НЛО прилетело и опубликовало эту надпись здесь

bobastia 1 мар 2025 в 12:26

Со мной связался фаундер VseGPT, ошибки исправил, теперь все работает)

shopot_ai 1 мар 2025 в 17:48

Спасибо автору за проведенную работу, обзор и включение в список проекта Шöпот.

Приятно было увидеть наш небольшой проект в сравнении с крупными игроками💙

Предположим, что обзор не предвзят, ведь нас тут так хвалили!)

Добавим пару комментариев про себя:

1) Мы не даем доступ к API в автоматическом режиме и всегда просим рассказать клиентов, какую задачу они планируют решать с помощью нашего сервиса. В большинстве сервисов работа строится на самостоятельной работе клиента, мы же работаем с B2B и помогаем подобрать наиболее эффективный инструмент и сценарий на всем пути от подключения до запуска в промышленную эксплуатацию.

2) Для корпоративных клиентов мы производим доработку и создание кастомизированных API и автоматизированных процессов по ТЗ заказчика. Ведь клиенту зачастую нужен не просто транскрипт, а дальнейшая обработка результата и интеграция результата в собственные процессы.

3) API Шöпот по умолчанию работает в асинхронном режиме, так как на файлах длинной больше 5-10 минут держать открытое соединение неэффективно. При этом, мы поддерживаем синхронную работу и по запросу клиента можем активировать данный функционал. Скорость обработки файла длинной 1 час составляет в среднем 6-7 минут с учетом предварительно обработки и разделения на спикеров.

4) Ценообразование сервиса динамическое и привязано к объемам потребления. Автор запросил минимальный объем для тестирования и получил максимально возможную стоимость) Мы не стремимся быть самыми дешевыми, наша цель - предоставление качественного сервиса с возможностью кастомизации и поддержкой.

Роман Ледянкин

Основатель Шöпот

kenoma 1 мар 2025 в 06:57

API не нужны, давайте on-premise модели.

НЛО прилетело и опубликовало эту надпись здесь

bobastia 1 мар 2025 в 11:22

Спасибо! Закрепил Ваш комментарий)

Kwentin3 2 мар 2025 в 18:32

Ещё не начав читать комментарии тоже порывался сразу же написать о дипграм. Спасибо, что опередили и ответили более развёрнуто. Скажите, пожалуйста, я так понял, что у вас был реальный опыт работы с дипграм, как он вам в условиях сильной зашумлённости , диаризация вас устроила?

Wladradchenko 1 мар 2025 в 08:52

Как раз думал, что-то такое поискать 👍

bobastia 1 мар 2025 в 12:26

Со мной связался фаундер VseGPT, ошибки исправил, теперь все работает)

aborouhin 1 мар 2025 в 12:28

Надо ещё учитывать качество исходной записи. Я вообще локальный Whisper v3 Large использую и для диктовки, и для расшифровки, и ужасно им доволен. Но как-то встала задача расшифровать записи судебных заседаний, сделанные юристами на телефон, лежащий на столе. Ну т.е. там на переднем плане громко перелистывают бумажки, а на заднем через фоновый шум из разных углов большого зала кое-как пробиваются голоса участников процесса, иногда перебивающих друг друга. Whisper не справился вообще, бóльшая часть записи по его мнению вообще голоса не содержала. Зато вполне приемлемо справился сберовский SaluteSpeech API (в этот обзор не вошедший) - не идеал, но уже можно читать и общий смысл дискуссии понять.

bobastia 1 мар 2025 в 12:30

Согласен с Вами. Для каждого случая надо самому проверять, как модель работает

shopot_ai 1 мар 2025 в 17:48

Спасибо автору за проведенную работу, обзор и включение в список проекта Шöпот.

Приятно было увидеть наш небольшой проект в сравнении с крупными игроками💙

Предположим, что обзор не предвзят, ведь нас тут так хвалили!)

Добавим пару комментариев про себя:

Роман Ледянкин

Основатель Шöпот

bobastia 1 мар 2025 в 17:49

Спасибо за комментарий, Роман! Закрепил ваш ответ

shopot_ai 14 янв в 14:59

UPD: В 4 квартале 2025 года мы включили возможность выпуска API ключа в личном кабинете клиента в сервисе. А еще встроили саммаризацию с 3-мя предустановленным вариантами длинны от супер короткого, до детального саммари с договоренностями и следующими шагами.

drakononov 2 мар 2025 в 09:05

Привет! Спасибо за подробное сравнение, круто

Кажется, что сюда очень просится elevenlabs

bobastia 4 мар 2025 в 21:26

Не знал, что у них есть speech-to-text, думал, они больше по голосам специалисты) На Artificial Analysis он совсем недавно появился

grumegargler 2 мар 2025 в 14:03

А почему не взяли в обзор сервисы Google speech?

lil_master 5 мар 2025 в 14:45

Потому что это худшее что есть среди распознавании речи

Chatbotist 2 мар 2025 в 15:31

Статья супер в тему, как-раз ищу стабильный сервис!

Только вот мне нужно, чтобы эта стабильность сочеталась с возможностью передавать по API ссылку на аудио и, судя по всему, работать с Webhook, так как для тельность максимальная моих запросов может быть 60 секунд

Если кто знает такой сервис, то посоветуйте, пожалуйста.

P.s. deepgram пробовал, но качество в итоге не очень и ошибки часто выдаёт, также в 60 секунд не всегда успевает

kkdit 3 мар 2025 в 08:37

Готов предложить API.

Модель на уровне Fireworks.

STT, VAD, Спикеры, Тайминг. (+LLM (свои модели обученные на пост обработку. Поддержка русского, английского и испанского только) нормализация и саммари, либо анализа по нужным характеристиками)

Цена за простую транскрибацию тоже в районе 80-100 за 1000мин.

Diarization + LLM ×3.

Сервис на продакшне. Используем как внутренний STT API.

Есть прямая транскрибация и batching (веб хук либо статус файла со скидкой)

Скорость от 90-140х

Определение языка, есть возможность до обучить модели под задачи бизнеса.

kleinmaximus 24 июл 2025 в 19:55

Предложение в силе?

ProRules 3 дек 2025 в 17:12

Попробовал Яндекс. Лень писать. В кратце:
(у других таких ... требований нет) Споилер в итоге shopot.ai лучше чем nexara оказался А whisper еще попробую Так вот Яндекс (speechkit/playground) :
1 Введите Ваше Фамилию Имя
2 Привяжите карту с хоть 1 рублем
3 Доолго подождите пока счет создается
4 Только аудио и <=60MB Причем ogg wav и из сжатого получается только MP3
ладно преобразовал ffmpeg -i f.mp4 -vn -b:a 320k -maxrate 900k -bufsize 2M -f segment -segment_time 1500 -reset_timestamps 1 f_%03d.mp3
5 ДООЛГОЕ распознавание и тупняк UI перед ним
6 Результат (каждая строка 2жды!)
[00:23.900 - 00:52.180] Показать для окончания показать 1 достаточно ааа общепризнанную и широко используемую методологию а именно методовый фостер который вы видите на экране который в принципе говорит или дает указание как именно можно да
[00:23.900 - 00:52.180] Показать для окончания показать 1 достаточно ааа общепризнанную и широко используемую методологию а именно методовый фостер который вы видите на экране который в принципе говорит или дает указание как именно можно да
PS: правильный результат от shopot.ai
3
00:00:21,120 --> 00:00:43,399
А именно, во-первых, я хочу в виде окончания показать одну достаточно общепризнанную и широко используемую методологию, а именно методологию Фостера, которую вы видите на экране,

4
00:00:43,399 --> 00:01:08,400
которая, в принципе, говорит или дает указания, как именно можно, если вы хотите построить параллельный алгоритм, в принципе, по любой теме, для любых приложений, как это принципиально можно сделать.
PS все кроме яндекса дали на выбор скачать srt , скачать txt После яндекса мне пришлось писать скрипт преобразования в норм srt и txt а еще не скачать кнопка а скопировать

ProRules 3 дек 2025 в 17:36

ps в церах яндекса я не разобралcя и послал его на ....А nexara .36руб/мин В то время как шопот 2р/мин при 4х часах в месяц Короче шопот в 5.5 раза дороже конечно Вот результат nexara
4
00:00:21,820 --> 00:00:25,859
а именно, во -первых, я хочу...

5
00:00:25,859 --> 00:00:29,739
показать, в видеокончания показать

6
00:00:29,739 --> 00:00:35,739
одну достаточно общепризнанную и

7
00:00:35,859 --> 00:00:40,899
широко используемую методологию, а

8
00:00:40,899 --> 00:00:42,500
именно методологию Фостера, которую

9
00:00:42,500 --> 00:00:44,600
вы видите на экране
захотелось попробовать whisper а то 2р/мин дороговато и всё таки при такой разнице nexara выгоднее

K0Jlya9 3 дек 2025 в 23:35

whisper можно запускать на своём компе если это не селерон офисный

shopot_ai 14 янв в 14:59

Если не использовать разделение на спикеров, саммари и прочие функции нашего сервиса (shopot.ai), то Нексара - отличный вариант, если вас все устраивает по качеству.

Уже писал про это выше, что в зависимости от объемов и поставленной задачи стоимость меняется, ведь за 2 р./м. пользователь получает все вместе Web доступ, API и прочее. Если есть задача только API - можно написать требуемые объемы в Поддержку и мы предложим варианты.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий