Comments 16
Со мной связался фаундер VseGPT, ошибки исправил, теперь все работает)
Спасибо автору за проведенную работу, обзор и включение в список проекта Шöпот.
Приятно было увидеть наш небольшой проект в сравнении с крупными игроками💙
Предположим, что обзор не предвзят, ведь нас тут так хвалили!)
Добавим пару комментариев про себя:
1) Мы не даем доступ к API в автоматическом режиме и всегда просим рассказать клиентов, какую задачу они планируют решать с помощью нашего сервиса. В большинстве сервисов работа строится на самостоятельной работе клиента, мы же работаем с B2B и помогаем подобрать наиболее эффективный инструмент и сценарий на всем пути от подключения до запуска в промышленную эксплуатацию.
2) Для корпоративных клиентов мы производим доработку и создание кастомизированных API и автоматизированных процессов по ТЗ заказчика. Ведь клиенту зачастую нужен не просто транскрипт, а дальнейшая обработка результата и интеграция результата в собственные процессы.
3) API Шöпот по умолчанию работает в асинхронном режиме, так как на файлах длинной больше 5-10 минут держать открытое соединение неэффективно. При этом, мы поддерживаем синхронную работу и по запросу клиента можем активировать данный функционал. Скорость обработки файла длинной 1 час составляет в среднем 6-7 минут с учетом предварительно обработки и разделения на спикеров.
4) Ценообразование сервиса динамическое и привязано к объемам потребления. Автор запросил минимальный объем для тестирования и получил максимально возможную стоимость) Мы не стремимся быть самыми дешевыми, наша цель - предоставление качественного сервиса с возможностью кастомизации и поддержкой.
Роман Ледянкин
Основатель Шöпот
API не нужны, давайте on-premise модели.
Спасибо! Закрепил Ваш комментарий)
Ещё не начав читать комментарии тоже порывался сразу же написать о дипграм. Спасибо, что опередили и ответили более развёрнуто. Скажите, пожалуйста, я так понял, что у вас был реальный опыт работы с дипграм, как он вам в условиях сильной зашумлённости , диаризация вас устроила?
Как раз думал, что-то такое поискать 👍
Со мной связался фаундер VseGPT, ошибки исправил, теперь все работает)
Надо ещё учитывать качество исходной записи. Я вообще локальный Whisper v3 Large использую и для диктовки, и для расшифровки, и ужасно им доволен. Но как-то встала задача расшифровать записи судебных заседаний, сделанные юристами на телефон, лежащий на столе. Ну т.е. там на переднем плане громко перелистывают бумажки, а на заднем через фоновый шум из разных углов большого зала кое-как пробиваются голоса участников процесса, иногда перебивающих друг друга. Whisper не справился вообще, бóльшая часть записи по его мнению вообще голоса не содержала. Зато вполне приемлемо справился сберовский SaluteSpeech API (в этот обзор не вошедший) - не идеал, но уже можно читать и общий смысл дискуссии понять.
Спасибо автору за проведенную работу, обзор и включение в список проекта Шöпот.
Приятно было увидеть наш небольшой проект в сравнении с крупными игроками💙
Предположим, что обзор не предвзят, ведь нас тут так хвалили!)
Добавим пару комментариев про себя:
1) Мы не даем доступ к API в автоматическом режиме и всегда просим рассказать клиентов, какую задачу они планируют решать с помощью нашего сервиса. В большинстве сервисов работа строится на самостоятельной работе клиента, мы же работаем с B2B и помогаем подобрать наиболее эффективный инструмент и сценарий на всем пути от подключения до запуска в промышленную эксплуатацию.
2) Для корпоративных клиентов мы производим доработку и создание кастомизированных API и автоматизированных процессов по ТЗ заказчика. Ведь клиенту зачастую нужен не просто транскрипт, а дальнейшая обработка результата и интеграция результата в собственные процессы.
3) API Шöпот по умолчанию работает в асинхронном режиме, так как на файлах длинной больше 5-10 минут держать открытое соединение неэффективно. При этом, мы поддерживаем синхронную работу и по запросу клиента можем активировать данный функционал. Скорость обработки файла длинной 1 час составляет в среднем 6-7 минут с учетом предварительно обработки и разделения на спикеров.
4) Ценообразование сервиса динамическое и привязано к объемам потребления. Автор запросил минимальный объем для тестирования и получил максимально возможную стоимость) Мы не стремимся быть самыми дешевыми, наша цель - предоставление качественного сервиса с возможностью кастомизации и поддержкой.
Роман Ледянкин
Основатель Шöпот
Привет! Спасибо за подробное сравнение, круто
Кажется, что сюда очень просится elevenlabs
А почему не взяли в обзор сервисы Google speech?
Статья супер в тему, как-раз ищу стабильный сервис!
Только вот мне нужно, чтобы эта стабильность сочеталась с возможностью передавать по API ссылку на аудио и, судя по всему, работать с Webhook, так как для тельность максимальная моих запросов может быть 60 секунд
Если кто знает такой сервис, то посоветуйте, пожалуйста.
P.s. deepgram пробовал, но качество в итоге не очень и ошибки часто выдаёт, также в 60 секунд не всегда успевает
Готов предложить API.
Модель на уровне Fireworks.
STT, VAD, Спикеры, Тайминг. (+LLM (свои модели обученные на пост обработку. Поддержка русского, английского и испанского только) нормализация и саммари, либо анализа по нужным характеристиками)
Цена за простую транскрибацию тоже в районе 80-100 за 1000мин.
Diarization + LLM ×3.
Сервис на продакшне. Используем как внутренний STT API.
Есть прямая транскрибация и batching (веб хук либо статус файла со скидкой)
Скорость от 90-140х
Определение языка, есть возможность до обучить модели под задачи бизнеса.
Обзор лучших API для транскрибации речи 2025