Pull to refresh

Comments 16

PinnedPinned comments

Для пет проектов актуальны 5 вариантов

groq дает 8 часов быстрого виспера в сутки (давно уже, стабильно, быстро и по сути это безлимит)

google gemini - дает бесплатно 1500 запросов в сутки, ответ не больше 30т символов, резать большое неудобно, глюки специфичные для ллм но в целом не хуже виспера

deepgram дает 700 часов транскрибации сразу после простого подтверждения емейла

assemblyai дает так же 100 часов

И еще один вариант отсюда, дефолтный, вроде бы это гугл но хз https://pypi.org/project/SpeechRecognition/

По моим несистематическим наблюдениям виспер от грока на больших текстах глотает абзацы если звук не идеален, толи сам виспер виноват, толи они его пережали квантизацией

"Гугл" неплох но ему надо резать звук по 50 секунд, очень неудобно, и лимиты там небольшие

deepgram и assemblyai очень хороши

Локальный виспер слишком толстый, на дешевой впс его запустить нельзя. Есть еще vosk но у него качество похуже и язык надо выбирать один.

Оптимальный вариант - whisper и "гугол" для коротких записей, gemini для длинных, ассембли и дипграм для длинных если нужны дополнительные фишки типа распознавания голосов и временные отметки.

Со мной связался фаундер VseGPT, ошибки исправил, теперь все работает)

Спасибо автору за проведенную работу, обзор и включение в список проекта Шöпот.

Приятно было увидеть наш небольшой проект в сравнении с крупными игроками💙

Предположим, что обзор не предвзят, ведь нас тут так хвалили!)

Добавим пару комментариев про себя:

1) Мы не даем доступ к API в автоматическом режиме и всегда просим рассказать клиентов, какую задачу они планируют решать с помощью нашего сервиса. В большинстве сервисов работа строится на самостоятельной работе клиента, мы же работаем с B2B и помогаем подобрать наиболее эффективный инструмент и сценарий на всем пути от подключения до запуска в промышленную эксплуатацию.

2) Для корпоративных клиентов мы производим доработку и создание кастомизированных API и автоматизированных процессов по ТЗ заказчика. Ведь клиенту зачастую нужен не просто транскрипт, а дальнейшая обработка результата и интеграция результата в собственные процессы.

3) API Шöпот по умолчанию работает в асинхронном режиме, так как на файлах длинной больше 5-10 минут держать открытое соединение неэффективно. При этом, мы поддерживаем синхронную работу и по запросу клиента можем активировать данный функционал. Скорость обработки файла длинной 1 час составляет в среднем 6-7 минут с учетом предварительно обработки и разделения на спикеров.

4) Ценообразование сервиса динамическое и привязано к объемам потребления. Автор запросил минимальный объем для тестирования и получил максимально возможную стоимость) Мы не стремимся быть самыми дешевыми, наша цель - предоставление качественного сервиса с возможностью кастомизации и поддержкой.

Роман Ледянкин

Основатель Шöпот

API не нужны, давайте on-premise модели.

Для пет проектов актуальны 5 вариантов

groq дает 8 часов быстрого виспера в сутки (давно уже, стабильно, быстро и по сути это безлимит)

google gemini - дает бесплатно 1500 запросов в сутки, ответ не больше 30т символов, резать большое неудобно, глюки специфичные для ллм но в целом не хуже виспера

deepgram дает 700 часов транскрибации сразу после простого подтверждения емейла

assemblyai дает так же 100 часов

И еще один вариант отсюда, дефолтный, вроде бы это гугл но хз https://pypi.org/project/SpeechRecognition/

По моим несистематическим наблюдениям виспер от грока на больших текстах глотает абзацы если звук не идеален, толи сам виспер виноват, толи они его пережали квантизацией

"Гугл" неплох но ему надо резать звук по 50 секунд, очень неудобно, и лимиты там небольшие

deepgram и assemblyai очень хороши

Локальный виспер слишком толстый, на дешевой впс его запустить нельзя. Есть еще vosk но у него качество похуже и язык надо выбирать один.

Оптимальный вариант - whisper и "гугол" для коротких записей, gemini для длинных, ассембли и дипграм для длинных если нужны дополнительные фишки типа распознавания голосов и временные отметки.

Спасибо! Закрепил Ваш комментарий)

Ещё не начав читать комментарии тоже порывался сразу же написать о дипграм. Спасибо, что опередили и ответили более развёрнуто. Скажите, пожалуйста, я так понял, что у вас был реальный опыт работы с дипграм, как он вам в условиях сильной зашумлённости , диаризация вас устроила?

Со мной связался фаундер VseGPT, ошибки исправил, теперь все работает)

Надо ещё учитывать качество исходной записи. Я вообще локальный Whisper v3 Large использую и для диктовки, и для расшифровки, и ужасно им доволен. Но как-то встала задача расшифровать записи судебных заседаний, сделанные юристами на телефон, лежащий на столе. Ну т.е. там на переднем плане громко перелистывают бумажки, а на заднем через фоновый шум из разных углов большого зала кое-как пробиваются голоса участников процесса, иногда перебивающих друг друга. Whisper не справился вообще, бóльшая часть записи по его мнению вообще голоса не содержала. Зато вполне приемлемо справился сберовский SaluteSpeech API (в этот обзор не вошедший) - не идеал, но уже можно читать и общий смысл дискуссии понять.

Согласен с Вами. Для каждого случая надо самому проверять, как модель работает

Спасибо автору за проведенную работу, обзор и включение в список проекта Шöпот.

Приятно было увидеть наш небольшой проект в сравнении с крупными игроками💙

Предположим, что обзор не предвзят, ведь нас тут так хвалили!)

Добавим пару комментариев про себя:

1) Мы не даем доступ к API в автоматическом режиме и всегда просим рассказать клиентов, какую задачу они планируют решать с помощью нашего сервиса. В большинстве сервисов работа строится на самостоятельной работе клиента, мы же работаем с B2B и помогаем подобрать наиболее эффективный инструмент и сценарий на всем пути от подключения до запуска в промышленную эксплуатацию.

2) Для корпоративных клиентов мы производим доработку и создание кастомизированных API и автоматизированных процессов по ТЗ заказчика. Ведь клиенту зачастую нужен не просто транскрипт, а дальнейшая обработка результата и интеграция результата в собственные процессы.

3) API Шöпот по умолчанию работает в асинхронном режиме, так как на файлах длинной больше 5-10 минут держать открытое соединение неэффективно. При этом, мы поддерживаем синхронную работу и по запросу клиента можем активировать данный функционал. Скорость обработки файла длинной 1 час составляет в среднем 6-7 минут с учетом предварительно обработки и разделения на спикеров.

4) Ценообразование сервиса динамическое и привязано к объемам потребления. Автор запросил минимальный объем для тестирования и получил максимально возможную стоимость) Мы не стремимся быть самыми дешевыми, наша цель - предоставление качественного сервиса с возможностью кастомизации и поддержкой.

Роман Ледянкин

Основатель Шöпот

Спасибо за комментарий, Роман! Закрепил ваш ответ

Привет! Спасибо за подробное сравнение, круто

Кажется, что сюда очень просится elevenlabs

Не знал, что у них есть speech-to-text, думал, они больше по голосам специалисты) На Artificial Analysis он совсем недавно появился

А почему не взяли в обзор сервисы Google speech?

Потому что это худшее что есть среди распознавании речи

Статья супер в тему, как-раз ищу стабильный сервис!

Только вот мне нужно, чтобы эта стабильность сочеталась с возможностью передавать по API ссылку на аудио и, судя по всему, работать с Webhook, так как для тельность максимальная моих запросов может быть 60 секунд

Если кто знает такой сервис, то посоветуйте, пожалуйста.

P.s. deepgram пробовал, но качество в итоге не очень и ошибки часто выдаёт, также в 60 секунд не всегда успевает

Готов предложить API.

Модель на уровне Fireworks.

STT, VAD, Спикеры, Тайминг. (+LLM (свои модели обученные на пост обработку. Поддержка русского, английского и испанского только) нормализация и саммари, либо анализа по нужным характеристиками)

Цена за простую транскрибацию тоже в районе 80-100 за 1000мин.

Diarization + LLM ×3.

Сервис на продакшне. Используем как внутренний STT API.

Есть прямая транскрибация и batching (веб хук либо статус файла со скидкой)

Скорость от 90-140х

Определение языка, есть возможность до обучить модели под задачи бизнеса.

Sign up to leave a comment.

Articles