Обновить

Комментарии 20

ЗакрепленныеЗакреплённые комментарии
НЛО прилетело и опубликовало эту надпись здесь

Со мной связался фаундер VseGPT, ошибки исправил, теперь все работает)

Спасибо автору за проведенную работу, обзор и включение в список проекта Шöпот.

Приятно было увидеть наш небольшой проект в сравнении с крупными игроками💙

Предположим, что обзор не предвзят, ведь нас тут так хвалили!)

Добавим пару комментариев про себя:

1) Мы не даем доступ к API в автоматическом режиме и всегда просим рассказать клиентов, какую задачу они планируют решать с помощью нашего сервиса. В большинстве сервисов работа строится на самостоятельной работе клиента, мы же работаем с B2B и помогаем подобрать наиболее эффективный инструмент и сценарий на всем пути от подключения до запуска в промышленную эксплуатацию.

2) Для корпоративных клиентов мы производим доработку и создание кастомизированных API и автоматизированных процессов по ТЗ заказчика. Ведь клиенту зачастую нужен не просто транскрипт, а дальнейшая обработка результата и интеграция результата в собственные процессы.

3) API Шöпот по умолчанию работает в асинхронном режиме, так как на файлах длинной больше 5-10 минут держать открытое соединение неэффективно. При этом, мы поддерживаем синхронную работу и по запросу клиента можем активировать данный функционал. Скорость обработки файла длинной 1 час составляет в среднем 6-7 минут с учетом предварительно обработки и разделения на спикеров.

4) Ценообразование сервиса динамическое и привязано к объемам потребления. Автор запросил минимальный объем для тестирования и получил максимально возможную стоимость) Мы не стремимся быть самыми дешевыми, наша цель - предоставление качественного сервиса с возможностью кастомизации и поддержкой.

Роман Ледянкин

Основатель Шöпот

API не нужны, давайте on-premise модели.

НЛО прилетело и опубликовало эту надпись здесь

Спасибо! Закрепил Ваш комментарий)

Ещё не начав читать комментарии тоже порывался сразу же написать о дипграм. Спасибо, что опередили и ответили более развёрнуто. Скажите, пожалуйста, я так понял, что у вас был реальный опыт работы с дипграм, как он вам в условиях сильной зашумлённости , диаризация вас устроила?

Как раз думал, что-то такое поискать 👍

Со мной связался фаундер VseGPT, ошибки исправил, теперь все работает)

Надо ещё учитывать качество исходной записи. Я вообще локальный Whisper v3 Large использую и для диктовки, и для расшифровки, и ужасно им доволен. Но как-то встала задача расшифровать записи судебных заседаний, сделанные юристами на телефон, лежащий на столе. Ну т.е. там на переднем плане громко перелистывают бумажки, а на заднем через фоновый шум из разных углов большого зала кое-как пробиваются голоса участников процесса, иногда перебивающих друг друга. Whisper не справился вообще, бóльшая часть записи по его мнению вообще голоса не содержала. Зато вполне приемлемо справился сберовский SaluteSpeech API (в этот обзор не вошедший) - не идеал, но уже можно читать и общий смысл дискуссии понять.

Согласен с Вами. Для каждого случая надо самому проверять, как модель работает

Спасибо автору за проведенную работу, обзор и включение в список проекта Шöпот.

Приятно было увидеть наш небольшой проект в сравнении с крупными игроками💙

Предположим, что обзор не предвзят, ведь нас тут так хвалили!)

Добавим пару комментариев про себя:

1) Мы не даем доступ к API в автоматическом режиме и всегда просим рассказать клиентов, какую задачу они планируют решать с помощью нашего сервиса. В большинстве сервисов работа строится на самостоятельной работе клиента, мы же работаем с B2B и помогаем подобрать наиболее эффективный инструмент и сценарий на всем пути от подключения до запуска в промышленную эксплуатацию.

2) Для корпоративных клиентов мы производим доработку и создание кастомизированных API и автоматизированных процессов по ТЗ заказчика. Ведь клиенту зачастую нужен не просто транскрипт, а дальнейшая обработка результата и интеграция результата в собственные процессы.

3) API Шöпот по умолчанию работает в асинхронном режиме, так как на файлах длинной больше 5-10 минут держать открытое соединение неэффективно. При этом, мы поддерживаем синхронную работу и по запросу клиента можем активировать данный функционал. Скорость обработки файла длинной 1 час составляет в среднем 6-7 минут с учетом предварительно обработки и разделения на спикеров.

4) Ценообразование сервиса динамическое и привязано к объемам потребления. Автор запросил минимальный объем для тестирования и получил максимально возможную стоимость) Мы не стремимся быть самыми дешевыми, наша цель - предоставление качественного сервиса с возможностью кастомизации и поддержкой.

Роман Ледянкин

Основатель Шöпот

Спасибо за комментарий, Роман! Закрепил ваш ответ

Привет! Спасибо за подробное сравнение, круто

Кажется, что сюда очень просится elevenlabs

Не знал, что у них есть speech-to-text, думал, они больше по голосам специалисты) На Artificial Analysis он совсем недавно появился

А почему не взяли в обзор сервисы Google speech?

Потому что это худшее что есть среди распознавании речи

Статья супер в тему, как-раз ищу стабильный сервис!

Только вот мне нужно, чтобы эта стабильность сочеталась с возможностью передавать по API ссылку на аудио и, судя по всему, работать с Webhook, так как для тельность максимальная моих запросов может быть 60 секунд

Если кто знает такой сервис, то посоветуйте, пожалуйста.

P.s. deepgram пробовал, но качество в итоге не очень и ошибки часто выдаёт, также в 60 секунд не всегда успевает

Готов предложить API.

Модель на уровне Fireworks.

STT, VAD, Спикеры, Тайминг. (+LLM (свои модели обученные на пост обработку. Поддержка русского, английского и испанского только) нормализация и саммари, либо анализа по нужным характеристиками)

Цена за простую транскрибацию тоже в районе 80-100 за 1000мин.

Diarization + LLM ×3.

Сервис на продакшне. Используем как внутренний STT API.

Есть прямая транскрибация и batching (веб хук либо статус файла со скидкой)

Скорость от 90-140х

Определение языка, есть возможность до обучить модели под задачи бизнеса.

Предложение в силе?

Попробовал Яндекс. Лень писать. В кратце:
(у других таких ... требований нет) Споилер в итоге shopot.ai лучше чем nexara оказался А whisper еще попробую Так вот Яндекс (speechkit/playground) :
1 Введите Ваше Фамилию Имя
2 Привяжите карту с хоть 1 рублем
3 Доолго подождите пока счет создается
4 Только аудио и <=60MB Причем ogg wav и из сжатого получается только MP3
ладно преобразовал ffmpeg -i f.mp4 -vn -b:a 320k -maxrate 900k -bufsize 2M -f segment -segment_time 1500 -reset_timestamps 1 f_%03d.mp3
5 ДООЛГОЕ распознавание и тупняк UI перед ним
6 Результат (каждая строка 2жды!)
[00:23.900 - 00:52.180] Показать для окончания показать 1 достаточно ааа общепризнанную и широко используемую методологию а именно методовый фостер который вы видите на экране который в принципе говорит или дает указание как именно можно да
[00:23.900 - 00:52.180] Показать для окончания показать 1 достаточно ааа общепризнанную и широко используемую методологию а именно методовый фостер который вы видите на экране который в принципе говорит или дает указание как именно можно да
PS: правильный результат от shopot.ai
3
00:00:21,120 --> 00:00:43,399
А именно, во-первых, я хочу в виде окончания показать одну достаточно общепризнанную и широко используемую методологию, а именно методологию Фостера, которую вы видите на экране,

4
00:00:43,399 --> 00:01:08,400
которая, в принципе, говорит или дает указания, как именно можно, если вы хотите построить параллельный алгоритм, в принципе, по любой теме, для любых приложений, как это принципиально можно сделать.
PS все кроме яндекса дали на выбор скачать srt , скачать txt После яндекса мне пришлось писать скрипт преобразования в норм srt и txt а еще не скачать кнопка а скопировать

ps в церах яндекса я не разобралcя и послал его на ....А nexara .36руб/мин В то время как шопот 2р/мин при 4х часах в месяц Короче шопот в 5.5 раза дороже конечно Вот результат nexara
4
00:00:21,820 --> 00:00:25,859
а именно, во -первых, я хочу...

5
00:00:25,859 --> 00:00:29,739
показать, в видеокончания показать

6
00:00:29,739 --> 00:00:35,739
одну достаточно общепризнанную и

7
00:00:35,859 --> 00:00:40,899
широко используемую методологию, а

8
00:00:40,899 --> 00:00:42,500
именно методологию Фостера, которую

9
00:00:42,500 --> 00:00:44,600
вы видите на экране
захотелось попробовать whisper а то 2р/мин дороговато и всё таки при такой разнице nexara выгоднее

whisper можно запускать на своём компе если это не селерон офисный

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации