bobastia10 фев в 08:01

Обзор лучших API для распознавания речи 2026

Простой

6 мин

10K

SaaS / S+S * ИнфографикаИскусственный интеллектОблачные сервисы * Звук

Обзор

+16

Комментарии 22

Закреплённые комментарии

shopot_ai 9 мар в 13:40

Спасибо автору за продолжение серии тестов!

Как и в прошлый раз, внесу несколько комментариев по работе платформы Шöпот, которые помогут более корректно читать результаты тестов по нам. Поскольку доступ к API, это лишь часть платформы по работе с голосом и обработке результатов через нейросети.

1) Текущий функционал доступный всем пользователям:
- доступ через Web, c поиском по транскриптам, online-плеером и просмотром результатов, возможностью делится результатами;
- загрузка файла по ссылке, как прямой, так и ссылкой на запись в соц сетях, YouTube, Yandex.Диск, Google Drive и другие;
- разделение на спикеров (диаризация);
- отправка результатов в нужном формате (docx, srt, vtt, txt) по итогам завершения обработки по Почте и в мессенджеры (открытие публичного доступна через мессенджеры в течении 2 квартала 2026г.);
- AI функции - автоматическое краткое содержание, тезисы, AI чат с файлом. Этот функционал позволяет пользователю решить большинство своих задач по работе с файлом в одном окне. Ведь, чаще всего, транскрипт, это только промежуточный этап, а не конечная задача пользователя;
- API доступ - разделенный на спикеров транскрипт c AI суммаризацией через один запрос и по единой стоимости за минуту.

В каждом платном тарифе включены все эти услуги без дополнительных платежей.

2) Тариф:
На любом публично доступном платном тарифе пользователь получает от 4 до 50 часов включенных в тариф ежемесячно. При ежемесячной оплате итоговая стоимость минуты ~2р., при оплате за год стоимость минуты снижается вплоть до 1.5р. за минуту обработки. Эта стоимость включает весь вышеперечисленный функционал.

3) Тарифы только API:
Для расчета итогового тарифа, клиент предоставляет информацию о решаемой задаче, включая потребность в объемах, скорости, одновременных потоках обработки и других параметрах. На основании этих данных подготавливается индивидуальное предложение, как по работе в рамках существующих мощностей, так и с выделением облачного/выделенного кластера или реализацией on-premise решения. Мы решаем задачи клиента под ключ.

4) Скорость обработки:
В зависимости от потребностей клиента по соотношению цена/качество/скорость мы используем различные модели транскрибации и конфигурации серверов. Разброс скорости транскрибации может составлять от 9 до 70 часов распознанных файлов на один поток.
В части проведенного тестирования, важно понимать, была ли включена диаризация и какой использовался метод получения результатов. Это значительно влияет на скорость обработки, в случае с включенной диаризацией.

5) Ограничение в 60 минут:
В сервисе есть возможность тестировать обработку до 30 минут каждый месяц на Бесплатном тарифе через Web, но, в связи с тем, что мы наблюдаем большое количество попыток множественных регистраций и параллельных обработок с целью пользоваться сервисом бесконечно бесплатно, нам пришлось ввести ограничение на минимальный остаток минут на балансе для использования API.

6) Ошибки обработки:
Буду благодарен если пришлете на hi@shopot.ai запросы, которые вызвали Server Error, а так же код ошибки. Это поможет нам выяснить, в чем была проблема и исправиться.

Роман Ледянкин

Основатель Шöпот

Andrei9385 10 фев в 08:28

Здравствуйте. Хочу читать стихи своим голосом. Важно качество, я так и не понял, из open source есть щас что-то подходящее ?

bobastia 10 фев в 10:03

Добрый день, вы, возможно, имеете в виду Text to Speech технологию, у меня же статья про обратное - про перевод речи в текст

hardtop 10 фев в 11:10

Было бы интересно сравнить с открытым whisper - как он показывает себя в точности\скорости. Спасибо за статью!

neirovdele 10 фев в 15:52

Спасибо за обзор! Пробовали ли считать не только WER, но и CER или анализировать типы ошибок (замены/пропуски)?

Интересно ещё посмотреть на характер ошибок, а не просто общий WER :)

bobastia 10 фев в 15:55

Добрый вечер, спасибо за комментарий! CER не планировали проверять, но характер ошибок - это прямо хорошая идея. Там как раз бы посмотреть на ошибки в видео, где несколько языков, в следующий раз напишу поподробнее про это

faceCrash 10 фев в 15:52

За весь свой опыт разработки пользовался многими s2t сервисами с момента выхода Whisper, и, кажется, перепробовал 4 — 5 решений, которые перечислили в этой статье. Интересно поделиться своими наблюдениями без углубленной аналитики, просто как я использовал сервисы по API.

Whisper очень просто подключается, пополняется (если есть сторонние сервисы, о которых, конечно, умолчим), но ест очень много денег. Качество довольно приемлемое, я был удовлетворен, но из-за необходимости сокращения расходов и увеличения потока русской речи решил попробовать другие решения на рынке, и в первую очередь наткнулся, конечно, на Яндекс.

У меня положительный опыт работы с прочими инструментами этой компании, и в целом я отношусь к ней с долей оптимизма, но именно SpeechKit меня немного разочаровал. Стоимость, конечно, ниже Whisper, но если брать в расчет, что это российский аналог, то удивлен, насколько она высока. И качество удовлетворяло далеко не всегда (оно было приемлемым, но примерно на уровне того же Whisper, хотя у него русский — далеко не целевой язык).

На самом деле, не думал переходить на другой сервис и даже не искал подобные, но мне в Телеграме выползла таргетированная реклама Nexara, о которой вы упоминали в статье, и могу сказать, что сервис меня порадовал. Конечно, оценить объективность аналитики и графиков не могу, но на обывательском уровне решение качественнее сервиса от Яндекса в разы. Порадовал и low-cost, поскольку снижение затрат было одной из целевых задач для моего сервиса, но по качеству у меня вопросов нет.

Интересно посмотреть, как с вашей стороны будет проведена более глубокая аналитика, поскольку интересно разобраться, как это все работает. С другими сервисами, которые вы упомянули, конечно, сталкивался, и могу также отметить Grok (у меня опыт был более позитивный, чем описан у вас), но он уступил по качеству всем трем решениям, описанным мной ранее, и поэтому решил пользоваться прочими решениями. Нексара пока радует, но, возможно, найду какой-нибудь другой сервис и буду пользоваться им (у которого будет лучшее соотношение цена/качество) — будет интересно почитать ваши статьи в будущем, если продолжите обозревать эту тематику.

bobastia 10 фев в 15:56

Спасибо за комментарий! Уже выше писали про глубокую аналитику, напишу обязательно)

VipStars 10 фев в 15:53

Модель Paraket V3 зачастую делает меньше ошибок, чем Whisper Large V3 (V2)! А она есть где-то в API?

bobastia 10 фев в 15:54

Насколько мне известно, в Nexara модель Nexara Experimental - это Parakeet v3. На нее документации нет, и я ее просто в дашборде у них протыкал, но ошибки были очень похожи. Попробуйте

iwram 10 фев в 16:16

Хотел уточнить по цифрам. Например wer 0.5496 по вашей таблице - выходит, что модель ошиблась в половине случаев если считать по общей сумме? Сам замеряю качество и бывают например случае где одни модели "слышат", то что не надо "слышать", другие же наоборот.

Можете ли вы выложить полученные тексты в архиве, могут быть неточности в том числе на стороне "золотого датасета" - т.е. какая нибудь модель распознала лучше, чем предлагаемые субтитры (например написано "идет музыка", "песня") - тестируемая модель пропустила т.к. посчитала шумом, а вы при проверке добавляете ошибку wer.

Dmitrii_Shatnev 10 фев в 16:38

Привет! Спасибо за статью! А есть возможность поделиться датасетом на котором производилась оценка?

Хотелось бы самому тоже выполнить оценку некоторых других сервисов и сравнить с результатами опубликованными в статье

bobastia 17 фев в 19:35

Добрый вечер, обновил репозиторий, добавил туда описания файлов, также добавил код, чтобы вы могли протестировать провайдеров на своих файлах. https://github.com/bobastia/habr-benchmark-2026/blob/main/audio/README.md

Kwentin3 10 фев в 22:01

Lemonfox движок whisper, цена 0.17$ час

winkyBrain 11 фев в 03:46

на этот раз, я понял как работает их решение и смогу протестить его уже по-нормальному

"на этот раз я понял, как работает их решение, и смогу протестить его уже по-нормальному". Зачем использовать сложные предложения, если не умеешь)

0ri0n 11 фев в 04:20

Интересно будет почитать обратную статью от тех брендов, которые оказались в низу таблици. Неужели все так плохо или тесты были для их модели не реаливанины.

Boris688 13 фев в 05:39

Здравствуйте! Мы используем сервис Speech2Text для расшифровки записи совещаний и переговоров. Устраивает точность распознавания, разделение на спикеров, форматирование готового текста. Жалко, что эта программа не попала в Ваш обзор.

KItmiL13 13 фев в 05:40

"Ненавязчивая" реклама Nexara

errogaht 13 фев в 07:56

не знаю откуда такие метрики у Nexara по сравнению с Palatine. Это неправда. Я как раз был активным пользователем Nexara и потом перешёл на Palatine потому что нексара очень часто падала, и работала медленно! у Palatine тоже бывают конечно проблемы но он 100000% работает ощутимо быстрее Nexara и стабильнее. я остался на нём.

Dionid 13 фев в 11:00

Интересная тематика, мы как раз для наших проектов ищем транскрибацию (лучше всего из РФ)

Но честно говоря, статья сделана плохо:

Вы говорите о "бенчмарках", но при этом не выложили код
Говорите о видео, на которых основывали, но не приложили их
Где сам результат транскрибации?
"репозиторий с более подробными таблицами из статьи" – это просто набор png с графиками, которые ничего дополнительного не несут
А еще есть предположение, что вы использовали один и тот же S3 (зарубежный или РФ) и геолокация может очень сильно влиять на результаты

Короче, без вот этих пунктов выводы невозможно проверить, а значит вы могли написать абсолютно что угодно

И вот это фраза: "Если вам нужно самое лучшее качество и вы не в России, берите ElevenLabs. Если же вам нужна высокая скорость и отличное качество, пользуйтесь Nexara. Если вы хотите порезать стоимость транскрибации в несколько раз, и вам не очень важно высокое качество, используйте Groq." – буквально переводится как: "Не в РФ – ElevenLabs. В РФ – Nexara. И ни туда, ни сюда." – а поскольку статья в РФ источнике, попахивает рекламой

Могу ошибаться, но чтобы это понять, выложите вводные и результаты ваших экспериментов из пунктов, что я написал выше

А пока это псевдоисследование

bobastia 17 фев в 19:37

Добрый вечер, спасибо за Ваш комментарий.
Добавил в репозиторий графики по каждому файлу и описание каждого файла, с пояснением, что конкретно проверяется в каждом файле.

Про S3 Вы правы, я указал в статье, что скорость скорее всего обусловлена использованием S3 от Яндекса, и, действительно, российские сервера в такой ситуации имеют преимущество. Тот же Groq, если бы была возможность отправлять файл ссылкой (да еще и на какой-нибудь S3 от Amazon), скорее всего обогнал бы всех по скорости.

Сами аудио не могу показать, к сожалению, так как я их скачал просто с ютуба и могут быть проблемы с авторским правом, рекомендую потестить на своих данных, ноутбуки я добавил в репозиторий.

Спасибо за фидбек, в следующий раз в статье более подробно распишу типы ошибок у каждого провайдера.

DavidAsatryan 5 мар в 15:53

Очень круто, спасибо!

Ровно сегодня хотел пересесть на что-то более быстрое и качественное, ваша стать попалась первой и больше других статей читать не понадобилось, ибо благодаря вам – решение выбрал. Через буквально полчаса после прочтения статьи уже все настроил и радовался как дебил)

Так что, спасибо за топовую статью!

shopot_ai 9 мар в 13:40

Роман Ледянкин

Основатель Шöпот

Зарегистрируйтесь на Хабре, чтобы оставить комментарий