Комментарии 20
Здравствуйте. Хочу читать стихи своим голосом. Важно качество, я так и не понял, из open source есть щас что-то подходящее ?
Было бы интересно сравнить с открытым whisper - как он показывает себя в точности\скорости. Спасибо за статью!
Спасибо за обзор! Пробовали ли считать не только WER, но и CER или анализировать типы ошибок (замены/пропуски)?
Интересно ещё посмотреть на характер ошибок, а не просто общий WER :)
За весь свой опыт разработки пользовался многими s2t сервисами с момента выхода Whisper, и, кажется, перепробовал 4 — 5 решений, которые перечислили в этой статье. Интересно поделиться своими наблюдениями без углубленной аналитики, просто как я использовал сервисы по API.
Whisper очень просто подключается, пополняется (если есть сторонние сервисы, о которых, конечно, умолчим), но ест очень много денег. Качество довольно приемлемое, я был удовлетворен, но из-за необходимости сокращения расходов и увеличения потока русской речи решил попробовать другие решения на рынке, и в первую очередь наткнулся, конечно, на Яндекс.
У меня положительный опыт работы с прочими инструментами этой компании, и в целом я отношусь к ней с долей оптимизма, но именно SpeechKit меня немного разочаровал. Стоимость, конечно, ниже Whisper, но если брать в расчет, что это российский аналог, то удивлен, насколько она высока. И качество удовлетворяло далеко не всегда (оно было приемлемым, но примерно на уровне того же Whisper, хотя у него русский — далеко не целевой язык).
На самом деле, не думал переходить на другой сервис и даже не искал подобные, но мне в Телеграме выползла таргетированная реклама Nexara, о которой вы упоминали в статье, и могу сказать, что сервис меня порадовал. Конечно, оценить объективность аналитики и графиков не могу, но на обывательском уровне решение качественнее сервиса от Яндекса в разы. Порадовал и low-cost, поскольку снижение затрат было одной из целевых задач для моего сервиса, но по качеству у меня вопросов нет.
Интересно посмотреть, как с вашей стороны будет проведена более глубокая аналитика, поскольку интересно разобраться, как это все работает. С другими сервисами, которые вы упомянули, конечно, сталкивался, и могу также отметить Grok (у меня опыт был более позитивный, чем описан у вас), но он уступил по качеству всем трем решениям, описанным мной ранее, и поэтому решил пользоваться прочими решениями. Нексара пока радует, но, возможно, найду какой-нибудь другой сервис и буду пользоваться им (у которого будет лучшее соотношение цена/качество) — будет интересно почитать ваши статьи в будущем, если продолжите обозревать эту тематику.
Модель Paraket V3 зачастую делает меньше ошибок, чем Whisper Large V3 (V2)! А она есть где-то в API?
Хотел уточнить по цифрам. Например wer 0.5496 по вашей таблице - выходит, что модель ошиблась в половине случаев если считать по общей сумме? Сам замеряю качество и бывают например случае где одни модели "слышат", то что не надо "слышать", другие же наоборот.
Можете ли вы выложить полученные тексты в архиве, могут быть неточности в том числе на стороне "золотого датасета" - т.е. какая нибудь модель распознала лучше, чем предлагаемые субтитры (например написано "идет музыка", "песня") - тестируемая модель пропустила т.к. посчитала шумом, а вы при проверке добавляете ошибку wer.
Привет! Спасибо за статью! А есть возможность поделиться датасетом на котором производилась оценка?
Хотелось бы самому тоже выполнить оценку некоторых других сервисов и сравнить с результатами опубликованными в статье
Добрый вечер, обновил репозиторий, добавил туда описания файлов, также добавил код, чтобы вы могли протестировать провайдеров на своих файлах. https://github.com/bobastia/habr-benchmark-2026/blob/main/audio/README.md
Lemonfox движок whisper, цена 0.17$ час
на этот раз, я понял как работает их решение и смогу протестить его уже по-нормальному
"на этот раз я понял, как работает их решение, и смогу протестить его уже по-нормальному". Зачем использовать сложные предложения, если не умеешь)
Интересно будет почитать обратную статью от тех брендов, которые оказались в низу таблици. Неужели все так плохо или тесты были для их модели не реаливанины.
Здравствуйте! Мы используем сервис Speech2Text для расшифровки записи совещаний и переговоров. Устраивает точность распознавания, разделение на спикеров, форматирование готового текста. Жалко, что эта программа не попала в Ваш обзор.
"Ненавязчивая" реклама Nexara
не знаю откуда такие метрики у Nexara по сравнению с Palatine. Это неправда. Я как раз был активным пользователем Nexara и потом перешёл на Palatine потому что нексара очень часто падала, и работала медленно! у Palatine тоже бывают конечно проблемы но он 100000% работает ощутимо быстрее Nexara и стабильнее. я остался на нём.
Интересная тематика, мы как раз для наших проектов ищем транскрибацию (лучше всего из РФ)
Но честно говоря, статья сделана плохо:
Вы говорите о "бенчмарках", но при этом не выложили код
Говорите о видео, на которых основывали, но не приложили их
Где сам результат транскрибации?
"репозиторий с более подробными таблицами из статьи" – это просто набор png с графиками, которые ничего дополнительного не несут
А еще есть предположение, что вы использовали один и тот же S3 (зарубежный или РФ) и геолокация может очень сильно влиять на результаты
Короче, без вот этих пунктов выводы невозможно проверить, а значит вы могли написать абсолютно что угодно
И вот это фраза: "Если вам нужно самое лучшее качество и вы не в России, берите ElevenLabs. Если же вам нужна высокая скорость и отличное качество, пользуйтесь Nexara. Если вы хотите порезать стоимость транскрибации в несколько раз, и вам не очень важно высокое качество, используйте Groq." – буквально переводится как: "Не в РФ – ElevenLabs. В РФ – Nexara. И ни туда, ни сюда." – а поскольку статья в РФ источнике, попахивает рекламой
Могу ошибаться, но чтобы это понять, выложите вводные и результаты ваших экспериментов из пунктов, что я написал выше
А пока это псевдоисследование
Добрый вечер, спасибо за Ваш комментарий.
Добавил в репозиторий графики по каждому файлу и описание каждого файла, с пояснением, что конкретно проверяется в каждом файле.
Про S3 Вы правы, я указал в статье, что скорость скорее всего обусловлена использованием S3 от Яндекса, и, действительно, российские сервера в такой ситуации имеют преимущество. Тот же Groq, если бы была возможность отправлять файл ссылкой (да еще и на какой-нибудь S3 от Amazon), скорее всего обогнал бы всех по скорости.
Сами аудио не могу показать, к сожалению, так как я их скачал просто с ютуба и могут быть проблемы с авторским правом, рекомендую потестить на своих данных, ноутбуки я добавил в репозиторий.
Спасибо за фидбек, в следующий раз в статье более подробно распишу типы ошибок у каждого провайдера.

Обзор лучших API для распознавания речи 2026