Как стать автором
Обновить

Комментарии 9

В целом и да и нет. Мейнтейнить виспер для своих нужд не продавая его будет абсолютно убыточно ввиду ресурсоемкости. Поэтому для смалл/мид сайз проектов смело юзать апи и не париться

Это же январь 2023. такое старье в момент технологической сингулярности. Это как сравнивать doom 1 и doom eternal.

Я пробовал гонять его на своих аудиосообщениях на русском языке. На чистом звуке примерно сопоставимое качество. Приятная фича - разбиение текста на параграфы. Но косяков всё-таки примерно столько же, сколько у Whisper. А вот как только добавляется шум дороги - Assembly падает в качестве гораздо быстрее OpenAI.

Плюс, для тех же голосовых, OpenAI нормально распознаёт язык (если сделать ок промпт). А вот Assembly Auto Language Detection стабильно принимает русский за испанский (или что-то такое, я не в курсе).

Хотя из плюсов, в Assembly есть timestamp для каждого слова, детекция спикеров и эмоций. Звучит полезно, но я не тестил.

А если взять whisperx то там есть и diarize и "подсветка слов" и работает он побыстрее. Так что плюсы сомнительны :)

Проприетарщина же. Пусть возвращаются со ссылкой на HuggingFace.

Как то однобоко и прям как промоушен. Чего не упомянули deepgram nova2 тогда уже. Та даже и первую версию которая на голову выше whisper. Ну и aws transcribe которая whisper обходит.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий