Lithium_vn 12 апр 2024 в 16:05

Universal-1 от AssemblyAI превзошел Whisper от OpenAI: новый лидер в гонке решений для распознавания речи

3 мин

3.3K

Блог компании BotHubМашинное обучение*Искусственный интеллект

Комментарии 9

Kristaller486 12 апр 2024 в 18:03

Но Whisper - opensouce, а обсуждаемая модель только по API.

Nabusteam 14 апр 2024 в 00:45

В целом и да и нет. Мейнтейнить виспер для своих нужд не продавая его будет абсолютно убыточно ввиду ресурсоемкости. Поэтому для смалл/мид сайз проектов смело юзать апи и не париться

janvarev 12 апр 2024 в 19:10

А они точно лидеры?

Вот например бенчмарки для открытых моделей на русской речи - и там Whisper не всегда топовая модель: https://alphacephei.com/nsh/2023/01/22/russian-models.html

n0isy 13 апр 2024 в 21:35

Это же январь 2023. такое старье в момент технологической сингулярности. Это как сравнивать doom 1 и doom eternal.

nshmyrev 15 апр 2024 в 17:02

Последняя версия тестов тут https://alphacephei.com/nsh/2024/04/14/russian-models.html

VPetukhov 12 апр 2024 в 19:11

Я пробовал гонять его на своих аудиосообщениях на русском языке. На чистом звуке примерно сопоставимое качество. Приятная фича - разбиение текста на параграфы. Но косяков всё-таки примерно столько же, сколько у Whisper. А вот как только добавляется шум дороги - Assembly падает в качестве гораздо быстрее OpenAI.

Плюс, для тех же голосовых, OpenAI нормально распознаёт язык (если сделать ок промпт). А вот Assembly Auto Language Detection стабильно принимает русский за испанский (или что-то такое, я не в курсе).

Хотя из плюсов, в Assembly есть timestamp для каждого слова, детекция спикеров и эмоций. Звучит полезно, но я не тестил.

eli314 13 апр 2024 в 00:13

А если взять whisperx то там есть и diarize и "подсветка слов" и работает он побыстрее. Так что плюсы сомнительны :)

Araki_Satoshi 13 апр 2024 в 09:47

Проприетарщина же. Пусть возвращаются со ссылкой на HuggingFace.

Nabusteam 14 апр 2024 в 00:41

Как то однобоко и прям как промоушен. Чего не упомянули deepgram nova2 тогда уже. Та даже и первую версию которая на голову выше whisper. Ну и aws transcribe которая whisper обходит.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий