Комментарии 9
Но Whisper - opensouce, а обсуждаемая модель только по API.
А они точно лидеры?
Вот например бенчмарки для открытых моделей на русской речи - и там Whisper не всегда топовая модель: https://alphacephei.com/nsh/2023/01/22/russian-models.html
Это же январь 2023. такое старье в момент технологической сингулярности. Это как сравнивать doom 1 и doom eternal.
Последняя версия тестов тут https://alphacephei.com/nsh/2024/04/14/russian-models.html
Я пробовал гонять его на своих аудиосообщениях на русском языке. На чистом звуке примерно сопоставимое качество. Приятная фича - разбиение текста на параграфы. Но косяков всё-таки примерно столько же, сколько у Whisper. А вот как только добавляется шум дороги - Assembly падает в качестве гораздо быстрее OpenAI.
Плюс, для тех же голосовых, OpenAI нормально распознаёт язык (если сделать ок промпт). А вот Assembly Auto Language Detection стабильно принимает русский за испанский (или что-то такое, я не в курсе).
Хотя из плюсов, в Assembly есть timestamp для каждого слова, детекция спикеров и эмоций. Звучит полезно, но я не тестил.
Проприетарщина же. Пусть возвращаются со ссылкой на HuggingFace.
Как то однобоко и прям как промоушен. Чего не упомянули deepgram nova2 тогда уже. Та даже и первую версию которая на голову выше whisper. Ну и aws transcribe которая whisper обходит.
Universal-1 от AssemblyAI превзошел Whisper от OpenAI: новый лидер в гонке решений для распознавания речи