Comments 10
Самое главное не написали - цена.
Не очень корректно сравнивать платный API с бесплатной локальной моделью.
P.S. Кстати, а кто что использует для диктовки в Windows через Whisper? Интересует не управление системой, а именно набор текста в любом приложении по хоткею или иным удобным способом (без переключения в отдельную программу). По функционалу мне идеально зашёл SpeechPulse, но глючен до невозможности :(
В Windows 11 есть встроенный инструмент, вызывается по Win+H (работает на русском)
Качество распознавания кардинально хуже, чем даёт Whisper. Я разные технологии распознавания речи периодически пробовал (начиная с Dragon Dictation под Win95 почти 30 лет назад) - и до появления Whisper всё это не оправдывало себя, т.к. править надиктованное приходилось дольше, чем изначально набить на клавиатуре.
Только сейчас нейросети стали давать отличный результат. Не только Whisper - скажем, сберовский SaluteSpeech гораздо лучше Whisper на записях плохого качества. Но Whisper работает локально (на RTX3060 c 6 Гб VRAM полная модель large v3 летает), что для такого сценария использования важно.
Сколько ещё появится таких оборзевателей с глубокой аналитикой?
Вопрос риторический, конечно же.
ElevenLabs
Это отсылка на видео с лифтом?
как интересно, изначально в статье было написано про автономность, мой комментарий был удален и статья поправлена... это правильно, но как мой коммент удалили и главное зачем?
Ваш комментарий мирно покоится в соседней новости - https://habr.com/ru/companies/bothub/news/886176/#comment_27975764
Там автор имел в виду, что до этого модель использовалась только для их собственных диалоговых агентов, а теперь её можно использовать и без них.
Вышел ElevenLabs Scribe: распознавание речи лучше Whisper v3 и Gemini 2.0