Comments 12
Так как в премиум подписке ТГ есть функция аудио в текст, было бы неплохо сравнить данные подходы.
Нужна платная подписка, чтобы через OpenAI API речь распознавать в аудио?
А с оплатой OpenAI API проблем не было? Или оплачивать только через карточку зарубежного банка?
И наконец, последний аргумент в пользу whisper - цена. Он кратно дешевле.
Он вообще-то в опесорсе, ставите себе на сервер и никаких ограничений + умеет чисто на CPU, правда медленнее, чем с GPU.
Круто, не знал. Надо будет заняться вопросом на выходных)
Более того, он и под Windows взлетает с полтычка даже на "полярисах", но в любом варианте требуется CPU не ниже intel core третьего поколения (там добавили FP16).
Плюсом достойные результаты зависят от модели, условно 500 мегабайтная делает ошибочки, 1500 Мб уже существенно лучше, но тут уж все зависит от размера доступной памяти как в системе, так и на GPU.
Пишем Telegram бота для распознавания голосовых сообщений и их обработки с помощью AI