Pull to refresh

Comments 12

Так как в премиум подписке ТГ есть функция аудио в текст, было бы неплохо сравнить данные подходы.

Так я же в статье как раз писал про это :)

Тем более, основная идея не просто в реализации speech-to-text, а в использовании нейронки для получения супер краткого пересказа голосового, без воды.

А можно пример json с ошибкой?

С ошибкой чего? О том, что сервис недоступен?)

Нужна платная подписка, чтобы через OpenAI API речь распознавать в аудио?

На старте, OpenAI, если я не ошибаюсь, даёт 18$ на тесты. Но карту нужно привязать, да. У них биллинг через stripe.

А с оплатой OpenAI API проблем не было? Или оплачивать только через карточку зарубежного банка?

У них биллинг через Stripe, поэтому карты РФ и РБ не принимаются :(

И наконец, последний аргумент в пользу whisper - цена. Он кратно дешевле.

Он вообще-то в опесорсе, ставите себе на сервер и никаких ограничений + умеет чисто на CPU, правда медленнее, чем с GPU.

Круто, не знал. Надо будет заняться вопросом на выходных)

Более того, он и под Windows взлетает с полтычка даже на "полярисах", но в любом варианте требуется CPU не ниже intel core третьего поколения (там добавили FP16).

Плюсом достойные результаты зависят от модели, условно 500 мегабайтная делает ошибочки, 1500 Мб уже существенно лучше, но тут уж все зависит от размера доступной памяти как в системе, так и на GPU.

С другой стороны, пока стоимость использования whisper на мощностях от OpenAI не такая большая. И только если нагрузка на бот вырастет, тогда будет экономически целесообразно переходить.

Sign up to leave a comment.

Articles

Change theme settings