Обновить

От голосовых к тексту: делаем Telegram-бота для расшифровки аудио на модели от СБЕР — GigaAM-v3

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели4.8K
Всего голосов 5: ↑5 и ↓0+5
Комментарии1

Комментарии 1

Чанки по 25 секунд, а как потом склеивать разорванные на полуслове предложения?

Зачем тут телеграм? Если надо читать голосовухи которые там ходят то вроде сберовский бот с ними справляется @smartspeech_sber_bot А длинные надо как то обрабатывать (сразу закидывать в какую то нейросеть которая всё умеет, типа джемини), что толку с огромной записи голоса, не будешь же ты это реально всё читать.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации