Обновить

Как я собрал бота, который превращает доклады в вертикальные ролики: Whisper, поиск хайлайтов через LLM и проход ffmpeg

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели16K
Всего голосов 32: ↑29 и ↓3+28
Комментарии5

Комментарии 5

Хабраэффект? Даже на старт не отвечает.

Привет! До сих пор ничего не ответил?

А как устроено STT? С моделью Whisper особенно на длинных кусках я замечал проблемы с повторяющимся текстом и обработкой тишины.

Хороший вопрос — это правда частая боль в случае с Whisper. У меня faster-whisper с vad_filter=True (Silero VAD): он выкидывает тишину до распознавания, и именно это снимает бОльшую часть галлюцинаций — модель просто не получает пустые отрезки на вход.

А вот зацикливание текста на длинных кусках — отдельная история, VAD от него не спасает. Тут мне помогло condition_on_previous_text=False (чтобы повтор не тянулся по цепочке) и отбраковка по compression_ratio_threshold. Сейчас допиливаю как раз этот момент.

Если интересно, могу отдельным постом разобрать.

Ограничения: работает на обычном CPU-сервере, себестоимость прогона — копейки.


Поднял аналогичную конфигурацию только на GPU.
Видеопамяти ест мало, работает шустро.
Крутится на ноуте.
Детали ниже.

Архитектура:
https://asr.softcreator.com/#arch

Демка:
https://asr.softcreator.com/#demo

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации