
Комментарии 5
Хабраэффект? Даже на старт не отвечает.
А как устроено STT? С моделью Whisper особенно на длинных кусках я замечал проблемы с повторяющимся текстом и обработкой тишины.
Хороший вопрос — это правда частая боль в случае с Whisper. У меня faster-whisper с vad_filter=True (Silero VAD): он выкидывает тишину до распознавания, и именно это снимает бОльшую часть галлюцинаций — модель просто не получает пустые отрезки на вход.
А вот зацикливание текста на длинных кусках — отдельная история, VAD от него не спасает. Тут мне помогло condition_on_previous_text=False (чтобы повтор не тянулся по цепочке) и отбраковка по compression_ratio_threshold. Сейчас допиливаю как раз этот момент.
Если интересно, могу отдельным постом разобрать.
Ограничения: работает на обычном CPU-сервере, себестоимость прогона — копейки.
Поднял аналогичную конфигурацию только на GPU.
Видеопамяти ест мало, работает шустро.
Крутится на ноуте.
Детали ниже.
Архитектура:
https://asr.softcreator.com/#arch
Как я собрал бота, который превращает доклады в вертикальные ролики: Whisper, поиск хайлайтов через LLM и проход ffmpeg