ShortyAiBotTg20 июн в 13:57

Как я собрал бота, который превращает доклады в вертикальные ролики: Whisper, поиск хайлайтов через LLM и проход ffmpeg

Простой

2 мин

16K

Искусственный интеллектРабота с видео *

Кейс

+28

Комментарии 5

nikolas00_memew 20 июн в 14:20

Хабраэффект? Даже на старт не отвечает.

ShortyAiBotTg 20 июн в 14:28

Привет! До сих пор ничего не ответил?

DreamC 20 июн в 18:04

А как устроено STT? С моделью Whisper особенно на длинных кусках я замечал проблемы с повторяющимся текстом и обработкой тишины.

ShortyAiBotTg 21 июн в 01:39

Хороший вопрос — это правда частая боль в случае с Whisper. У меня faster-whisper с vad_filter=True (Silero VAD): он выкидывает тишину до распознавания, и именно это снимает бОльшую часть галлюцинаций — модель просто не получает пустые отрезки на вход.

А вот зацикливание текста на длинных кусках — отдельная история, VAD от него не спасает. Тут мне помогло condition_on_previous_text=False (чтобы повтор не тянулся по цепочке) и отбраковка по compression_ratio_threshold. Сейчас допиливаю как раз этот момент.

Если интересно, могу отдельным постом разобрать.

vagon333 21 июн в 03:00

Ограничения: работает на обычном CPU-сервере, себестоимость прогона — копейки.

Поднял аналогичную конфигурацию только на GPU.
Видеопамяти ест мало, работает шустро.
Крутится на ноуте.
Детали ниже.

Архитектура:
https://asr.softcreator.com/#arch

Демка:
https://asr.softcreator.com/#demo

Зарегистрируйтесь на Хабре, чтобы оставить комментарий