Whisper - нейросеть от OpenAI для распознавания речи и перевода её в текст. Отлично подходит для создания субтитров. Использовать нейросеть довольно просто, нужен только Python и ffmpeg, описание установки есть здесь.
После замены видеокарты на Intel Arc A750 столкнулся с проблемой: Whisper использовал для вычислений только процессор и не задействовал видеокарту. Пришлось основательно погуглить, делюсь результатом.
Итак, кратко, что надо сделать (для Windows 11):
Установить драйвер Intel Arc & Iris Xe Graphics (сайт Intel без vpn не открывается).
Установить пакет поддержки PyTorch (предварительно нужно установить Microsoft Visual Studio с компонентом C++).
В системе установится oneAPI со своим терминалом, в этом терминале запускаем команды:
"C:\Program Files (x86)\Intel\oneAPI\pytorch-gpu-dev-0.5\oneapi-vars.bat"
"C:\Program Files (x86)\Intel\oneAPI\ocloc\2024.2\env\vars.bat"
Подробно об этих трёх шагах здесь (с vpn).
Устанавливаем PyTorch командой в терминале oneAPI:
pip3 install torch --index-url https://download.pytorch.org/whl/test/xpu
Подробнее об этом шаге здесь.
Готово! Теперь можно запускать Whisper с опцией --device xpu
. Запускать нужно также в терминале oneAPI. Пример команды:
whisper D:\audio.wav --model turbo --language en --device xpu --output_format srt --output_dir D:\