Whisper - нейросеть от OpenAI для распознавания речи и перевода её в текст. Отлично подходит для создания субтитров. Использовать нейросеть довольно просто, нужен только Python и ffmpeg, описание установки есть здесь.

После замены видеокарты на Intel Arc A750 столкнулся с проблемой: Whisper использовал для вычислений только процессор и не задействовал видеокарту. Пришлось основательно погуглить, делюсь результатом.

Итак, кратко, что надо сделать (для Windows 11):

  1. Установить драйвер Intel Arc & Iris Xe Graphics (сайт Intel без vpn не открывается).

  2. Установить пакет поддержки PyTorch (предварительно нужно установить Microsoft Visual Studio с компонентом C++).

  3. В системе установится oneAPI со своим терминалом, в этом терминале запускаем команды:

    "C:\Program Files (x86)\Intel\oneAPI\pytorch-gpu-dev-0.5\oneapi-vars.bat"

    "C:\Program Files (x86)\Intel\oneAPI\ocloc\2024.2\env\vars.bat"

    Подробно об этих трёх шагах здесь (с vpn).

  4. Устанавливаем PyTorch командой в терминале oneAPI:

    pip3 install torch --index-url https://download.pytorch.org/whl/test/xpu

    Подробнее об этом шаге здесь.

Готово! Теперь можно запускать Whisper с опцией --device xpu. Запускать нужно также в терминале oneAPI. Пример команды:

whisper D:\audio.wav --model turbo --language en --device xpu --output_format srt --output_dir D:\