Тут вот человек написал навороченную статью про установку под Докер этой штуки (за это ему большое спасибо).

Так я программист не настоящий (а всё через нейросети), и Linux-ом баловался только лет 20 назад, то решил всё же под Windows всё это сделать, ибо полезно:

  • телефонные звонки можно иногда расшифровать

  • делать интервью для написания книги (в ролях)

  • как там уже писали про всякие деловые разговоры

  • ну и так далее и так далее.. потом этот текст засунуть в нейросеть и сделать выводы.

Короче говоря, помучал нейросеть полдня с перерывами, и вот такая картинка ниже, вполне очевидная. Отдельно окно для настроек диаризации, так как вначале принимало за одного и того же человека, совершенно разных людей с сильно разными голосами ( это расшифровка телефонного разговора).

При других настройках все гораздо лучше- как на скрине.

Кода исходного не будет, Git-ом не умею пользоваться. Да и код как раз был скормплен нейросети из поста по ссылке, а также еще с другого деятеля, у которого была чуть более старая версия на gitnub.
Потом борьба с ошибками и пожалуйста..

Это я к тому, что на Reddit-е пока все это делал наткнулся на жалобы, вот мол, а почему под Windows нет сборки? Типа всё на линуксе да на линуксе, а сделать такое оказывается делов на пол-дня не программисту.

интерфейс программы на python для управления WhisperX
интерфейс программы на python для управления WhisperX
пример распознавания телефонного разговора
пример распознавания телефонного разговора

P.S. Впрочем, если кому-надо могу кодом и поделиться, он небольшой :-)

P.P.S. В комментариях дана ссылка на код и некоторые комментарии, как и чего.