Тут вот человек написал навороченную статью про установку под Докер этой штуки
https://habr.com/ru/articles/948894/ ( за это ему большое спасибо)
Так я программист не настоящий (а всё через нейросети), и Linux-ом баловался только лет 20 назад, то решил всё же под Windows всё это сделать, ибо полезно:
1) телефонные звонки можно иногда расшифровать
2) делать интервью для написания книги ( в ролях)
3) как там уже писали про всякие деловые разговоры..
4) ну и так далее и так далее.. потом этот текст засунуть в нейросеть и сделать выводы.
Короче говоря, помучал нейросеть полдня с перерывами, и вот такая картинка ниже, вполне очевидная. Отдельно окно для настроек диаризации, так как вначале принимало за одного и того же человека, совершенно разных людей с сильно разными голосами ( это расшифровка телефонного разговора)
При других настройках все гораздо лучше- как на скрине.
Кода исходного не будет, Git-ом не умею пользоваться. Да и код как раз был скормплен нейросети из поста по ссылке, а также еще с другого деятеля, у которого была чуть более старая версия на gitnub https://github.com/m-bain/whisperX
Потом борьба с ошибками и пожалуйста..
Это я к тому, что на Reddit-е пока все это делал наткнулся на жалобы, вот мол, а почему под Windows нет сборки? Типа всё на линуксе да на линуксе, а сделать такое оказывается делов на пол-дня не программисту.


P.S. Впрочем, если кому-надо могу кодом и поделиться, он небольшой:-)