Здравствуйте, спасибо за комментарий, статья написана руками, за ссылку приношу извенение, отредактирую сатью и добавлю ссылку!
Идея которая действительно работает, но возможно была плохо раскрыта! ВКС - zoom/telemost подсвечивают активного говорящего, виспер X нам возвращает таймкоды диаризации
Бот подключаясь записывает экран, в этот момент фрейм говорящего всегда находится в определенной позиции и подсвечивается ВКС довольно качественно!!! и вы можете взять 10 кадров случайных с разных таймлайнов speaker - 1 и взять кадры с этих же таймкодов сделать кроп зоны где всегда будет находится имя + ocr, это работает! и работает очень неплохо, далее просто делаете counter всех выходов OCR и берете топ 1. В корпоративных звонках 99% участников именуются валидными именами!
на самом деле я бы не сказал что это что то "невероятно сложное" вам просто нужно хорошо детектировать wake word, в прод лично мы такое не выводили, мы этого не утверждали, но эксперементы проводили и детекция триггер слова работала неплохо.
whisperX мы использовали как large так и рф файн тюн с ХФ
Нам жаль что статья у вас вызвала разочарование, мы искренне хотели подготовить качественный материал
whisper-api и Wake word репозитории мы выложим в течении двух недель, обещаю
у фрейма говорящего две статичные позиции на экране, при демонстрации и без, в другой позиции он находится не может
Здравствуйте, спасибо за комментарий, статья написана руками, за ссылку приношу извенение, отредактирую сатью и добавлю ссылку!
Идея которая действительно работает, но возможно была плохо раскрыта!
ВКС - zoom/telemost подсвечивают активного говорящего, виспер X нам возвращает таймкоды диаризации
Бот подключаясь записывает экран, в этот момент фрейм говорящего всегда находится в определенной позиции и подсвечивается ВКС довольно качественно!!! и вы можете взять 10 кадров случайных с разных таймлайнов speaker - 1 и взять кадры с этих же таймкодов сделать кроп зоны где всегда будет находится имя + ocr, это работает! и работает очень неплохо, далее просто делаете counter всех выходов OCR и берете топ 1. В корпоративных звонках 99% участников именуются валидными именами!
на самом деле я бы не сказал что это что то "невероятно сложное" вам просто нужно хорошо детектировать wake word, в прод лично мы такое не выводили, мы этого не утверждали, но эксперементы проводили и детекция триггер слова работала неплохо.
whisperX мы использовали как large так и рф файн тюн с ХФ
Нам жаль что статья у вас вызвала разочарование, мы искренне хотели подготовить качественный материал
whisper-api и Wake word репозитории мы выложим в течении двух недель, обещаю