Pull to refresh
4K+
1
1
Rating
1
Subscribers
Send message

у фрейма говорящего две статичные позиции на экране, при демонстрации и без, в другой позиции он находится не может

Здравствуйте, спасибо за комментарий, статья написана руками, за ссылку приношу извенение, отредактирую сатью и добавлю ссылку!

Идея которая действительно работает, но возможно была плохо раскрыта!
ВКС - zoom/telemost подсвечивают активного говорящего, виспер X нам возвращает таймкоды диаризации

Бот подключаясь записывает экран, в этот момент фрейм говорящего всегда находится в определенной позиции и подсвечивается ВКС довольно качественно!!! и вы можете взять 10 кадров случайных с разных таймлайнов speaker - 1 и взять кадры с этих же таймкодов сделать кроп зоны где всегда будет находится имя + ocr, это работает! и работает очень неплохо, далее просто делаете counter всех выходов OCR и берете топ 1. В корпоративных звонках 99% участников именуются валидными именами!

на самом деле я бы не сказал что это что то "невероятно сложное" вам просто нужно хорошо детектировать wake word, в прод лично мы такое не выводили, мы этого не утверждали, но эксперементы проводили и детекция триггер слова работала неплохо.

whisperX мы использовали как large так и рф файн тюн с ХФ

Нам жаль что статья у вас вызвала разочарование, мы искренне хотели подготовить качественный материал

whisper-api и Wake word репозитории мы выложим в течении двух недель, обещаю

Information

Rating
1,915-th
Registered
Activity

Specialization

ML разработчик
Старший