Комментарии 3
У вас ус отклеился гит ссылка на wake-words потерялась. Или агент писавший статью поставил заглушки а вы не поправили.
А так, фантазии, конечно. Какие видео для персонализации/идентификации? Вы же запускаете сессию в видео звонке? Там же все участники поименованы. Вы чётко знаете в какой момент какой микрофон говорит. Ладно, допустим, нет у вас метаинформации звонка. Имя искать на видео записи, особенно если у вас аудио запись - это конечно фантазия. Проблема в том, что даже по контексту не всегда есть возможность узнать: по именам люди друг друга называют крайне редко, мы пробовали представляться в начале, тоже не работает норм - потому как кто-то влетает позже, не представится, потому как все знают и т.п. В итоге пока у нас кое как работает на предифинированном voice-fingerprint, но только для знакомых персон. Хорошо, что чаще всего есть мета инфо.
Wake-words. Не удивлён что там мало написано, потому что, уверен, нет у вас ничего. Я ещё не видел нормально работающий ww, настоящий, работающий в шумах и в многоголосье. Могу представить ассистента на столе участника, который в наушниках, потому в комнате тихо, и тогда его "барбос" может и проснётся. А так - фантазии. Максимум могу представить: скармливать промежуточный транскрипт, вычленять по контексту, отрабатывать. Хотя сам не пробовал.
WhisperX тоже сомнительно. Это же только обертка. Вопрос какую модель вы используете внутри. И перечисленные в статье - это не модели для транскибации. Это общие модели.
На концовку автора совсем не хватило, потому статья выглядит как "nedorisovannaya_loschad.jpg", так ещё и generated smells.
P. S. Cсылка на младшеньких, не понял о ком речь, ситуацию не спасает. Там примерно так же.
P.p.s создателей редактора комментариев на Хабр в аду ждёт котел, где они следующую вечность будут писать комментарии на Хабр с мобильного телефона.
Здравствуйте, спасибо за комментарий, статья написана руками, за ссылку приношу извенение, отредактирую сатью и добавлю ссылку!
Идея которая действительно работает, но возможно была плохо раскрыта!
ВКС - zoom/telemost подсвечивают активного говорящего, виспер X нам возвращает таймкоды диаризации
Бот подключаясь записывает экран, в этот момент фрейм говорящего всегда находится в определенной позиции и подсвечивается ВКС довольно качественно!!! и вы можете взять 10 кадров случайных с разных таймлайнов speaker - 1 и взять кадры с этих же таймкодов сделать кроп зоны где всегда будет находится имя + ocr, это работает! и работает очень неплохо, далее просто делаете counter всех выходов OCR и берете топ 1. В корпоративных звонках 99% участников именуются валидными именами!
на самом деле я бы не сказал что это что то "невероятно сложное" вам просто нужно хорошо детектировать wake word, в прод лично мы такое не выводили, мы этого не утверждали, но эксперементы проводили и детекция триггер слова работала неплохо.
whisperX мы использовали как large так и рф файн тюн с ХФ
Нам жаль что статья у вас вызвала разочарование, мы искренне хотели подготовить качественный материал
whisper-api и Wake word репозитории мы выложим в течении двух недель, обещаю

AI meet assistant