Comments 13
без cuda работает?
У меня на мобильной rtx4070 8 gb полная застряла, малая выдала ошибку. У кого-нибудь завелась?
А зачем, если есть GigaAM? Она и точнее будет для русского. Да, нету end2end диаризации, но вопрос решаемый
Есть проблемы в сборке.
Не объединяет спикеров - нет такой функции (то есть по времени говорит спикер 1, потом снова спикер 1).
На большой файле (видео 500 мб, 55 минут) не может распознать выдает ошибку.
На большой версии (c квантизацией):Traceback (most recent call last):
File "asyncio\events.py", line 88, in run
File "asyncio\proactorevents.py", line 165, in callconnection_lost
ConnectionResetError: [WinError 10054] Удаленный хост принудительно разорвал существующее подключение
Incomplete JSON detected (unclosed brackets: 2), attempting to fix
Failed to parse JSON from transcription: Expecting ',' delimiter: line 1 column 23321 (char 23320)
На маленькой:Incomplete JSON detected (unclosed brackets: 2), attempting to fix
Failed to parse JSON from transcription: Unterminated string starting at: line 1 column 23138 (char 23137)
А зачем видео закидывать? Надо же звуковую дорожку. Это её транскрибирует llm. [pokerface]
Это шутка? Видео там тоже можно. У меня на виспере все нормально и с видео и с аудио. Транскрибирует встречи в том числе, переделывать в аудио из видео, когда есть возможность этого не делать, странная затея. Но если вы так делаете, супер!
Можно её как-нибудь на маке с М-процессором завести?
Что значит percentage на графике?
Whisper больше не нужен? Обзор VibeVoice ASR от Microsoft — часовая транскрипция, диаризация, hotwords и портативка