Комментарии 3
Для Whisper есть нормальные CLI & GUI бинарники (по крайней мере для Win). Работает нормально так. Следует еще заметить, что в случае диалога - он начинает расставлять тире в начале строчек (показывая что это таки диалог) не сразу, потупит от 30 секунд до пары минут записи. Проверено на паре десятков интервью, которые мы тут транскрибировали с диктофона
Когда пытался им распознавать диалоги с двух дорожек (одна дорожка на человека) он начинал осень сильно галлюцинировать, т.к. были очень длинные паузы. Пришлось микшировать и распознать одним файлом.
С диалогами у меня после где-то получаса пропадают знаки препинания и все становится с маленькой буквы.
Полуторачасовая запись распознаётся в плане текста хорошо, но обычно проблемы со знаками препинания, репликами в диалогах, и он очень интересно расставляет тайминги если использовать сохранение в формат субтитров SRT. Типа последнее слово в предложении будет в новом титре. Приходится потом в ДаВинчи Резлов руками двигать...
Но в целом все равно быстрее чем транскрибировать полтора часа аудиозаписи вручную.
Не знаю, может раскошелюсь на полную версию Резолва, там вроде добавили распознание голоса нативно...
Whisper прекрасно справляется с записями телефонных разговоров. Но вот запись судебного заседания, сделанная с лежащего на столе телефона (т.е. шум переворачиваемых рядом с ним бумажек иногда сильно громче, чем голос с другой стороны зала) - вообще никак. При этом сберовский SaluteSpeech с той же записью справляется удовлетворительно (насколько это вообще возможно).
Распознавание речи (транскрибация) по аудиозаписям диалогов. Whisper. Личный опыт