Как стать автором
Обновить

Комментарии 3

Для Whisper есть нормальные CLI & GUI бинарники (по крайней мере для Win). Работает нормально так. Следует еще заметить, что в случае диалога - он начинает расставлять тире в начале строчек (показывая что это таки диалог) не сразу, потупит от 30 секунд до пары минут записи. Проверено на паре десятков интервью, которые мы тут транскрибировали с диктофона

Когда пытался им распознавать диалоги с двух дорожек (одна дорожка на человека) он начинал осень сильно галлюцинировать, т.к. были очень длинные паузы. Пришлось микшировать и распознать одним файлом.

С диалогами у меня после где-то получаса пропадают знаки препинания и все становится с маленькой буквы.

Полуторачасовая запись распознаётся в плане текста хорошо, но обычно проблемы со знаками препинания, репликами в диалогах, и он очень интересно расставляет тайминги если использовать сохранение в формат субтитров SRT. Типа последнее слово в предложении будет в новом титре. Приходится потом в ДаВинчи Резлов руками двигать...

Но в целом все равно быстрее чем транскрибировать полтора часа аудиозаписи вручную.

Не знаю, может раскошелюсь на полную версию Резолва, там вроде добавили распознание голоса нативно...

Whisper прекрасно справляется с записями телефонных разговоров. Но вот запись судебного заседания, сделанная с лежащего на столе телефона (т.е. шум переворачиваемых рядом с ним бумажек иногда сильно громче, чем голос с другой стороны зала) - вообще никак. При этом сберовский SaluteSpeech с той же записью справляется удовлетворительно (насколько это вообще возможно).

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории