Pull to refresh
1
Send message

Добрый день! Спасибо за статью. Выглядит крайне интересной и результаты классные. Заинтересовали следующие моменты:
Вы пишете: "Объём получился около 30 ГБ очищенного аудио с выверенной разметкой."
1. А сколько это в часах данных? Это может оказать около 300 часов аудио или >/<.
2. Вы смогли разметить такой объем данных за 1.5 месяца. А разметка происходит "стандартная для ASR" аудио + текст или вы сверху еще размечали для задач диаризации и другого?
3. Считали ли вы % соотношение "терминов/аббревиатур/англицизмов" с другими словами в вашей тренировочной выборке?
Буду очень рад, если получится ответить на вопросы)

Information

Rating
6,712-th
Registered
Activity