Комментарии 4
цифровая последовательность в предложении «Поэт М.Ю. Лермонтов родился 15.10.1814 в Москве» обозначает дату и должна быть прочитана по заданным правилам: число 15 преобразуются в порядковое числительное пятнадцатого, число 10 заменяется названием месяца в правильной форме – октября
Если автор хочет написать «октября», он и пишет «октября». В данном примере автор хотел написать «пятнадцатого десятого тысяча восемьсот четырнадцатого». Автор не хотел добавлять слово «года», поэтому не добавил его.
Почему же вы предлагаете читать совсем не то, что написано?
Спасибо за интерес к статье и внимательное прочтение!
В соответствии с ГОСТ Р 7.0.97-2016 (п. 5.10), формат "ЧЧ.ММ.ГГГГ" является одним из возможных форматов записи даты. При этом в речи рекомендуется расшифровывать соответствующую последовательность цифр по определенным правилам, которые мы описали в статье.
Чтобы в ходе нормализации получить грамотный текст для дальнейшего синтеза, следует придерживаться этих правил, а именно заменить стандартную цифровую запись месяца его названием. Соглашусь с вами, что добавлять слово "год" необязательно, но все же не будет лишним.
Мы не навязываем данную точку зрения, а только предлагаем читателю ознакомиться с ней, при изложении опираясь на надежные источники (см. "Синтез речи: учебное пособие", С. В. Рыбин, 2014, страница 31).
Интересная статья, лично для себя нашёл пару дополнительных проблем при работе с текстом. Плохо, что нет результатов модели seq2seq, хотя и написано, что они высокие.
Спасибо, это очень приятно и ценно, что статья оказалась полезной!
В соответствии с рейтингом на Kaggle, оба описанных подхода достигли результата 99%: нейросетевой подход занял 2-е место, подход на правилах -- 3-е место.
Надеюсь, следующие статьи нашего блога окажутся для вас не менее интересными :)
Автоматический синтез речи: взгляд лингвиста