Pull to refresh
1
0
Send message

Добрый день! На правах человека, имеющего к НКРЯ непосредственное отношение, отвечу на пост.

Во-первых, не стоит краулить ресурсы, если при этом нарушается лицензия на использование сервиса. Наша лицензия расположена тут: https://ruscorpora.ru/page/terms/. Мы открыты к сотрудничеству и регулярно делимся имеющимися датасетами. Наиболее часто запрашиваемые перечислены на странице https://ruscorpora.ru/page/corpora-datasets/. Если вам необходим специфический датасет, об этом можно написать на почту, указанную на этой же странице. Для получения данных необходимо будет описать сценарии использования и заключить лицензионное соглашение на предоставление доступа к данным. Действительно, улаживание всех формальностей и подготовка датасета займёт какое-то время, но зато получившийся результат будет валиден с легальной точки зрения.

Во-вторых, про критику качества разметки в Акцентологическом корпусе. Приведённые примеры из Наивной поэзии с ошибками не являются ни примерами из Наивной поэзии, ни примерами с ошибками. На скринах представлены стихотворения Муравьёва, относящиеся к 18-му веку. Как нетрудно проверить, в разделе Наивной поэзии нет ни одного текста, созданного ранее 1980 года (https://ruscorpora.ru/s/e0Y5N), и это неудивительно, так как этот раздел состоит из стихотворений, опубликованных на ресурсе stihi.ru. А ошибок на скринах нет, потому что в текстах Поэтического корпуса размеченные слоги (обозначенные иным, чем собственно ударения, знаком гравис над гласной буквой) — это далеко не всегда именно ударные слоги в речи автора. Например, в строке Когда̀ не в шу̀тку за̀немо̀г четыре сильных места (из них два в одном слове), а ударений только три.

И, наконец, существенным недостатком подхода в целом является решение учиться на поэзии, причём всей, которая доступна в НКРЯ. Помимо специфичных ударений в поэтических текстах, ударения со временем нередко меняются. В корпус входят тексты начиная с XVIII века, и по нему можно проследить эволюцию русского ударения: когда люди вместо вёрсту, приклеи́л, Гамле́т, а́нглийский стали говорить версту́, прикле́ил, Га́млет, англи́йский, у каких авторов и дикторов сосуществует несколько вариантов, какие используют более архаичное ударение или, напротив, опережают время. Кроме того, раздел Наивной поэзии размечен в автоматическом режиме (подробнее об истории создания, составе корпуса и видах разметки в нём можно прочитать на странице описания корпуса: https://ruscorpora.ru/corpus/accent). Поэтому обучать на совокупности всех данных Акцентологического акцентуатор для обычного TTS — плохая затея.

Information

Rating
Does not participate
Registered
Activity

Specialization

Data Scientist
Python
Natural language processing
Machine learning
Deep Learning
Neural networks
Pytorch