Comments / Profile of Sontref / Habr

User

Subscribers

Посимвольная нейросетевая модель для автоматической акцентуации русского языка

400+ художественных произведений с ручной разметкой ударений

А это точно так? В карточке датасета написано, что они размечали его с помощью этой тулзы, которая в свою очередь на russtress основана. Мы когда-то тестили russtress, было так себе.

Если валидация из этого же сета взята, то вполне может быть, что метрики не совсем реальность отражают.

Мы добавили поддержку ещё 19 языков России и СНГ в проект silero-stress

Sontref Nov 23 2025 at 23:07

правила-исключения, когда ударение ставится НЕ на последний гласный

А это правила для фильтрации словаря чисто? Или как-то по ним можно определить на какую именно гласную ударение ставить? Может там есть эвристики в духе "если не последняя, то первая/предпоследняя".

Мы решили задачу омографов и ударений в русском языке

Sontref Oct 15 2025 at 07:57

Замечал, что символы процента удаляются, и пробелы перед дефисами. Кажется, еще перед кавычками и скобками.

По переносу строки проверим, спасибо за репорт.

Мы решили задачу омографов и ударений в русском языке

Sontref Oct 10 2025 at 22:59

Тут открытый вопрос конечно, как с точки зрения акцентора расставлять ударения / ё в таких словах. Конкретных правил, насколько мне известно, на этот счёт нет (если ошибаюсь - буду рад узнать).

На данный момент мы остановились на том, что просто в таких словах ставим одно фиксированное ударение. Был ещё вариант ставить случайным образом, но мы от него по итогу отказались. А по текстовому контексту определить конкретный вариант произношения в таких словах задачка вряд ли в принципе выполнимая. За исключением быть может конкретных случаев, где реплики нарочито с "говором" прописаны.

Мы решили задачу омографов и ударений в русском языке

Sontref Oct 10 2025 at 22:48

Заметили. Метрики у нас хоть и хорошие, но не идеальные. Учитывая, что каждое слово формально - это отдельная задача классификации, метрики отдельно взятых слов могут отличаться заметно (см. гистограмму в разделе Метрики качества).

Конкретно в кейсе именно со словосочетанием "мы все", модель действительно в большинстве случаев ставит "мы всё". Хотя в целом метрики пары "все/всё" неплохие.

В будущих релизах мы этот кейс (как и другие, до которых дотянемся) постараемся исправить.

Мы решили задачу омографов и ударений в русском языке

Sontref Oct 10 2025 at 10:02

Например, так. Добавим в документацию, забыли.

accentor = load_accentor()
accentor.to('cuda:0')
accentor.to('cpu')

Мы решили задачу омографов и ударений в русском языке

Sontref Oct 10 2025 at 09:07

То есть коррекция до деомографии недопустима.

Ну в какой-то степени сейчас так, да. Можно корректировать сами омографы, но не другие слова. Например, как вы писали выше, "доверить морфологию другой библиотеке". В таком случае, "перезаписывать" ударения в омографах наша не будет.

В остальных случаях сейчас да, результат может измениться.

В идеале пайплайн сейчас такой для вашего юзкейса, если я правильно понял:

- корректируете ударения в омографах, если хочется;
- запускаете наш классификатор омографов;
- делаете свою коррекцию текста;
- запускаете нашу расстановку обычных ударений.

Если будет запрос, в следующих обновлениях мы постараемся сделать предикты более стабильными. Сейчас действительно шальная пунктуация чаще влияет на результат, чем хотелось бы. Заодно флаг для 1-сложных слов прокинем.

Мы решили задачу омографов и ударений в русском языке

Sontref Oct 10 2025 at 07:40

Ну есть два способа:

Вообще, есть третий, мб кому-то удобнее покажется.

accentor = torch.hub.load(repo_or_dir='snakers4/silero-stress)
homodict = accentor.homosolver.homodict

Можно просто фильтрануть homodict, убрав из него ненужные слова. Поиск по нему как раз идёт.

Опережая возможный вопрос - туда можно добавить свои. Но когда мы тестили, генерализация по омографам не из трейна была в районе 60%, то есть смысла в этом около нуля. Чисто на случай слов по типу "звонишь" / "творог", если хочется получать рандомное ударение, а не фиксированное.

Проблема омографов в задачах G2P и автоматической простановки ударений

Sontref Nov 19 2021 at 08:05

Thanks for link, it can be useful for creating clean homograph dictionaries. That's really nice.

However, it seems that this tool also helps only with homograph detection, but it does not disambiguate them.