Pull to refresh

Comments 13

PinnedPinned comments

Мы также добавили:

  • Акцентор для белорусского языка на основе словаря в 1.8M слов;

  • Акцентор для украинского языка на основе словаря в 3M слов.

Для справки - акцентор это очень маленькая модель (мегабайт), которая ставит ударения со 100% точностью (с точностью до имеющегося словаря).

Почему именно модель, а не просто словарь? Сжатие примерно в 10 раз больше, плюс акцентор генерализуется на новые и несуществующие слова с точностью около 60-70%. То есть ставит чаще верно, чем неверно. Словарь так не умеет =)

Для белорусского языка, огромная лексико-грамматическая база (слова с лексическими значениями, со всеми словоформами и проставленными ударениями) выложена здесь, под Creative Commons Attribution/Share-Alike.

Вот это царский подгон, спасибо! Неудивительно, что я не нашёл, т.к. гуглил-то я на русском. Одна беда - у нас лицензия MIT, у тут CC-BY-SA-4.0 license.

Насколько понимаю, только если вы решите выложить производный словарь, вам придётся использовать для него ту же CC-BY-SA-4.0. На обученную на словаре модель это ограничение не распространяется.

Формально вы правы. Но это, конечно, такой как бы своеобразный хак для обхода лицензии.

Мы также добавили:

  • Акцентор для белорусского языка на основе словаря в 1.8M слов;

  • Акцентор для украинского языка на основе словаря в 3M слов.

Для справки - акцентор это очень маленькая модель (мегабайт), которая ставит ударения со 100% точностью (с точностью до имеющегося словаря).

Почему именно модель, а не просто словарь? Сжатие примерно в 10 раз больше, плюс акцентор генерализуется на новые и несуществующие слова с точностью около 60-70%. То есть ставит чаще верно, чем неверно. Словарь так не умеет =)

Надо будет послушать ваш TTS, а то пока не очень понятно, почему у некоторых слов ударения такие проставлены. Я пока для башкирского создавал все TTS без ударений, модель легко выучивает, так как переноса ударений в башкирском нет. Но есть случаи, типа вопросительные слова, где точно есть ударения и они попадают на предпоследний слог. Потом послушав ваш TTS, можем собрать новый список или алгоритм дать

Ударения в башкирских словах расставлялись так:

  • По-умолчанию брался последний слог;

  • Дальше носитель языка помечал слова, где слог не последний и ставил ударение.

Что касается словарей языков РФ - они выложены с исходниками, то есть можно их улучшать, глядишь потом пригодятся кому-то. Если будет огромный словарь - можно сразу акцентор бахнуть.

Что касается синтеза, это отчасти медвежья услуга. Мы сделали синтез с ударениями и без на башкирском, и модель с ударением получилась несколько "своевольной" - она не всегда следует ручной простановке ударений.

На основе твоих слов из словаря для башкирского создал проект расстановке ударений для башкирского языка: https://github.com/AigizK/bashkir-stress/tree/main
Лицензия как у тебя, так что используй. Для нахождения корня слов можно прикрутить Hunspell: https://github.com/AigizK/bashspell/tree/main/static/hunspell/28.01.2024 и доработать правила 1a, 1b

Правила 3,4 исключают очень много слов из словаря.

правила-исключения, когда ударение ставится НЕ на последний гласный

А это правила для фильтрации словаря чисто? Или как-то по ним можно определить на какую именно гласную ударение ставить? Может там есть эвристики в духе "если не последняя, то первая/предпоследняя".

Хотел поблагодарить ребят из Silero за что качество расстановки ударений кабардинского языка несмотря на маленькую базу словаря - оно очень высокое - этот алгоритм ударений был использован в синтезе для 20 языков России и могу подтвердить что при синтезе уровень попаданий 95-98 процентов - практически не надо править.

Тут есть определённые моменты, есть модели с и без ударений, и они иногда ведут себя странно. Опять же много тюркских языков создают свою специфику.

Мы также добавили:

  • Акцентор для белорусского языка на основе словаря в 1.8M слов;

  • Акцентор для украинского языка на основе словаря в 3M слов.

Для справки - акцентор это очень маленькая модель (мегабайт), которая ставит ударения со 100% точностью (с точностью до имеющегося словаря).

Почему именно модель, а не просто словарь? Сжатие примерно в 10 раз больше, плюс акцентор генерализуется на новые и несуществующие слова с точностью около 60-70%. То есть ставит чаще верно, чем неверно. Словарь так не умеет =)

Sign up to leave a comment.

Articles