Comments 13
Мы также добавили:
Акцентор для белорусского языка на основе словаря в 1.8M слов;
Акцентор для украинского языка на основе словаря в 3M слов.
Для справки - акцентор это очень маленькая модель (мегабайт), которая ставит ударения со 100% точностью (с точностью до имеющегося словаря).
Почему именно модель, а не просто словарь? Сжатие примерно в 10 раз больше, плюс акцентор генерализуется на новые и несуществующие слова с точностью около 60-70%. То есть ставит чаще верно, чем неверно. Словарь так не умеет =)
Ура! Спасибо огромное. Обновляю EbookTalker
Вот это царский подгон, спасибо! Неудивительно, что я не нашёл, т.к. гуглил-то я на русском. Одна беда - у нас лицензия MIT, у тут CC-BY-SA-4.0 license.
Мы также добавили:
Акцентор для белорусского языка на основе словаря в 1.8M слов;
Акцентор для украинского языка на основе словаря в 3M слов.
Для справки - акцентор это очень маленькая модель (мегабайт), которая ставит ударения со 100% точностью (с точностью до имеющегося словаря).
Почему именно модель, а не просто словарь? Сжатие примерно в 10 раз больше, плюс акцентор генерализуется на новые и несуществующие слова с точностью около 60-70%. То есть ставит чаще верно, чем неверно. Словарь так не умеет =)
Надо будет послушать ваш TTS, а то пока не очень понятно, почему у некоторых слов ударения такие проставлены. Я пока для башкирского создавал все TTS без ударений, модель легко выучивает, так как переноса ударений в башкирском нет. Но есть случаи, типа вопросительные слова, где точно есть ударения и они попадают на предпоследний слог. Потом послушав ваш TTS, можем собрать новый список или алгоритм дать
Ударения в башкирских словах расставлялись так:
По-умолчанию брался последний слог;
Дальше носитель языка помечал слова, где слог не последний и ставил ударение.
Что касается словарей языков РФ - они выложены с исходниками, то есть можно их улучшать, глядишь потом пригодятся кому-то. Если будет огромный словарь - можно сразу акцентор бахнуть.
Что касается синтеза, это отчасти медвежья услуга. Мы сделали синтез с ударениями и без на башкирском, и модель с ударением получилась несколько "своевольной" - она не всегда следует ручной простановке ударений.
На основе твоих слов из словаря для башкирского создал проект расстановке ударений для башкирского языка: https://github.com/AigizK/bashkir-stress/tree/main
Лицензия как у тебя, так что используй. Для нахождения корня слов можно прикрутить Hunspell: https://github.com/AigizK/bashspell/tree/main/static/hunspell/28.01.2024 и доработать правила 1a, 1b
Правила 3,4 исключают очень много слов из словаря.
Хотел поблагодарить ребят из Silero за что качество расстановки ударений кабардинского языка несмотря на маленькую базу словаря - оно очень высокое - этот алгоритм ударений был использован в синтезе для 20 языков России и могу подтвердить что при синтезе уровень попаданий 95-98 процентов - практически не надо править.
Мы также добавили:
Акцентор для белорусского языка на основе словаря в 1.8M слов;
Акцентор для украинского языка на основе словаря в 3M слов.
Для справки - акцентор это очень маленькая модель (мегабайт), которая ставит ударения со 100% точностью (с точностью до имеющегося словаря).
Почему именно модель, а не просто словарь? Сжатие примерно в 10 раз больше, плюс акцентор генерализуется на новые и несуществующие слова с точностью около 60-70%. То есть ставит чаще верно, чем неверно. Словарь так не умеет =)
Мы добавили поддержку ещё 19 языков России и СНГ в проект silero-stress