snakers4 Nov 22 2025 at 17:27

Мы добавили поддержку ещё 19 языков России и СНГ в проект silero-stress

Easy

2 min

12K

Machine learning * Python * Open source * Natural Language Processing * Voice user interfaces *

Review

+28

Comments 13

Pinned comments

snakers4 Dec 17 2025 at 07:10

Мы также добавили:

Акцентор для белорусского языка на основе словаря в 1.8M слов;
Акцентор для украинского языка на основе словаря в 3M слов.

Для справки - акцентор это очень маленькая модель (мегабайт), которая ставит ударения со 100% точностью (с точностью до имеющегося словаря).

Почему именно модель, а не просто словарь? Сжатие примерно в 10 раз больше, плюс акцентор генерализуется на новые и несуществующие слова с точностью около 60-70%. То есть ставит чаще верно, чем неверно. Словарь так не умеет =)

DeXPeriX Nov 22 2025 at 17:58

Ура! Спасибо огромное. Обновляю EbookTalker

kryvichh Nov 22 2025 at 18:43

Для белорусского языка, огромная лексико-грамматическая база (слова с лексическими значениями, со всеми словоформами и проставленными ударениями) выложена здесь, под Creative Commons Attribution/Share-Alike.

snakers4 Nov 22 2025 at 18:47

Вот это царский подгон, спасибо! Неудивительно, что я не нашёл, т.к. гуглил-то я на русском. Одна беда - у нас лицензия MIT, у тут CC-BY-SA-4.0 license.

kryvichh Nov 22 2025 at 19:12

Насколько понимаю, только если вы решите выложить производный словарь, вам придётся использовать для него ту же CC-BY-SA-4.0. На обученную на словаре модель это ограничение не распространяется.

snakers4 Nov 22 2025 at 19:19

Формально вы правы. Но это, конечно, такой как бы своеобразный хак для обхода лицензии.

snakers4 Dec 17 2025 at 07:10

Мы также добавили:

Акцентор для белорусского языка на основе словаря в 1.8M слов;
Акцентор для украинского языка на основе словаря в 3M слов.

AigizK Nov 22 2025 at 20:11

Надо будет послушать ваш TTS, а то пока не очень понятно, почему у некоторых слов ударения такие проставлены. Я пока для башкирского создавал все TTS без ударений, модель легко выучивает, так как переноса ударений в башкирском нет. Но есть случаи, типа вопросительные слова, где точно есть ударения и они попадают на предпоследний слог. Потом послушав ваш TTS, можем собрать новый список или алгоритм дать

snakers4 Nov 22 2025 at 20:22

Ударения в башкирских словах расставлялись так:

По-умолчанию брался последний слог;
Дальше носитель языка помечал слова, где слог не последний и ставил ударение.

Что касается словарей языков РФ - они выложены с исходниками, то есть можно их улучшать, глядишь потом пригодятся кому-то. Если будет огромный словарь - можно сразу акцентор бахнуть.

Что касается синтеза, это отчасти медвежья услуга. Мы сделали синтез с ударениями и без на башкирском, и модель с ударением получилась несколько "своевольной" - она не всегда следует ручной простановке ударений.

AigizK Nov 22 2025 at 22:13

На основе твоих слов из словаря для башкирского создал проект расстановке ударений для башкирского языка: https://github.com/AigizK/bashkir-stress/tree/main
Лицензия как у тебя, так что используй. Для нахождения корня слов можно прикрутить Hunspell: https://github.com/AigizK/bashspell/tree/main/static/hunspell/28.01.2024 и доработать правила 1a, 1b

Правила 3,4 исключают очень много слов из словаря.

Sontref Nov 23 2025 at 23:07

правила-исключения, когда ударение ставится НЕ на последний гласный

А это правила для фильтрации словаря чисто? Или как-то по ним можно определить на какую именно гласную ударение ставить? Может там есть эвристики в духе "если не последняя, то первая/предпоследняя".

Kubataba Nov 24 2025 at 06:56

Хотел поблагодарить ребят из Silero за что качество расстановки ударений кабардинского языка несмотря на маленькую базу словаря - оно очень высокое - этот алгоритм ударений был использован в синтезе для 20 языков России и могу подтвердить что при синтезе уровень попаданий 95-98 процентов - практически не надо править.

snakers4 Nov 24 2025 at 06:57

Тут есть определённые моменты, есть модели с и без ударений, и они иногда ведут себя странно. Опять же много тюркских языков создают свою специфику.

snakers4 Dec 17 2025 at 07:10

Мы также добавили:

Акцентор для белорусского языка на основе словаря в 1.8M слов;
Акцентор для украинского языка на основе словаря в 3M слов.