С омографами в белорусском легче, т.к. письменная речь подстраивается под устное произношение. Например, в русском "молоко", "молоки" (железы) -- сложно определить ударение не зная наверняка. В белорусском "малако" и "малокі" -- если есть "о" или "ё" - они почти наверняка под ударением. Либо если есть сочетание слогов с гласными "...а...е..." либо "...я...е..." -- буква "е" чаще будет ударная.
Но это конечно всё не важно, модель-акцентор сама должна вытянуть эти закономерности из словаря.
Я ещё попробовал голоса bel_dmitriy и ru_dmitriy. Как я понимаю, это один человек записывал образцы на двух языках, и на них учили модель. Я предложил модели v5_cis_base озвучить одно и то же предложение на белорусском. В итоге, в синтезированной речи разницы по звучанию практически нет. То есть bel_dmitriy и ru_dmitriy звучат почти идентично с русским выговором.
Несмотря на критику, ваша новая модель v5_cis_base - однозначно лучший синтезатор TTS для белорусского языка на сегодня. Раньше я пробовал вашу v3 с украинским голосом mikyta, транскрибировал белорусский текст украинскими буквами и расставлял ударения - получалось довольно неплохо, но всё же украинский акцент чувствовался местами. Например, слово "Магілёўскі" (Могилёвский) он произносил как "Магілёвскі". Сейчас же bel_anatoliy в v5 -- это несомненно новый уровень, поздравляю!
AssertionError: Language not in the supported list ['ru', 'en', 'de', 'es', 'fr', 'ba', 'xal', 'tt', 'uz', 'ua', 'indic', 'cyrillic', 'multi']
Подскажите, что указывать для белорусского? 'cyrillic'?
OK оставил language='ru' (не уверен правильно ли это).
Из 3 предложенных белорусских голосов:
bel_anatoliy - звучит довольно аутентично, лучший вариант.
bel_dmitriy - явный русский акцент.
bel_larisa - звучит неплохо, но всё же чувствуются смягчения как в русском "чь", "чи", "че" и подобное. В белорусском языке звук "ч" всегда твёрдый, т.е. "ч", "чы", "чэ".
Возможно, установка language='ru' повлияла на акцент.
Решение проблем школьного образования путём неотдавания детей в школы - так себе решение. От него школы будут дальше деградировать, а дети останутся тупыми и асоциальными, кроме тех, кто социализируется в уличных бандах.
Для нормальной озвучки текстов всё равно нужен препроцессор. Развернуть числа прописью, "проговорить" аббревиатуры (" и т.д." --> "и так далее"), транслитерировать англоязычные названия, принудительно указать ударения где модель ошибается и т.п.
Насколько понимаю, только если вы решите выложить производный словарь, вам придётся использовать для него ту же CC-BY-SA-4.0. На обученную на словаре модель это ограничение не распространяется.
Для белорусского языка, огромная лексико-грамматическая база (слова с лексическими значениями, со всеми словоформами и проставленными ударениями) выложена здесь, под Creative Commons Attribution/Share-Alike.
С омографами в белорусском легче, т.к. письменная речь подстраивается под устное произношение. Например, в русском "молоко", "молоки" (железы) -- сложно определить ударение не зная наверняка. В белорусском "малако" и "малокі" -- если есть "о" или "ё" - они почти наверняка под ударением. Либо если есть сочетание слогов с гласными "...а...е..." либо "...я...е..." -- буква "е" чаще будет ударная.
Но это конечно всё не важно, модель-акцентор сама должна вытянуть эти закономерности из словаря.
Я ещё попробовал голоса bel_dmitriy и ru_dmitriy. Как я понимаю, это один человек записывал образцы на двух языках, и на них учили модель. Я предложил модели v5_cis_base озвучить одно и то же предложение на белорусском. В итоге, в синтезированной речи разницы по звучанию практически нет. То есть bel_dmitriy и ru_dmitriy звучат почти идентично с русским выговором.
Несмотря на критику, ваша новая модель v5_cis_base - однозначно лучший синтезатор TTS для белорусского языка на сегодня. Раньше я пробовал вашу v3 с украинским голосом mikyta, транскрибировал белорусский текст украинскими буквами и расставлял ударения - получалось довольно неплохо, но всё же украинский акцент чувствовался местами. Например, слово "Магілёўскі" (Могилёвский) он произносил как "Магілёвскі". Сейчас же bel_anatoliy в v5 -- это несомненно новый уровень, поздравляю!
Да, конечно, текст был с расставленными ударениями.
Можете сбросить фрагмент записей Дмитрия и Ларисы, чтобы там была буква "ч" в разных сочетаниях?
Внезапно, украинские голоса 'ukr_igor' и 'ukr_roman' очень хорошо озвучивают белорусский текст! Акцента почти нет.
Здорово, что сейчас у вас все 3 языка (русский, белорусский и украинский) реализуются одной моделью.
Сегодня дошли руки проверить белорусский язык, на модели v5_cis_base, в Колабе.
И сразу затык:
Подскажите, что указывать для белорусского? 'cyrillic'?
OK оставил language='ru' (не уверен правильно ли это).
Из 3 предложенных белорусских голосов:
bel_anatoliy - звучит довольно аутентично, лучший вариант.
bel_dmitriy - явный русский акцент.
bel_larisa - звучит неплохо, но всё же чувствуются смягчения как в русском "чь", "чи", "че" и подобное. В белорусском языке звук "ч" всегда твёрдый, т.е. "ч", "чы", "чэ".
Возможно, установка language='ru' повлияла на акцент.
Можно проговаривать про себя реплики в чатах, с интонациями вместо смайликов. :)
Ой, вы больны. Фик вам а не кредит!
А Nanobanana - ещё и вашим подчерком.
Решение проблем школьного образования путём неотдавания детей в школы - так себе решение. От него школы будут дальше деградировать, а дети останутся тупыми и асоциальными, кроме тех, кто социализируется в уличных бандах.
Ну они там все друг другу в затылок дышат. Это неудивительно: в любой сложной задаче каждый последующий % точности требует значительно больше усилий.
Для нормальной озвучки текстов всё равно нужен препроцессор. Развернуть числа прописью, "проговорить" аббревиатуры (" и т.д." --> "и так далее"), транслитерировать англоязычные названия, принудительно указать ударения где модель ошибается и т.п.
Тогда и белорусский пример поправьте:
на, допустим
"Начовы" -- это окказионализм. В БР-словаре есть
Насколько понимаю, только если вы решите выложить производный словарь, вам придётся использовать для него ту же CC-BY-SA-4.0. На обученную на словаре модель это ограничение не распространяется.
Для белорусского языка, огромная лексико-грамматическая база (слова с лексическими значениями, со всеми словоформами и проставленными ударениями) выложена здесь, под Creative Commons Attribution/Share-Alike.
На GitHub прикрутили подсветку синтаксиса для .zil, интересно...
Электровел небось тоже отжатый у кого-то.
Что-то на скринах отсутствуют вертикальные линии для структурных блоков. Полезная вещь.
Уже и не помню, когда разгадывал эти ребусы (очень напряжно иногда). В последнее время чаще ищем светофоры или переходы на фото.
Да там элементарно, Ватсон: заДДОСили Cloudflare - и он прилёг.