Comments 19
А почему на картинке диска с названием Ил-2 изображен Ла-7?
Потому, что это, вероятно, уже было "DLC" к оригинальной игре. Оригинальную обложку я нашёл вот в таком супер-качестве:
Скрытый текст

fyi, оно тут было в очень хорошем качестве https://habr.com/ru/articles/740420/
Не вижу проблем, в оригинале тоже были Ла-7 Кожедуба и Ла-5 (правда, только у аддонов) 😁

принять участие в разработке синтеза для новой версии
принять участие в разработке синтеза речи для новой версии
к нам обратились разработчики игра и рассказали
разработчики игр
Отдельное спасибо за упоминание MapMen)
"Что? Опять кренделя выделывать?! О неееееееееет!"
Фонетика английского действительно любопытна. Даже если не брать исключения и имена собственные. Недавно в исследовательских целях смотрел на CMUdict. Минималистичная, пара десятков килобайт g2p моделька, влёт изучала половину корпуса. Стало интересно, что да, а что нет. Заметил, что в заимствованных словах — из итальянского, латыни, русского (!), других языков, которые из-за незнания опознать не смог — кроме написания, почти прямо заимствуется и произношение. То есть другие правила фонемизации. Это невозможно понять, можно только запомнить (анекдот про тарельку и фасол). После наивной кластеризации и их обучении по отдельности, качество каждой подмодели резко выросло.
Недавно в исследовательских целях смотрел на CMUdict
Имхо, проблема этого словаря в том, что отдельно для английского он, в принципе, норм. Но в сочетании с другими языками — он недостаточно детальный. К примеру, если память не изменяет, там нет палатализации. К примеру, слово cute там записано как K Y UW1 T , хотя реально там звук kʲ стоит. Можно сравнить со словом cut, например. Ну и есть детали по гласным, но тут навскидку не вспомню уже.
Из плюсов ещё — путём небольших мытарств можно подрезать ударения, причём иногда двойные даже, что в теории может быть полезно. Поскольку ударение в большинстве языков недружественных стран почти не имеет смыслоразличительной функции (ну, +accent и acc+ent, или +ubersetzen / ubers+etzen), то они мало парятся с его сбором.
Минималистичная, пара десятков килобайт g2p моделька, влёт изучала половину корпуса
В идеале нужна точность 99%+ на имеющемся корпусе и генерализация в районе 90-95%. Но тут в английском этого в принципе на малых моделях сложно достичь. Всякие thought though the thorough this theme шлют пламенный привет.
Заметил, что в заимствованных словах — из итальянского, латыни, русского (!), других языков, которые из-за незнания опознать не смог — кроме написания, почти прямо заимствуется и произношение. То есть другие правила фонемизации. Это невозможно понять, можно только запомнить (анекдот про тарельку и фасол). После наивной кластеризации и их обучении по отдельности, качество каждой подмодели резко выросло.
Ещё нужно разделить кельтские слова, германские, французские, латинские, греческие. И ещё у них особо выдающиеся деятели языка делали реформы в духе "ну тут слова из разных языков пишутся по-разному, но произносятся одинаково, давайте перемешаем в кучу всё ещё раз, так будет прикольнее!". Там деятели приводят в пример всякие стихи времени Шекспира, когда можно было рифмовать blood и mood.
Так что модель тут имхо, особенно для топонимов, просто снимает с вас задачу печатать все фонемы. А просто вы прогоняете, слушаете, сверяете условно с гуглом или "бумажными" словарями и правите.
в английском этого в принципе на малых моделях сложно достичь.
На малой модели невозможно, на малых моделях — спорно. Ансамбль из одного худого классификатора "кластера" и 4 худых g2p, выдал заметно лучшее качество, чем у одной толстой модели сопоставимого размера. Причем провал в основном из-за последнего "кластера" — разное. То есть, вангую, рост количества худых, еще некоторое время давал бы линейный прирост качества. А для оптимизации, возникало подозрение, что энкодер g2p можно было сделать общим. Но исследовательский зуд утих и тема удалена в мусорку.
Оно всё равно не будет читать слова типа Worcester
Ну да. То или иное слово, но накосячит. Тут главное разделять "анализатор" и "архиватор", и не превратить одно в другое. Без словаря все-равно не обойтись. Если словарь плюс более худая модель весит меньше, чем меньший словарь с более толстой моделью, то зачем ее утолщать?
Ещё в CMU используется ARPABET. А он:
В ipa конвертится ну так себе
Под другие языки его не существует
Если словарь плюс более худая модель весит меньше, чем меньший словарь с более толстой моделью, то зачем ее утолщать?
Главное, что тут без человека не обойтись. И иногда ... этот человек это только местный.
Программа максимум — дать игрокам из разных стран возможность в мультиплеере говорить друг с другом через текстовый интерфейс.
Т. е. текст переводить в речь, которую услышат другие игроки? А почему речь не распознавать и не переводить на родные языки игроков и синтезировать речь? Или я чего-то не понял?
Ну идея примерно такая. Что в мульти-плейере могут играть игроки из разных стран. Они, скорее всего будут знать разные языки. Чтобы не ломать погружение, общение между самолётами должно быть по радио, на языке, который родной для пилота самолёта.
Как именно они хотят сделать, чтобы тебе был дубль текстом на твоём языке или чтобы ты слышал "родную" речь для пилота или родную речь для тебя самого — не знаю, но логично это в настройки вынести.
Что касается распознавания, ну его ещё надо сделать на N языков, тоже в качестве, чтобы крутилось на клиенте игры, что тоже непростая задача.
В любом случае вот эта идея пока чисто осталась в рамках идеи, её не доделали, насколько я знаю.
Как мы разрабатывали TTS для Ил-2 Штурмовик