snakers4 Jun 24 at 07:13

Как мы разрабатывали TTS для Ил-2 Штурмовик

Medium

12 min

9.6K

Machine learning * Game development * Natural Language Processing * Voice user interfaces *

Case

+16

Comments 19

sharpshooter Jun 24 at 07:36

А почему на картинке диска с названием Ил-2 изображен Ла-7?

snakers4 Jun 24 at 07:37

Потому, что это, вероятно, уже было "DLC" к оригинальной игре. Оригинальную обложку я нашёл вот в таком супер-качестве:

Скрытый текст

echo0x00 Jun 24 at 08:12

fyi, оно тут было в очень хорошем качестве https://habr.com/ru/articles/740420/

snakers4 Jun 24 at 08:25

Поменял картинку, спасибо

MakeYourVision Jun 24 at 17:40

Не вижу проблем, в оригинале тоже были Ла-7 Кожедуба и Ла-5 (правда, только у аддонов) 😁

snakers4 Jun 25 at 07:58

Есть какой-то шарм в этих простых jewel-кейсах. Что интересно, у буржуев ценятся копии иконичных игр в специальных больших коробках, типа с майкой / картой / книгой. Но я ни разу вживую вообще таких не видел, что у наших, что у буржуйских игр.

webhamster Jun 24 at 07:48

принять участие в разработке синтеза для новой версии

принять участие в разработке синтеза речи для новой версии

webhamster Jun 24 at 07:52

к нам обратились разработчики игра и рассказали

разработчики игр

yujinn Jun 24 at 09:04

Отдельное спасибо за упоминание MapMen)

snakers4 Jun 24 at 09:12

Идеальная иллюстрация сути английского языка в 1 видосе

MakeYourVision Jun 24 at 17:31

"Что? Опять кренделя выделывать?! О неееееееееет!"

Lecron Jun 25 at 06:53

Фонетика английского действительно любопытна. Даже если не брать исключения и имена собственные. Недавно в исследовательских целях смотрел на CMUdict. Минималистичная, пара десятков килобайт g2p моделька, влёт изучала половину корпуса. Стало интересно, что да, а что нет. Заметил, что в заимствованных словах — из итальянского, латыни, русского (!), других языков, которые из-за незнания опознать не смог — кроме написания, почти прямо заимствуется и произношение. То есть другие правила фонемизации. Это невозможно понять, можно только запомнить (анекдот про тарельку и фасол). После наивной кластеризации и их обучении по отдельности, качество каждой подмодели резко выросло.

snakers4 Jun 25 at 07:46

Недавно в исследовательских целях смотрел на CMUdict

Имхо, проблема этого словаря в том, что отдельно для английского он, в принципе, норм. Но в сочетании с другими языками — он недостаточно детальный. К примеру, если память не изменяет, там нет палатализации. К примеру, слово cute там записано как K Y UW1 T , хотя реально там звук kʲ стоит. Можно сравнить со словом cut, например. Ну и есть детали по гласным, но тут навскидку не вспомню уже.

Из плюсов ещё — путём небольших мытарств можно подрезать ударения, причём иногда двойные даже, что в теории может быть полезно. Поскольку ударение в большинстве языков недружественных стран почти не имеет смыслоразличительной функции (ну, +accent и acc+ent, или +ubersetzen / ubers+etzen), то они мало парятся с его сбором.

Минималистичная, пара десятков килобайт g2p моделька, влёт изучала половину корпуса

В идеале нужна точность 99%+ на имеющемся корпусе и генерализация в районе 90-95%. Но тут в английском этого в принципе на малых моделях сложно достичь. Всякие thought though the thorough this theme шлют пламенный привет.

Заметил, что в заимствованных словах — из итальянского, латыни, русского (!), других языков, которые из-за незнания опознать не смог — кроме написания, почти прямо заимствуется и произношение. То есть другие правила фонемизации. Это невозможно понять, можно только запомнить (анекдот про тарельку и фасол). После наивной кластеризации и их обучении по отдельности, качество каждой подмодели резко выросло.

Ещё нужно разделить кельтские слова, германские, французские, латинские, греческие. И ещё у них особо выдающиеся деятели языка делали реформы в духе "ну тут слова из разных языков пишутся по-разному, но произносятся одинаково, давайте перемешаем в кучу всё ещё раз, так будет прикольнее!". Там деятели приводят в пример всякие стихи времени Шекспира, когда можно было рифмовать blood и mood.

Так что модель тут имхо, особенно для топонимов, просто снимает с вас задачу печатать все фонемы. А просто вы прогоняете, слушаете, сверяете условно с гуглом или "бумажными" словарями и правите.

Lecron Jun 25 at 07:59

в английском этого в принципе на малых моделях сложно достичь.

На малой модели невозможно, на малых моделях — спорно. Ансамбль из одного худого классификатора "кластера" и 4 худых g2p, выдал заметно лучшее качество, чем у одной толстой модели сопоставимого размера. Причем провал в основном из-за последнего "кластера" — разное. То есть, вангую, рост количества худых, еще некоторое время давал бы линейный прирост качества. А для оптимизации, возникало подозрение, что энкодер g2p можно было сделать общим. Но исследовательский зуд утих и тема удалена в мусорку.

snakers4 Jun 25 at 08:06

Оно всё равно не будет читать слова типа Worcester

Lecron Jun 25 at 08:21

Ну да. То или иное слово, но накосячит. Тут главное разделять "анализатор" и "архиватор", и не превратить одно в другое. Без словаря все-равно не обойтись. Если словарь плюс более худая модель весит меньше, чем меньший словарь с более толстой моделью, то зачем ее утолщать?

snakers4 Jun 25 at 08:58

Ещё в CMU используется ARPABET. А он:

В ipa конвертится ну так себе
Под другие языки его не существует

Если словарь плюс более худая модель весит меньше, чем меньший словарь с более толстой моделью, то зачем ее утолщать?

Главное, что тут без человека не обойтись. И иногда ... этот человек это только местный.

Zhabrozavr Jun 25 at 09:57

Программа максимум — дать игрокам из разных стран возможность в мультиплеере говорить друг с другом через текстовый интерфейс.

Т. е. текст переводить в речь, которую услышат другие игроки? А почему речь не распознавать и не переводить на родные языки игроков и синтезировать речь? Или я чего-то не понял?

snakers4 Jun 25 at 10:19

Ну идея примерно такая. Что в мульти-плейере могут играть игроки из разных стран. Они, скорее всего будут знать разные языки. Чтобы не ломать погружение, общение между самолётами должно быть по радио, на языке, который родной для пилота самолёта.

Как именно они хотят сделать, чтобы тебе был дубль текстом на твоём языке или чтобы ты слышал "родную" речь для пилота или родную речь для тебя самого — не знаю, но логично это в настройки вынести.

Что касается распознавания, ну его ещё надо сделать на N языков, тоже в качестве, чтобы крутилось на клиенте игры, что тоже непростая задача.

В любом случае вот эта идея пока чисто осталась в рамках идеи, её не доделали, насколько я знаю.