Comments / Profile of snakers4 / Habr

Alexander Veysov@snakers4

Machine Learning / Data Science

19,1

Rating

447

Subscribers

ProfileArticles82Posts1News1Comments1.6K

Сэнди Петерсен и Джон Кармак: как Quake сломал id Software

snakers4 Jul 10 at 12:36

Sigil (5+) и Sigil 2 (4+) и его новые карты для Doom неплохи. Но в целом он явно перехайплен как дизайнер игр.

Сэнди Петерсен и Джон Кармак: как Quake сломал id Software

snakers4 Jul 10 at 12:24

Ни разу не умаляю заслуг всех этих людей при разработке DOOM и Quake, но вот не припомню за ними всеми супер ярких успехов после эпохи DOOM / Quake. Это классический пример, когда 1+1 = 3, то есть команда собралась такая, которая смогла.

Тот же Ромеро делал неплохие современные wad-ы для дума на фоне ретро-мании (SIGIL), но откровенно говоря другие его проекты даже не пробивали шум для меня.

И самое грустное, после эпохи DOOM, похоже главное детище Кармака - движки id tech беседка по ходу в итоге похоронит.

Как Яндекс меня кинул на фестивале для будущих яндексоидов, или Хроники одного YoungCon

snakers4 Jul 3 at 12:49

Когда вы познакомитесь с "детскими" тарифами в такси — у вас откроется ещё одна чакра понимания компании Яндекс.

Ещё поинтересуйтесь кому сотрудники Яндекса в 2022 отдали целую базу Яндекс.Доставки и какие у этого были последствия, и понесла ли компания какое-либо наказание за это.

Как мы разрабатывали TTS для Ил-2 Штурмовик

snakers4 Jun 25 at 10:19

Ну идея примерно такая. Что в мульти-плейере могут играть игроки из разных стран. Они, скорее всего будут знать разные языки. Чтобы не ломать погружение, общение между самолётами должно быть по радио, на языке, который родной для пилота самолёта.

Как именно они хотят сделать, чтобы тебе был дубль текстом на твоём языке или чтобы ты слышал "родную" речь для пилота или родную речь для тебя самого — не знаю, но логично это в настройки вынести.

Что касается распознавания, ну его ещё надо сделать на N языков, тоже в качестве, чтобы крутилось на клиенте игры, что тоже непростая задача.

В любом случае вот эта идея пока чисто осталась в рамках идеи, её не доделали, насколько я знаю.

Как мы разрабатывали TTS для Ил-2 Штурмовик

snakers4 Jun 25 at 08:58

Ещё в CMU используется ARPABET. А он:

В ipa конвертится ну так себе
Под другие языки его не существует

Если словарь плюс более худая модель весит меньше, чем меньший словарь с более толстой моделью, то зачем ее утолщать?

Главное, что тут без человека не обойтись. И иногда ... этот человек это только местный.

Как мы разрабатывали TTS для Ил-2 Штурмовик

snakers4 Jun 25 at 08:06

Оно всё равно не будет читать слова типа Worcester

Как мы разрабатывали TTS для Ил-2 Штурмовик

snakers4 Jun 25 at 07:58

Есть какой-то шарм в этих простых jewel-кейсах. Что интересно, у буржуев ценятся копии иконичных игр в специальных больших коробках, типа с майкой / картой / книгой. Но я ни разу вживую вообще таких не видел, что у наших, что у буржуйских игр.

Как мы разрабатывали TTS для Ил-2 Штурмовик

snakers4 Jun 25 at 07:46

Недавно в исследовательских целях смотрел на CMUdict

Имхо, проблема этого словаря в том, что отдельно для английского он, в принципе, норм. Но в сочетании с другими языками — он недостаточно детальный. К примеру, если память не изменяет, там нет палатализации. К примеру, слово cute там записано как K Y UW1 T , хотя реально там звук kʲ стоит. Можно сравнить со словом cut, например. Ну и есть детали по гласным, но тут навскидку не вспомню уже.

Из плюсов ещё — путём небольших мытарств можно подрезать ударения, причём иногда двойные даже, что в теории может быть полезно. Поскольку ударение в большинстве языков недружественных стран почти не имеет смыслоразличительной функции (ну, +accent и acc+ent, или +ubersetzen / ubers+etzen), то они мало парятся с его сбором.

Минималистичная, пара десятков килобайт g2p моделька, влёт изучала половину корпуса

В идеале нужна точность 99%+ на имеющемся корпусе и генерализация в районе 90-95%. Но тут в английском этого в принципе на малых моделях сложно достичь. Всякие thought though the thorough this theme шлют пламенный привет.

Заметил, что в заимствованных словах — из итальянского, латыни, русского (!), других языков, которые из-за незнания опознать не смог — кроме написания, почти прямо заимствуется и произношение. То есть другие правила фонемизации. Это невозможно понять, можно только запомнить (анекдот про тарельку и фасол). После наивной кластеризации и их обучении по отдельности, качество каждой подмодели резко выросло.

Ещё нужно разделить кельтские слова, германские, французские, латинские, греческие. И ещё у них особо выдающиеся деятели языка делали реформы в духе "ну тут слова из разных языков пишутся по-разному, но произносятся одинаково, давайте перемешаем в кучу всё ещё раз, так будет прикольнее!". Там деятели приводят в пример всякие стихи времени Шекспира, когда можно было рифмовать blood и mood.

Так что модель тут имхо, особенно для топонимов, просто снимает с вас задачу печатать все фонемы. А просто вы прогоняете, слушаете, сверяете условно с гуглом или "бумажными" словарями и правите.

Как мы разрабатывали TTS для Ил-2 Штурмовик

snakers4 Jun 24 at 09:12

Идеальная иллюстрация сути английского языка в 1 видосе

Как мы разрабатывали TTS для Ил-2 Штурмовик

snakers4 Jun 24 at 08:25

Поменял картинку, спасибо

Как мы разрабатывали TTS для Ил-2 Штурмовик

snakers4 Jun 24 at 07:37

Потому, что это, вероятно, уже было "DLC" к оригинальной игре. Оригинальную обложку я нашёл вот в таком супер-качестве:

Скрытый текст

Человек, который занимался нейросетевой математикой в Красноярске — и которого цитируют до сих пор

snakers4 Jun 9 at 12:41

То есть, когда дед рассказывал мне, что они в КГТУ шатали нейросети с Горбанём в 90-е, он оказывается не шутил и не преувеличивал.

Во дела. Где-то есть альтернативная вселенная, где Хинтон не раскрутился, все знают Горбаня и Красноярск — "кремниевая" долина.

Наш синтез для экранных читалок (SAPI5) для 20 языков России стал лучше

snakers4 Jun 5 at 05:40

Когда-то так было, но потом возникали запросы типа хочу разные слова или фразы делать разной скоростью, одно время были эти legacy-интерфейсы, потом убрали и их, чтобы не было ада с поддержкой разных версий для разных мест.
В публичном движке синтеза, если я правильно понял вопрос, — никак. В SAPI читалке, скорее всего, просто тупо замена букв на аналоги, но это читалка, и там идеальное прочтение менее важно, чем точное прочтение.

Если стоит задача фармить именно паузы между буквами на движке синтеза, то тут три пути:

Играться с SSML
Играться с запятыми или точками
Пробовать какие-то схемы с кастомным написанием, пробелы / твёрдые знаки

Наш синтез для 20 языков теперь работает локально под Windows как экранная читалка (SAPI5) и в Балаболке

snakers4 Jun 4 at 10:06

Вышло обновление — https://habr.com/ru/articles/1043466/

Теперь silero-tts v5 на русском языке умеет задавать вопросы

snakers4 Apr 16 at 10:28

Доехал апдейт v5_5_ru с Евгением.

Теперь silero-tts v5 на русском языке умеет задавать вопросы

snakers4 Apr 8 at 07:13

Русскоязычные модели не принимают латиницу.

Найдем любого — бесплатно, какой у него оператор связи?

snakers4 Apr 8 at 03:28

Не может или не хочет?

Помощь следствию не принесет прибыль можно прикрываться тайной связи.

А потом нарушать её продавая данные десятков миллионов абонентов, а это принесет прибыль)

Теперь silero-tts v5 на русском языке умеет задавать вопросы

snakers4 Apr 7 at 16:52

Стандартный пример из репозитория, секция v5 → SSML:

Пример

ssml_sample = """
              <speak>
              <p>
                  Когда я просыпаюсь, <prosody rate="x-slow">я говорю довольно медленно</prosody>.
                  Пот+ом я начинаю говорить своим обычным голосом,
                  <prosody pitch="x-high"> а могу говорить тоном выше </prosody>,
                  или <prosody pitch="x-low">наоборот, ниже</prosody>.
                  Пот+ом, если повезет – <prosody rate="fast">я могу говорить и довольно быстро.</prosody>
                  А еще я умею делать паузы любой длины, например, две секунды <break time="2000ms"/>.
                  <p>
                    Также я умею делать паузы между параграфами.
                  </p>
                  <p>
                    <s>И также я умею делать паузы между предложениями</s>
                    <s>Вот например как сейчас</s>
                  </p>
              </p>
              </speak>
              """

sample_rate = 48000
speaker = 'xenia'              
audio = model.apply_tts(ssml_text=ssml_sample,
                        speaker=speaker,
                        sample_rate=sample_rate)
display(Audio(audio, rate=sample_rate))

Послушал, звучит как надо. Где тут может быть ошибка — сложно понять без примера.

Теперь silero-tts v5 на русском языке умеет задавать вопросы

snakers4 Apr 7 at 16:49

Такой возможности нет.

Найдем любого — бесплатно, какой у него оператор связи?

snakers4 Apr 1 at 08:39

<s>

Ммм … а представьте, если можно будет ещё и получить доступ к переписке в одном известном мессенджере через такие же обезличенные сервисы. Его же не разрабатывает частная компания, которая крутит рекламу направо-налево?

Они же не будут продавать вашу переписку, правда? За это же есть ответственность, как и за нарушение тайны связи и сливы всей базы с персональными данными, правда?

</s>

Если без шуток — с мобилы по ходу вообще нельзя ни на какие сайты заходить в принципе, лол. Ну и конечно всегда адблок.

А со СДЭК и Яндексом ответственности никакой не было.

@Antxak — не увидел, а про какую компанию речь в статье? Может стоит перенести свой телефонный номер от неё?

2 3 ...

80 81