aylarov Sep 12 2016 at 08:28

WaveNet: новая модель для генерации человеческой речи и музыки

5 min

38K

Voximplant corporate blogMathematics*Machine learning*

Translation

+47

Comments 20

ehxo Sep 12 2016 at 10:27

А музыка, я извиняюсь, ~~какое-то дерьмо~~ плохая.

aylarov Sep 12 2016 at 10:28

Не удержался, простите :)

equand Sep 12 2016 at 11:14

Пардон, но музыка говно и какафония.
Каша из гамм, тонов и темпа с громкостью. Можно лучшего добиться с рандомом в пределах гамм.
С другой стороны требовать от него чего-то большего имхо рановато и то чего он добился значительно (переходы все-таки есть, но следуют какой-то синусоиде).

Для людей "спервадабейся" https://soundcloud.com/equand

aylarov Sep 12 2016 at 11:15

если вы внимательно прочитаете статью, то поймете почему это так. даю подсказку

В отличие от сценария с TTS мы не настраивали сеть на проигрывание чего-то конкретного (по нотам), мы, наоборот, дали возможность сети сгенерировать то что она хочет.

при желании на вход сети можно было бы дать доп. инфо и она сделала бы и более осмысленную музыку, просто это не входило в рамки данного конкретного эксперимента.

equand Sep 12 2016 at 11:21

С другой стороны требовать от него чего-то большего имхо рановато и то чего он добился значительно (переходы все-таки есть, но следуют какой-то синусоиде).

Повторюсь, я не говорю, что не может, факт есть факт, даже при таком входе выход был лучше чем большинство населения могло бы сделать.

grigoryvp Sep 12 2016 at 11:21

Сюрприз — это не музыка :) Это рандомный шум, который сгенерировала сеть.

equand Sep 12 2016 at 11:26

Тогда зачем писать "создание музыки"? Ясно же что вызовет баттхерт.

Это тоже самое что рандомные единички и нолики назвать программой.

Написали бы "сгенерировать шум из нот пиано".

-1

grigoryvp Sep 12 2016 at 11:42

Любая статья на любую тему вызывает баттхерт у определенной части читателей. Это свойство человеческого мозга, в нем больше нейронов для работы с негативом. Эволюционно выработалось за сотни тысячь лет эволюции, чтобы тигр не скушал. Амигдала, гипоталамус, все дела. Мы потерпим, не переживайте :)

equand Sep 12 2016 at 11:54

Я думаю просто неверно называть "создание музыки" то, чем оно не является. Говорить, что это шум позже не оправдание. Либо в статье надо указать, что это шум, либо редифинировать термин "музыка". Иначе это просто частично инвалидирует статью и выводы команды deepmind.

bask Sep 12 2016 at 13:59

какофония.

Если хочется послушать нормальную музыку от генератора музыки на основе свёрточных нейросетей, то вот https://www.jukedeck.com/

firexonix Sep 12 2016 at 16:36

Извиняюсь, но, по-видимому, вы не знакомы с авангардными тенденциями в академической музыке. То, что сгенерировала сеть, еще очень даже мелодично и «слушабельно».

>> Можно лучшего добиться с рандомом в пределах гамм.
Дерзайте и делитесь результатами, будет очень интересно

ikbrain Sep 12 2016 at 12:42

Так это как в примерах с говорением, когда сетка сама придумывает, что говорить. Вот и получилось ыфлоывапchairщвпршаыцу.

Andrey_Volk Sep 12 2016 at 10:53

Собственно, вопрос: а вы уже применяете данную технологию в своем облаке? Не увидел у вас на сайте подобного)

aylarov Sep 12 2016 at 10:55

У нас пока обычный text-to-speech, с которым ее сравнивают, WaveNet — это исследовательский проект, но думаю, что в течение какого-то времени он может пойти в продакшн того же Google Speech и станет доступен. Главное, чтобы ресурсоемкость была нормальная для коммерческой эксплуатации.

vladshow Sep 12 2016 at 11:11

Вопрос о структуре нейронной сети: сколько вам понадобилось нейронов и слоев для синтеза речи и создания музыки?
Хотелось бы представить мощность нейронной сети.
И еще вопрос о синтезе речи (возможно я плохо прочитал статью): если нейронная сеть фактически позволяет сгенерировать новый сэмпл по нескольким предыдущим, то как осуществить управление такой нейронной сетью, чтобы она говорила то, что нужно, т.е. фактически решала задачу text to speech?

aylarov Sep 12 2016 at 11:13

Нейронную сеть делали не мы (мы только перевели), а коллеги из DeepMind, поэтому лучше вопросы им задать напрямую. В конце статьи есть ссылка на оригинал статьи, там, наверняка, есть контактные данные.

equand Sep 12 2016 at 11:40

Я полагаю на входе текст и преобразованный аудиофайл произнесенного текста с темпом, тембром и другим данными по голосу записывающего.

Так что это не просто закинул голос и сработало.
Еще много работы до прямого синтеза (когда в виртуальный эмулятор гортани подается виртуальных воздух с разным давлением).

equand Sep 12 2016 at 11:41

Честно говоря, оценки могут быть занижены потому что в оригинальных семплах отсутствуют высокие частоты. Интересно, как проводилось тестирование. Еще становится немного не по себе и даже дурно из-за отсутствия вдыхательных пауз.

UFO just landed and posted this here

lseder Sep 14 2016 at 19:40

русский язык когда?… устал от Alyona by Accapela.