Comments 20

Пардон, но музыка говно и какафония.
Каша из гамм, тонов и темпа с громкостью. Можно лучшего добиться с рандомом в пределах гамм.
С другой стороны требовать от него чего-то большего имхо рановато и то чего он добился значительно (переходы все-таки есть, но следуют какой-то синусоиде).
Для людей "спервадабейся" https://soundcloud.com/equand
В отличие от сценария с TTS мы не настраивали сеть на проигрывание чего-то конкретного (по нотам), мы, наоборот, дали возможность сети сгенерировать то что она хочет.
при желании на вход сети можно было бы дать доп. инфо и она сделала бы и более осмысленную музыку, просто это не входило в рамки данного конкретного эксперимента.
Тогда зачем писать "создание музыки"? Ясно же что вызовет баттхерт.
Это тоже самое что рандомные единички и нолики назвать программой.
Написали бы "сгенерировать шум из нот пиано".
Если хочется послушать нормальную музыку от генератора музыки на основе свёрточных нейросетей, то вот https://www.jukedeck.com/
>> Можно лучшего добиться с рандомом в пределах гамм.
Дерзайте и делитесь результатами, будет очень интересно
Хотелось бы представить мощность нейронной сети.
И еще вопрос о синтезе речи (возможно я плохо прочитал статью): если нейронная сеть фактически позволяет сгенерировать новый сэмпл по нескольким предыдущим, то как осуществить управление такой нейронной сетью, чтобы она говорила то, что нужно, т.е. фактически решала задачу text to speech?
Я полагаю на входе текст и преобразованный аудиофайл произнесенного текста с темпом, тембром и другим данными по голосу записывающего.
Так что это не просто закинул голос и сработало.
Еще много работы до прямого синтеза (когда в виртуальный эмулятор гортани подается виртуальных воздух с разным давлением).
Честно говоря, оценки могут быть занижены потому что в оригинальных семплах отсутствуют высокие частоты. Интересно, как проводилось тестирование. Еще становится немного не по себе и даже дурно из-за отсутствия вдыхательных пауз.
WaveNet: новая модель для генерации человеческой речи и музыки