Comments / Profile of maybe24 / Habr

User

Мечтают ли андроиды об электропанке? Как я учил нейросеть писать музыку

@maybe24 Feb 22 2019 at 07:08

Первый пункт решился благодаря совету из гугл группы:

configs.py

trio_32bar_converter = data.TrioConverter(
    steps_per_quarter=4,
    slice_bars=32, #original: 16
    gap_bars=2)

CONFIG_MAP['hier-trio_32bar'] = Config(
    model=MusicVAE(
        lstm_models.HierarchicalLstmEncoder(
            lstm_models.BidirectionalLstmEncoder, [32, 16]),
        lstm_models.HierarchicalLstmDecoder(
            lstm_models.SplitMultiOutLstmDecoder(
                core_decoders=[
                    lstm_models.CategoricalLstmDecoder(),
                    lstm_models.CategoricalLstmDecoder(),
                    lstm_models.CategoricalLstmDecoder()],
                output_depths=[
                    90,  # melody
                    90,  # bass
                    512,  # drums
                ]),
            level_lengths=[32, 16], #original: [16, 16]
            disable_autoregression=True)),
    hparams=merge_hparams(
        lstm_models.get_default_hparams(),
        HParams(
            batch_size=128, #original: 256
            max_seq_len=32*16, #original: 16*16
            z_size=512,
            enc_rnn_size=[512], #original: 1024
            dec_rnn_size=[512, 512], #original: 1024, 1024
            free_bits=256,
            max_beta=0.2,
        )),
    note_sequence_augmenter=None,
    data_converter=trio_32bar_converter,
    train_examples_path=None,
    eval_examples_path=None,
)

У меня 16 Гб ОЗУ и я попал в Out of memory на первом шаге, в этом случае может помочь снижение batch_size, и точно поможет снижение параметров enc_rnn_size и dec_rnn_size.

Мечтают ли андроиды об электропанке? Как я учил нейросеть писать музыку

@maybe24 Feb 22 2019 at 00:08

В процессе тестирования trio_16bar возникли вопросы, можете ли подсказать:
1. Возможно ли увеличить количество тактов модели? Я пробовал поставить 32 такта дедуктивным методом:

configs.py

trio_32bar_converter = data.TrioConverter(
    steps_per_quarter=4,
    slice_bars=32, #original: 16
    gap_bars=2)
	
CONFIG_MAP['hierdec-trio_32bar'] = Config(
    model=MusicVAE(
        lstm_models.BidirectionalLstmEncoder(),
        lstm_models.HierarchicalLstmDecoder(
            lstm_models.SplitMultiOutLstmDecoder(
                core_decoders=[
                    lstm_models.CategoricalLstmDecoder(),
                    lstm_models.CategoricalLstmDecoder(),
                    lstm_models.CategoricalLstmDecoder()],
                output_depths=[
                    90,  # melody
                    90,  # bass
                    512,  # drums
                ]),
            level_lengths=[32, 32], #original: [16, 16]
            disable_autoregression=True)),
    hparams=merge_hparams(
        lstm_models.get_default_hparams(),
        HParams(
            batch_size=32*32, #original: 256
            max_seq_len=32*32, #original: 256
            z_size=1024, #original: 512
            enc_rnn_size=[2048, 2048],
            dec_rnn_size=[1024, 1024],
            free_bits=32*32, #original: 256
            max_beta=0.2,
        )),
    note_sequence_augmenter=None,
    data_converter=trio_32bar_converter,
    train_examples_path=None,
    eval_examples_path=None,
)

Но получаю ошибку при запуске обучения:

InvalidArgumentError (see above for traceback): assertion failed: [512 512 512...]

 [[node Assert/Assert (defined at /usr/lib/python2.7/site-packages/magenta/models/music_vae/lstm_utils.py:305) = Assert[T=[DT_INT32], summarize=3, _device="/job:localhost/replica:0/task:0/device:CPU:0"](All, Minimum_1)]]

2. Возможно ли добавить еще одну мелодию при генерации(или может сразу при обучении), чтобы на выходе получалось [melody, melody, bass, drums]?
3. В чем основные различия моделей hier-trio и hierdec-trio? Долго смотрел на параметры, но не могу понять для каких целей лучше использовать одну и другую…
4. Я увидел в параметрах конвертера steps_per_quarter, означает ли его присутствие что можно обучать модели в разных размерах?
5. Если после обучения появилась новая пачка подходящих миди — можно ли дообучить модель новым .tfrecord, и если да, то стоит ли дообучать модель только с новыми треками, или желательно заново с полным комплектом?

Мечтают ли андроиды об электропанке? Как я учил нейросеть писать музыку

@maybe24 Feb 13 2019 at 16:42

Огромное спасибо за ответы! Буду эксперементировать, еще очень порадовал набор Magenta Studio для аблетона, решает кучу задач. Еще забыл спросить, есть ли особая разница, тренировать полноценными midi треками со всеми инструментами, или разрезать на midi с однотипными инструментами? Т.е. отдельные модели гитар, басов, синтов, для одних и тех же треков.

Мечтают ли андроиды об электропанке? Как я учил нейросеть писать музыку

@maybe24 Feb 13 2019 at 11:57

Я все же подозреваю проблема была в памяти, т.к. при запуске обучения было свободно 40 Гб на диске, и 2 чекпоинта в настройках. Купил VPS по скидке на 16 Гб RAM и 4 ядра, завелось без проблем, потребляет 6 Гб RAM, но да, за 12 часов 30 мидишек прошли 1400 шагов. Подскажите плиз, не могу разобраться:
1. Влияет ли на скорость/качество увеличение-уменьшение чекпоинтов, sampling_rate и batch_size?
2. Сколько навскидку скушает денег на гугл облаке обучение одной тестовой модели с парой десятков миди?
3. TPU же не поддерживается на данный момент?
4. num_steps в примере указан 2 раза, первый = 1, второй = 5000. Это количество эпох, и применяется последнее указанное значение, первое можно не задавать?
5. Чем отличаются hier-multiperf_vel_1bar_med и hier-multiperf_vel_1bar_big?
6. С 1-го по 1400 шаг такая последовательность loss — 437-652-396-389-362-507-517-701-667-363-369-393-505-490-361, это нормально что значение не уменьшается, а болтается вверх-вниз, или я что-то неправильно сделал, или потому что без GPU?
7. Можно ли прервать обучение, и затем запустить с последнего чекпоинта?

Мечтают ли андроиды об электропанке? Как я учил нейросеть писать музыку

@maybe24 Feb 13 2019 at 07:08

А не посоветуете минимальный конфиг для обучения? Я потестил без GPU на VPS (Centos 7, python 2.7, 4Гб ОЗУ, 1 ядро 2.5 Ггц), и на первом чекпоинте вылетает Out of memory, а триальный Google Сloud сжег еще год назад…

Новое в браузерах: Firefox 66 по умолчанию блокирует видео и звук, Chromium ограничивает бюджет страниц

@maybe24 Feb 8 2019 at 12:24

Про это сочетание клавиш знает не так много людей, и задачу оно не решает, т.к. показывает что больше всего памяти жрут субфреймы, вынесенные на верхний уровень из вкладок, и какая вкладка его загрузила уже не очень понятно. Но отслеживание это уже такое… я привел пример в том смысле, что они предлагают резать допустимые килобайты для загрузки, но не обращают внимание что одна страница может съесть ОЗУ и ЦП юзера, независимо от размера загруженных скриптов.

Новое в браузерах: Firefox 66 по умолчанию блокирует видео и звук, Chromium ограничивает бюджет страниц

@maybe24 Feb 7 2019 at 11:59

Лучше бы потребление ресурсов хромом ограничили на страницу, а не со скоростью загрузки носились. Вот например сейчас у меня на win 8.1 открыто 15 вкладок, всего хром жрет 1.5 Гб ОЗУ, в диспетчере задач 25 процессов chrome.exe, один из них кушает 700 МБ… Без доп проверок даже не понятно какая вкладка грузит систему. JS может ничего не весить, просто получит аяксом здоровенный массив и переворачивая циклом без таймаута повесит юзеру систему.

Моддеры привлекли ИИ к улучшению текстур в играх

@maybe24 Dec 22 2018 at 12:05

В общем скоро не мы будем застревать в текстурах, а текстуры в нас

Сегодня ночью в Калифорнии прошло открытие тестового тоннеля от Boring Company

@maybe24 Dec 20 2018 at 06:24

Автопилоты, колесики… неужели нельзя просто цеплять авто за петли и протаскивать по тоннелю конвейером, не полагаясь на исправность машины и автопилота?