Pull to refresh
39
0
Печенко Антон @Parilo

Программист

Все правильно, только не на все хватает времени в период чемпионата. Так как чтобы увидеть, что какое-то изменение реально работает, бывает, надо потратить несколько дней на обучение
Согласен, но при недостатке мощностей сеть лучше учится на более частых наградах, чем на какой-то очень далекой, но самой важной награде
Далеко не все глубокие нейронные сети рекуррентные, сверточная нейросеть тоже не рекуррентная.
А можно поподробнее про подбор архитектуры ИНС для задачи? Посоветуйте где можно почитать/посмотреть про подбор архитектур ИНС? Если не использовать эволюционные алгоритмы.
Это другой метод, но это возможно, нужно только взять где-то эти данные
Согласен, ввести какие-то разумные ограничения не помешало бы.
Соревнование действительно оказалось не очень подходящим для нейросетей, так как ресурсов мало и нельзя использовать готовые библиотеки. Но если есть какие-то заготовки то почему нет? У меня как раз некоторые заготовки были, поэтому я и решился. В прошлом году заготовок не было, поэтому не участвовал.
Про генетические алгоритмы есть довольно много инфы. Да, это нейросеть с большим количеством параметров — весов.
Протестировать его с тем же seed на тех же партиях. Или на небольшой выборке партий.
Спасибо, посмотрю.
Я не спец в генетических алгоритмах, но я думаю что можно, только если тупо в лоб, то вероятно это будет долго, с учетом того, что локальный симулятор работает довольно долго. Наверное нужно как-то бить на подзадачи и какой-то свой симулятор писать.
Периодически можно было бы устраивать ланы с расписанием, жеребьевкой и прочим. Ну и потом просто посмотреть в код перед определением победителя.
Матч не назначается системой, стратегии логинятся и запрашивают матч, дальше система подбирает им соперников, которые есть он-лайн, с учетом рейтинга. С накрутками должен бороться рейтинг. Опять же в Старкрафте 2 нету проблемы частотой матчей. Есть игроки, которые часто играют и все равно находятся снизу в рейтинге и те, кто играет не часто и находится в топе, только за счет скилла.
У меня проц i7 6700k
Загрузка GPU сильно зависела от размера состояния, на 394 параметрах была около 20%, на 3144 опускалась ниже 10% вроде бы. И как я понял дело даже не в проце, просто надо реорганизовать обучение. У меня весь опыт по мере поступления складывается в replay buffer и оттуда же я выбираю минибатчи для обучения, затем отправляю их в TensorFlow. На supervised learning задачах, где изначально есть датасет и ты по нему бегаешь загрузка 99% на GPU. Я думаю, надо попробовать сделать как в supervised, то есть иметь отдельно буфер для складывания опыта и второй для обучения и периодически их синхронизировать. И еще лучше попытаться организовать этот буфер прямо в GPU.
На досуге можно попробовать. Если займусь, то добавлю в пост еще одно видео.
Тут я бы предложил по аналогии со Старкрафтом, стратегия логинится и запрашивает поиск игры, тогда нет необходимости в 24/7
Интересная идея, мне кажется, так можно решить проблему с перестановкой колонок. Они автоматически формируются рядом с близкими.
Да, это используется очень часто. Это помогает максимально быстро набрать банк наиболее разнообразного опыта для обучения.
Смотря как на это посмотреть. Используется обучение с подкреплением, то есть награды и штрафы. Но вот радость и печаль надо сначала каким либо образом определить, но это уже философский вопрос… В любом случае при текущем развитии НС, это как пытаться определить что чувствует нематода или еще какой-либо простой организм.
1

Information

Rating
Does not participate
Registered
Activity