bbchallenge Apr 18 2016 at 16:36

Как выиграть в игру с неизвестными правилами?

4 min

33K

DCA (Data-Centric Alliance) corporate blogSport programming*Big Data*Machine learning*

+27

Comments 20

kraidiky Apr 18 2016 at 17:41

Жаль, что такие правила. Мои сети на C# написаны, соответственно у вас не пойдут, даже если будут всех разрывать в клочья.

sanblch Apr 18 2016 at 18:08

Не столь сложно в питон конвертнуть, как нуля написать

kraidiky Apr 18 2016 at 19:32

А я на питоне пока только три пособия прочитал, так что будет медленно и топорно. Ну разве что исполнительный код написать на питоне по быстрому абы как, а код обучения использовать свой старый и учить сетку у себя по старинке. В принципе рано или поздно всё равно потребуется.

GNC Apr 18 2016 at 17:57

Определенно интересный челендж.
Особенно полезна тут наблюдательность и находчивость.
Нажиматели на кнопки в найропрограммах и фреймворках практически в полном составе потерпели крах.
Банальные подходы, в т.ч. Q-learning/Deep Q learning, без тонкой настройки, оказались не очень-то эффективны в победе над черным ящиком.
В общем, если вы интересуетесь Reinforcement Learning, смело принимайте участие.

l27_0_0_1 Apr 18 2016 at 20:50

А что, кто-то настроил deep q learning так что у него заработало? Спрашиваю потому что сам попробовал и из того что я понял даже если хорошо настроить вряд ли что дельное выйдет.

facha Apr 18 2016 at 18:33

Не пойму, в чем принципиальное отличие от Kaggle. В том, где исполнятется код (у меня дома или организаторов)? Но суть самой «игры» ведь та же…

Assargadon Apr 19 2016 at 11:58

Насколько я понял, разница в том, что в Kaggle система не реагирует на поведение пользователя. Например, если вы предсказываете погоду, ваши предсказания могут совпасть или не совпасть с реальностью, но они не повлияют на эту самую реальность.

С другой стороны, представьте, что вы находитесь в лабиринте, вектор чисел — это проходимости соседних с вами клеток, одно из четырех действий — это сдвиг на север/запад/юг/восток, а текущий счёт — это кратчайшее расстояние от вас до финиша, с учётом проходимости клеток.

Такую задачу в Kaggle не запихнёшь.

buriy Apr 18 2016 at 18:36

А сколько у вас точек, в которых нужно предсказать значение, и сколько тренировочных данных с известными значениями?

buriy Apr 18 2016 at 19:45

Ага, нашёл. Поправьте меня пожалуйста, если я ошибаюсь:
Если я правильно понимаю, то у вас 1200000 значений на уровень, сыграны только 2 стохастических уровня (ответы мы знаем на один из них?). И эти 1200000 значений нужно выдать за 240 секунд, т.к. со средней скоростью 5000 состояний в секунду.
И на проверочном сервере, как я понимаю, нет GPU.
В общем, компьютерным интеллектом тут и не пахнет — не пройдёт по скорости.
Нужно просто максимально угадать правила игры и потом запрограммировать под них рефлекторного уровня агента.
Говорите, машинное обучение?

+10

bbchallenge Apr 19 2016 at 16:28

Пользователям доступны два уровня.
Никаких ответов к уровням нет (как и к уровню в игре Марио, например, нет правильных ответов).
Лимит времени на проверку на двух уровнях — Test & Validation — 1200 секунд.

Говорите, машинное обучение?

— мы приветствуем все подходы. Будет интересно, если у вас получится решить задачу без него.

kenoma Apr 18 2016 at 20:14

Установка уже радует:
Sorry, but your python version is not supported!
Please make sure you have numpy >= 1.10! Your version is 1.11.0

bbchallenge Apr 19 2016 at 00:07

Очень странно, напишите, пожалуйста, детали в ЛС.

slonopotamus Apr 18 2016 at 21:10

И опять статья с вопросом в заголовке, на который она не отвечает. Вы там сговорились что ли?

+16

Bronx Apr 18 2016 at 22:28

> На каждом шаге игры бот может узнать вектор состояния игровой среды, подумать, что хочет сделать в этом состоянии, и сделать одно из четырех возможных действий.

А потом можно поменять абстрактные действия {0, 1, 2, 3} на конкретные «hold», «buy», «sell», и «sell all» :))

ZlodeiBaal Apr 19 2016 at 00:21

Партнёры соревнования — Data-Centric Alliance, Mail.ru, Skyeng постоянно ищут продвинутых специалистов по машинному обучению и анализу данных.
Участники, хорошо выступившие на нашем соревновании и предложившие нетривиальные подходы, будут приглашены на собеседования. А это значит, что впереди маячит карьера с ещё более интересными задачами в сфере машинного обучения.

Ребят. Сейчас рынок ML перегрет. Найти дельного специалиста, который что-то умеет — очень сложно. И тут не специалисты в очередь выстраиваются к «mail.ru» и прочим «крутым компаниям», а компании выстраиваются за специалистами которые хоть что-то умеют. И да, специалисты идут в первую очередь не в «крутые компании», где обычно очень стандартный набор скучных и рутинных задач, а в компании которые предлагают классные инновационные проекты лежащие на границу современного знания. В России они есть и их много.
Так что такая постановка «крутой вакансии» — забавляет:)

BelBES Apr 19 2016 at 11:33

Тише-тише, не расстраивайте mail.ru раньше времени) Попытка то хорошая...;)

Assargadon Apr 19 2016 at 11:52

Вроде бы очевидный вопрос, но явного ответа я на него не нашёл.

Есть ли гарантия, что игра, которая скачивается в качестве примера — это та же игра, которая идёт в зачет, пусть с другими данными?

Не получится ли так, что тренировочная игра — это, допустим, предсказание погоды по данным метеостанций, а зачётная игра — это ориентирование по трёхмерному лабиринту, а сотояние — это проходимость близлежащих вокселей?

Иными словами, нужно

1) натренировать правильные рефлексы у бота, пользуясь тестовыми данными, и сложность состоит в том, чтобы научить бота игре (генерализация), а не конкретным уровням (оверфиттинг)

или

2) научить бота обучаться по ходу дела, а тестовые данные — это просто для ознакомления с интерфейсом игры?

bbchallenge Apr 19 2016 at 14:52

Да, есть гарантия, что игра, которая скачивается в качестве примера — это та же игра, которая идёт в зачет, пусть с другими данными.

То есть если ваш агент не переобучился и получает хороший результат на тренировочном уровне, то должен хорошо сыграть и на тестовом.

Randl Apr 22 2016 at 23:23

Из названия статьи подумал, что в ней расскажут как сделать то, что у вас во втором пункте.

Michael134096 Apr 19 2016 at 13:00

Напомнило задачку про сортировку по японски
http://acm.timus.ru/problem.aspx?num=1546&locale=ru
Где присутствовала black box:
http://acm.timus.ru/Supplement/BlackBox/BlackBox.aspx