sim0nsays11 мар 2016 в 15:24

AlphaGo на пальцах

5 мин

63K

Машинное обучение *

+66

Комментарии 46

zuborg 11 мар 2016 в 16:48

Собственно, все. Лучшим ходом объявляется нод, через который бегали чаще всех (оказывается, это чуть стабильнее чем этот Q-score). AlphaGo сдается, если у всех ходов Q-score < -0.8, т.е. вероятность выиграть меньше 10%.

Мне кажется, это лазейка, чтобы подловить AlphaGo. Очередность ходов имеет значение. Есть камни, которые рано или поздно должны быть поставлены, но поставленные слишком рано они приносят не столько пользы, сколько поставленные в свое время.

sim0nsays 11 мар 2016 в 16:49

Ммм, следующий ход выбирается только из непосредственных детей рута. Т.е. это ближайший ход из возможных, через который чаще всего бегала симуляция.

zuborg 11 мар 2016 в 17:01

Т.е. частота это просто счетчик того, насколько детально анализировалась позиция (кол-во просмотренных (до конца?) дочерних подпозиций, грубо говоря)? Т.е. расчет делается на то, что чем более перспективный оказывается ход, тем более детально он рассматривается.

sim0nsays 11 мар 2016 в 17:05

В некотором смысле да, но я уточню.
Так как вероятность просмотра напрямую зависит от того, какой у позиции Q-score (симуляция выбирает ходы с максимумом Q + m(P)), то он очень коррелирует с тем, насколько выгодны позиции дерева за ним. Теоретически, можно выбирать и по максимуму Q-score напрямую, но вот они обнаружили, что по количеству чуть стабильнее.
У них в финальной версии даже есть эвристика, что если эти две метрики не сочетаются, надо прогнать дополнительные симуляции.

varagian 11 мар 2016 в 17:07

Воодушевляет, что они собрали довольно известные методы, очень грамотно их настроили-объединили и получили такой скачок в результатах.

Что интересно, можно ли получить существенный прогресс, добавив туда expert knowledge, в духе классические шаги завершения комбинаций или локальные-глобальные стратегии?

sim0nsays 11 мар 2016 в 17:12

В некотором смысле, где есть feature engineering, там есть и expert knowledge. Часть системы — линейный классификатор на основе заранее заданных фич, что попадает в эту категорию. Возможно, если есть какие-то еще инсайты, можно добавить их к оценке нода.

Но все равно похоже они должны быть заданы так, чтобы модель можно было обучать. Иначе не получится адаптировать это для стратегии, которая эволюционирует через reinforcement learning.

dimview 11 мар 2016 в 21:35

Похоже, что уже нет. Майкл Редмонд (очень сильный профессионал, который комментирует матчи) характеризует некоторые ходы AlphaGo как странные, и только дальше по ходу матча выясняется, какая от этих ходов польза.

Кроме того, человеческая стратегия отличается от компьютерной, и похоже что это одна из причин, которая позволяет AlphaGo показывать такой хороший результат. Например, AlphaGo не пытается нарастить своё преимущество. Выигрыш на камень с вероятностью 90% для неё лучше выигрыша на пять камней с вероятностью 89%. Человек обычно пытается выиграть с некоторым запасом.

sim0nsays 11 мар 2016 в 22:10

Второе, кстати, прямое следствие выбранного алгоритма — так как все метрики оперируют бинарным reward (победил или нет), то максимальным score будет обладать ветка, которая максимизирует именно это, а не margin.
Вообще говоря, можно натренировать версию, которая будет стремиться именно подавлять оппонента разгромным счетом :)

KvanTTT 11 мар 2016 в 17:51

Пожалуй стоит добавить в статью эту ссылку, энтузиасты начали воссоздавать ИИ AlphaGo на основе публикации и выложили это на гитхаб: AlphaGoReplication.

sim0nsays 11 мар 2016 в 17:58

Действительно, спасибо!

hasu0 12 мар 2016 в 04:05

По-моему, они выложили раньше, чем начали что-то воссоздавать. Ткнулся в десяток случайных файлов — все либо пустые, либо без какого-то внятного содержимого.

KvanTTT 11 мар 2016 в 18:05

Интересно, насколько ухудшится уровень, если запустить этот ИИ на обычно компьютере? И можно ли его так оптимизировать, чтобы его можно было перенести на обычный компьютер практически без ухудшения качества расчета. Просто Deep Blue, обыгравший Каспарова, тоже был суперкомпьютером, а сейчас даже с обычным компьютером практически бесполезно соревноваться. Понятно, что с тех времен мощности сильно выросли, но все же интересно, можно ли это сделать в теории с очень хитрыми и мощными эвристиками или же все упирается в вычислительную способность?

hombre 11 мар 2016 в 18:10

В статье в Nature подробно описывают, как изменяется сила алгоритма игры измеренная рейтингом ELO при различных вычислительных ресурсам
см. страницу 11
https://gogameguru.com/i/2016/03/deepmind-mastering-go.pdf

hombre 11 мар 2016 в 18:14

Как пишут сами авторы по сравнению с Deep Blue, анализируется на 3 порядка меньше комбинаций:

AlphaGo evaluated thousands of times fewer positions than Deep Blue did in its chess match against Kasparov

Правда, насколько я понимаю, в этой оценке они ни учитывают стадию rollouts

sim0nsays 11 мар 2016 в 20:48

Теоретически если бы нейросети были натренированы лучше, то необходимое количество ресурсов становится радикально меньше. Весь вопрос — можно ли лучше натренировать? Никаких теоретических оценок или ограничений нет, в других задачах получается находить архитектуры и решения все точнее и точнее.
Глядишь и тут будет прогресс.

KvanTTT 11 мар 2016 в 22:45

Мне кажется, что все ресурсы в основном уходят на перебор вариантов в Monte Carlo Tree Search. А с учетом этого:

Предсказание этой натренированной SL-policy (SL — supervised learning) уже рвет все прошлые программы Го, без всяких деревьев и переборов.

Походу на обычном компьютере или даже на планшете AlphaGo будет играть очень неплохо.

sim0nsays 11 мар 2016 в 23:34

О, про это есть немного информации в статье. Проход по дереву выполняется всего на одной машине, кластер из 280 GPUs и 1500 чтоли CPU занимается исключительно вычислением policy и value networks + rollouts для новых годов дерева. Т.е. основная нагрузка перебора — это именно нейросети. Если бы они сужали перебор лучше, нужно было бы меньше перебирать.

Про второе — ну да, будет играть неплохо даже просто с SL-policy, но Lee Sedol не выиграет :)

sim0nsays 12 мар 2016 в 04:06

Кстати, в продолжение разговора —

Distributed version is only ~75% win rate against single machine version! Using distributed for match but single machine AG very strong also
https://twitter.com/demishassabis/status/708489093676568576

Даже на одной машине с ней могут соревноваться не больше 100 человек в мире поди

KvanTTT 11 мар 2016 в 22:48

В переводе не нашел информации, сколько весят нейронные сети в общем и по отдельности. И что означает

+ добавился некий ML на тему менеджмента времени.

sim0nsays 11 мар 2016 в 23:37

В каком переводе?.. То что у меня — это скорее вольное изложение :)

Про время — это что AlphaGo нужно принимать решение, сколько дозволенного времени тратить на ход. В статье про это было написано очень расплывчато, а потом Demis Hassabis в каком-то интервью сказал, что они обучили для этого какую-то модель

victor_cherepanov 11 мар 2016 в 23:43

Доходчиво, понятно!

ProstoTyoma 12 мар 2016 в 00:33

А когда нейросети научатся программы писать?
И где в неолуддиты записываться? =)

sim0nsays 12 мар 2016 в 00:44

И даже в этом направлении идёт прогресс, следите за публикациями!

DennyRolling 12 мар 2016 в 18:20

Code Phage уже чинит баги с помощью копи-паста бинарного кода

dmandreev 12 мар 2016 в 19:46

Пока только научились с помощью LSTM "изучить" Linux kernel и на основе этой информации генерить нечто бредовое, но очень похожее. Важным в этом контексте являются Neural Turing Machines. Если это все как то хитрым способом скомбинировать, то наверное что то получится.

sashagil 12 мар 2016 в 04:46

Спасибо Семён! Я статью из Nature распечатал ещё тогда и просмотрел по диагонали, но не изучил. Ты пишешь очень доходчиво.

По делу — с точки зрения отличия от "настоящего" AI у меня к AlphaGo две претензии / предложения, попроще и посложнее:

попроще: было бы интересно узнать, во сколько раз больше вычислительных ресурсов потребовалось бы, чтобы натренировать сети до такого же отличного уровня игры чисто через игры с самой собой, без обучения на большой базе игр экспертов (ты про этот аспект написал, кстати? вроде не вижу...);

посложнее: параметры системы (картинки-таблицы в твоей статье: топология сетей и параметры MCTS) тоже люди же подбирали, не само выросло... Вот эти дела чтобы самовыводились, это интересная (и гораздо более ресурсоёмкая) задача. Ты читал / слышал про General Game World Championships? http://www.general-game-playing.de/ (почему-то с 2011 года соревнования не проводились... Но сайт обновляется!)

sim0nsays 12 мар 2016 в 05:34

Очень странная разметка у тебя :)
Насколько я понимаю, про успехи тотального reinforcement learning ничего не понятно. Демис из Deepmind только несколько раз упоминал, что прикольно было бы сделать без бутстрапа с человеческими партиями (он описан в Шаге 1 в этом посте).

Выбирать оптимальные гиперпараметры (это не только параметры сети, их в любом процессе много) — это отдельная специальная наука. Наиболее перспективны на сейчас — так называемые Gaussian Processes. Грозятся, что с некоторыми допущениями получается гарантировать близость к глобальному оптимуму за некоторое число шагов. Я статьи сам еще не прочитал, прочитаю — доложусь.

sashagil 13 мар 2016 в 02:11

"прочитаю — доложусь" — давай! Я буду тебе напоминать.

"Очень странная разметка у тебя :)" — у них тут какой-то агрессивный markdown. Я всего лишь поставил то ли два, то ли три пробела в начале двух параграфов "попроще: ..." и "посложнее: ..." и, видимо, эти пробелы послужили сигналами, что я цитирую код или что-то такое. Потом, почему английский подхватился жирным, а после // пошло сереньким синтезированным италиком, ну, я не хочу даже разбираться (посты здесь не пишу, нет смысла инвестировать внимание в это).

leshabirukov 12 мар 2016 в 13:36

Интересно, не тренировали ли сеть на игру против конкретного человека? Просто меняя обучающую выборку. Это объяснило бы, почему игру Фан Хуэя так критиковали.

YoungSkipper 12 мар 2016 в 13:55

Не тренировали. Более того, ее даже не тренируют между матчами текущей партии для чистоты эксперимента.

sim0nsays 12 мар 2016 в 17:25

Им нужна обучающая выборка как можно больше, поэтому они просто берут все игры, до которых могут дотянуться.

leshabirukov 13 мар 2016 в 05:24

Вот неочевидно, что было бы, если бы из обучающей выборки исключили все игры Ли Седоля.

DennyRolling 13 мар 2016 в 07:02

ничего бы не было. количество его (да и всех человеческих) игр, по сравнению с играми которые АльфаГо играла сама с собой пренебрежимо мало.

f0rk 13 мар 2016 в 18:30

На пресс-конференции представитель гугла сказал, что в их базе партий Ли Седоля нет, по его словам я понял, что там вообще только партии сильных любителей были.

sim0nsays 13 мар 2016 в 19:11

Ага, было известно что у них только онлайн-матчи в изначальной выборке для тренировки, но я как-то думал, профессионалы в онлайне тоже играют

novoselov 12 мар 2016 в 17:15

AlphaGo выиграл со счетом 3-0

sim0nsays 12 мар 2016 в 17:31

Кто бы сомневался! Мы, кстати на http://closedcircles.com смотрим каждую игру в чате, сочувствующие — присоединяйтесь.
Вот инвайт

alex_blank 13 мар 2016 в 07:35

Ыы, привет. Сто лет тут тебя не было видно :) Как раз недавно перечитывал твою старую статью про mem latency тут, вспоминал старый геймдев.ру. В общем, здорово тебя тут видеть снова.

Набрел, кстати, на этот ваш closedcircles (через gamedeff.com), даже зарегался. А инвайт дает какие-то преференции?

sim0nsays 13 мар 2016 в 07:41

Привет :)

Только сразу заводит в правильный кружок.

mrjj 14 мар 2016 в 22:57

Игру на 10 досках пока не осилит

zloddey 15 мар 2016 в 02:32

Turns since… 8

Т.е., после 256-го хода у сети будет переполнение? #irony

sim0nsays 15 мар 2016 в 02:36

Мне кажется там one-off encoding на все, поэтому это всего на 8 ходов :)

mrgloom 19 апр 2016 в 09:11

Так за счёт чего произошел прорыв то? Как раньше играли программы в GO? Можете объяснить тот же Monte Carlo Tree Search поподробней и почему его одного не хватает?

iKBAHT 19 апр 2016 в 16:58

MCTS не хватает, потому что дерево ходов слишком широкое. Для каждой позиции в среднем есть 250 вариантов хода. А AlfaGo сразу отсекает по дерево перебора ширине, плюс по ходу перебора отсекает по глубине.

sim0nsays 19 апр 2016 в 18:13

За счет эффективности эвалюации нодов в поиске. Если ценность и вес ноды определяются плохо, то MCTS должен пройти в дереве очень далеко, чтобы понять какой ход лучше. В Го настолько много возможных ходов, что обойти все раскрытием дерева — нереально, и MCTS с ограниченными ресурсами найдет не слишком хороший ход.
А если оценки ценности и веса дают возможность исследовать только интересные ходы, сразу все становится значительно лучше.

iKBAHT 19 апр 2016 в 16:58

~~не туда написал~~

Зарегистрируйтесь на Хабре, чтобы оставить комментарий