sim0nsays Mar 11 2016 at 15:24

AlphaGo на пальцах

5 min

61K

Machine learning*

+67

Comments 46

zuborg Mar 11 2016 at 16:48

Собственно, все. Лучшим ходом объявляется нод, через который бегали чаще всех (оказывается, это чуть стабильнее чем этот Q-score). AlphaGo сдается, если у всех ходов Q-score < -0.8, т.е. вероятность выиграть меньше 10%.

Мне кажется, это лазейка, чтобы подловить AlphaGo. Очередность ходов имеет значение. Есть камни, которые рано или поздно должны быть поставлены, но поставленные слишком рано они приносят не столько пользы, сколько поставленные в свое время.

sim0nsays Mar 11 2016 at 16:49

Ммм, следующий ход выбирается только из непосредственных детей рута. Т.е. это ближайший ход из возможных, через который чаще всего бегала симуляция.

zuborg Mar 11 2016 at 17:01

Т.е. частота это просто счетчик того, насколько детально анализировалась позиция (кол-во просмотренных (до конца?) дочерних подпозиций, грубо говоря)? Т.е. расчет делается на то, что чем более перспективный оказывается ход, тем более детально он рассматривается.

sim0nsays Mar 11 2016 at 17:05

В некотором смысле да, но я уточню.
Так как вероятность просмотра напрямую зависит от того, какой у позиции Q-score (симуляция выбирает ходы с максимумом Q + m(P)), то он очень коррелирует с тем, насколько выгодны позиции дерева за ним. Теоретически, можно выбирать и по максимуму Q-score напрямую, но вот они обнаружили, что по количеству чуть стабильнее.
У них в финальной версии даже есть эвристика, что если эти две метрики не сочетаются, надо прогнать дополнительные симуляции.

varagian Mar 11 2016 at 17:07

Воодушевляет, что они собрали довольно известные методы, очень грамотно их настроили-объединили и получили такой скачок в результатах.

Что интересно, можно ли получить существенный прогресс, добавив туда expert knowledge, в духе классические шаги завершения комбинаций или локальные-глобальные стратегии?

sim0nsays Mar 11 2016 at 17:12

В некотором смысле, где есть feature engineering, там есть и expert knowledge. Часть системы — линейный классификатор на основе заранее заданных фич, что попадает в эту категорию. Возможно, если есть какие-то еще инсайты, можно добавить их к оценке нода.

Но все равно похоже они должны быть заданы так, чтобы модель можно было обучать. Иначе не получится адаптировать это для стратегии, которая эволюционирует через reinforcement learning.

dimview Mar 11 2016 at 21:35

Похоже, что уже нет. Майкл Редмонд (очень сильный профессионал, который комментирует матчи) характеризует некоторые ходы AlphaGo как странные, и только дальше по ходу матча выясняется, какая от этих ходов польза.

Кроме того, человеческая стратегия отличается от компьютерной, и похоже что это одна из причин, которая позволяет AlphaGo показывать такой хороший результат. Например, AlphaGo не пытается нарастить своё преимущество. Выигрыш на камень с вероятностью 90% для неё лучше выигрыша на пять камней с вероятностью 89%. Человек обычно пытается выиграть с некоторым запасом.

sim0nsays Mar 11 2016 at 22:10

Второе, кстати, прямое следствие выбранного алгоритма — так как все метрики оперируют бинарным reward (победил или нет), то максимальным score будет обладать ветка, которая максимизирует именно это, а не margin.
Вообще говоря, можно натренировать версию, которая будет стремиться именно подавлять оппонента разгромным счетом :)

KvanTTT Mar 11 2016 at 17:51

Пожалуй стоит добавить в статью эту ссылку, энтузиасты начали воссоздавать ИИ AlphaGo на основе публикации и выложили это на гитхаб: AlphaGoReplication.

sim0nsays Mar 11 2016 at 17:58

Действительно, спасибо!

hasu0 Mar 12 2016 at 04:05

По-моему, они выложили раньше, чем начали что-то воссоздавать. Ткнулся в десяток случайных файлов — все либо пустые, либо без какого-то внятного содержимого.

KvanTTT Mar 11 2016 at 18:05

Интересно, насколько ухудшится уровень, если запустить этот ИИ на обычно компьютере? И можно ли его так оптимизировать, чтобы его можно было перенести на обычный компьютер практически без ухудшения качества расчета. Просто Deep Blue, обыгравший Каспарова, тоже был суперкомпьютером, а сейчас даже с обычным компьютером практически бесполезно соревноваться. Понятно, что с тех времен мощности сильно выросли, но все же интересно, можно ли это сделать в теории с очень хитрыми и мощными эвристиками или же все упирается в вычислительную способность?

hombre Mar 11 2016 at 18:10

В статье в Nature подробно описывают, как изменяется сила алгоритма игры измеренная рейтингом ELO при различных вычислительных ресурсам
см. страницу 11
https://gogameguru.com/i/2016/03/deepmind-mastering-go.pdf

hombre Mar 11 2016 at 18:14

Как пишут сами авторы по сравнению с Deep Blue, анализируется на 3 порядка меньше комбинаций:

AlphaGo evaluated thousands of times fewer positions than Deep Blue did in its chess match against Kasparov

Правда, насколько я понимаю, в этой оценке они ни учитывают стадию rollouts

sim0nsays Mar 11 2016 at 20:48

Теоретически если бы нейросети были натренированы лучше, то необходимое количество ресурсов становится радикально меньше. Весь вопрос — можно ли лучше натренировать? Никаких теоретических оценок или ограничений нет, в других задачах получается находить архитектуры и решения все точнее и точнее.
Глядишь и тут будет прогресс.

KvanTTT Mar 11 2016 at 22:45

Мне кажется, что все ресурсы в основном уходят на перебор вариантов в Monte Carlo Tree Search. А с учетом этого:

Предсказание этой натренированной SL-policy (SL — supervised learning) уже рвет все прошлые программы Го, без всяких деревьев и переборов.

Походу на обычном компьютере или даже на планшете AlphaGo будет играть очень неплохо.

sim0nsays Mar 11 2016 at 23:34

О, про это есть немного информации в статье. Проход по дереву выполняется всего на одной машине, кластер из 280 GPUs и 1500 чтоли CPU занимается исключительно вычислением policy и value networks + rollouts для новых годов дерева. Т.е. основная нагрузка перебора — это именно нейросети. Если бы они сужали перебор лучше, нужно было бы меньше перебирать.

Про второе — ну да, будет играть неплохо даже просто с SL-policy, но Lee Sedol не выиграет :)

sim0nsays Mar 12 2016 at 04:06

Кстати, в продолжение разговора —

Distributed version is only ~75% win rate against single machine version! Using distributed for match but single machine AG very strong also
https://twitter.com/demishassabis/status/708489093676568576

Даже на одной машине с ней могут соревноваться не больше 100 человек в мире поди

KvanTTT Mar 11 2016 at 22:48

В переводе не нашел информации, сколько весят нейронные сети в общем и по отдельности. И что означает

+ добавился некий ML на тему менеджмента времени.

sim0nsays Mar 11 2016 at 23:37

В каком переводе?.. То что у меня — это скорее вольное изложение :)

Про время — это что AlphaGo нужно принимать решение, сколько дозволенного времени тратить на ход. В статье про это было написано очень расплывчато, а потом Demis Hassabis в каком-то интервью сказал, что они обучили для этого какую-то модель

victor_cherepanov Mar 11 2016 at 23:43

Доходчиво, понятно!

ProstoTyoma Mar 12 2016 at 00:33

А когда нейросети научатся программы писать?
И где в неолуддиты записываться? =)

sim0nsays Mar 12 2016 at 00:44

И даже в этом направлении идёт прогресс, следите за публикациями!

DennyRolling Mar 12 2016 at 18:20

Code Phage уже чинит баги с помощью копи-паста бинарного кода

dmandreev Mar 12 2016 at 19:46

Пока только научились с помощью LSTM "изучить" Linux kernel и на основе этой информации генерить нечто бредовое, но очень похожее. Важным в этом контексте являются Neural Turing Machines. Если это все как то хитрым способом скомбинировать, то наверное что то получится.

sashagil Mar 12 2016 at 04:46

Спасибо Семён! Я статью из Nature распечатал ещё тогда и просмотрел по диагонали, но не изучил. Ты пишешь очень доходчиво.

По делу — с точки зрения отличия от "настоящего" AI у меня к AlphaGo две претензии / предложения, попроще и посложнее:

попроще: было бы интересно узнать, во сколько раз больше вычислительных ресурсов потребовалось бы, чтобы натренировать сети до такого же отличного уровня игры чисто через игры с самой собой, без обучения на большой базе игр экспертов (ты про этот аспект написал, кстати? вроде не вижу...);

посложнее: параметры системы (картинки-таблицы в твоей статье: топология сетей и параметры MCTS) тоже люди же подбирали, не само выросло... Вот эти дела чтобы самовыводились, это интересная (и гораздо более ресурсоёмкая) задача. Ты читал / слышал про General Game World Championships? http://www.general-game-playing.de/ (почему-то с 2011 года соревнования не проводились... Но сайт обновляется!)

sim0nsays Mar 12 2016 at 05:34

Очень странная разметка у тебя :)
Насколько я понимаю, про успехи тотального reinforcement learning ничего не понятно. Демис из Deepmind только несколько раз упоминал, что прикольно было бы сделать без бутстрапа с человеческими партиями (он описан в Шаге 1 в этом посте).

Выбирать оптимальные гиперпараметры (это не только параметры сети, их в любом процессе много) — это отдельная специальная наука. Наиболее перспективны на сейчас — так называемые Gaussian Processes. Грозятся, что с некоторыми допущениями получается гарантировать близость к глобальному оптимуму за некоторое число шагов. Я статьи сам еще не прочитал, прочитаю — доложусь.

sashagil Mar 13 2016 at 02:11

"прочитаю — доложусь" — давай! Я буду тебе напоминать.

"Очень странная разметка у тебя :)" — у них тут какой-то агрессивный markdown. Я всего лишь поставил то ли два, то ли три пробела в начале двух параграфов "попроще: ..." и "посложнее: ..." и, видимо, эти пробелы послужили сигналами, что я цитирую код или что-то такое. Потом, почему английский подхватился жирным, а после // пошло сереньким синтезированным италиком, ну, я не хочу даже разбираться (посты здесь не пишу, нет смысла инвестировать внимание в это).

leshabirukov Mar 12 2016 at 13:36

Интересно, не тренировали ли сеть на игру против конкретного человека? Просто меняя обучающую выборку. Это объяснило бы, почему игру Фан Хуэя так критиковали.

YoungSkipper Mar 12 2016 at 13:55

Не тренировали. Более того, ее даже не тренируют между матчами текущей партии для чистоты эксперимента.

sim0nsays Mar 12 2016 at 17:25

Им нужна обучающая выборка как можно больше, поэтому они просто берут все игры, до которых могут дотянуться.

leshabirukov Mar 13 2016 at 05:24

Вот неочевидно, что было бы, если бы из обучающей выборки исключили все игры Ли Седоля.

DennyRolling Mar 13 2016 at 07:02

ничего бы не было. количество его (да и всех человеческих) игр, по сравнению с играми которые АльфаГо играла сама с собой пренебрежимо мало.

f0rk Mar 13 2016 at 18:30

На пресс-конференции представитель гугла сказал, что в их базе партий Ли Седоля нет, по его словам я понял, что там вообще только партии сильных любителей были.

sim0nsays Mar 13 2016 at 19:11

Ага, было известно что у них только онлайн-матчи в изначальной выборке для тренировки, но я как-то думал, профессионалы в онлайне тоже играют

novoselov Mar 12 2016 at 17:15

AlphaGo выиграл со счетом 3-0

sim0nsays Mar 12 2016 at 17:31

Кто бы сомневался! Мы, кстати на http://closedcircles.com смотрим каждую игру в чате, сочувствующие — присоединяйтесь.
Вот инвайт

alex_blank Mar 13 2016 at 07:35

Ыы, привет. Сто лет тут тебя не было видно :) Как раз недавно перечитывал твою старую статью про mem latency тут, вспоминал старый геймдев.ру. В общем, здорово тебя тут видеть снова.

Набрел, кстати, на этот ваш closedcircles (через gamedeff.com), даже зарегался. А инвайт дает какие-то преференции?

sim0nsays Mar 13 2016 at 07:41

Привет :)

Только сразу заводит в правильный кружок.

mrjj Mar 14 2016 at 22:57

Игру на 10 досках пока не осилит

zloddey Mar 15 2016 at 02:32

Turns since… 8

Т.е., после 256-го хода у сети будет переполнение? #irony

sim0nsays Mar 15 2016 at 02:36

Мне кажется там one-off encoding на все, поэтому это всего на 8 ходов :)

mrgloom Apr 19 2016 at 09:11

Так за счёт чего произошел прорыв то? Как раньше играли программы в GO? Можете объяснить тот же Monte Carlo Tree Search поподробней и почему его одного не хватает?

iKBAHT Apr 19 2016 at 16:58

MCTS не хватает, потому что дерево ходов слишком широкое. Для каждой позиции в среднем есть 250 вариантов хода. А AlfaGo сразу отсекает по дерево перебора ширине, плюс по ходу перебора отсекает по глубине.

sim0nsays Apr 19 2016 at 18:13

За счет эффективности эвалюации нодов в поиске. Если ценность и вес ноды определяются плохо, то MCTS должен пройти в дереве очень далеко, чтобы понять какой ход лучше. В Го настолько много возможных ходов, что обойти все раскрытием дерева — нереально, и MCTS с ограниченными ресурсами найдет не слишком хороший ход.
А если оценки ценности и веса дают возможность исследовать только интересные ходы, сразу все становится значительно лучше.

iKBAHT Apr 19 2016 at 16:58

~~не туда написал~~