Система AlphaGo выиграла третью, решающую игру у Ли Седоля / Habr

Третья победа искусственного интеллекта в исторической серии из пяти игр в го

Го — восточноазиатская логическая игра с древней историей и богатыми культурными традициями. Существует несколько правил и вариаций, но основная цель одна: каждому из двух игроков нужно отгородить камнями своего цвета территорию как можно большего размера. Исследователей искусственного интеллекта в го привлекает сложность. Покорять шахматы уже поздно — компьютеры уже несколько лет как играют лучше людей. А вот в го число возможных позиций куда выше (10¹⁰⁰), чем в шахматах. Современные программы играют неплохо, но на уровне го-любителей. До создания системы, которая сможет обыгрывать лучших из людей, в лучшем случае десяток лет.

Так эксперты говорили до появления AlphaGo. Разработка от DeepMind (в 2014 году компанию купила Google) использует метод Монте-Карло. Лучшие из современных систем компьютерного го используют эту технологию. Но в AlphaGo ходы также помогают выбрать нейросети политики и ценности. Их можно назвать близкими родственниками нейросетей, которые распознают изображения и речь. Систему сначала научили игре на 160 тысячах партий с сервера KGS. Затем AlphaGo тренировалась в играх против самой себя.

Впервые внимание этот образец ИИ привлёк в январе. Тогда Google опубликовала научную работу по AlphaGo, где упоминался матч октября 2015 года. Трёхкратный европейский чемпион Фань Хуэй проиграл новой разработке в пяти играх из пяти.

Считается, что европейский уровень владения го ниже, чем на родине игры, в Азии. Вызывали вопросы отдельные ходы и ошибки Хуэя. Поэтому игроки го и энтузиасты ИИ с нетерпением ждали сеульского матча AlphaGo против одного из лучших представителей команды людей — обладателя девятого профессионального дана Ли Седоля.

До марта вопрос стоял следующим образом: есть ли у AlphaGo шанс против Ли Седоля? Но Седоль проиграл как первую, так и вторую партии. Если после первой игры мастер девятого дана демонстрировал оптимизм, то после второй он ушел в смятении. Седоль заявил, что он не увидел моментов, где он вёл игру.

Сегодня прошла третья партия. На игре присутствовали бывший глава Google Эрик Шмидт, один из важных инженеров компании Джефф Дин и прилетевший на днях в Сеул Сергей Брин. Очевидно, что покорение го символизирует важность технологий машинного обучения, которые являются сердцем Google.

Слева направо: основатель DeepMind Демис Хассабис, обладатель девятого профессионального дана Ли Седоль, сооснователь Google Сергей Брин.

Как и в первой игре, Седоль ходил чёрными, то есть первым. Также к числу хороших моментов можно было бы отнести знакомство с системой — у инженеров DeepMind вряд ли есть ресурсы менять что-то в дни матча. По крайней мере, слух утверждает, что Седоль и команда экспертов го провела ночь в поисках слабостей AlphaGo. Первые ходы чёрных были агрессивными. Похоже, что Седоль пытался увести игру в другое направление, пытаясь надавить на слабые места системы.

Видеозапись трансляции третьей партии матча AlphaGo — Ли Седоль.

В процессе игры ИИ продемонстрировал умение работать со сложными моментами в виде позиций ко. Считается, что системы компьютерного го слабо справляются с ко. К концу третьей игры у чёрных кончилось время, поэтому ходы человеку пришлось обдумывать по минуте.

Через 176 ходов партия закончилась победой системы AlphaGo. У ИИ на часах оставались 8 минут и 31 секунда.

Это уже третья подряд победа AlphaGo в серии. Определён общий исход исторической серии из пяти игр. Определена судьба денежного вознаграждения — очевидно, что теперь он уйдёт на благотворительность и развитие го, как и задумывалось в случае поражения человека. Определять глубину демонстрации преимущества AlphaGo будут две последние игры в воскресенье и вторник — несмотря на ясный вывод серии, её всё равно доиграют.

#AlphaGo won game 3 and the match! Historic moment. In complete awe of Lee Sedol’s incredible genius, and proud of the amazing AlphaGo team!
— Demis Hassabis (@demishassabis) 12 марта 2016 г.

В прошлом марте система обыграла игрока второго профессионального дана, сегодня она обходит про девятого дана. Возможно, этому помог факт того, что последние пять месяцев система AlphaGo тренировалась в играх против самой себя. Как утверждает глава DeepMind Демис Хассабис, текущая конфигурация использует примерно столько же аппаратных ресурсов, что и вариант, который обыграл Фань Хуэя. Хассабис говорит, что важнее алгоритмы, а не «железо».

Во вторник пройдёт последняя, пятая игра. Тогда будут подведены итоги сражения тысяч лет человеческой игры в го и двухлетней разработки, запускаемой на кластере из нескольких десятков коммерчески доступных серверных процессоров графических ускорителей.

Полезные материалы по теме:

Ходы партии.
Канал DeepMind с трансляциями игр на YouTube. Комментируют на английском Майкл Редмонд (9 профессиональный дан) и Крис Гэрлок.
Опубликованный вчера обзор алгоритмов AlphaGo на «Хабре».