Pull to refresh

Система AlphaGo выиграла третью, решающую игру у Ли Седоля

Reading time3 min
Views21K

Третья победа искусственного интеллекта в исторической серии из пяти игр в го


Го — восточноазиатская логическая игра с древней историей и богатыми культурными традициями. Существует несколько правил и вариаций, но основная цель одна: каждому из двух игроков нужно отгородить камнями своего цвета территорию как можно большего размера. Исследователей искусственного интеллекта в го привлекает сложность. Покорять шахматы уже поздно — компьютеры уже несколько лет как играют лучше людей. А вот в го число возможных позиций куда выше (10100), чем в шахматах. Современные программы играют неплохо, но на уровне го-любителей. До создания системы, которая сможет обыгрывать лучших из людей, в лучшем случае десяток лет.

Так эксперты говорили до появления AlphaGo. Разработка от DeepMind (в 2014 году компанию купила Google) использует метод Монте-Карло. Лучшие из современных систем компьютерного го используют эту технологию. Но в AlphaGo ходы также помогают выбрать нейросети политики и ценности. Их можно назвать близкими родственниками нейросетей, которые распознают изображения и речь. Систему сначала научили игре на 160 тысячах партий с сервера KGS. Затем AlphaGo тренировалась в играх против самой себя.

Впервые внимание этот образец ИИ привлёк в январе. Тогда Google опубликовала научную работу по AlphaGo, где упоминался матч октября 2015 года. Трёхкратный европейский чемпион Фань Хуэй проиграл новой разработке в пяти играх из пяти.

Считается, что европейский уровень владения го ниже, чем на родине игры, в Азии. Вызывали вопросы отдельные ходы и ошибки Хуэя. Поэтому игроки го и энтузиасты ИИ с нетерпением ждали сеульского матча AlphaGo против одного из лучших представителей команды людей — обладателя девятого профессионального дана Ли Седоля.

До марта вопрос стоял следующим образом: есть ли у AlphaGo шанс против Ли Седоля? Но Седоль проиграл как первую, так и вторую партии. Если после первой игры мастер девятого дана демонстрировал оптимизм, то после второй он ушел в смятении. Седоль заявил, что он не увидел моментов, где он вёл игру.

Сегодня прошла третья партия. На игре присутствовали бывший глава Google Эрик Шмидт, один из важных инженеров компании Джефф Дин и прилетевший на днях в Сеул Сергей Брин. Очевидно, что покорение го символизирует важность технологий машинного обучения, которые являются сердцем Google.


Слева направо: основатель DeepMind Демис Хассабис, обладатель девятого профессионального дана Ли Седоль, сооснователь Google Сергей Брин.

Как и в первой игре, Седоль ходил чёрными, то есть первым. Также к числу хороших моментов можно было бы отнести знакомство с системой — у инженеров DeepMind вряд ли есть ресурсы менять что-то в дни матча. По крайней мере, слух утверждает, что Седоль и команда экспертов го провела ночь в поисках слабостей AlphaGo. Первые ходы чёрных были агрессивными. Похоже, что Седоль пытался увести игру в другое направление, пытаясь надавить на слабые места системы.


Видеозапись трансляции третьей партии матча AlphaGo — Ли Седоль.

В процессе игры ИИ продемонстрировал умение работать со сложными моментами в виде позиций ко. Считается, что системы компьютерного го слабо справляются с ко. К концу третьей игры у чёрных кончилось время, поэтому ходы человеку пришлось обдумывать по минуте.

Через 176 ходов партия закончилась победой системы AlphaGo. У ИИ на часах оставались 8 минут и 31 секунда.



Это уже третья подряд победа AlphaGo в серии. Определён общий исход исторической серии из пяти игр. Определена судьба денежного вознаграждения — очевидно, что теперь он уйдёт на благотворительность и развитие го, как и задумывалось в случае поражения человека. Определять глубину демонстрации преимущества AlphaGo будут две последние игры в воскресенье и вторник — несмотря на ясный вывод серии, её всё равно доиграют.


В прошлом марте система обыграла игрока второго профессионального дана, сегодня она обходит про девятого дана. Возможно, этому помог факт того, что последние пять месяцев система AlphaGo тренировалась в играх против самой себя. Как утверждает глава DeepMind Демис Хассабис, текущая конфигурация использует примерно столько же аппаратных ресурсов, что и вариант, который обыграл Фань Хуэя. Хассабис говорит, что важнее алгоритмы, а не «железо».

Во вторник пройдёт последняя, пятая игра. Тогда будут подведены итоги сражения тысяч лет человеческой игры в го и двухлетней разработки, запускаемой на кластере из нескольких десятков коммерчески доступных серверных процессоров графических ускорителей.

Полезные материалы по теме:
Tags:
Hubs:
Total votes 21: ↑21 and ↓0+21
Comments208

Articles