Ли Седоль выиграл четвёртую игру у системы AlphaGo / Хабр

Прошлые три игры исторического матча выиграл ИИ

Огромный плюс победы человека: мы увидели, как в интерфейсе AlphaGo выглядит признание поражения.

Сегодня прошла четвёртая партия матча Ли Седоль — AlphaGo. Играют известный 33-летний обладатель девятого профессионального дана и система компьютерного го от подразделения DeepMind компании Google. Сегодня Седоль выиграл.

AlphaGo — продукт от DeepMind, который комбинирует метод Монте-Карло с нейросетями политики и ценности. Играющая в Сеуле система является результатом двух лет работы, в том числе машинного обучения нейросетей на 160 тысячах партий с сервера KGS и в играх против самой себя. В прошлом октябре AlphaGo уже выигрывала у сильного игрока. Это был трехкратный европейский чемпион Фань Хуэй, который проиграл искусственному интеллекту в пяти из пяти партий.

Считается, что в Европе уровень владения го ниже, чем на родине игры, в Азии. Показать явное превосходство должен матч против Ли Седоля. Профессионал уже проиграл в трёх играх из пяти. Теперь ясен и исход серии, и судьба призового миллиона долларов — он уйдёт на благотворительность и организациям по развитию го. В последних двух партиях определится глубина поражения команды людей.

Вчера, после третьего поражения человека, одной из тем пресс-конференции был вопрос, есть ли у AlphaGo слабые места. Седоль упомянул, как чувствовал, что они есть. Он извинился перед корейской нацией и сообществом игроков го за показанный результат.

Легко понять его напряжение. Го — популярная в Корее игра, по некоторым оценкам в неё играют около 8 миллионов человек. В Южной Корее новости о матче выходят на первые полосы газет. Серьёзность происходящего для Google показывают фигуры наблюдателей. Игры посещают бывший глава Google Эрик Шмидт, сооснователь поискового гиганта Сергей Брин и один из важных инженеров компании Джефф Дин. Последний помогал Google прокладывать оптический канал в отель Four Seasons, в котором проходит матч. Канал нужен для связи с дата-центрами компании, где на сотнях процессорных ядер и видеоускорителей запускается AlphaGo.

Человек играл белыми, то есть у ИИ было преимущество в виде хода первым. Как и в предыдущих играх, Седоль исчерпал время раньше оппонента. То есть в какой-то момент человек был вынужден тратить всего по минуте на ход. В свою очередь система AlphaGo хорошо распоряжалась временем — это результат добавления нейросети, которая помогает управлять им.

78 ход белых оказался отличным. Возможно, Седоль действительно нащупал слабое место компьютерной системы. AlphaGo ответила слабо. Как пишет глава DeepMind Демис Хассабис, на 79 ходу система допустила ошибку, но поняла это только на 87 ходу. После этого ИИ запутался.

Mistake was on move 79, but #AlphaGo only came to that realisation on around move 87
— Demis Hassabis (@demishassabis) 13 марта 2016 г.

AlphaGo начала делать откровенно слабые и ужасные ходы. Система признаёт поражение, когда оценка шанса победы падает ниже 20 процентов. Об этом инженер Google Дэвид Сильвер напомнил во время перерыва, который взял Ли Седоль. Сильвер отказался комментировать серию невнятных ходов системы. Игра продолжилась, и Седоль всё так же был вынужден работать в условиях недостатка времени. ИИ допустил ещё один промах, а чуть позже признал поражение. Результатом противостояния на 4,5 часа и 180 ходов стала победа человека. Седоль заявил, что его никогда не поздравляли так сильно за всего лишь один выигрыш.

Игр будет проведено пять, и счёт 3-1 уже поставил точку в вопросе о победителе. Но для оценки силы системы важен общий результат матча. Последняя, пятая партия пройдёт во вторник. Как и прошлые четыре, она будет транслироваться на канале DeepMind на YouTube. Интересно, что в октябре Фань Хуэй тоже выигрывал у AlphaGo. Европейский чемпион одержал победу два раза, но в неформальных играх.

Го — древняя восточноазиатская логическая игра. Каждому из двух игроков нужно отгородить камнями своего цвета территорию как можно большего размера. Исследователей искусственного интеллекта в го привлекает сложность: позиций слишком много, чтобы перебрать их. Компьютерные системы давно подчинили себе и шашки, и шахматы. К примеру, с 2005 года лучшие из людей проигрывают лучшим из компьютерных систем по игре в шахматы. Системы компьютерного го есть, но играют они на уровне любителей. До появления AlphaGo эксперты считали, что игра го останется неприступной ещё десяток лет.

Ходы четвёртой игры