Третья победа искусственного интеллекта в исторической серии из пяти игр в го
Го — восточноазиатская логическая игра с древней историей и богатыми культурными традициями. Существует несколько правил и вариаций, но основная цель одна: каждому из двух игроков нужно отгородить камнями своего цвета территорию как можно большего размера. Исследователей искусственного интеллекта в го привлекает сложность. Покорять шахматы уже поздно — компьютеры уже несколько лет как играют лучше людей. А вот в го число возможных позиций куда выше (10100), чем в шахматах. Современные программы играют неплохо, но на уровне го-любителей. До создания системы, которая сможет обыгрывать лучших из людей, в лучшем случае десяток лет.
Так эксперты говорили до появления AlphaGo. Разработка от DeepMind (в 2014 году компанию купила Google) использует метод Монте-Карло. Лучшие из современных систем компьютерного го используют эту технологию. Но в AlphaGo ходы также помогают выбрать нейросети политики и ценности. Их можно назвать близкими родственниками нейросетей, которые распознают изображения и речь. Систему сначала научили игре на 160 тысячах партий с сервера KGS. Затем AlphaGo тренировалась в играх против самой себя.