GlukKazan8 ноя 2021 в 10:57

Го: Долгая дорога к боту

28 мин

7.1K

JavaScript * TensorFlow * Логические игрыМашинное обучение *

Технотекст 2021

+35

Комментарии 11

Akon32 8 ноя 2021 в 11:34

Создание своего бота, конечно, достойно похвалы, но на практике проще взять katago (он умеет прогнозировать итоговый счёт, а не только вероятность победы, в отличие от следующих), ну или LeelaZero, или pachi, или AQ...

Конечно, помимо «хоси», хотелось бы видеть "комоку", "такамоку", "сан-сан" и "мокухадзуси", но здесь, по всей видимости, свою негативную роль сыграло крайне малое количество партий, на которых производилось обучение.

ЕМНИП, на протяжении последних веков было принято начинать с хоси (пункта 4-4), но в 20м веке это уже поднадоело, и мастера начали пробовать пункты 3-4, 4-5, 3-3, 3-5, центр. Но с появлением AlphaZero стало ясно, что наибольшую выгоду даёт начало с пунктов хоси. Этот факт был по сути вычислен системами вроде AlphaZero.

GlukKazan 8 ноя 2021 в 11:37

Здесь чисто практический момент. Видимо все 100 партий, на которых обучалась модель, начинались с правого верхнего хоси. Партии современные, естественно. Что касается «проще», мне интересен сам процесс.

KvanTTT 8 ноя 2021 в 14:32

Ботом для Go все не ограничивается — описанные методики можно использовать для многих других игр.

GlukKazan 9 ноя 2021 в 05:00

Совершенно верно. Первое, что приходит на ум — это Hex, но есть и много других игр: RedStone, Gonnect. Хотелось бы конечно сделать бота для Chess Go, но до этого пока очень далеко. Сначала надо разобраться, как подружить нейросеть с движущимися фигурами. Разобравшись Leela Chess, например.

KvanTTT 9 ноя 2021 в 15:33

А я все хочу попробовать написать бота для игры Точки, она похоже на Го.

leshabirukov 9 ноя 2021 в 14:50

При тренировке сети можно попробовать поощрять многообразие, даже при некотором ущербе выигрышности. Например, давать на вход в дополнение к состоянию доски шум, и сделав несколько испытаний для константного состояния и разного шума, награждать за разнообразие ответов.

GlukKazan 10 ноя 2021 в 05:09

Да, я думал об этом. Вообще, нюансов очень много, в одну статью уместить невозможно.

leshabirukov 9 ноя 2021 в 13:20

А вы "Deep Learning and the Game of Go" на английском читали? Она сейчас на русском продаётся.

Разница между "большими" и "срочными" ходами это только приближение к многообразию качественных оценок кода, более полное описание задействует Сюрреальные числа — Википедия (wikipedia.org).

GlukKazan 9 ноя 2021 в 13:45

Первоначально читал на русском, потом отдельные фрагменты на английском. Книжка большая (размерами) как справочник использовать неудобно.

WinPooh73 10 ноя 2021 в 10:46

Вы не хотите добавить к своему боту самый простейший поиск по дереву? В книге он описан достаточно подробно. Сразу же отпадут вопросы с запрещёнными ходами и корректным окончанием партии. По статье сложилось впечатление, что ваш бот играет исключительно на оценке позиции. Впрочем, опыт DeepMind показывает, что таким путём программа вполне может достичь силы 1-го профессионального дана. Удачи!

GlukKazan 10 ноя 2021 в 11:46

Хочу конечно. Но тут на меня давит производительность. Всё таки, 300 мс на обработку 16 досок это много. Надо разбираться с видеокартами.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий