Комментарии 11
Создание своего бота, конечно, достойно похвалы, но на практике проще взять katago (он умеет прогнозировать итоговый счёт, а не только вероятность победы, в отличие от следующих), ну или LeelaZero, или pachi, или AQ...
Конечно, помимо «хоси», хотелось бы видеть "комоку", "такамоку", "сан-сан" и "мокухадзуси", но здесь, по всей видимости, свою негативную роль сыграло крайне малое количество партий, на которых производилось обучение.
ЕМНИП, на протяжении последних веков было принято начинать с хоси (пункта 4-4), но в 20м веке это уже поднадоело, и мастера начали пробовать пункты 3-4, 4-5, 3-3, 3-5, центр. Но с появлением AlphaZero стало ясно, что наибольшую выгоду даёт начало с пунктов хоси. Этот факт был по сути вычислен системами вроде AlphaZero.
Ботом для Go все не ограничивается — описанные методики можно использовать для многих других игр.
При тренировке сети можно попробовать поощрять многообразие, даже при некотором ущербе выигрышности. Например, давать на вход в дополнение к состоянию доски шум, и сделав несколько испытаний для константного состояния и разного шума, награждать за разнообразие ответов.
А вы "Deep Learning and the Game of Go" на английском читали? Она сейчас на русском продаётся.
Разница между "большими" и "срочными" ходами это только приближение к многообразию качественных оценок кода, более полное описание задействует Сюрреальные числа — Википедия (wikipedia.org).
Вы не хотите добавить к своему боту самый простейший поиск по дереву? В книге он описан достаточно подробно. Сразу же отпадут вопросы с запрещёнными ходами и корректным окончанием партии. По статье сложилось впечатление, что ваш бот играет исключительно на оценке позиции. Впрочем, опыт DeepMind показывает, что таким путём программа вполне может достичь силы 1-го профессионального дана. Удачи!
Го: Долгая дорога к боту