Комментарии 3
Спасибо за статью. Что там насчёт гомоку?
Тоже недавно обучал нейронные сети игре в крестики-нолики.
Но у меня сеть оценивала вероятный счёт по итогу игры в случае каждого из вариантов хода и выбирала ход с максимальной оценкой. Вознаграждались все ходы победной или ничейной партии (1 за победу, 0.5 за ничью).
Ходы в занятые клетки просто не рассматривались.
Сеть изначально играла сама с собой.
Архитектура с четырьмя скрытыми слоями: 400, 200, 40, 20 нейронов.
Сеть научилась идеально играть: не проигрывает, а при ошибках соперника выигрывает.
Но у меня сеть оценивала вероятный счёт по итогу игры в случае каждого из вариантов хода и выбирала ход с максимальной оценкой. Вознаграждались все ходы победной или ничейной партии (1 за победу, 0.5 за ничью).
Ходы в занятые клетки просто не рассматривались.
Сеть изначально играла сама с собой.
Архитектура с четырьмя скрытыми слоями: 400, 200, 40, 20 нейронов.
Сеть научилась идеально играть: не проигрывает, а при ошибках соперника выигрывает.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Машинное обучение с подкреплением через соревновательные нейронные сети