Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Таким образом так же обобщая все вышесказанное, мы приходим к выводу, что алгоритмом обучения без учителя мы называем такие алгоритмы, где нет явных указания для алгоритма как ему поступать, а есть только общая оценка всех его действий в процессе решения задачи.
учитиелемзадаются финальные состояния — кубик остановил движение на ракетке и остановил движение на дне. Им приписана ценность = 1 и -1 Т.е по факту метки извне заданы. Кем?? Как их получить рандомно? Т.е статистически надежно разделить? Вот подозреваю кластеризация по итогу и дала бы два эти кластера. Также если исходным условием задания ценностной функции сделать максимизацию времени игры. Поймал — игра продолжается + 1 балл. Нет — игра рестарт +0.
Среда выдает Агенту только вознаграждение по результатам его действий, Среда никак своей наградой Агента не обучает и не говорит ему правильно он поступает или нет.
Нейросеть — обучение без учителя. Метод Policy Gradient