Комментарии 5
Лучше все же игнорировать пока. РЛ иногда хорошо работает на синтетике когда очень много примеров. Была очень классная статья на эту тему:
https://www.alexirpan.com/2018/02/14/rl-hard.html
С тех пор ничего не изменилось и все аргументы пока актуальны.
На Хабре где то был её перевод, а ещё неплохая такая статья — https://m.habr.com/ru/post/437020/
Меня интересует как сделать окружение самому! Например: Мне нужно в pyBrain каким то образом отправлять окружение, но я не знаю как ему предоставлять.
Какие сейчас практические перспективы применения RL? Понятно, что если у нас есть офигительно хорошая регрессионная модель и хренолион данных, то можно решить любую задачу, от «сделай мне наноботов» до «привези мне кусочек Альфа Центавры». Но если у нас способы сбора данных примерно такие, как доступны сейчас, и математика сильно дальше LSTM/NTM/CNN не ушла, то какие практические задачи RL решил бы лучше/дешевле, чем человек?
Цель этого параметра — не допустить, чтобы общее вознаграждение не уходило в бесконечность.
Одно «не» лишнее? Цель этого параметра — не допустить, чтобы общее вознаграждение уходило в бесконечность.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Никогда больше не игнорируйте обучение с подкреплением