Semevskiy 10 ноя 2019 в 21:49

Никогда больше не игнорируйте обучение с подкреплением

6 мин

11K

Машинное обучение*

Перевод

+16

Комментарии 5

ZlodeiBaal 10 ноя 2019 в 23:53

Лучше все же игнорировать пока. РЛ иногда хорошо работает на синтетике когда очень много примеров. Была очень классная статья на эту тему:
https://www.alexirpan.com/2018/02/14/rl-hard.html
С тех пор ничего не изменилось и все аргументы пока актуальны.
На Хабре где то был её перевод, а ещё неплохая такая статья — https://m.habr.com/ru/post/437020/

Nidelon 11 ноя 2019 в 15:32

Меня интересует как сделать окружение самому! Например: Мне нужно в pyBrain каким то образом отправлять окружение, но я не знаю как ему предоставлять.

Nidelon 12 ноя 2019 в 19:56

Можно в gym сделать окружение, но как его сделать? (Вычитал на сайте OpenAI)

Kilorad 12 ноя 2019 в 14:03

Какие сейчас практические перспективы применения RL? Понятно, что если у нас есть офигительно хорошая регрессионная модель и хренолион данных, то можно решить любую задачу, от «сделай мне наноботов» до «привези мне кусочек Альфа Центавры». Но если у нас способы сбора данных примерно такие, как доступны сейчас, и математика сильно дальше LSTM/NTM/CNN не ушла, то какие практические задачи RL решил бы лучше/дешевле, чем человек?

pprometey 16 ноя 2019 в 08:31

Цель этого параметра — не допустить, чтобы общее вознаграждение не уходило в бесконечность.

Одно «не» лишнее? Цель этого параметра — не допустить, чтобы общее вознаграждение уходило в бесконечность.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Никогда больше не игнорируйте обучение с подкреплением

Комментарии 5

Публикации

Истории