Имеется в виду, что биржа — окружение, а в ней нейронка торгует? Как вы рассчитываете награду? По типу смог / не смог совершить удачно сделку?
Мне кажется, RL — самый нормальный вариант. К примеру, OpenAI учила компьютер играть в Dota 2, а в ней действия оппонента тоже могут быть хаотичными. Или я ошиюаюсь?
Мне кажется, RL — самый нормальный вариант. К примеру, OpenAI учила компьютер играть в Dota 2, а в ней действия оппонента тоже могут быть хаотичными. Или я ошиюаюсь?