Комментарии 2
А что за тренировочные данные вы использовали для классификатора, принимающего решение о старте поезде?
Добрый день!
Для сбора данных мы использовали уже обученную политику агента, а также эвристику, использовавшуюся во время обучения агентов, с добавлением случайных запусков с некоторой вероятностью. Такой подход, с одной стороны, не делает запуски полностью случайными, а с другой стороны получает достаточно разнообразные данные.
Мы также пробовали обучать классификатор итеративно, дополняя набор данных новыми данными, полученными с помощью обученного на предыдущей итерации классификатора, но такой подход оказался менее эффективным.
Для сбора данных мы использовали уже обученную политику агента, а также эвристику, использовавшуюся во время обучения агентов, с добавлением случайных запусков с некоторой вероятностью. Такой подход, с одной стороны, не делает запуски полностью случайными, а с другой стороны получает достаточно разнообразные данные.
Мы также пробовали обучать классификатор итеративно, дополняя набор данных новыми данными, полученными с помощью обученного на предыдущей итерации классификатора, но такой подход оказался менее эффективным.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Как мы управляли поездами на соревновании NeurIPS 2020: Flatland