Pull to refresh
2
0
Alexey Skrynnik @Tviskaron

Обучаю агентов методом проб и ошибок

Send message

Резонное замечание! Удивительно, что сейчас мало кто обращает на это внимание. Особенно в Minecraft, где любая новая статья – это подцели с помощью проприетарных LLM-ок. В наше оправдание скажу, что этим блогом мы хотели показать, как можно решить задачу максимально просто. У нас есть и другое решение – файнтюн Flan-T5 (large), которое показывает результаты лучше чем инференс ChatGPT.

В первой версии соревнования (2021 год) и правда победило решение, которое использовало только эвристики + небольшая NLP составляющая, для выбора цвета блоков. В этом году (NeurIPS 2022) лучшее решение –  end-2-end RL, с транформером и кучей дополнительных loss функций.

Information

Rating
Does not participate
Works in
Registered
Activity