Как стать автором
Обновить
4
0
Александр Никулин @Howuhh

Research Scientist @ AIRI, Phd @ MIPT

Отправить сообщение

Мне кажется тут неверно думать про выученную модельку как про агента в привычном смысле слова. Мы учим мета-агента. Да, знание о финальном решении одной задачи, слабо помогает решить следующую рандомную. А вот знание о процессе обучения одной задаче, очень даже помогает на любой другой новой, ибо этот процесс можно повторить и обучится новому.

Стоит представлять себе что в финальной модели внутри закодирован RL-ный алгоритм. Такой же, как мы (люди) придумываем мозгами и формулами, только он выучен end-to-end и закодирован в нейронную сеть.

Можно ли назвать это перебором? Думаю нет, ибо новые задачи в итоге решаются гораздо более эффективно, чем любым другим алгоритмом придуманным человеком явно. То есть, процесс там на самом деле довольно умный.

Привет! Да, ты все правильно заметил!

Задачи меняются рандомно во время обучения (после некоторого количества попыток, во время которых задача фиксированна) и изменения от агента скрыты, поэтому невозможно выучить единую политику которая бы zero-shot обобщалась на все задачи, по аналогии с тем как обычные агенты обобщаются на разные стартовые распределения или просто новые рандомные сиды.

В таком случае, единственный выход для агента максимизировать награду - имплементировать внутри себя мета-алгоритм, который на основе контекста будет обучаться новой задаче на лету.

И это важное разделение. Агент именно что будет обучаться, а не обобщаться на новой задаче. То есть, внутри трансформера или реккурентной сети будет алгоритм, смотрящий на награду в контексте и принимающей решение как обновить политику на основе этих данных. В отличие от обычного РЛя, на каждой новой задаче будет порождаться новая политика заточенная под конкретную задачу.

Важно заметить, что чтобы это сработало, агент должен обладать памятью в том или ином виде.

А знаете, к слову о старых книгах и историях великих людей. Есть такая штука, ТРИЗ называется и книжка по ней «Как стать гением» Альтшуллера, попробуйте прочесть, если еще не видели. В ней как раз основной задачей автор ставил анализ «старых» творческих людей, много полезного понял и рассказал в книжке. Для меня она намного лучше любых новых книжке по эффективности и мотивации.
Я, как ньюфаг, хотел бы спросить, а чем вам, собственно, не понравилась данная статья? В ней есть что-то псевдонаучное?

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Research Scientist
Senior