Комментарии / Профиль Howuhh / Хабр

Александр Никулин@Howuhh

Research Scientist @ AIRI, Phd @ MIPT

XLand-100B: первый в мире большой датасет для контекстного обучения с подкреплением

Howuhh 2 авг 2024 в 13:02

Мне кажется тут неверно думать про выученную модельку как про агента в привычном смысле слова. Мы учим мета-агента. Да, знание о финальном решении одной задачи, слабо помогает решить следующую рандомную. А вот знание о процессе обучения одной задаче, очень даже помогает на любой другой новой, ибо этот процесс можно повторить и обучится новому.

Стоит представлять себе что в финальной модели внутри закодирован RL-ный алгоритм. Такой же, как мы (люди) придумываем мозгами и формулами, только он выучен end-to-end и закодирован в нейронную сеть.

Можно ли назвать это перебором? Думаю нет, ибо новые задачи в итоге решаются гораздо более эффективно, чем любым другим алгоритмом придуманным человеком явно. То есть, процесс там на самом деле довольно умный.

XLand-100B: первый в мире большой датасет для контекстного обучения с подкреплением

Howuhh 31 июл 2024 в 16:47

Привет! Да, ты все правильно заметил!

Задачи меняются рандомно во время обучения (после некоторого количества попыток, во время которых задача фиксированна) и изменения от агента скрыты, поэтому невозможно выучить единую политику которая бы zero-shot обобщалась на все задачи, по аналогии с тем как обычные агенты обобщаются на разные стартовые распределения или просто новые рандомные сиды.

В таком случае, единственный выход для агента максимизировать награду - имплементировать внутри себя мета-алгоритм, который на основе контекста будет обучаться новой задаче на лету.

И это важное разделение. Агент именно что будет обучаться, а не обобщаться на новой задаче. То есть, внутри трансформера или реккурентной сети будет алгоритм, смотрящий на награду в контексте и принимающей решение как обновить политику на основе этих данных. В отличие от обычного РЛя, на каждой новой задаче будет порождаться новая политика заточенная под конкретную задачу.

Важно заметить, что чтобы это сработало, агент должен обладать памятью в том или ином виде.

Не ешь аспирин

Howuhh 1 апр 2019 в 04:27

А знаете, к слову о старых книгах и историях великих людей. Есть такая штука, ТРИЗ называется и книжка по ней «Как стать гением» Альтшуллера, попробуйте прочесть, если еще не видели. В ней как раз основной задачей автор ставил анализ «старых» творческих людей, много полезного понял и рассказал в книжке. Для меня она намного лучше любых новых книжке по эффективности и мотивации.

Эй, это я вон там?

Howuhh 26 авг 2016 в 13:58

Я, как ньюфаг, хотел бы спросить, а чем вам, собственно, не понравилась данная статья? В ней есть что-то псевдонаучное?

Информация

Специализация