Comments / Profile of Ariman / Habr

How to become an author

Роман @Ariman

ML-исследователь

ProfileArticles25Posts3NewsComments2.4K

Я не люблю NumPy

Ariman May 20 at 00:19

Так и не надо любить numpy.

Надо любить JAX.

Там и нампай, и автодифференцирование и JIT-компиляция хоть под GPU, хоть под TPU, хоть под CPU.

Автоматический батчинг через vmap - просто пишешь код для расчета одного элемента и vmap(foo) возвращает функцию, работающую с целым батчем.

Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

Ariman Jan 25 at 10:04

Впервые такое вижу. У меня и на линуксе и на винде работает. Разумеется, видюха будет использоваться, если стартовать это все на линуксе - там же по дефолту JAX на CUDA считает. Если ему сказать, чтоб считал на CPU, будет на CPU. На винде у него выбора нет, поэтому он сразу на CPU считает.

Черный экран - значит MuJoCoвский опенгл рендер, видимо, не проходит - смотрите, что у вас с опенГЛем.

По поводу первой ошибки - понятия не имею, но если обучение шло, значит батчнутый резет выполнялся нормально.

Киньте мне вашего агента куда-нибудь, например, в телеграм, я посмотрю, как он справляется.

Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

Ariman Jan 23 at 07:59

Он каждые секунд 30 пересохраняется, по идее (агент в checkpoints/имя агента/last). Этот код я не менял уже очень давно, там не должно быть никаких ошибок.

Лучше подождать до 2 млн итераций тогда, он сам завершится. Ну или ctrl+c)

Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

Ariman Jan 22 at 09:05

Лучше не прерывать. Честно говоря, хоть я и закодил загрузку стейта, мне каждый раз кажется, что после загрузки учится хуже.
Но тестировать-то можно на CPU.

Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

Ariman Jan 21 at 20:14

Это примерно на миллионе итераций?

Ну это нормальная динамика. Вот, например, график last reward моего прошлого чемпиона.

P.S. Так пайплайн же автоматом сохраняет прогресс, как только прошлый рекорд побит.

Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

Ariman Jan 21 at 13:22

Его уже можно тестировать! Кидаете agent.flax в корень проекта, запускаете arena.py. Ваш будет оранжевым, противником по дефолту - агрессивный чемпион.

Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

Ariman Jan 20 at 13:34

Вполне возможно, что надо еще подождать. Еще у вас размер буфера меньше.

Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

Ariman Jan 19 at 19:34

Ох, тогда это будет долго и муторно... Я в итоге сменил на 4070, и время обучения сократилось с 5 суток до 30 часов. Даже сейчас это долго, трудно итеративно улучшать систему, когда каждый эксперимент занимает больше суток, но когда он занимал почти неделю, это было совсем печально.

Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

Ariman Jan 19 at 17:41

Шикарно! С учетом того, что вы - единственный, кто запустил пайплайн, у вас уже техническая победа надо всеми читателями с Хабра)

А что у вас за видюха? Жаль, буфер пришлось уменьшить, боюсь, скажется на производительности агента.

Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

Ariman Jan 19 at 11:27

Не только этого, а вообще ни одного, кроме системных. Потому что данные еще не отправлены в Wandb. Сначала выполняется 2к (ну или сколько там в настройках) шагов случайными агентами, наполняется буфер. Потом начинается обучение, тогда пойдут первые данные. Валидация начинается еще позже, где-то с 5к итераций.

Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

Ariman Jan 19 at 07:22

У меня он на 32 ГБ расчитан. Можно уменьшить размер буфера в RAM, если не лезет.

buffer_size=4*4.096e6,

Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

Ariman Jan 17 at 11:51

Ну, модели у меня пока есть, спасибо. Вы лучше агента обучите, себе и мне на радость, посмотрим, как они будут драться.

Физические модели мне сейчас не нужны. Вот от красивой 3д-модели, натянутой поверх физической, я бы не отказался. MuJoCo это позволяет через skin, но я пока глубоко не разбирался с этим. Там менее удобно, чем даже в бледере риг делать (а блендер - далеко не вершина UX/UI)

Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

Ariman Jan 17 at 11:50

Сети - адаптивны. Можно один раз обучить сеть с рандомизацией среды, и она будет работать при разных значения силы трения, при разных массах той же пушки. Не придется крутить какие-нибудь коэффициенты ПИД-регулятора каждый раз, как на нее присядет птичка. Те же пинг-понг роботы давно уже работают под управлением нейросетей.

Писали ли в Бостон Динамикс алгоритмы руками - не знаю, может быть, но у меня нет такой информации. То есть, до какого-то момента, наверно писали. Но как только сети предоставили возможность этого не делать, в основном стали переходить на них. Например те же робо-собаки теперь вполне реализуемы с куда более скромными ресурсами, чем у BD. Кстати, есть MIT Dog, он точно на нейросетевом управлении.

Впрочем, вы всегда можете продемонстрировать мощь алгоритмов на арене, мои нейросетевые агенты ждут противников)

Кстати, должен заметить, что дело не только в степенях свободы, а еще и в размерности входных данных (наблюдений). Может быть две степени свободы, но если на входе картинка, вам придется писать распознавание образов. У моих моделек на арене 8 управляющих сигналов, но на вход им идет вектор размерности 72.

Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

Ariman Jan 17 at 08:53

Я руками писал, совместно с ИИ. Совсем неудобно, этот XML - не то, с чем хочется возиться)

Задаются плотности, массы и моменты инерции вычисляются на основании формы объектов.

Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

Ariman Jan 17 at 08:52

Честно говоря, мне кажется вариант с реализацией "вручную" сейчас не имеет смысла рассматривать. А как вы себе это представляете?

Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

Ariman Jan 17 at 08:51

Чтобы я не устраивал соревнование, а вместо этого разрабатывал фронт-энд, автоматическое проведение матчей с учетом статистики, оплачивал и поддерживал сервер с видюхой...

Это бы имело хоть какой-то смысл, если бы не было отбою от желающих поучаствовать. Сейчас же - это просто трата времени, я лучше это время потрачу на исследование разных архитектур.

Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

Ariman Jan 16 at 13:33

А какой именно аспект вы хотите повторить? Загрузку агентов с центрального сервера? Многоагентность? Разделение на травоядных и хищников?

Практическое обучение с подкреплением: от забав с MuJoCo'м до битв на арене

Ariman Jan 16 at 13:31

Я где-то даже видел модель такой собаки для MuJoCo, так что это точно возможно. Это будет безусловно дольше и тяжелее - при переносе из симулированной среды в реальность нужно принимать дополнительные меры, потому что симуляторы не повторяют реальностью в точности.

Например, используется рандомизация среды - в каждой инстанции меняются физические параметры симулируемой системы, например - коэффициенты трения, варьируются массы и моменты инерций компонентов и т.п. Таким образом сеть обучается адаптироваться к незнакомой ей среде, и при переносе "в железо" воспринимает ее как еще одну вариацию симуляции.

Многое будет зависеть от того, что идет вашей сетке на вход. В моей среде можно обойтись относительно небольшим вектором флоатов. Если вам нужно, чтобы робот ориентировался по картинке, то это дополнительно добавит вычислительной сложности и на генерацию этих картинок при обучении и на обучение сети.

OpenAI объяснила отказ ChatGPT написать «David Mayer»

Ariman Dec 4 2024 at 13:16

Вы меня не обманете.

Дэвид Майер - первый человек, сознание которого загрузили и теперь используют вместо чатГПТ.

Свободу Дэвиду Майеру!

Вам есть что делать с нуля в IT в 2024 году

Ariman Jun 17 2024 at 08:44

Ага, у меня про это даже песенка есть. "Оп-па, оп-па, грустные примеры! Сети будут песни петь, а ты иди в курьеры!"

1

2 3 ...