Как стать автором
Обновить
35
0
Алексей Петренко @Petrenuk

С++ программист

Отправить сообщение
ну так и я о чём. Вояджер 17 км/c а тут 201! Я 200 км в час ездил всего пару раз в жизни (если не считать самолетов). А тут 200 километров в секунду!
Всё равно это офигеть как много. До Луны за полчаса при такой скорости! Не уверен, что какие-либо космические аппараты летали так быстро вообще.
Не по поводу графиков, а по поводу демографии: мне одному кажется, что увеличение численности населения это сомнительная цель? ~150 миллионов человек достаточно, чтобы защитить свою страну и обеспечивать нужные темпы прогресса. Города в европейской части России уже переполнены, все земли перепаханы под хозяйственные нужды. Чем больше людей, тем быстрее мы будем убивать природу и истощать ресурсы. Судя по всему, к другим звёздам люди полетят нескоро, а это означает что нам жить на этой планете ещё много поколений. Есть смысл задуматься сейчас.
Круто :D

Я не специалист в этом, но трейдинг не проще интерпретировать как supervised learning? Скажем, сеть предсказывает цену через 5 минут. Или можно сделать задачу классификации, скажем на 5 классов (сильно вырастет, немного вырастет, не изменится, немного понизится, сильно понизится). Тогда сеть выдает класс и confidence, если, скажем, цена сильно повышается и confidence высокий, то покупаем.
Я несколько лет назад тренировал похожий ML алгоритм для форекса, правда без нейросетей. Ну так, он в нуле болтался несколько месяцев) Заработал 600 рублей :D

Если из научного интереса используете RL, то вопрос конечно отпадает.
Да, всё как в обычном deep learning, только ещё хуже. Кстати, для своей задачки я перебирал гиперпараметры довольно долго, и нашёл что они почти не улучшают финальный результат. Ну, т.е. легко можно ухудшить, но не улучшить) Мои изначальные параметры, видимо, были ок.
Единственный параметр который долго тюнил — как часто и как «сильно» обновлять target network в double dqn. Если редко, то обучение получается стабильным, но очень уж медленно. Если слишком часто обновлять, то может в космос улететь)

Вот этой штукой перебирал, генетическим алгоритмом github.com/alex-petrenko/udacity-deep-learning/blob/master/hyperopt.py
На эту тему очень хорошо высказался автор ответной заметки himanshusahni.github.io/2018/02/23/reinforcement-learning-never-worked.html

RainbowDQN takes 83 hours to learn because it does not come preloaded with notions of what a video game is, that enemies shoot bullets at you, that bullets are bad, that a bunch of pixels that seem to stay together is a bullet, that bullets exist in the world, that objects exist, that the world is organized into anything more than a maximum entropic distribution. All of these are priors that help us, humans, dramatically limit our exploration to a small set of high quality states. DQN has to learn all of these by mostly random exploration. That it learns to beat expert humans, and centuries of wisdom in the case of AlphaZero, is still very surprising.
Действительно, нетривиально. В rl часто приходится заниматься вот таким инжинирингом reward-функции, что вообще говоря противоречит изначальной идее. Вместо этого хочется иметь алгоритм, который бы умел работать со sparse наградами, т.е. решать задачу которую мы действительно хотим решить. Тут пока всё грустно, хотя есть некоторые идеи.

  1. Составлять curriculum, т.е. сначала учить агента на самых простых версиях задачи, где награда достигается за несколько шагов, а потом постепенно отодвигать момент старта.
  2. Использовать какой-нибудь умный exploration, например curiosity module. Тогда агент должен методично исследовать мир, пока методом исключения не наткнется на награды.
  3. Можно делать какую-то иерархическую архитектуру системы, когда агент разделен на низкоуровневые модули, которые работают часто (на каждом шаге) и высокоуровневые модули, которые запускаются реже. Таким образом, вся система обучается быстрее, потому что высокоуровневым модулям нужно меньше шагов чтобы получить награду от среды, а низкоуровневые получают дополнительную плотную награду от высокоуровневых модулей. Надеюсь понятно написал :) На эту тему есть несколько статей.
Сам в последнее время разбираюсь с reinforcement learning, столкнулся со всеми этими проблемами. Оказывается, даже на простых задачах современные методы сложно чему-то обучить.
Однако надо признать, все эти dqn и a3c это очень простые алгоритмы. Например, их общая черта состоит в том, что нейронную сеть просят принять решение «моментально», за один проход. В то время как человек в трудных ситуациях произодит размышления, рефлексирует. Что-то подсказывает, что возможности софта в этой области ещё далеко не исчерпаны.

На странице репозитория есть интересные анимации: github.com/alex-petrenko/rl-experiments
По поводу пункта #1, тоже удивляюсь когда начинают вот так напрямую сравнивать.
Скажем так, если новорожденного ребёнка посадить учиться играть в Atari, то он не научится ни за 5 минут, ни за несколько дней. Человеческий ребёнок сможет осознанно играть в такие игры, скажем, лет в шесть. К этому моменту он бодрствовал по меньшей мере 30000 часов, впитывая и обрабатывая всю поступающую сенсорную информацию, да и во сне, есть основания полагать, мозг тоже обучается. И это не считая миллионов лет предшествующей эволюции, которая «закодировала» многие компоненты мозга прямо в геном.
~Шести лет достаточно чтобы научиться абстрактному мышлению — выработать высокоуровневые концепции, которые легко переиспользовать для решения широкого круга задач. Так что, за последние 5 минут происходит незначительный fine tuning, не более того.
У вас что, музыка Аргонова в игре? Вот это да! Что, прям и Inevitability где-то играет?
Подтверждаю, мы постили рекламу нашего софта по генерации аватаров для игр и там была ссылка на 3D модель, вроде этой: sketchfab.com/models/2714d2764b5f427ba70ed2946a10cc60
Нас забанили на несколько месяцев, и насколько я помню, причина была что-то типа «нельзя использовать military тематику» в рекламе :)
Я учился не в ИТМО, но мой диплом имел примерно такое же отношение сигнал/шум. Мне вот интересно, это особенность образования в СНГ или во всём мире так?
В моём университете было чётко: большой объем работы (грубо говоря, толщина распечатки) серьезно повышал шансы на высший балл. Это не круто.
Что-то с вами не так. Люди намекают вам, что ваше мнение не незыблемо, возможно стоит его пересмотреть.
Я вообще обожаю посылать свой код на ревью. Жадно хватаюсь за каждое предложенное улучшение, даже если это code-style или небольшой трюк, который позволяет написать код короче и чище. Не говоря уже о серьезных недочётах, мне же потом и поддерживать.
Такое себе злодеяние, в стиле Профессора Хаоса из South Park :)
С вами можно и не согласиться, на мой взгляд расцвет таких машинок пришёлся на 80-е и 90-е годы, тогда многие производители выпускали очень интересные версии, для состоятельных клиентов, которым нужен был Kei car по тем или иным обстоятельствам. У них были турбомоторы или спортивные настройки шасси, интересная внешность. Самые заметные машины этого класса все из того периода: Honda Beat, Suzuki Cappuccino, Autozam AZ-1, Suzuki Alto Turbo.
Сейчас это в основном убогие коробки с вариаторами, которые никого не интересуют, типа такой мопед на 4х колесах.
Сейчас в Японии набирает популярность новый класс — маленькие машинки с моторами порядка 0,8 литра. Suzuki Wagon R, Daihatsu Tanto, Honda N-Box


Этот класс машин называется Kei car, и популярны они были в Японии всегда, годов с 50-х. Это вызвано тем, что на такие машины значительно меньше налоги. Автомобиль должен укладываться в определенный bounding box (грубо говоря AxBxC метров) и иметь двигатель не больше определённого объема, на данный момент это 660 кубиков.
Фантастика на самом деле, такие исследования открывают глаза на истинную природу вещей, показывая как из простейших правил вырастают структуры неограниченной сложности. Представляете сознательного наблюдателя внутри такой Вселенной из метапикселей, который гадает почему пространство и время квантовано? :)

Если кому интересно, этот вопрос обсуждается в замечательной книге Грега Игана «Permutation City». Такая вот Вселенная из элементарных кирпичиков там называется Autoverse.
Получается так :D
В ассемблер завезена RAII, просто чуть больше ручных действий.

Информация

В рейтинге
Не участвует
Откуда
Нижний Новгород, Нижегородская обл., Россия
Дата рождения
Зарегистрирован
Активность