Комментарии / Профиль Petrenuk / Хабр

Алексей Петренко @Petrenuk

С++ программист

Профиль Публикации 1Комментарии 84Закладки 5

Этот космический корабль подойдёт ближе к Солнцу, чем все, что были до него, и не расплавится

Petrenuk 10 июн 2018 в 23:12

ну так и я о чём. Вояджер 17 км/c а тут 201! Я 200 км в час ездил всего пару раз в жизни (если не считать самолетов). А тут 200 километров в секунду!

Посмотреть

Этот космический корабль подойдёт ближе к Солнцу, чем все, что были до него, и не расплавится

Petrenuk 10 июн 2018 в 04:33

Всё равно это офигеть как много. До Луны за полчаса при такой скорости! Не уверен, что какие-либо космические аппараты летали так быстро вообще.

Посмотреть

Графики послания президента РФ 2018

Petrenuk 2 мар 2018 в 15:11

Не по поводу графиков, а по поводу демографии: мне одному кажется, что увеличение численности населения это сомнительная цель? ~150 миллионов человек достаточно, чтобы защитить свою страну и обеспечивать нужные темпы прогресса. Города в европейской части России уже переполнены, все земли перепаханы под хозяйственные нужды. Чем больше людей, тем быстрее мы будем убивать природу и истощать ресурсы. Судя по всему, к другим звёздам люди полетят нескоро, а это означает что нам жить на этой планете ещё много поколений. Есть смысл задуматься сейчас.

-1

Посмотреть

Глубинное обучение с подкреплением пока не работает

Petrenuk 27 фев 2018 в 00:43

Круто :D

Я не специалист в этом, но трейдинг не проще интерпретировать как supervised learning? Скажем, сеть предсказывает цену через 5 минут. Или можно сделать задачу классификации, скажем на 5 классов (сильно вырастет, немного вырастет, не изменится, немного понизится, сильно понизится). Тогда сеть выдает класс и confidence, если, скажем, цена сильно повышается и confidence высокий, то покупаем.
Я несколько лет назад тренировал похожий ML алгоритм для форекса, правда без нейросетей. Ну так, он в нуле болтался несколько месяцев) Заработал 600 рублей :D

Если из научного интереса используете RL, то вопрос конечно отпадает.

Посмотреть

Глубинное обучение с подкреплением пока не работает

Petrenuk 26 фев 2018 в 15:08

Да, всё как в обычном deep learning, только ещё хуже. Кстати, для своей задачки я перебирал гиперпараметры довольно долго, и нашёл что они почти не улучшают финальный результат. Ну, т.е. легко можно ухудшить, но не улучшить) Мои изначальные параметры, видимо, были ок.
Единственный параметр который долго тюнил — как часто и как «сильно» обновлять target network в double dqn. Если редко, то обучение получается стабильным, но очень уж медленно. Если слишком часто обновлять, то может в космос улететь)

Вот этой штукой перебирал, генетическим алгоритмом github.com/alex-petrenko/udacity-deep-learning/blob/master/hyperopt.py

Посмотреть

Глубинное обучение с подкреплением пока не работает

Petrenuk 26 фев 2018 в 15:01

На эту тему очень хорошо высказался автор ответной заметки himanshusahni.github.io/2018/02/23/reinforcement-learning-never-worked.html

RainbowDQN takes 83 hours to learn because it does not come preloaded with notions of what a video game is, that enemies shoot bullets at you, that bullets are bad, that a bunch of pixels that seem to stay together is a bullet, that bullets exist in the world, that objects exist, that the world is organized into anything more than a maximum entropic distribution. All of these are priors that help us, humans, dramatically limit our exploration to a small set of high quality states. DQN has to learn all of these by mostly random exploration. That it learns to beat expert humans, and centuries of wisdom in the case of AlphaZero, is still very surprising.

Посмотреть

Глубинное обучение с подкреплением пока не работает

Petrenuk 26 фев 2018 в 03:37

Действительно, нетривиально. В rl часто приходится заниматься вот таким инжинирингом reward-функции, что вообще говоря противоречит изначальной идее. Вместо этого хочется иметь алгоритм, который бы умел работать со sparse наградами, т.е. решать задачу которую мы действительно хотим решить. Тут пока всё грустно, хотя есть некоторые идеи.

Составлять curriculum, т.е. сначала учить агента на самых простых версиях задачи, где награда достигается за несколько шагов, а потом постепенно отодвигать момент старта.
Использовать какой-нибудь умный exploration, например curiosity module. Тогда агент должен методично исследовать мир, пока методом исключения не наткнется на награды.
Можно делать какую-то иерархическую архитектуру системы, когда агент разделен на низкоуровневые модули, которые работают часто (на каждом шаге) и высокоуровневые модули, которые запускаются реже. Таким образом, вся система обучается быстрее, потому что высокоуровневым модулям нужно меньше шагов чтобы получить награду от среды, а низкоуровневые получают дополнительную плотную награду от высокоуровневых модулей. Надеюсь понятно написал :) На эту тему есть несколько статей.

Посмотреть

Глубинное обучение с подкреплением пока не работает

Petrenuk 26 фев 2018 в 03:24

Сам в последнее время разбираюсь с reinforcement learning, столкнулся со всеми этими проблемами. Оказывается, даже на простых задачах современные методы сложно чему-то обучить.
Однако надо признать, все эти dqn и a3c это очень простые алгоритмы. Например, их общая черта состоит в том, что нейронную сеть просят принять решение «моментально», за один проход. В то время как человек в трудных ситуациях произодит размышления, рефлексирует. Что-то подсказывает, что возможности софта в этой области ещё далеко не исчерпаны.

На странице репозитория есть интересные анимации: github.com/alex-petrenko/rl-experiments

Посмотреть

Глубинное обучение с подкреплением пока не работает

Petrenuk 26 фев 2018 в 03:17

По поводу пункта #1, тоже удивляюсь когда начинают вот так напрямую сравнивать.
Скажем так, если новорожденного ребёнка посадить учиться играть в Atari, то он не научится ни за 5 минут, ни за несколько дней. Человеческий ребёнок сможет осознанно играть в такие игры, скажем, лет в шесть. К этому моменту он бодрствовал по меньшей мере 30000 часов, впитывая и обрабатывая всю поступающую сенсорную информацию, да и во сне, есть основания полагать, мозг тоже обучается. И это не считая миллионов лет предшествующей эволюции, которая «закодировала» многие компоненты мозга прямо в геном.
~Шести лет достаточно чтобы научиться абстрактному мышлению — выработать высокоуровневые концепции, которые легко переиспользовать для решения широкого круга задач. Так что, за последние 5 минут происходит незначительный fine tuning, не более того.

Посмотреть

Доделал игру, работающую на видеокарте

Petrenuk 20 дек 2017 в 01:03

У вас что, музыка Аргонова в игре? Вот это да! Что, прям и Inevitability где-то играет?

Посмотреть

Новая разновидность капчи Facebook: загрузите фотографию, где видно ваше лицо

Petrenuk 30 ноя 2017 в 19:32

Подтверждаю, мы постили рекламу нашего софта по генерации аватаров для игр и там была ссылка на 3D модель, вроде этой: sketchfab.com/models/2714d2764b5f427ba70ed2946a10cc60
Нас забанили на несколько месяцев, и насколько я помню, причина была что-то типа «нельзя использовать military тематику» в рекламе :)

Посмотреть

«Без лишних слов»: самые короткие научные статьи

Petrenuk 28 ноя 2017 в 18:25

Я учился не в ИТМО, но мой диплом имел примерно такое же отношение сигнал/шум. Мне вот интересно, это особенность образования в СНГ или во всём мире так?
В моём университете было чётко: большой объем работы (грубо говоря, толщина распечатки) серьезно повышал шансы на высший балл. Это не круто.

Посмотреть

Code review по-человечески (часть 2)

Petrenuk 14 ноя 2017 в 05:02

Что-то с вами не так. Люди намекают вам, что ваше мнение не незыблемо, возможно стоит его пересмотреть.

Посмотреть

Code review по-человечески (часть 2)

Petrenuk 14 ноя 2017 в 02:30

Я вообще обожаю посылать свой код на ревью. Жадно хватаюсь за каждое предложенное улучшение, даже если это code-style или небольшой трюк, который позволяет написать код короче и чище. Не говоря уже о серьезных недочётах, мне же потом и поддерживать.

Посмотреть

Android-программа для управления «умным» вибратором хранила аудиофайлы без ведома девушек

Petrenuk 13 ноя 2017 в 17:09

Такое себе злодеяние, в стиле Профессора Хаоса из South Park :)

Посмотреть

CarPrice в Японии: особенности национального автоаукциона

Petrenuk 2 ноя 2017 в 15:51

С вами можно и не согласиться, на мой взгляд расцвет таких машинок пришёлся на 80-е и 90-е годы, тогда многие производители выпускали очень интересные версии, для состоятельных клиентов, которым нужен был Kei car по тем или иным обстоятельствам. У них были турбомоторы или спортивные настройки шасси, интересная внешность. Самые заметные машины этого класса все из того периода: Honda Beat, Suzuki Cappuccino, Autozam AZ-1, Suzuki Alto Turbo.
Сейчас это в основном убогие коробки с вариаторами, которые никого не интересуют, типа такой мопед на 4х колесах.

Посмотреть

CarPrice в Японии: особенности национального автоаукциона

Petrenuk 2 ноя 2017 в 03:43

Сейчас в Японии набирает популярность новый класс — маленькие машинки с моторами порядка 0,8 литра. Suzuki Wagon R, Daihatsu Tanto, Honda N-Box

Этот класс машин называется Kei car, и популярны они были в Японии всегда, годов с 50-х. Это вызвано тем, что на такие машины значительно меньше налоги. Автомобиль должен укладываться в определенный bounding box (грубо говоря AxBxC метров) и иметь двигатель не больше определённого объема, на данный момент это 660 кубиков.

Посмотреть

Реализация «Тетриса» в игре «Жизнь»

Petrenuk 31 окт 2017 в 19:08

Фантастика на самом деле, такие исследования открывают глаза на истинную природу вещей, показывая как из простейших правил вырастают структуры неограниченной сложности. Представляете сознательного наблюдателя внутри такой Вселенной из метапикселей, который гадает почему пространство и время квантовано? :)

Если кому интересно, этот вопрос обсуждается в замечательной книге Грега Игана «Permutation City». Такая вот Вселенная из элементарных кирпичиков там называется Autoverse.

Посмотреть

C++17

Petrenuk 14 окт 2017 в 15:20

Получается так :D

Посмотреть

C++17

Petrenuk 14 окт 2017 в 15:02

В ассемблер завезена RAII, просто чуть больше ручных действий.

Посмотреть

1 2

4 5