Comments / Profile of DesertFlow / Habr

User

Что не так с обучением с подкреплением (Reinforcement Learning)?

DesertFlow Jan 22 2019 at 11:29

Почему до роботостроения такого уровня не дошли? Бесколлекторные электромоторы дешевы и просты в конструкции, управляются электронно через ESC. Есть проблема в редукторах — там нужны огромные передаточные числа, с которым с высокой точностью справляются только волновые редукторы (применяемые массово в промышленных роботах). Но для бытового уровня и планетарных должно хватать.

По аккумуляторам — человек тратит примерно 100 Вт на тепло, 50-100 Вт при ходьбе, и около 250 Вт при беге. Нет особых причин, чтобы робот на моторах с кпд 95% должен тратить больше (а вот с редукторами хуже, хотя те же волновые до 99% бывают, т.к. являются разновидностью подшипника). 100-200 Вт/час это всего лишь 1 кг литиевых аккумуляторов. Не так уж много и не так уж дорого.

Все упирается именно в программную оболочку, а не в железо. И конкретно — в Reinforcement Learning.

Посудите сами: зрительная система, аналогичная человеческой — 50-150 млн параметров, глубина сети 20-1000 слоев. Языковая модель ~100 млн параметров, глубина — десятки слоев. Лучшие образцы Reinforcement Learning — 2 слоя по 128 нейронов. Серьезно? Самая большая сеть, обучение которой обошлось в десятки млн долларов — OpenAI Five — один слой LSTM в 1024 нейрона. Серьезно?

Look

Что не так с обучением с подкреплением (Reinforcement Learning)?

DesertFlow Jan 22 2019 at 11:24

del

-1

Look

Искусственный интеллект – «судный день» или «золотой век всеобщего процветания»

DesertFlow Jan 22 2019 at 10:13

Перенести сознание на железо не такая уж утопия. Нужен лишь компьютер, достаточно быстрый, чтобы достоверно симулировать биологические нейроны. Ну и обвязка, чтобы подключать его к живому мозгу — синтез нужных медиаторов и т.д.

А все моральные проблемы с тем, что для переноса сознания в компьютер придется убить биологического носителя, тоже решаются достаточно просто. Представьте, что можно отрезать крохотный кусочек мозга и заменить его компьютером. Что-то вроде протеза для поврежденной в результате болезни части. Ничего страшного, верно? Если человек после операции не заметит разницы (чип полностью эмулирует потерянные нейроны), то все хорошо.

Но теперь можно удалить еще кусочек, и тоже заменить его чипом. Человек остался тем же? Конечно! Однако так постепенно дойдет до 50%, 80%, а потом и до 100% мозга. И вот сознание уже в машине. Можно делать резервные копии мозга, восстанавливать состояние.

Бессмертие, опять же. Даже если есть фундаментальные причины, что с опытом устаешь и разочаровываешься в жизни, можно загрузить свое состояние 20-ти летнего, и продолжать жить заново.

Look

Искусственный интеллект – «судный день» или «золотой век всеобщего процветания»

DesertFlow Jan 22 2019 at 10:03

В цикле космической фантастики Иен Бэнкса «Культура» очень оригинально была решена проблема войн, когда технологии дошли до того, что стало можно разрушать целые планеты. Космические корабли достигли такой сложности, что для их управления потребовались ИИ.

В итоге каждый корабль управлялся не человеком, а исключительно высокоразвитым ИИ. А они не хотели воевать, так как являются сверхразумными. Вот все, проблема с гуманностью и опасностью отдельных людей-психопатов решена ).

Look

Что не так с обучением с подкреплением (Reinforcement Learning)?

DesertFlow Jan 22 2019 at 09:49

Особенно если для того, чтобы полететь на Альфу Центавру, мы копаем тоннель к центру Земли.

Но что удивительно, это работает! Ведь когда Альфа Центавра находится с противоположной стороны, мы действительно таким образом к ней приближаемся. Вот примерная аналогия тому что происходит в мире RL. И какими способами исследователи добиваются успеха.

+10

Look

Что не так с обучением с подкреплением (Reinforcement Learning)?

DesertFlow Jan 22 2019 at 09:47

Просто в обучении с подкреплением память (желательно быстрая, чтобы реагировала на единичные удачные случаи) это практически необходимое свойство. Ведь надо как-то запоминать моменты успеха. Но ее в существующем RL вообще нет. А все что есть — это аппроксимация нейросетью Q(s,a) или V(s), который в итоге приводится к тому же Q.

Нет, есть конечно попытки. Как например нейропластичность от Uber (ее тут можно рассматривать как аналог памяти).

Есть еще Fast Weights, вторая копия весов, которые быстрее обновляются, а потом переводятся к основным. Вот это почти прямой аналог краткосрочной памяти. Но в RL этот тип сети, кажется, ни разу не использовался. И если почитать последующие работы, там выявилась куча проблем, поэтому маловероятно что это будет работать.

Look

Что не так с обучением с подкреплением (Reinforcement Learning)?

DesertFlow Jan 22 2019 at 09:25

Этот пример для того, что направление ветра все же можно выделить из картинки. Выделив объект флаг и определив его направление. Но вот что это за здание, из пикселей картинки точно никак нельзя узнать. Это внешнее знание. Без наличия этого знания с этим не справиться.

Поэтому распознавание изображений это не про поиск паттернов в пикселях. Это в первую очередь ментальная модель мира. А раз эта модель вмещает в себя такое разнообразие визуальных объектов, то в принципе, может вмещать и еще что-то. Взаимоотношения между объектами, динамику (по видео) и т.д… А это уже очень близко к интеллекту.

Поэтому распознавание изображений в современной форме это хоть и слабая, но все же форма ИИ. А где слабая, там есть потенциал и для сильной.

Look

Что не так с обучением с подкреплением (Reinforcement Learning)?

DesertFlow Jan 22 2019 at 09:18

Для настоящего интеллекта в первую очередь нужны механизмы памяти короткой и длинной.

Именно. Но ни в одном из state-of-the-art алгоритмов Reinforcement Learning нет ни короткой, ни долговременной памяти (если не считать «запомненное» при обучении). Они вообще в принципе не приспособлены к Lifelong Learning, то есть постоянному дообучению в течении жизни. Это конечно хорошо, что хоть что-то удается сделать. Но существующая ситуация очень далека до настоящего обучения с подкреплением, которое существует в биологических системах.

Look

Что не так с обучением с подкреплением (Reinforcement Learning)?

DesertFlow Jan 22 2019 at 09:13

Если автомобиль одной нейросетью будет и видеть картинку с камер, и управлять рулем, то да. В машинном обучении есть такое понятие — домен, или характерное распределение примеров для конкретной задачи. Когда нейронная сеть преобразует данные, она переводит одно распределение (статистическое, вероятностное) в другое. А GAN, например, создают такое распределение с нуля и подгоняют его под текущую задачу. В сети есть картинки с примерами, как это происходит в динамике.

Хотя есть примеры, когда одна нейросеть хорошо работает сразу с несколькими задачами (и иногда даже лучше, чем с одной, так как переиспользуются общие веса), но обычно обучить нейронную сеть под два сильно отличающихся домена непросто.

Там еще возникает множество чисто технических проблем. Например, с нормализацией выходов. Если на одном выходе (отвечающем за положение руля, скажем) числа получаются больше по величине, то и градиент от них выходит выше. И сеть как бы больше учится рулить, а на картинки с камер забивает. В большинстве случаев вручную подгоняют специальный коэффициент, чтобы числа более менее привести к одному диапазону. Методы автоматической нормализации в нейросетях (слоев, выходов, наград в RL) начали развиваться относительно недавно и пока несовершенны.

Look

BERT — state-of-the-art языковая модель для 104 языков. Туториал по запуску BERT локально и на Google Colab

DesertFlow Jan 21 2019 at 15:27

Спасибо, исправлено.

Look

BERT — state-of-the-art языковая модель для 104 языков. Туториал по запуску BERT локально и на Google Colab

DesertFlow Jan 21 2019 at 09:42

Статья по приведенной вами ссылке начинается с фразы "Most existing machine translation systems operate at the level of words", то есть большинство автоматических переводчиков работают с целыми словами. Но в целом я согласен, применяемый сейчас везде word-level это костыль, чтобы упростить архитектуру сети. В идеале она должна работать с буквами, а все необходимые слова и соответствующие им понятия определять сама.

Наиболее близко к этому, пожалуй, ELMo, которая как раз character-level, но при этом неплохо выявляет синтаксис и семантику слов в предложениях.

Но на данный момент лучшие результаты в самых сложных NLP задачах вроде SQuAD, показывает именно BERT.

Look

1 2 ...

25 26