DesertFlow Dec 21 2019 at 20:38

ИИ, пытающийся избежать проблем, научился сложному поведению

6 min

34K

Artificial Intelligence

+52

138

Comments 138

UFO landed and left these words here

adictive_max Dec 22 2019 at 03:07

Тут можно ещё вспомнить, что известный цикл Азимова «Я, Робот» был не пор инженеров, а про робо-психологов.

red75prim Dec 22 2019 at 03:46

Но кушетка психоаналитика будет до релиза, а не после.

UFO landed and left these words here

red75prim Dec 22 2019 at 07:19

В случае эволюции никаких релизов конечно нет. Но выпускать в серию автопилот, у которого после 100 тыс. км начинается экзистенциальный кризис, никто не даст. Поправят или встроят "кушетку с психоалитиком" в систему, если это действительно окажется законом.

В этом и отличие ИИ от остальных технологий. Любая человеческая деятельность потенциально может быть автоматизирована. Включая работу психоаналитика.

UFO landed and left these words here

sgjurano Dec 22 2019 at 10:45

Это называется Dropout — веса не участвуют в forward-шаге с заданной вероятностью.

UFO landed and left these words here

JekaMas Dec 22 2019 at 16:20

Определиться бы ещё про каждое из упомянутых вами понятий: сознание...

UFO landed and left these words here

JekaMas Dec 23 2019 at 10:08

И есть еще несколько десятков определений, как сознания, так и разума(mind).
Ни единения, ни существенного прогресса в этом вопросе нет. И это приводит к невеселому выводу, что неизвестно, что наблюдать у ИИ или чему именно его учить, что мерить, как метрику успешности "сознания" или "разума".

Mad__Max Dec 21 2019 at 22:07

А я всегда говорил: лень — двигатель прогресса (развития)!

Заодно научился использовать как достаточно мощный фактор мотивации. Которые если сильно упростить можно свести к: активно делать что-то сейчас, чтобы меньше (желательно вообще НЕ) делать что-то потом. Во многом это самообман, но работает.

Интересно, что оказывается на искусственных нейтронных сетях это тоже хорошо работает.

xakep2011 Dec 22 2019 at 18:52

Интересный подход, спасибо, надо попробовать

iga2iga Dec 21 2019 at 23:36

Лень — двигатель прогресса!
Пардон, не прочитал комментарий выше…
… потому что — лень.

VDG Dec 22 2019 at 03:07

Либо перейти в такое состояние, которое обновит само понятие постоянства/знакомости окружения, и агент окажется в новом, сформированном его действиями, знакомом state.

Можете раскрыть эту часть?

extempl Dec 22 2019 at 06:50

Стремление к исходному состоянию, вместо попытки сохранить его (состояние) при принудительном его изменении же, нет?

VDG Dec 22 2019 at 17:48

В случае с тетрисом — да, агент стремится к исходному пустому полю. Но я про другое (см. мой комм. ниже).

DesertFlow Dec 22 2019 at 13:32

Агент получает награду за то, что переходит в знакомые state (награда пропорциональна узнаваемости места). Но когда у вас большой горизонт планирования и вы понимаете динамику среды, то вы можете сознательно перейти в малознакомое место и постоять там какое-то время, пока оно не станет для вас знакомым. Это примерно как построить дом — надо приложить усилия, получить много неприятной новизны (по правилам игры агент избегает новизны). Но зато в будущем вы получите намного больше награды, так как это сделанное вашими собственными руками место со временем станет для вас знакомым и вы будете получать награду просто за нахождение в нем. В качестве доказательства они приводят пример тетриса, где у агента изначально не было предпочтений, но в итоге он сформировал на несколько ходов вперёд тактику по "постройке дома" в углу в нижней строчке (см. яркость пикселей на гифка, это куда агент стремится). Так как помещая туда фигуры, в отдаленной перспективе он получит более стабильное состояние с пустым полем. Чем просто бороться по факту с текущими падающими фигурами.

Эта способность агента самостоятельно формировать для себя места, которые в будущем станут для него знакомыми с большой наградой (хотя сейчас они для него новые и болезненные) приводит к более сложному поведению, чем просто всегда переходить в ближайший state с максимальной узнаваемостью.

UFO landed and left these words here

VDG Dec 22 2019 at 17:46

С аналогией-то из жизни понятно, меня интересует техническая сторона. В какой момент у агента щёлкает в голове переключатель, что нужно из тёплого места пойти «строить дом», и что это за тумблер? Иначе говоря, в какой момент и почему одна стратегия/поведение сменяется другой.

И почему агент просто не остаётся на месте «медитировать», ведь со временем это место тоже станет ему знакомым.

Mad__Max Dec 22 2019 at 18:57

Так агрессивная внешняя среда не дает просто залипнуть на месте и «медитировать». А так да, агент именно к этому и стремится по возможности. Но среда все время чем-то гадит и ему приходится как-то реагировать и подстраиваться дабы вернуться к «блаженному ничегонеделанию».

DesertFlow Dec 22 2019 at 23:09

Ничего там не щелкает, это так объясняют в BAIR полученные результаты. Технически, если у вас единственная целевая функция избегать новизны, то вы можете либо переходить в ближайший state с минимальной новизной, либо своими действиями сделать так, чтобы в каком-то state уменьшилась новизна. По алгоритму для этого достаточно постоять там долгое время, чтобы набралась статистика, в которой это место будет считаться хорошо знакомым.

Они просто запустили алгоритм и заметили, что в том же тетрисе и ещё паре игр агент не просто переходит в знакомые state, а целенаправленно делает так, чтобы конкретный state стал знакомым для него в будущем (начал приносить награду в будущем). Так как конкретно это место (state) будет выгодно в отдаленной перспективе. А определяет он это по нейросети, изучивший динамику среды на много шагов вперёд.

В тетрисе таким отдаленным выгодным state будет очищать самую нижнюю строчку (см.яркость пикселей на гифка в правой части). Хотя для текущего момента времени с точки зрения постоянства выгодно поддерживать одинаковой текущую линию. Но агент держит постоянной не ее, а стремится очистить все до самой нижней линии. Из этого они сделали такие выводы. О сложном скоординированном поведении.

Вообще, я заметил что в статьях BAIR часто делают такие далеко идущие выводы по каким-то незначительным и не полностью доказанным признакам. Но учитывая, что в Reinforcenent Learning двухмерная прыгающая нога из двух суставов считается сложной задачей с высокой размерностью, то тут особо не разбежишься. Приходится работать с тем что есть. С технической стороны эти выводы верны, но отсутствие масштабируемости конечно удручает. Будем надеяться, что это вопрос времени.

И как уже верно заметили, все время стоять на одном месте, делая это место все более и более знакомым, а значит приносящим больше награды, на практике не получается. Хотя агент стремится именно к этому. Но внешняя среда, вроде разрушающегося по пятам моста (или преследующие вас хищники, см. гифку в оригинальной статье) повышают энтропию в том месте, где вы стоите. И в какой-то момент соседний state становится более привлекательным с точки зрения знакомства (уменьшения новизны, увеличения постоянства). И агент переходит в него. Ну или делает более сложные скоординированные действия, как описано выше.

VDG Dec 23 2019 at 17:50

Спасибо, теперь прояснилось. Я бы интерпретировал так: агент постоянно стремится в точку «спокойствия», которую указывает/предсказывает нейросеть. В примере с мостом точка периодически перескакивает в соседнее безопасное положение, агент делает к ней шаг и снова встаёт на точку. В тетрисе точка (пустая нижняя строка) удалена не только в пространстве, но, так сказать, и во времени. Поэтому агент вынужден «продираться через фигуры», непрерывно двигаясь к ней.

DesertFlow Dec 24 2019 at 01:33

Да, верно. Парадокс в том, что стремление избегать новизны (в этой статье) и стремление к новизне (механизм любопытства) в итоге приводят к примерно одинаковому поведению. Потому что любопытство заставляет искать новые state, но целевая функция обучения — оставаться в игре как можно дольше. А здесь избегание новизны заставляет убегать от изменений, которые по большей части представляют опасности. Что естественным образом тоже приводит к тому, что агент дольше остается живым. В итоге оба оказываются в том state, который наиболее выгоден с точки зрения продления жизни агента.

UFO landed and left these words here

Sabbone Jan 17 2020 at 22:45

ну просто надо сделать два агента, один стремится к новизне, а второй найти самое безопасное состояние. На выходе наверное нужна еще нейросеть, которая будет получать советы от 1ых двух, и уже давать команды персонажу
А то что людям хочется путешествовать, это эволюционная привычка, чтобы вид не вымер, надо чтобы он расселялся, и зырил за окружением а то мало ли

dim2r Dec 23 2019 at 09:27

С аналогией-то из жизни понятно, меня интересует техническая сторона. В какой момент у агента щёлкает в голове переключатель, что нужно из тёплого места пойти «строить дом», и что это за тумблер?

Человек похож на мультиагента и брокера. Мини-агенты имеют имеют разный приоритет. Например

— сижу программирую — активный агент программиста.

— и тут что-то зачесалось в ноге — брокер видит более приоритетный сигнал.
брокер включает другого мини-агента и временно передает ему управление руками, глазами и тд.

— более низкоуровневый, но более приоритетный агент-чесальщик чещет ногу.

— брокер получает сигнал удовлетворения и обратно переключается на программиста.

dim2r Dec 23 2019 at 09:22

а какова метрика знакомости места?

DesertFlow Dec 23 2019 at 14:34

Вероятность, что этот state относится к распределению ранее посещённых state. Для простых дискретных игр (тетрис и, кажется, vizdoom) они хранят все посещенные state с начала эпизода и подгоняют на этом датасете простые генеративные вероятностные модели. Для тетриса на распределении Бернулли, а для vizdoom используют нормальное распределение. Для окружений с картинками они
используют вариационный автоэнкодер VAE. В общем, оценку знакомости места в сложных играх даёт нейросеть, натренированная на всех предыдущих эпизодах.

dim2r Dec 23 2019 at 18:05

Не совсем понятно, каким образом считается, что эпизод1 похож эпизод2? В эпизоде может быть много кадров.

DesertFlow Dec 24 2019 at 01:37

Не эпизод, а state — текущее состояние. Показания всех сенсоров агента в текущий момент. У него есть несколько вариантов действия action и для каждого варианта он оценивает, насколько знакомым окажется новый state, если он выберет это действие. И соответственно, в итоге выбирает то действие, которое по его мнению (по оценке нейросети) приведет к более знакомому состоянию. Состоянию, в котором он уже находился много раз.

Для дискретных actions (тетрис, VizDoom) они используют Q-learning, а для непрерывных (Humanoid) — TRPO.

dim2r Dec 24 2019 at 13:44

Состоянию, в котором он уже находился много раз.

так что, надо запоминать все состояния и вести счетчик для каждого?

DesertFlow Dec 24 2019 at 22:52

Они испытывали этот алгоритм на очень разных задачах с разными исходными данными. Там где простые условия, как в тетрисе, они действительно хранили все состояния от начала эпизода. И на этом датасете составляли генеративную вероятностную модель. Которая служила потом для обучения нейросети — мозгов агента. Показывая ему степень знакомости текущего места.

А где на входе сложные данные или картинки, для расчета вероятностей они использовали вариационный автоэнкодер — VAE. Это нейросеть, которая на выходе выдает вероятности. Математическое ожидание и отклонение. И вот она, хоть на своем выходе и предсказывает вероятность того, насколько текущий state знаком относительно начала текущего эпизода, на самом деле была обучена на большом количество предыдущих эпизодов.

То есть, там две нейросети — одна предсказывает вероятность что state знаком, начиная с начала эпизода (или на простых задачах, вместо нее посчитанное реальное распределение). А вторая — это уже мозги самого агента. Причем если брать мозги, которые они использовали для дискретных действий — Q-learning, то там внутри еще две нейросети, основная и догоняющая target. Да и нейросеть для непрерывных действий TRPO, тоже внутри состоит из двух нейросетей — actor и critic.

В общем, в этом Reinforcement Learning все сложно. А все потому, что обычные нейронные сети, такие как сверточные CNN для распознавания картинок, в Reinforcement Learning нифига не работают. И это прям хороший вопрос, почему. Толком на него до сих пор нет ответа.

Gryphon88 Dec 25 2019 at 08:53

Спасибо за очень информативные комментарии, очень понятно, на пальцах и дают контекст «ну это тут все знают» для чтения статей по RL. Не думали о том, чтобы написать туториал «Что такое Reinforcement learning и чем он отличается от привычных нейросетей»?

DesertFlow Dec 25 2019 at 10:26

Я уже пытался: https://habr.com/ru/post/437020/

Но это такая обширная тема, что если пытаться упрощать, то получается пустая болтовня, от которой нет пользы. А если чуть углубиться, то получаются одни формулы. Которые отталкивают любого нормального человека. Дело в том, что область обучения с подкреплением зародилась очень давно, десятилетия назад, ещё до нейросетей. И многие понятия и определения чисто исторически перекочевали в наше время. И они довольно сильно отличаются от привычных понятий в нейросетях. В Reinforcement Learning для обучения нейросетей используются совсем другие формулы и методы, чем для обычных, а сами нейросети там скорее используются как простенькие аппроксиматоры. С другой стороны, существующие методы обучения с подкреплением просто не могут обучать сложные нейросети (по разным причинам). Иначе их давно бы начали использовать. И единственное что привлекает исследователей в Reinforcenent Learning, то что это настоящий интеллект, пусть и работающий пока только на задачах очень низкой размерности. Со временем либо увеличится вычислительная мощность, либо будут найдены более эффективные методы обучения. И тогда для всех настанет коммунизм.

dim2r Dec 25 2019 at 13:18

Нейросеть может входить в состав RL.
Вот довольно толково разжевано, как её можно использовать.
habr.com/ru/post/439674

Автор даже уложил весь код в 150 строчек numpy. Я после прочтения сразу написал самообучающийся агент для крестиков-ноликов для Pytorch.

UFO landed and left these words here

dim2r Dec 25 2019 at 13:55

да, было дело в 60х годах

попробуйте адаптировать к другим задачам.

DesertFlow Dec 25 2019 at 22:08

В пинг-понге размерность 1. На 4 алгоритм уже захлёбывается. На 17 (примитивная модель гуманоида с минимальным числом суставов) обучить практически невозможно. Точнее удается, но ценой невероятных ухищрений с рядом ограничений на условия задачи, и ценой облачной вычислительной мощности. У человека 700 мышц и два глаза по 100 мегапикселей каждый. А число степеней свободы, приведенное к единице времени как в Reinforcement Learning, исчисляется миллионами или миллиардами. Продолжать?

К примеру, если за единицу времени вы можете сказать одно слово, то у вас 500 тысяч степеней свободы. Если фразами, то это сразу комбинаторный взрыв.

Понятно, что необходимо уменьшать единицу времени, тогда число степеней свободы для RL алгоритма уменьшается (но растет необходимый горизонт планирования). Число мышц можно уменьшить до каких-нибудь разумных 100 штук, например. А число слов до 2-30 тысяч. И картинку на входе подавать 640х480 (все равно пропускная способность глазного нерва на 30 кадрах в секунду примерно 2 мегапикселя, так что 100 мп разрешение глаза используется только для резкости и предобработки).

И получается, что когда RL алгоритмы смогут обрабатывать задачи с текущих размерностей 1-10 до хотя бы до нескольких сотен, а лучше тысяч. То тогда будет реальный шанс увидеть сильный ИИ, построенный на этом подходе. Вопрос ли это масштабирования, вот в чем вопрос. Сейчас RL алгоритмы не масштабируются. Но все может измениться, конечно.

DesertFlow Dec 25 2019 at 22:28

Но это только если речь о голом RL. На практике используются гибриды. К примеру, размерность картинки с камеры с помощью обычной нейросети-автоэнкодера можно снизить до размерности 4. А уже в этой размерности обучать агента алгоритмами RL. Так уже существующими методами удается обучить ездить машинку по камере, например.

У человека тоже большая часть сенсорной информации предобрабатывается. Как пример глазной нерв, сжимающий видеопоток в 100 раз. Собственно, наше мышление это тоже пример невероятного снижения размерности. Из всего разнообразия показаний сенсоров и длительных по времени ситуаций (число комбинаций не поддается исчислению из-за комбинаторного взрыва), мы сжимаем их до типичных 20 тысяч слов, используемых человеком. И мыслим, то есть думаем, уже на уровне этих слов. В размерности всего 20 тысяч измерений.

Вот как только RL алгоритмы смогут работать с задачами размерностью 20 тысяч, то сразу естественным образом получим сильный разговорный ИИ, построенный на базе текстов. Возможно он будет не идеальный, так как всю информацию о внешнем мире мире ему придется получать из текста. Но болтать будет здорово.

dim2r Dec 26 2019 at 07:32

У человека тоже большая часть сенсорной информации предобрабатывается

У человека несколько предобученных подсистем и брокеры, которые управляют их активацией. Брокеры тоже могут обучаться.

Есть подсистемы, которые даны от рождение (рефлексы). Есть подсистемы, которые были созданы и натренерованы в течении жизни, например, — знание математики.

Брокеры могут динамически переподключать органы к разным подсистемам. Например математик решает задачу. Руки ноги, глаза подключены к системе «математик». Потом раздался хлопок где-то на улице, брокер переключает на другую подисистему и человек бежит глядеть в окно.

DesertFlow Dec 27 2019 at 01:01

Тем не менее неокортекс, отвечающий за высшие когнитивные функции — мышление и пр., имеет примерно однородную структуру. Это означает, что он полностью обучается в процессе, а не имеет врожденных программ. У человека есть конечно косяки, доставшиеся от более древних отделов мозга. Но я к тому, что неокортекс доказывает, что разум как явление определяет обучением. Органом или механизмом, позволяющем обучаться в течении жизни. А отсюда и потребность понять, а как же происходит это обучение, приводящее к разумности? По каким алгоритмам. Это RL на сниженной за счет других отделов размерности или что-то другое?

UFO landed and left these words here

dim2r Dec 27 2019 at 08:59

А отсюда и потребность понять, а как же происходит это обучение, приводящее к разумности? По каким алгоритмам

Это очень философский вопрос — Что такое разумность и что такое сознание?

Мы можем говорить о очень продвинутой системе реакций на внешние и внутренние раздражители. Но полной картины, как это работает еще долго не будет.

UFO landed and left these words here

DesertFlow Dec 27 2019 at 01:17

Тут скорее речь о фундаментальных ограничениях. Ведь понятно, что очень сложная задача может проецироваться на очень низкую размерность. Например, задача вождения автомобиля: есть всего две размерности: газ-тормоз и руль влево-вправо. А задача сложная, сравнимая с созданием сильного ИИ.

Но дело в том, каким бы сложным ни был мир, у агента есть возможность маневра только в пространстве его размерности. У робомашины это вход с камеры и 4 действия. Если этих данных недостаточно, то тут просто ничего не поделаешь. Задача выйдет за размерность агента.

И RL алгоритмы работают напрямую с такими вещами. Компьютер же ничего не знает об устройстве мира, у него есть две числовые оси определенной длины с определенным шагом, меняющиеся с определенным временным интервалом. И несколько чисел в качестве входных данных. И нужно понять, как решать задачу, когда критерий у вас только сигнал награды — решена или нет. Прямо как у младенца.

Поэтому RL так привлекает исследователей, это создание интеллекта из первых принципов. Без имитационного копирования поведения других людей и прочих трюков, облегчающих жизнь. И поэтому там так много математики. И такое глубокое погружение в эту область знаний.

UFO landed and left these words here

dim2r Dec 27 2019 at 09:20

… да и что такое внешний мир, если он постоянно меняется. Вроде он есть и вроде ухватить нет возможности.

UFO landed and left these words here

dim2r Dec 27 2019 at 16:13

Я распознаю во внешнем мире только те паттерны, которые мне сгрузили в детстве, остального в упор не вижу.

похоже на переобученность

DesertFlow Dec 27 2019 at 09:44

Это невозможно. Без картины мира чистый RL только в тетрис и может играть, а дальше сложность будет неподъемной. Поэтому природа и придумала иммитацию, наследственность, эволюцию, естественный отбор. Человеку, чтобы создать сильный ИИ, придется повторить весь этот путь

Смелое утверждение. Так-то это вопрос масштаба, принципиально ничто не мешает RL агенту действовать в реальном мире, а не только в симуляторе. Для построения модели мира в современном RL (в отличие от раннего, который из-за этого и не мог развиться) используются нейросети. А их емкость огромна. Не хуже, чем у человека.

100 Мб нейросеть способна вобрать в себя языковую модель. 50-500 Мб сеть полностью имитирует зрительную систему человека (выбор фич и т.д.). А что будет, когда размеры нейросетей достигнут 1 Гб, 10 Гб, 100 Гб?

При хорошем датасете там может зародиться разум даже без RL. Чисто на обычных способах обучения глубоких нейросетей.

UFO landed and left these words here

DesertFlow Dec 28 2019 at 01:07

Я немного о другом, про емкость нейросетей как универсальных аппроксиматоров. Сейчас StyleGAN2 идеально генерирует лица людей. Неотличимых от реальных. Рано или поздно такие нейросети почти без изменения архитектуры смогут так же реалистично генерировать видео. А что такое видео? Этот движение. А значит, это можно будет применить к физическим роботам. И получим робота, который ведёт себя неотличимо о человека. То есть разумного. Это и есть имитационный ИИ. Который технически вполне достижим существующими методами обучения глубоких нейросетей, без изобретения не существующих сегодня RL алгоритмов для высоких размерностей.

Причем глядя на музыкальный клип длиной 3 минуты, вы вполне можете представить как будет себя вести и что делать рядом с вами певица из клипа. Значит этой длительности достаточно для имитационного моделирования. А значит это сможет сделать и имитационный ИИ на базе большой глубокой нейросети. В первую очередь конечно интересны секс-куклы, но можно например сделать так Эйнштейна или Илона Маска, чтобы поговорить с ними (внутри конечно нейросеть пройдется по всем историческим записям о них, чтобы сформировать реалистичный образ). И я напоминаю, что реалистичность их будет такая же, как у лиц из StyleGAN2 сейчас. Неплохой вариант, я считаю. А имитировав каких-нибудь мотивированных исторических трудяг-трудоголиков, получим промышленных роботов-рабочих (хотя это может не сработать, мало ли какие страдания испытывали эти трудоголики в жизни, а мы их тут воссозданим). Но этот путь ясен, не вызывает сомнений и вопрос только времени и роста вычислительных мощностей.

UFO landed and left these words here

RobertLis Dec 22 2019 at 04:56

нейросеть пытается предсказать выходы другой нейросети, которая инициирована случайными весами и никогда не меняется. Предполагается, что чем более знакомая ситуация (подающаяся на вход обеим нейросетям, текущей и случайно инициированной), тем чаще текущая нейросеть сможет предсказывать выходы случайно инициированной.

Это напоминает один трюк из эпохи, когда ещё не умели обучать многослойные модели. Брали сеть, инициализированную случайными весами, затем прикручивали к ней дополнительный слой — и обучали только его.

Итоговая конструкция обучалась легко: ведь это по сути был однослойный перцептрон — но могла при этом делать более сложные вещи. Одна из таких моделей — эхо-сети.

Эта идея давно уже витает в воздухе. Вот, например, древний анекдот про Дональда Кнута и его ученика:

Студент инициализировал нейросеть случайными весами. Когда его спросили, какой в этом смысл, он объяснил: так у сети не будет никаких предрассудков о том, как устроена реальность.
Преподаватель ненадолго задумался и ответил, что у этой нейросети уже есть предрассудки.
Отличие лишь в том, что студент их не понимает.

UFO landed and left these words here

Cerberuser Dec 22 2019 at 08:25

Твоя нейросеть втирает мне какую-то дичь! Это всё потому что она Близнец!

UFO landed and left these words here

RobertLis Dec 22 2019 at 08:37

Вы таки смеётесь, но если генератор случайных чисел был привязан к часам, то чисто теоретически некоторая связь с движением планет у неё будет.

UFO landed and left these words here

eksamind Dec 22 2019 at 07:40

учитывая все нарастающую проблему непонимания, почему нейросеть делать именно такой выбор, то появится "психологи ", которые запрос ответами будут пытатся понять, что там творится в нейросети)
Неожиданно эффективные решения нащовут интуицией, неожиданно неэффективные, тараканами...

Mad__Max Dec 22 2019 at 08:49

А там от ИНС-психологов и до техножрецов недалеко…

UFO landed and left these words here

ReDev1L Dec 22 2019 at 09:28

Нужно объединить эти два подхода. По умолчанию — исследовать, но как только есть опасность — переключать управление на лень и самосохранение. Опасность выявлять смертью агента и штрафами в исследовании.

shm-vadim Dec 22 2019 at 10:10

Кажется, что нейросети-параноики будут куда жизнеспособнее, потому что будут более полно соответствовать эволюционным принципам природы.

AllexIn Dec 22 2019 at 13:12

С каких пор эволюционные принципы признаны идеальными?

shm-vadim Dec 22 2019 at 13:40

Я не думаю, что они идеальны, у всего ведь есть свои недостатки и ограничения. Но то, что мы существуем и вполне серьезно думаем о создании искусственного интеллекта, само по себе многое говорит об их эффективности. И я, например, не могу вспомнить саморазвивающуюся и самоподдерживающуюся сложную систему функционирующую по другим принципам. Может вы подскажите?

AllexIn Dec 22 2019 at 15:38

Но то, что мы существуем и вполне серьезно думаем о создании искусственного интеллекта, само по себе многое говорит об их эффективности.

Не путайте работоспособность с эффективностью. О работоспособности говорит, об эффективности — нет.

И я, например, не могу вспомнить саморазвивающуюся и самоподдерживающуюся сложную систему функционирующую по другим принципам.

А рыба не может вспомнить ни одного сухопутного существа. Это тоже ни о чем не говорит.

EvgenZhaba Dec 22 2019 at 12:56

arxiv.org/abs/1912.05510 — ссылка на статью SMiRL: Surprise Minimizing RL inDynamic Environments
arxiv.org/pdf/1912.05510.pdf — на pdf в ней

UFO landed and left these words here

DrugGarry Dec 22 2019 at 12:56

Консерваторы против революционеров. Еще очко в пользу консерваторов.
Кто в молодости не был радикалом — у того нет сердца, кто в зрелости не стал консерватором — у того нет ума. (Вроде Дизраэли)
Я всегда следовал правилу: не беги, если можешь стоять; не стой, если можешь сидеть; не сиди, если можешь лежать. (Черчилль)

DesertFlow Dec 22 2019 at 13:01

Скорее ландшафт решений и состояний настолько многообразен, что к локальным экстремумам (про которые мы думаем, что они глобальные, хе-хе) можно прийти разными путями. Исследовать за счёт любопытства — хорошо. Находиться в безопасных местах и не высовываться — тоже хорошо. Оба варианта дают примерно одинаковый результат по выживанию. Забавно, что это проявилось даже на таких низких размерностях.

DrugGarry Dec 22 2019 at 13:09

Прийти можно разными путями

— согласен.

Одинаковый результат по выживанию

— нет. Пессимистов доберется больше. Хотя нужны и те и другие. (Я про эволюцию)

UFO landed and left these words here

DesertFlow Dec 23 2019 at 07:48

А к этому вполне может прийти ). Дело в том, что Reinforcement Learning — это попытка создать ИИ из первых принципов. Мотивация, любопытство, награда за успешные действия. Если такой ИИ решит, что для достижения цели ему выгоднее уничтожить всех человеков, то так он и сделает. Что ему может помешать-то? Мы конечно надеемся, что все действительно разумные существа достигают примерно одинакового уровня разумности и поэтому не будут вредить друг другу. Что разум это универсальная характеристика. Но гарантии этому нет.

Кроме того, пока будет создан действительно сильный разумный ИИ, ничто не мешает разработчикам выпускать не до конца разумные версии. У которых такие косяки могут цвести пышным цветом.

Существует и другой способ достичь сильного ИИ — имитационное обучение. Вы просто скармливаете нейросетям огромные датасеты с поведением живых людей. И цель обучения — копировать поведение людей. Примерно как в GAN. Тогда если будете обучать на датасете из "хороших" людей, то гарантированно получите добрый ИИ. Он в принципе не сможет уничтожить человечество, так как был обучен на хороших примерах. Такое его будет внутреннее устройство с точки зрения математики. Конечно, у него не должно быть противоречивых мотиваций и возможности себя изменять, чтобы в процессе размышлений прийти к вредным выводам). Это должна быть фиксированная система, с фиксированными весами нейросети. Просто обладающая памятью. Но с жестко прошитыми в нейронных связях "хорошими" инстинктами. Так что не все так плохо, страхи насчет злобных ИИ сильно преувеличены.

UFO landed and left these words here

DesertFlow Dec 23 2019 at 14:55

Вирус это просто молекула, заключенная в белковую оболочку, да и то не всегда. Как ей может хватать на что-то ума? Просто так сложились химические реакции, что грипп легко побеждается иммунной системой. Но благодаря изменчивости, не искореняется окончательно. Другие вирусы есть смертельные. А есть и полностью исчезнувшие.

Вы наверно имеете ввиду, что эволюция справится и сохранит подобие гомеостаза. Тогда согласен, химические реакции на основе углерода и водорода (т.е. органическая химия) настолько разнообразны, что наверняка от любых болезней можно выработать механизмы защиты. В конце концов, жизнь существует уже три миллиарда лет, значит она устойчива ко всем основным угрозам со стороны химии.

Но ИИ это не молекулы и химические реакции, которые происходили эти миллиарды лет. Как и разум, это нечто новое. Мы потенциально можем создать в космосе мощный источник гамма излучения и прожарить всю планету, что не останется ни одной бактерии. А ещё проще разогнать булыжник до 20% световой, и при столкновении наша планета превратится каплю раскаленной жидкости. Ни одно живое существо не выживет. При таких размерах планеты при столкновениях, да и вообще, ведут себя как капли жидкости в невесомости (поэтому и круглые). Поэтому при достаточной энергии столкновения будет невозможно укрыться в каких-нибудь твердых кусках породы. Потому что их не будет, будет сплошная капля из магмы. Впрочем, при самом ударе на первоначально разлетающихся осколках что-то может и уцелеет. Но уверен, с этим тоже можно что-то придумать. Как раз задачка для сильного ИИ. Которого мы все сейчас дружными усилиями разрабатываем ).

UFO landed and left these words here

red75prim Dec 23 2019 at 16:09

И что такое разум? Способность решать хоть какие-то задачи? Сливной бачок унитаза подойдёт?

Вот способность решать любые задачи (или находить другой подход, если задача не решается) — это уже что-то.

UFO landed and left these words here

Ermit Dec 24 2019 at 13:33

Мир устроен таким странным образом — чтобы навести порядок в одном месте, нужно намусорить в другом, но сильнее… )))

UFO landed and left these words here

Ermit Dec 24 2019 at 14:38

Вы все еще по пословицам живете ))))

UFO landed and left these words here

Ermit Dec 24 2019 at 14:48

Да, всё верно, как записал Матвей: по вере вашей да будет вам… (Мф 9:29)

UFO landed and left these words here

Ermit Dec 24 2019 at 14:59

Простите за некоторое менторство, но за психологией Вам следует поизучать квантовую механику, там есть такой объект как Кот Шрёдингера, ничего общего с гуриями, в том числе и по состояниям. Главная особенность КШ в том, что неопределено жив он или мертв.

red75prim Dec 24 2019 at 17:36

Не "неопределенно жив он или мёртв", а "находится в суперпозиции состояний жив и мёртв". Как это понимать зависит от используемой интерпретации квантовой механики.

Ermit Dec 24 2019 at 17:44

«Неопределенно» — это достаточно точно для нашего уровня дискурса… )))

UFO landed and left these words here

Ermit Dec 24 2019 at 19:20

Размер — это следствие потери неопределенности, а не причина её )))

UFO landed and left these words here

Mad__Max Dec 24 2019 at 19:27

Естественно, и насчет мироздания это давно известно. Глобально же энтропия убывать не может, поэтому единственный способ локально снизить энтропию в одном месте — за счет увеличения ее в другом месте, причем сильнее чем будет снижение в первом, так что суммарно в этом процессе она все-равно увеличится.

Только способность понижать свою энтропию это не свойство или определение разума. Это может быть одним из определений жизни и различения живого от неживого, а не разумного от неразумного.
А вот разум тут не причем, разве что как один из способов увеличения эффективности этого процесса развившийся у живых объектов.

UFO landed and left these words here

red75prim Dec 24 2019 at 19:58

И ещё кто-нибудь наконец догадается померить объем, плотность, температуру и содержание хим. элементов в Мыслителе Родена и бронзовой болванке и установит, что никакой разницы нет.

Mad__Max Dec 24 2019 at 20:28

Причем тут вообще мочевина? Речь не о различии материи (химических веществ), где принципиальной разницы между живым и не живым нет кроме сложности строения. А о жизни как способе организации материи и процессов происходящих в ней.

Возможность самостоятельно снижать свою энтропию — одно из возможных определений является ли наблюдаемое явление жизнью или не является.

По этому определению например бактерии — это живые организмы. А вот например вирусы — уже нет, т.к. не способны это делать самостоятельно — только исключительно при помощи живого носителя/хозяина выполняющего за них большую часть критических процессов, а не просто обеспечивающих наличие подходящих условий среды в виде наличия пит. веществ, подходящей температуры и т.д. как для бактерий и других паразитов или симбиотов которые так же зачастую не могут жить в природе без хозяина, но от хозяина им нужна только подходящая среда.

Насос как выше упоминали естественно не является живым или тем более разумным — т.к. опять же неспособен понижать свою энтропию без помощи действительно живого. В данном случае в виде человека для начала создавшего его, а потом заправляющего топливом/энергией, ремонтирующего и т.д.
Т.е. можно сказать, что живой является система из человека + насоса. Но не сам насос отдельно.

UFO landed and left these words here

red75prim Dec 24 2019 at 20:35

Другой метрики у нас нет.

Если вернуться к теме статьи, то с таким подходом получается, что и ИИ не нужен — сделали тепловой насос помощнее и всё. Энтропию понижает? Да. Сильнее чем люди? При достаточной мощности — да. Супер-разум!

UFO landed and left these words here

red75prim Dec 25 2019 at 04:18

А физическое определение-то какое? Понижать энтропию будет насос, а не человек. Каким прибором определить, что вот этот человек стоящий в сторонке — конструктор насоса? Хотя произвёл он только листки бумаги с закорючками и до этого экземпляра насоса вообще не дотрагивался.

UFO landed and left these words here

red75prim Dec 25 2019 at 08:02

А кто и как будет определять кто что придумал? Почему это X+Y относится к человеку, а не к программе, просчитывавшей варианты конструкций?

UFO landed and left these words here

ni-co Dec 23 2019 at 16:11

Добавлю: использование языка для создания и ХРАНЕНИЯ новых абстракций(библиотек) специфично для человека.

UFO landed and left these words here

DesertFlow Dec 24 2019 at 01:41

Разум не является чем-то новым, и уж тем более не является специфичным для человека.

Так как нет четкого математического критерия, по которому можно отличить разумное существо от неразумного (если вам известен такой критерий, то приведите его формулу), то будем считать что разум — это что-то на уровне человека. Да, некоторые животные иногда проявляют зачатки разумности, и это хорошо — ведь мы отдаленные родственники с точки зрения эволюции.

Но за образец настоящего сильного разума и интеллекта надо брать идеализированного человека. Благородного, умного, красивого. Такого как я.

UFO landed and left these words here

DesertFlow Dec 24 2019 at 23:06

но поскольку вы придумали и двигатель и насос, потратив меньше каллорий, чем если бы носили воду ведрами — то вы разумнее насоса

Я тоже сначала подумал, что можно так сравнивать степень разумности. Взять какой-то набор задач и посмотреть какой процент от этих задач может выполнить животное. Если кошка выполнила 1 из 10 задач, которые сделал человек, то значит ее разумность составляет 10% от человеческой.

Но так мы упираемся в выбор задач. Нет критерия, по которому их набирать. И в предельных случаях получим явно неправильные значения. Если взять задачу по перемещению из пункта А в пункт Б. Которую человек может выполнить. То и паровоз ее тоже может выполнить. Успех в 1 из 1. Формально, на этом наборе задач паровоз 100% разумен, так как выполнил 100% человеческих задач. Но это явно не то определение разума, которое нам хотелось бы. Оно формально верное, но не решает поставленную перед ним задачу.

UFO landed and left these words here

red75prim Dec 25 2019 at 04:31

Не "пытается доказать", а "физический демон Максвелла невозможен". Чтобы он работал нужен не разум, а свободная энергия. То есть система должна быть незамкнутой. Вариант, когда демон управляется нематериальной душой, — это тоже незамкнутая система.

UFO landed and left these words here

red75prim Dec 25 2019 at 04:52

Да не может быть физического определения разумности. Совершенно неважно сколько негэнтропии произведёт система на калорию съеденного бутерброда. Важно то, насколько эффективно система действует при достижении целевых состояний и насколько широк круг целевых состояний и условий окружающей среды, в которых система действует эффективно.

UFO landed and left these words here

biakus Dec 23 2019 at 07:34

Прямо сразу вспомнил про книгу про гомеостатику www.ozon.ru/context/detail/id/33076387

sergei_bondarenko Dec 23 2019 at 10:54

Хорошая статья, читается легко и доступно. Спасибо!

mr_stepik Dec 23 2019 at 11:47

Подскажите, что за «oracle agent» на графиках скорости обучения?

DesertFlow Dec 23 2019 at 15:07

Оракул — это алгоритм, знающий правильный ответ. Часто используется в машинном обучении, чтобы сравнивать эффективность обучаемых алгоритмов. Это как бы предельный случай, лучше которого уже ничего не может быть. Как оракул реализован здесь я не обратил внимания, но скорее всего на основе истинного распределения вероятностей узнаваемости мест. Так как оно должно набраться на статистике эпизода, то не сразу падает на графике, а постепенно. P.S. я когда-то потратил кучу времени, чтобы найти oracle алгоритм, который так же фигурировал в сравнениях в одной статье. Показывал намного лучшие результаты. Я думал, это метод конкурентов ). А оказалось вот так.

Frankenstine Dec 25 2019 at 18:27

ИИ, пытающийся избежать проблем, научился сложному поведению

А если сравнить его поведение с поведением ИИ, ведомому любопытством, то чьё поведение будет «сложнее»? Сдаётся мне, «ленивый» ИИ проиграет «любопытному».

DesertFlow Dec 25 2019 at 22:11

В данном случае, см. графики, где как раз сравнивается поведение с двумя лучшими моделями на основе любопытства, победил ленивый. Но скорее всего это из-за подобранных окружений. В них много опасностей, поэтому ленивый (считай — избегающий любой новизны) оказался в выигрыше.

Frankenstine Dec 26 2019 at 07:19

Но скорее всего это из-за подобранных окружений

Практически наверняка. «Ленивый» будет стоять до посинения перед выходом с уровня, потому что смена уровня это неслабая смена окружения. Ему «комфортно» так, и один раз войдя в выход с уровня, он его будет избегать в дальнейшем всеми силами.

DesertFlow Dec 27 2019 at 01:18

Ну и правильно делает. Чтобы выйти из зоны комфорта, надо сначала в нее войти )

Mad__Max Jan 9 2020 at 17:20

Смотря как среда запрограммирована. Стоит например добавить «сытость» или «заряд энергии», который постепенно (медленно, но неотвратимо) убывает просто с течением времени, но которые можно восполнить находя какие нибудь «ништяки». То тоже самое стремление к «сохранению комфорта» и избеганию опасностей уже не даст тупо залипать на одном месте — будешь слишком долго тупить в «безопасном убежище» ничего не делая — загнешься от «голода»(истощения энергии). В результате агенту придется постоянно продвигаться, но при этом с минимальными рисками и по возможности ограничиваясь уже проверенными рабочими решениями/схемами действий в отличии от «любопытных» агентов.

И что-то мне такой вариант обучения ИИ даже больше естественный напоминает чем традиционные модели.

Вопрос к DesertFlow — не в курсе, может что-нибудь подобное в этих работах уже пробовали?

DesertFlow Jan 9 2020 at 17:57

Такое часто бывает в компьютерных играх, какой-нибудь уменьшающийся таймер. Например, уровень кислорода в игре с ныряющей подлодкой (одна из стандартных игр в RL). Да и просто уровень здоровья, падающий от врагов, и найденные бутылочки с зельем лечения можно считать аналогом еды. Для роботов и гуманоидов в симуляторах в RL почти всегда используется усталость — штраф на большой момент в моторах, заставляющий экономить силы и обходиться минимальными усилиями. Это стандартная практика в тех же OpenAI Gym окружениях. Так что да, это постоянно используется. Но это не является критическим условием для обучения, а просто одно из условий окружения. Потому что существующие RL алгоритмы не позволяют делать голод или выживание мотивирующей силой в нашем бытовом понимании. Для этого нужно, чтобы нейросети умели учиться на единичных примерах, не забывали прошлый опыт и т.д… Весь тот набор, по которому искусственные нейросети отличаются от биологического мозга. В живом организме голод заставляет активно шевелиться в поисках еды. А если вы обучаете сеть на миллионах случаев разной степени голодности, то это совсем другое. Не эволюция, не обучение в течении жизни, а простая численная оптимизация. Не сильно отличаюшаяся от оптимизации остальных гиперпараметров и внутренних параметров сети. Мне кажется, именно из-за этого такие мотивирующие факторы, вроде усталости и голода, не оказывают существенного влияния на результат обучения в RL.

perfect_genius Jan 16 2020 at 17:40

Вот почему некоторые лентяи так умны — они постоянно перебирают варианты как поступить, чтобы как можно больше ничего не делать.