Как стать автором
Обновить

Комментарии 138

НЛО прилетело и опубликовало эту надпись здесь
Тут можно ещё вспомнить, что известный цикл Азимова «Я, Робот» был не пор инженеров, а про робо-психологов.
НЛО прилетело и опубликовало эту надпись здесь

В случае эволюции никаких релизов конечно нет. Но выпускать в серию автопилот, у которого после 100 тыс. км начинается экзистенциальный кризис, никто не даст. Поправят или встроят "кушетку с психоалитиком" в систему, если это действительно окажется законом.


В этом и отличие ИИ от остальных технологий. Любая человеческая деятельность потенциально может быть автоматизирована. Включая работу психоаналитика.

НЛО прилетело и опубликовало эту надпись здесь

Это называется Dropout — веса не участвуют в forward-шаге с заданной вероятностью.

НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь

Определиться бы ещё про каждое из упомянутых вами понятий: сознание...

НЛО прилетело и опубликовало эту надпись здесь

И есть еще несколько десятков определений, как сознания, так и разума(mind).
Ни единения, ни существенного прогресса в этом вопросе нет. И это приводит к невеселому выводу, что неизвестно, что наблюдать у ИИ или чему именно его учить, что мерить, как метрику успешности "сознания" или "разума".

А я всегда говорил: лень — двигатель прогресса (развития)!

Заодно научился использовать как достаточно мощный фактор мотивации. Которые если сильно упростить можно свести к: активно делать что-то сейчас, чтобы меньше (желательно вообще НЕ) делать что-то потом. Во многом это самообман, но работает.

Интересно, что оказывается на искусственных нейтронных сетях это тоже хорошо работает.
Интересный подход, спасибо, надо попробовать
Либо перейти в такое состояние, которое обновит само понятие постоянства/знакомости окружения, и агент окажется в новом, сформированном его действиями, знакомом state.

Можете раскрыть эту часть?

Стремление к исходному состоянию, вместо попытки сохранить его (состояние) при принудительном его изменении же, нет?

В случае с тетрисом — да, агент стремится к исходному пустому полю. Но я про другое (см. мой комм. ниже).

Агент получает награду за то, что переходит в знакомые state (награда пропорциональна узнаваемости места). Но когда у вас большой горизонт планирования и вы понимаете динамику среды, то вы можете сознательно перейти в малознакомое место и постоять там какое-то время, пока оно не станет для вас знакомым. Это примерно как построить дом — надо приложить усилия, получить много неприятной новизны (по правилам игры агент избегает новизны). Но зато в будущем вы получите намного больше награды, так как это сделанное вашими собственными руками место со временем станет для вас знакомым и вы будете получать награду просто за нахождение в нем. В качестве доказательства они приводят пример тетриса, где у агента изначально не было предпочтений, но в итоге он сформировал на несколько ходов вперёд тактику по "постройке дома" в углу в нижней строчке (см. яркость пикселей на гифка, это куда агент стремится). Так как помещая туда фигуры, в отдаленной перспективе он получит более стабильное состояние с пустым полем. Чем просто бороться по факту с текущими падающими фигурами.


Эта способность агента самостоятельно формировать для себя места, которые в будущем станут для него знакомыми с большой наградой (хотя сейчас они для него новые и болезненные) приводит к более сложному поведению, чем просто всегда переходить в ближайший state с максимальной узнаваемостью.

НЛО прилетело и опубликовало эту надпись здесь
С аналогией-то из жизни понятно, меня интересует техническая сторона. В какой момент у агента щёлкает в голове переключатель, что нужно из тёплого места пойти «строить дом», и что это за тумблер? Иначе говоря, в какой момент и почему одна стратегия/поведение сменяется другой.

И почему агент просто не остаётся на месте «медитировать», ведь со временем это место тоже станет ему знакомым.
Так агрессивная внешняя среда не дает просто залипнуть на месте и «медитировать». А так да, агент именно к этому и стремится по возможности. Но среда все время чем-то гадит и ему приходится как-то реагировать и подстраиваться дабы вернуться к «блаженному ничегонеделанию».

Ничего там не щелкает, это так объясняют в BAIR полученные результаты. Технически, если у вас единственная целевая функция избегать новизны, то вы можете либо переходить в ближайший state с минимальной новизной, либо своими действиями сделать так, чтобы в каком-то state уменьшилась новизна. По алгоритму для этого достаточно постоять там долгое время, чтобы набралась статистика, в которой это место будет считаться хорошо знакомым.


Они просто запустили алгоритм и заметили, что в том же тетрисе и ещё паре игр агент не просто переходит в знакомые state, а целенаправленно делает так, чтобы конкретный state стал знакомым для него в будущем (начал приносить награду в будущем). Так как конкретно это место (state) будет выгодно в отдаленной перспективе. А определяет он это по нейросети, изучивший динамику среды на много шагов вперёд.


В тетрисе таким отдаленным выгодным state будет очищать самую нижнюю строчку (см.яркость пикселей на гифка в правой части). Хотя для текущего момента времени с точки зрения постоянства выгодно поддерживать одинаковой текущую линию. Но агент держит постоянной не ее, а стремится очистить все до самой нижней линии. Из этого они сделали такие выводы. О сложном скоординированном поведении.


Вообще, я заметил что в статьях BAIR часто делают такие далеко идущие выводы по каким-то незначительным и не полностью доказанным признакам. Но учитывая, что в Reinforcenent Learning двухмерная прыгающая нога из двух суставов считается сложной задачей с высокой размерностью, то тут особо не разбежишься. Приходится работать с тем что есть. С технической стороны эти выводы верны, но отсутствие масштабируемости конечно удручает. Будем надеяться, что это вопрос времени.


И как уже верно заметили, все время стоять на одном месте, делая это место все более и более знакомым, а значит приносящим больше награды, на практике не получается. Хотя агент стремится именно к этому. Но внешняя среда, вроде разрушающегося по пятам моста (или преследующие вас хищники, см. гифку в оригинальной статье) повышают энтропию в том месте, где вы стоите. И в какой-то момент соседний state становится более привлекательным с точки зрения знакомства (уменьшения новизны, увеличения постоянства). И агент переходит в него. Ну или делает более сложные скоординированные действия, как описано выше.

Спасибо, теперь прояснилось. Я бы интерпретировал так: агент постоянно стремится в точку «спокойствия», которую указывает/предсказывает нейросеть. В примере с мостом точка периодически перескакивает в соседнее безопасное положение, агент делает к ней шаг и снова встаёт на точку. В тетрисе точка (пустая нижняя строка) удалена не только в пространстве, но, так сказать, и во времени. Поэтому агент вынужден «продираться через фигуры», непрерывно двигаясь к ней.

Да, верно. Парадокс в том, что стремление избегать новизны (в этой статье) и стремление к новизне (механизм любопытства) в итоге приводят к примерно одинаковому поведению. Потому что любопытство заставляет искать новые state, но целевая функция обучения — оставаться в игре как можно дольше. А здесь избегание новизны заставляет убегать от изменений, которые по большей части представляют опасности. Что естественным образом тоже приводит к тому, что агент дольше остается живым. В итоге оба оказываются в том state, который наиболее выгоден с точки зрения продления жизни агента.

НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
ну просто надо сделать два агента, один стремится к новизне, а второй найти самое безопасное состояние. На выходе наверное нужна еще нейросеть, которая будет получать советы от 1ых двух, и уже давать команды персонажу
А то что людям хочется путешествовать, это эволюционная привычка, чтобы вид не вымер, надо чтобы он расселялся, и зырил за окружением а то мало ли
С аналогией-то из жизни понятно, меня интересует техническая сторона. В какой момент у агента щёлкает в голове переключатель, что нужно из тёплого места пойти «строить дом», и что это за тумблер?


Человек похож на мультиагента и брокера. Мини-агенты имеют имеют разный приоритет. Например

— сижу программирую — активный агент программиста.

— и тут что-то зачесалось в ноге — брокер видит более приоритетный сигнал.
брокер включает другого мини-агента и временно передает ему управление руками, глазами и тд.

— более низкоуровневый, но более приоритетный агент-чесальщик чещет ногу.

— брокер получает сигнал удовлетворения и обратно переключается на программиста.

а какова метрика знакомости места?

Вероятность, что этот state относится к распределению ранее посещённых state. Для простых дискретных игр (тетрис и, кажется, vizdoom) они хранят все посещенные state с начала эпизода и подгоняют на этом датасете простые генеративные вероятностные модели. Для тетриса на распределении Бернулли, а для vizdoom используют нормальное распределение. Для окружений с картинками они
используют вариационный автоэнкодер VAE. В общем, оценку знакомости места в сложных играх даёт нейросеть, натренированная на всех предыдущих эпизодах.

Не совсем понятно, каким образом считается, что эпизод1 похож эпизод2? В эпизоде может быть много кадров.

Не эпизод, а state — текущее состояние. Показания всех сенсоров агента в текущий момент. У него есть несколько вариантов действия action и для каждого варианта он оценивает, насколько знакомым окажется новый state, если он выберет это действие. И соответственно, в итоге выбирает то действие, которое по его мнению (по оценке нейросети) приведет к более знакомому состоянию. Состоянию, в котором он уже находился много раз.


Для дискретных actions (тетрис, VizDoom) они используют Q-learning, а для непрерывных (Humanoid) — TRPO.

Состоянию, в котором он уже находился много раз.

так что, надо запоминать все состояния и вести счетчик для каждого?

Они испытывали этот алгоритм на очень разных задачах с разными исходными данными. Там где простые условия, как в тетрисе, они действительно хранили все состояния от начала эпизода. И на этом датасете составляли генеративную вероятностную модель. Которая служила потом для обучения нейросети — мозгов агента. Показывая ему степень знакомости текущего места.


А где на входе сложные данные или картинки, для расчета вероятностей они использовали вариационный автоэнкодер — VAE. Это нейросеть, которая на выходе выдает вероятности. Математическое ожидание и отклонение. И вот она, хоть на своем выходе и предсказывает вероятность того, насколько текущий state знаком относительно начала текущего эпизода, на самом деле была обучена на большом количество предыдущих эпизодов.


То есть, там две нейросети — одна предсказывает вероятность что state знаком, начиная с начала эпизода (или на простых задачах, вместо нее посчитанное реальное распределение). А вторая — это уже мозги самого агента. Причем если брать мозги, которые они использовали для дискретных действий — Q-learning, то там внутри еще две нейросети, основная и догоняющая target. Да и нейросеть для непрерывных действий TRPO, тоже внутри состоит из двух нейросетей — actor и critic.


В общем, в этом Reinforcement Learning все сложно. А все потому, что обычные нейронные сети, такие как сверточные CNN для распознавания картинок, в Reinforcement Learning нифига не работают. И это прям хороший вопрос, почему. Толком на него до сих пор нет ответа.

Спасибо за очень информативные комментарии, очень понятно, на пальцах и дают контекст «ну это тут все знают» для чтения статей по RL. Не думали о том, чтобы написать туториал «Что такое Reinforcement learning и чем он отличается от привычных нейросетей»?

Я уже пытался: https://habr.com/ru/post/437020/


Но это такая обширная тема, что если пытаться упрощать, то получается пустая болтовня, от которой нет пользы. А если чуть углубиться, то получаются одни формулы. Которые отталкивают любого нормального человека. Дело в том, что область обучения с подкреплением зародилась очень давно, десятилетия назад, ещё до нейросетей. И многие понятия и определения чисто исторически перекочевали в наше время. И они довольно сильно отличаются от привычных понятий в нейросетях. В Reinforcement Learning для обучения нейросетей используются совсем другие формулы и методы, чем для обычных, а сами нейросети там скорее используются как простенькие аппроксиматоры. С другой стороны, существующие методы обучения с подкреплением просто не могут обучать сложные нейросети (по разным причинам). Иначе их давно бы начали использовать. И единственное что привлекает исследователей в Reinforcenent Learning, то что это настоящий интеллект, пусть и работающий пока только на задачах очень низкой размерности. Со временем либо увеличится вычислительная мощность, либо будут найдены более эффективные методы обучения. И тогда для всех настанет коммунизм.

Нейросеть может входить в состав RL.
Вот довольно толково разжевано, как её можно использовать.
habr.com/ru/post/439674

Автор даже уложил весь код в 150 строчек numpy. Я после прочтения сразу написал самообучающийся агент для крестиков-ноликов для Pytorch.
НЛО прилетело и опубликовало эту надпись здесь
да, было дело в 60х годах

попробуйте адаптировать к другим задачам.

В пинг-понге размерность 1. На 4 алгоритм уже захлёбывается. На 17 (примитивная модель гуманоида с минимальным числом суставов) обучить практически невозможно. Точнее удается, но ценой невероятных ухищрений с рядом ограничений на условия задачи, и ценой облачной вычислительной мощности. У человека 700 мышц и два глаза по 100 мегапикселей каждый. А число степеней свободы, приведенное к единице времени как в Reinforcement Learning, исчисляется миллионами или миллиардами. Продолжать?


К примеру, если за единицу времени вы можете сказать одно слово, то у вас 500 тысяч степеней свободы. Если фразами, то это сразу комбинаторный взрыв.


Понятно, что необходимо уменьшать единицу времени, тогда число степеней свободы для RL алгоритма уменьшается (но растет необходимый горизонт планирования). Число мышц можно уменьшить до каких-нибудь разумных 100 штук, например. А число слов до 2-30 тысяч. И картинку на входе подавать 640х480 (все равно пропускная способность глазного нерва на 30 кадрах в секунду примерно 2 мегапикселя, так что 100 мп разрешение глаза используется только для резкости и предобработки).


И получается, что когда RL алгоритмы смогут обрабатывать задачи с текущих размерностей 1-10 до хотя бы до нескольких сотен, а лучше тысяч. То тогда будет реальный шанс увидеть сильный ИИ, построенный на этом подходе. Вопрос ли это масштабирования, вот в чем вопрос. Сейчас RL алгоритмы не масштабируются. Но все может измениться, конечно.

Но это только если речь о голом RL. На практике используются гибриды. К примеру, размерность картинки с камеры с помощью обычной нейросети-автоэнкодера можно снизить до размерности 4. А уже в этой размерности обучать агента алгоритмами RL. Так уже существующими методами удается обучить ездить машинку по камере, например.


У человека тоже большая часть сенсорной информации предобрабатывается. Как пример глазной нерв, сжимающий видеопоток в 100 раз. Собственно, наше мышление это тоже пример невероятного снижения размерности. Из всего разнообразия показаний сенсоров и длительных по времени ситуаций (число комбинаций не поддается исчислению из-за комбинаторного взрыва), мы сжимаем их до типичных 20 тысяч слов, используемых человеком. И мыслим, то есть думаем, уже на уровне этих слов. В размерности всего 20 тысяч измерений.


Вот как только RL алгоритмы смогут работать с задачами размерностью 20 тысяч, то сразу естественным образом получим сильный разговорный ИИ, построенный на базе текстов. Возможно он будет не идеальный, так как всю информацию о внешнем мире мире ему придется получать из текста. Но болтать будет здорово.

У человека тоже большая часть сенсорной информации предобрабатывается


У человека несколько предобученных подсистем и брокеры, которые управляют их активацией. Брокеры тоже могут обучаться.

Есть подсистемы, которые даны от рождение (рефлексы). Есть подсистемы, которые были созданы и натренерованы в течении жизни, например, — знание математики.

Брокеры могут динамически переподключать органы к разным подсистемам. Например математик решает задачу. Руки ноги, глаза подключены к системе «математик». Потом раздался хлопок где-то на улице, брокер переключает на другую подисистему и человек бежит глядеть в окно.

Тем не менее неокортекс, отвечающий за высшие когнитивные функции — мышление и пр., имеет примерно однородную структуру. Это означает, что он полностью обучается в процессе, а не имеет врожденных программ. У человека есть конечно косяки, доставшиеся от более древних отделов мозга. Но я к тому, что неокортекс доказывает, что разум как явление определяет обучением. Органом или механизмом, позволяющем обучаться в течении жизни. А отсюда и потребность понять, а как же происходит это обучение, приводящее к разумности? По каким алгоритмам. Это RL на сниженной за счет других отделов размерности или что-то другое?

НЛО прилетело и опубликовало эту надпись здесь
А отсюда и потребность понять, а как же происходит это обучение, приводящее к разумности? По каким алгоритмам


Это очень философский вопрос — Что такое разумность и что такое сознание?

Мы можем говорить о очень продвинутой системе реакций на внешние и внутренние раздражители. Но полной картины, как это работает еще долго не будет.
НЛО прилетело и опубликовало эту надпись здесь

Тут скорее речь о фундаментальных ограничениях. Ведь понятно, что очень сложная задача может проецироваться на очень низкую размерность. Например, задача вождения автомобиля: есть всего две размерности: газ-тормоз и руль влево-вправо. А задача сложная, сравнимая с созданием сильного ИИ.


Но дело в том, каким бы сложным ни был мир, у агента есть возможность маневра только в пространстве его размерности. У робомашины это вход с камеры и 4 действия. Если этих данных недостаточно, то тут просто ничего не поделаешь. Задача выйдет за размерность агента.


И RL алгоритмы работают напрямую с такими вещами. Компьютер же ничего не знает об устройстве мира, у него есть две числовые оси определенной длины с определенным шагом, меняющиеся с определенным временным интервалом. И несколько чисел в качестве входных данных. И нужно понять, как решать задачу, когда критерий у вас только сигнал награды — решена или нет. Прямо как у младенца.


Поэтому RL так привлекает исследователей, это создание интеллекта из первых принципов. Без имитационного копирования поведения других людей и прочих трюков, облегчающих жизнь. И поэтому там так много математики. И такое глубокое погружение в эту область знаний.

НЛО прилетело и опубликовало эту надпись здесь
… да и что такое внешний мир, если он постоянно меняется. Вроде он есть и вроде ухватить нет возможности.
НЛО прилетело и опубликовало эту надпись здесь
Я распознаю во внешнем мире только те паттерны, которые мне сгрузили в детстве, остального в упор не вижу.


похоже на переобученность
Это невозможно. Без картины мира чистый RL только в тетрис и может играть, а дальше сложность будет неподъемной. Поэтому природа и придумала иммитацию, наследственность, эволюцию, естественный отбор. Человеку, чтобы создать сильный ИИ, придется повторить весь этот путь

Смелое утверждение. Так-то это вопрос масштаба, принципиально ничто не мешает RL агенту действовать в реальном мире, а не только в симуляторе. Для построения модели мира в современном RL (в отличие от раннего, который из-за этого и не мог развиться) используются нейросети. А их емкость огромна. Не хуже, чем у человека.


100 Мб нейросеть способна вобрать в себя языковую модель. 50-500 Мб сеть полностью имитирует зрительную систему человека (выбор фич и т.д.). А что будет, когда размеры нейросетей достигнут 1 Гб, 10 Гб, 100 Гб?


При хорошем датасете там может зародиться разум даже без RL. Чисто на обычных способах обучения глубоких нейросетей.

НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь

Я немного о другом, про емкость нейросетей как универсальных аппроксиматоров. Сейчас StyleGAN2 идеально генерирует лица людей. Неотличимых от реальных. Рано или поздно такие нейросети почти без изменения архитектуры смогут так же реалистично генерировать видео. А что такое видео? Этот движение. А значит, это можно будет применить к физическим роботам. И получим робота, который ведёт себя неотличимо о человека. То есть разумного. Это и есть имитационный ИИ. Который технически вполне достижим существующими методами обучения глубоких нейросетей, без изобретения не существующих сегодня RL алгоритмов для высоких размерностей.


Причем глядя на музыкальный клип длиной 3 минуты, вы вполне можете представить как будет себя вести и что делать рядом с вами певица из клипа. Значит этой длительности достаточно для имитационного моделирования. А значит это сможет сделать и имитационный ИИ на базе большой глубокой нейросети. В первую очередь конечно интересны секс-куклы, но можно например сделать так Эйнштейна или Илона Маска, чтобы поговорить с ними (внутри конечно нейросеть пройдется по всем историческим записям о них, чтобы сформировать реалистичный образ). И я напоминаю, что реалистичность их будет такая же, как у лиц из StyleGAN2 сейчас. Неплохой вариант, я считаю. А имитировав каких-нибудь мотивированных исторических трудяг-трудоголиков, получим промышленных роботов-рабочих (хотя это может не сработать, мало ли какие страдания испытывали эти трудоголики в жизни, а мы их тут воссозданим). Но этот путь ясен, не вызывает сомнений и вопрос только времени и роста вычислительных мощностей.

НЛО прилетело и опубликовало эту надпись здесь
нейросеть пытается предсказать выходы другой нейросети, которая инициирована случайными весами и никогда не меняется. Предполагается, что чем более знакомая ситуация (подающаяся на вход обеим нейросетям, текущей и случайно инициированной), тем чаще текущая нейросеть сможет предсказывать выходы случайно инициированной.

Это напоминает один трюк из эпохи, когда ещё не умели обучать многослойные модели. Брали сеть, инициализированную случайными весами, затем прикручивали к ней дополнительный слой — и обучали только его.

Итоговая конструкция обучалась легко: ведь это по сути был однослойный перцептрон — но могла при этом делать более сложные вещи. Одна из таких моделей — эхо-сети.

Эта идея давно уже витает в воздухе. Вот, например, древний анекдот про Дональда Кнута и его ученика:
Студент инициализировал нейросеть случайными весами. Когда его спросили, какой в этом смысл, он объяснил: так у сети не будет никаких предрассудков о том, как устроена реальность.
Преподаватель ненадолго задумался и ответил, что у этой нейросети уже есть предрассудки.
Отличие лишь в том, что студент их не понимает.
НЛО прилетело и опубликовало эту надпись здесь
  • Твоя нейросеть втирает мне какую-то дичь! Это всё потому что она Близнец!
НЛО прилетело и опубликовало эту надпись здесь
Вы таки смеётесь, но если генератор случайных чисел был привязан к часам, то чисто теоретически некоторая связь с движением планет у неё будет.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь

учитывая все нарастающую проблему непонимания, почему нейросеть делать именно такой выбор, то появится "психологи ", которые запрос ответами будут пытатся понять, что там творится в нейросети)
Неожиданно эффективные решения нащовут интуицией, неожиданно неэффективные, тараканами...

А там от ИНС-психологов и до техножрецов недалеко…
НЛО прилетело и опубликовало эту надпись здесь

Нужно объединить эти два подхода. По умолчанию — исследовать, но как только есть опасность — переключать управление на лень и самосохранение. Опасность выявлять смертью агента и штрафами в исследовании.

Кажется, что нейросети-параноики будут куда жизнеспособнее, потому что будут более полно соответствовать эволюционным принципам природы.
С каких пор эволюционные принципы признаны идеальными?
Я не думаю, что они идеальны, у всего ведь есть свои недостатки и ограничения. Но то, что мы существуем и вполне серьезно думаем о создании искусственного интеллекта, само по себе многое говорит об их эффективности. И я, например, не могу вспомнить саморазвивающуюся и самоподдерживающуюся сложную систему функционирующую по другим принципам. Может вы подскажите?
Но то, что мы существуем и вполне серьезно думаем о создании искусственного интеллекта, само по себе многое говорит об их эффективности.

Не путайте работоспособность с эффективностью. О работоспособности говорит, об эффективности — нет.

И я, например, не могу вспомнить саморазвивающуюся и самоподдерживающуюся сложную систему функционирующую по другим принципам.

А рыба не может вспомнить ни одного сухопутного существа. Это тоже ни о чем не говорит.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Консерваторы против революционеров. Еще очко в пользу консерваторов.
Кто в молодости не был радикалом — у того нет сердца, кто в зрелости не стал консерватором — у того нет ума. (Вроде Дизраэли)
Я всегда следовал правилу: не беги, если можешь стоять; не стой, если можешь сидеть; не сиди, если можешь лежать. (Черчилль)

Скорее ландшафт решений и состояний настолько многообразен, что к локальным экстремумам (про которые мы думаем, что они глобальные, хе-хе) можно прийти разными путями. Исследовать за счёт любопытства — хорошо. Находиться в безопасных местах и не высовываться — тоже хорошо. Оба варианта дают примерно одинаковый результат по выживанию. Забавно, что это проявилось даже на таких низких размерностях.

Прийти можно разными путями
— согласен.
Одинаковый результат по выживанию
— нет. Пессимистов доберется больше. Хотя нужны и те и другие. (Я про эволюцию)
НЛО прилетело и опубликовало эту надпись здесь

А к этому вполне может прийти ). Дело в том, что Reinforcement Learning — это попытка создать ИИ из первых принципов. Мотивация, любопытство, награда за успешные действия. Если такой ИИ решит, что для достижения цели ему выгоднее уничтожить всех человеков, то так он и сделает. Что ему может помешать-то? Мы конечно надеемся, что все действительно разумные существа достигают примерно одинакового уровня разумности и поэтому не будут вредить друг другу. Что разум это универсальная характеристика. Но гарантии этому нет.


Кроме того, пока будет создан действительно сильный разумный ИИ, ничто не мешает разработчикам выпускать не до конца разумные версии. У которых такие косяки могут цвести пышным цветом.


Существует и другой способ достичь сильного ИИ — имитационное обучение. Вы просто скармливаете нейросетям огромные датасеты с поведением живых людей. И цель обучения — копировать поведение людей. Примерно как в GAN. Тогда если будете обучать на датасете из "хороших" людей, то гарантированно получите добрый ИИ. Он в принципе не сможет уничтожить человечество, так как был обучен на хороших примерах. Такое его будет внутреннее устройство с точки зрения математики. Конечно, у него не должно быть противоречивых мотиваций и возможности себя изменять, чтобы в процессе размышлений прийти к вредным выводам). Это должна быть фиксированная система, с фиксированными весами нейросети. Просто обладающая памятью. Но с жестко прошитыми в нейронных связях "хорошими" инстинктами. Так что не все так плохо, страхи насчет злобных ИИ сильно преувеличены.

НЛО прилетело и опубликовало эту надпись здесь

Вирус это просто молекула, заключенная в белковую оболочку, да и то не всегда. Как ей может хватать на что-то ума? Просто так сложились химические реакции, что грипп легко побеждается иммунной системой. Но благодаря изменчивости, не искореняется окончательно. Другие вирусы есть смертельные. А есть и полностью исчезнувшие.


Вы наверно имеете ввиду, что эволюция справится и сохранит подобие гомеостаза. Тогда согласен, химические реакции на основе углерода и водорода (т.е. органическая химия) настолько разнообразны, что наверняка от любых болезней можно выработать механизмы защиты. В конце концов, жизнь существует уже три миллиарда лет, значит она устойчива ко всем основным угрозам со стороны химии.


Но ИИ это не молекулы и химические реакции, которые происходили эти миллиарды лет. Как и разум, это нечто новое. Мы потенциально можем создать в космосе мощный источник гамма излучения и прожарить всю планету, что не останется ни одной бактерии. А ещё проще разогнать булыжник до 20% световой, и при столкновении наша планета превратится каплю раскаленной жидкости. Ни одно живое существо не выживет. При таких размерах планеты при столкновениях, да и вообще, ведут себя как капли жидкости в невесомости (поэтому и круглые). Поэтому при достаточной энергии столкновения будет невозможно укрыться в каких-нибудь твердых кусках породы. Потому что их не будет, будет сплошная капля из магмы. Впрочем, при самом ударе на первоначально разлетающихся осколках что-то может и уцелеет. Но уверен, с этим тоже можно что-то придумать. Как раз задачка для сильного ИИ. Которого мы все сейчас дружными усилиями разрабатываем ).

НЛО прилетело и опубликовало эту надпись здесь

И что такое разум? Способность решать хоть какие-то задачи? Сливной бачок унитаза подойдёт?


Вот способность решать любые задачи (или находить другой подход, если задача не решается) — это уже что-то.

НЛО прилетело и опубликовало эту надпись здесь
Мир устроен таким странным образом — чтобы навести порядок в одном месте, нужно намусорить в другом, но сильнее… )))
НЛО прилетело и опубликовало эту надпись здесь
Вы все еще по пословицам живете ))))
НЛО прилетело и опубликовало эту надпись здесь
Да, всё верно, как записал Матвей: по вере вашей да будет вам… (Мф 9:29)
НЛО прилетело и опубликовало эту надпись здесь
Простите за некоторое менторство, но за психологией Вам следует поизучать квантовую механику, там есть такой объект как Кот Шрёдингера, ничего общего с гуриями, в том числе и по состояниям. Главная особенность КШ в том, что неопределено жив он или мертв.

Не "неопределенно жив он или мёртв", а "находится в суперпозиции состояний жив и мёртв". Как это понимать зависит от используемой интерпретации квантовой механики.

«Неопределенно» — это достаточно точно для нашего уровня дискурса… )))
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Размер — это следствие потери неопределенности, а не причина её )))
НЛО прилетело и опубликовало эту надпись здесь
Естественно, и насчет мироздания это давно известно. Глобально же энтропия убывать не может, поэтому единственный способ локально снизить энтропию в одном месте — за счет увеличения ее в другом месте, причем сильнее чем будет снижение в первом, так что суммарно в этом процессе она все-равно увеличится.

Только способность понижать свою энтропию это не свойство или определение разума. Это может быть одним из определений жизни и различения живого от неживого, а не разумного от неразумного.
А вот разум тут не причем, разве что как один из способов увеличения эффективности этого процесса развившийся у живых объектов.
НЛО прилетело и опубликовало эту надпись здесь

И ещё кто-нибудь наконец догадается померить объем, плотность, температуру и содержание хим. элементов в Мыслителе Родена и бронзовой болванке и установит, что никакой разницы нет.

Причем тут вообще мочевина? Речь не о различии материи (химических веществ), где принципиальной разницы между живым и не живым нет кроме сложности строения. А о жизни как способе организации материи и процессов происходящих в ней.

Возможность самостоятельно снижать свою энтропию — одно из возможных определений является ли наблюдаемое явление жизнью или не является.

По этому определению например бактерии — это живые организмы. А вот например вирусы — уже нет, т.к. не способны это делать самостоятельно — только исключительно при помощи живого носителя/хозяина выполняющего за них большую часть критических процессов, а не просто обеспечивающих наличие подходящих условий среды в виде наличия пит. веществ, подходящей температуры и т.д. как для бактерий и других паразитов или симбиотов которые так же зачастую не могут жить в природе без хозяина, но от хозяина им нужна только подходящая среда.

Насос как выше упоминали естественно не является живым или тем более разумным — т.к. опять же неспособен понижать свою энтропию без помощи действительно живого. В данном случае в виде человека для начала создавшего его, а потом заправляющего топливом/энергией, ремонтирующего и т.д.
Т.е. можно сказать, что живой является система из человека + насоса. Но не сам насос отдельно.
НЛО прилетело и опубликовало эту надпись здесь
Другой метрики у нас нет.

Если вернуться к теме статьи, то с таким подходом получается, что и ИИ не нужен — сделали тепловой насос помощнее и всё. Энтропию понижает? Да. Сильнее чем люди? При достаточной мощности — да. Супер-разум!

НЛО прилетело и опубликовало эту надпись здесь

А физическое определение-то какое? Понижать энтропию будет насос, а не человек. Каким прибором определить, что вот этот человек стоящий в сторонке — конструктор насоса? Хотя произвёл он только листки бумаги с закорючками и до этого экземпляра насоса вообще не дотрагивался.

НЛО прилетело и опубликовало эту надпись здесь

А кто и как будет определять кто что придумал? Почему это X+Y относится к человеку, а не к программе, просчитывавшей варианты конструкций?

НЛО прилетело и опубликовало эту надпись здесь
Добавлю: использование языка для создания и ХРАНЕНИЯ новых абстракций(библиотек) специфично для человека.
НЛО прилетело и опубликовало эту надпись здесь
Разум не является чем-то новым, и уж тем более не является специфичным для человека.

Так как нет четкого математического критерия, по которому можно отличить разумное существо от неразумного (если вам известен такой критерий, то приведите его формулу), то будем считать что разум — это что-то на уровне человека. Да, некоторые животные иногда проявляют зачатки разумности, и это хорошо — ведь мы отдаленные родственники с точки зрения эволюции.


Но за образец настоящего сильного разума и интеллекта надо брать идеализированного человека. Благородного, умного, красивого. Такого как я.

НЛО прилетело и опубликовало эту надпись здесь
но поскольку вы придумали и двигатель и насос, потратив меньше каллорий, чем если бы носили воду ведрами — то вы разумнее насоса

Я тоже сначала подумал, что можно так сравнивать степень разумности. Взять какой-то набор задач и посмотреть какой процент от этих задач может выполнить животное. Если кошка выполнила 1 из 10 задач, которые сделал человек, то значит ее разумность составляет 10% от человеческой.


Но так мы упираемся в выбор задач. Нет критерия, по которому их набирать. И в предельных случаях получим явно неправильные значения. Если взять задачу по перемещению из пункта А в пункт Б. Которую человек может выполнить. То и паровоз ее тоже может выполнить. Успех в 1 из 1. Формально, на этом наборе задач паровоз 100% разумен, так как выполнил 100% человеческих задач. Но это явно не то определение разума, которое нам хотелось бы. Оно формально верное, но не решает поставленную перед ним задачу.

НЛО прилетело и опубликовало эту надпись здесь

Не "пытается доказать", а "физический демон Максвелла невозможен". Чтобы он работал нужен не разум, а свободная энергия. То есть система должна быть незамкнутой. Вариант, когда демон управляется нематериальной душой, — это тоже незамкнутая система.

НЛО прилетело и опубликовало эту надпись здесь

Да не может быть физического определения разумности. Совершенно неважно сколько негэнтропии произведёт система на калорию съеденного бутерброда. Важно то, насколько эффективно система действует при достижении целевых состояний и насколько широк круг целевых состояний и условий окружающей среды, в которых система действует эффективно.

НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Хорошая статья, читается легко и доступно. Спасибо!
Подскажите, что за «oracle agent» на графиках скорости обучения?

Оракул — это алгоритм, знающий правильный ответ. Часто используется в машинном обучении, чтобы сравнивать эффективность обучаемых алгоритмов. Это как бы предельный случай, лучше которого уже ничего не может быть. Как оракул реализован здесь я не обратил внимания, но скорее всего на основе истинного распределения вероятностей узнаваемости мест. Так как оно должно набраться на статистике эпизода, то не сразу падает на графике, а постепенно. P.S. я когда-то потратил кучу времени, чтобы найти oracle алгоритм, который так же фигурировал в сравнениях в одной статье. Показывал намного лучшие результаты. Я думал, это метод конкурентов ). А оказалось вот так.

ИИ, пытающийся избежать проблем, научился сложному поведению

А если сравнить его поведение с поведением ИИ, ведомому любопытством, то чьё поведение будет «сложнее»? Сдаётся мне, «ленивый» ИИ проиграет «любопытному».

В данном случае, см. графики, где как раз сравнивается поведение с двумя лучшими моделями на основе любопытства, победил ленивый. Но скорее всего это из-за подобранных окружений. В них много опасностей, поэтому ленивый (считай — избегающий любой новизны) оказался в выигрыше.

Но скорее всего это из-за подобранных окружений

Практически наверняка. «Ленивый» будет стоять до посинения перед выходом с уровня, потому что смена уровня это неслабая смена окружения. Ему «комфортно» так, и один раз войдя в выход с уровня, он его будет избегать в дальнейшем всеми силами.

Ну и правильно делает. Чтобы выйти из зоны комфорта, надо сначала в нее войти )

Смотря как среда запрограммирована. Стоит например добавить «сытость» или «заряд энергии», который постепенно (медленно, но неотвратимо) убывает просто с течением времени, но которые можно восполнить находя какие нибудь «ништяки». То тоже самое стремление к «сохранению комфорта» и избеганию опасностей уже не даст тупо залипать на одном месте — будешь слишком долго тупить в «безопасном убежище» ничего не делая — загнешься от «голода»(истощения энергии). В результате агенту придется постоянно продвигаться, но при этом с минимальными рисками и по возможности ограничиваясь уже проверенными рабочими решениями/схемами действий в отличии от «любопытных» агентов.

И что-то мне такой вариант обучения ИИ даже больше естественный напоминает чем традиционные модели.

Вопрос к DesertFlow — не в курсе, может что-нибудь подобное в этих работах уже пробовали?

Такое часто бывает в компьютерных играх, какой-нибудь уменьшающийся таймер. Например, уровень кислорода в игре с ныряющей подлодкой (одна из стандартных игр в RL). Да и просто уровень здоровья, падающий от врагов, и найденные бутылочки с зельем лечения можно считать аналогом еды. Для роботов и гуманоидов в симуляторах в RL почти всегда используется усталость — штраф на большой момент в моторах, заставляющий экономить силы и обходиться минимальными усилиями. Это стандартная практика в тех же OpenAI Gym окружениях. Так что да, это постоянно используется. Но это не является критическим условием для обучения, а просто одно из условий окружения. Потому что существующие RL алгоритмы не позволяют делать голод или выживание мотивирующей силой в нашем бытовом понимании. Для этого нужно, чтобы нейросети умели учиться на единичных примерах, не забывали прошлый опыт и т.д… Весь тот набор, по которому искусственные нейросети отличаются от биологического мозга. В живом организме голод заставляет активно шевелиться в поисках еды. А если вы обучаете сеть на миллионах случаев разной степени голодности, то это совсем другое. Не эволюция, не обучение в течении жизни, а простая численная оптимизация. Не сильно отличаюшаяся от оптимизации остальных гиперпараметров и внутренних параметров сети. Мне кажется, именно из-за этого такие мотивирующие факторы, вроде усталости и голода, не оказывают существенного влияния на результат обучения в RL.

Вот почему некоторые лентяи так умны — они постоянно перебирают варианты как поступить, чтобы как можно больше ничего не делать.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории