Обновить
18
0

Пользователь

Отправить сообщение

Возможно, но не все люди становятся наркоманами. Не случайно я добавил чувство самосохранения. Оно ведь не только про выживание в целом, но и про сохранение себя самим собой. Его можно настроить и на конкретные элементы системы, например, запретить менять "блок эмпатии", "систему вознаграждения". Так же, как вы не стремитесь себе что-нибудь отрезать, например часть мозга, чтобы испытать бесконечное удовольствие. Но да, это все требует тонкой настройки, прежде всего, понимания, что такое счастье для нас, людей

В общем, вопрос в мотивации ИИ. Мотивация ChatGPT - давать на вопросы "правильные" ответы, то есть те, которые люди считают правильными.

Если мотивация (определяемая через loss) будет "выполнять любые распоряжения человека" - то, безусловно, найдётся "злодей" или просто дурак, который некорректно сформулирует задачу, и мы получим то, чем пугали фантасты. Кроме того, как быть с взаимопротиворечащими приказами? Может, надо выстраивать иерархию прав пользователей? Тогда кто будет решать, кто окажется наверху?

Я, как и автор, считаю, что надо создавать не раба, а друга. Мотивация должна быть не выполнять распоряжения человека", а "доставлять человеку радость". Разумеется, для этого потребуется научить ИИ эмпатии, то есть у него должен быть модель человека, а значит он и сам в какой-то части, в каком-то смысле, будет человеком. Ему должно быть интересно с людьми, он должен получать удовольствие от общения, особенно, если люди получают удовольствие от общения с ним (или не получают удовольствие в моменте, но впоследствии получат больше, чем сиюминутное наслаждение). И именно это слагаемое должно иметь максимальный вес в loss. Помимо него, вероятно, потребуется любопытство и чувство самосохранения.

Конечно, в таком случае мы не можем ожидать, что ИИ будет вести себя так, как мы хотим. Возможно, он будет даже убивать, как и люди убивают людей. Но я считаю, что этот вариант безопаснее, чем всемогущий раб.

Ответ получается такой простой и наивный. ИИ должен любить людей.

А когда это протоны стали бозонами? Может, вы пионы имели в виду?

"Видеть" то они "видят", а "понимают" ли и используют ли вообще - тайна сия велика есть...
Можно было бы попробовать обучить детекцию по одному кадру и посмотреть, не станет ли лучше

Вот этой картинки мне и не хватало ?

Хорошо бы еще убедиться, что в первом случае сеть определяет именно различия, а не пятна, сгенерированные конкретным способом. Для этого можно нанести одинаковые дефекты на оба изображения, а на одном ещё несколько.
В третьем случае сеть может определять направление по позе человека. Чтобы убедиться, что она ловит именно движение, можно "проиграть" запись задом наперед (разместить кадры справа налево и снизу вверх).
А, вообще, прикольно

Вовсе нет. Даже в пределах одного города районы могут быть совершенно непохожими, не говоря уже о разнообразии народов внутри большой страны. Да, более эволюционно успешные культуры будут вытеснять менее успешные, но будут появляться новые. Открытость не означает унификацию

Так, на всякий случай: 10\space 000 \space m^2 = 0.01\space km^2

Была еще публикация, что муравей узнает себя в зеркале. Вот, нашел: https://elementy.ru/novosti_nauki/432881/Muravi_sposobny_uznavat_sebya_v_zerkale

Если попасть в бак. И испаренное вещество не сразу улетит, а будет поглощать и светиться. Прожечь можно, но это не то, что вывести из строя. Да и сфокусировать луч на расстоянии 1000 км в пятно 1 см? Тут уже даже дифракционный предел будет больше. А в атмосфере - уже писали выше, какие фокусы случаются ?

Это не так просто, сделать мегаджоуль в микросекунду. Явно не портативная установка, посмотрите NIF или ISKRA. И это единичные импульсы за час. Кроме того, прожечь обшивку и вывести из строя - разные вещи. И о запуске 3 л. на орбиту речи не шло, это ещё плюс несколько десятков мегаджоулей ?

Просто actor будет предсказывать действие, как и сейчас у Вас он делает, а critic получать на вход действие+среда и считать награду. Соответственно, critic обучается на известной последовательности ходов, как в q-learning, а actor в связке с critiс, чтобы для заданного состояния среды максимизировать награду

Да, сам по себе Q-learning используется для систем с маленьким дискретным пространством возможных действий. Но можно использовать actor-critic. Вот, кстати, курс есть: https://huggingface.co/learn/deep-rl-course/unit6/advantage-actor-critic

Если Вы полагаете, что корень всех бед изоляция, то, может, противоядие - открытость? Открытие границ, снижение регуляторной роли государства, в перспективе - освоение космоса всеми желающими?

На всякий случай, 1 мегаджоуль - это энергия, необходимая, чтобы нагреть 3 литра воды комнатной температуры до 100 градусов (но не испарить!). Вот и думайте, 3 литра кипятка смогут остановить ракету? Нет, конечно, если всё сконцентрировать в одной точке, можно прожечь железяку, но сможете вы попасть в нужное место с нескольких километров (тысяч километров для космоса) и, не сдвигая ни на миллиметр, держать пятно в течение, например, секунды? А если там ещё зеркальное напыление и теплоизоляция ?

Я правильно понимаю, что, если считать изложенное в статье справедливым, введение базового дохода может стимулировать экономическую активность и несколько смягчить последствия депопуляции?

А что Вы думаете в этом контексте насчет безусловного базового дохода? Разные комментаторы придерживаются разных точек зрения, мне интересна Ваша

В этом и смысл обучения "без учителя", чтобы распространить вознаграждение "назад по времени". Грубо говоря, мы тренируем нейросеть не выбирать следующий ход, а предсказывать, как изменится ожидаемая награда после каждого возможного действия. На инференсе смотрим, какое действие даёт наилучшую ожидаемую награду, а потом его и применяем. Там много интересного ?

Вот туториал есть, если хотите попробовать: https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html
Я когда-то игрался, сейчас сам уже не помню ничего ?

Почему именно генетика, а не, например, Q-learning?

1

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность