Pull to refresh

Comments 35

интересная статья, спасибо. каким софтом пользуетесь для эмуляции?
На вашем примере мне не очень понятно зачем же мастерить нейронную сеть, если суть сводится к наличию в системе отрицательной обратной связи.

В том плане, что если взять самую примитивную линейную систему, она также решит эту задачу благодаря ООС.
Решит разумеется и в простейших случаях куда круче, но линейная система не адаптивна, да и расчитывать её вручную нада, а тут взял нейросеть и она сама настроится как надо.
Я просто не могу понять в чём же фокус/польза/отличие=)…

Я так понимаю, Вы запихнули учителя прям в нейросеть (датчик боли и не боли говорят что правильно. а что нет)… при этом учитель стал как бы менее строг, и его решения более расплывчатые, а не просто «правильно», «не правильно»… наверное, соль в этом=)

Осталось понять какая от этого польза… например, при распознавании изображений.
Отличие будет в том, что если мне подсунули такую нейросеть… и я смогу её доучить, если она ошибётся? Просто вроде распознавалка лиц гугла тоже дообучивается… или я что-то упустил?

Мне кажется вся беда, в том что датчики должны знать что правильно, а что нет, а это тот же самый учитель…
Для простых линейных (да и нелинейных) систем в роли учителя да и ученика выступаем мы. То есть мы берем параметры, расчитываем их, проверяем на устойчивость, смотрим если не устраивает то начинаем подбирать другие коэфиценты. А вот нейронные сети всё это за нас делают, причем если система нелинейная, то они еще и могут к нелинейности адаптироваться.
Комментарий был не про это, это то понятно=)

Я вот про что: с моей точки зрения, Вам удалось запихать учителя в систему, тем самым получив самообучение, только из-за того, что критерии «хорошо», «плохо» в Вашем примере можно получить очень просто: у вас есть правильное направление, отклонятся от него плохо (простая ООС). Благодаря простоте критерия «хорошо»/«плохо» Вы его реализовали прям в сети. Тем самым в ней с самого начала содержатся требуемые знания.

Другое дело, что как запихать учителя внутрь для более сложных случаев мне кажется не так то просто. Взять распознавание лиц. Как должен работать датчик внутри сети, чтобы без посторонней помощи обучаться? По идее он должен уметь решать распознано ли лицо…

И ещё интересно, я тут всё про ООС… датчик приятного сильно нужен? С точки зрения ТАУ без него по идее всё должно работать…
Как написал чуть ниже Artima, было бы любопытно взглянуть на трассировки с одним датчиком.
без датчика приятного он не прийдет к цели.
Интересная статья. Было бы любопытно почитать продолжение, если вы будете делать что-то более сложное, чтобы была какое-то развитие сети, а то и взаимодействие нескольких эмоциональных сетей.
А можно посмотреть на трассировку при отключенном кнуте (т.е. только с пряником)?
смотря как его сориентировать в начале, если отвернут от цели будет стоять, если повернуть устремится к ней
Кроме вариантов машинного обучения «с учителем» и «без учителя» есть еще третий вариант, о котором часто забывают, «обучение с подкреплением». Собственно этот вариант Вы и реализовали.
Обучение с подкреплением действительно является отдельной категорией, но по сути вопроса обучения мало чем отличается от обучения с учителем, так как во всех реализациях обучения с подкреплением при взаимодействии со средой изначально должны задаваться ценности/полезность некоторых абстрактных состояний среды. Таким образом, в любом случае вводится некоторый внешний контроллер (помимо агента и среды), который назначает эти значения. Конечно, можно сослаться на вышедшую в этом году статью Сингха и Льюиса «Where do rewards come from?», в которой они пытаются применить эволюционный алгоритм для генерации этих значений, однако ничего путного по сути там так и не вышло.

При этом безусловно автор реализовал именно обучение с подкреплением.
Соглашусь, что порой довольно сложно отличить категорию «обучение с подкреплением» от «обучение с учителем». Но не соглашусь с необходимостью наличия внешнего контроллера, поощряющего или наказывающего обучаемого агента. Если мне холодно или больно, то это моя внутренняя реакция, а не сообщения от внешнего агента.
Вопрос в том, откуда агент знает, что «больно» или «холодно» это плохо? Тут может быть как минимум два варианта: врожденный (запрограммированный) или приобретенный (обучение) рефлекс.
Обучение с подкреплением действительно является отдельной категорией, но по сути вопроса обучения мало чем отличается от обучения с учителем, так как во всех реализациях обучения с подкреплением при взаимодействии со средой изначально должны задаваться ценности/полезность некоторых абстрактных состояний среды. Таким образом, в любом случае вводится некоторый внешний контроллер (помимо агента и среды), который назначает эти значения. Конечно, можно сослаться на вышедшую в этом году статью Сингха и Льюиса «Where do rewards come from?», в которой они пытаются применить эволюционный алгоритм для генерации этих значений, однако ничего путного по сути там так и не вышло.

При этом безусловно автор реализовал именно обучение с подкреплением.
Интересно посмотреть, что будет делать амёба, когда достигнет цели. Продолжит ли она двигаться «по инерции», или нейросеть переобучится практически мгновенно?
она будет практически дрейфовать у цели, туда сюда
По поводу: «Эмоциональные датчики. Тоже что и обычные датчики, но устанавливают неизменяемые связи, только позитивного или негативного характера в зависимости от типа датчика и не могут поменять состояние этих связей.»

В алгебре нет разницы между положительным и отрицательным, боль советую выражать белым шумом, а насчет удовольствия я пока точно не знаю, если от обратного, то должен быть какой-то синхронизирующий всю сеть паттерн, ну и понятное дело с подкреплениями за какой-то период в прошлом
Не думаю, что имеет смысл так «очеловечивать» ИИ.
Эмоции — штука неформализуемая, также как и юмор.

Вы переизобрели обычные рефлексы и инстинкты.
Мне понравилось как Де Боно рассуждал о юморе в своей книге «Серьезное творческое мышление». Если рассмотреть юмор как неожиданный переход от одного шаблона в мышлении к другому через общую для этих двух шаблонов точку и согласиться с таким объяснением юмора, то он становится вполне формализуемым. Для наглядности приведу пример анекдота, в котором «общая точка» — слово:
Петька прибегает к Василию Ивановичу весь в мыле и потрепаный, заплетаясь говорит:
— В.А. в лесу полно белых!
— Да надоели эти грибы уже, мяса хочется…
Пересечение понятий «белая армии» и «белый гриб». Правда это всего лишь один «тип» шуток, если так можно сказать. Ну и пусть, первый шаг к формализации.
Попробуйте сами воспроизвести такой алгоритм, и создать новую шутку.
Возникнут определённые проблемы, я думаю.
Безусловно, в первую очередь в количестве и качестве доступных шаблонов. Кстати если взять бредогенератор, то переодически (по теории вероятностей) он как раз генерирует шутки примерно выше описанного плана.
Кстати из идеи попробовать может выйти что-то интересное, спасибо. Надеюсь не очередной бредогенератор.
с чего то надо было начинать
А что если сделать несколько видов поверхности, например движение по гравию — боль, движение по асфальту — всё нормально. И чувство голода, нарастание которого приводило б к боли и реализовать появление новых точек с едой, как в змейке.
ага, все наращивается, по немногу, пытаюсь добавить преграды, посмотрим что с ними будет делать амеба
Начем писал? Исходниками не поделишься? :)
я, конечно, тормоз.
но на статью наткнулся только сейчас :)
зато вполне можно полюбопытстсовать есть ли прогресс в создании более сложных систем (с более чем одной «эмоцией»)?
только наткнулся на комент, читай мои новые статьи)
Статьи посмотрю, но там вроде не про эмоции.

А эмоции то самое интересное какраз в комплексе, с разнонаправленными потребностями.
Ну это да. С эмоциами как бы косяк, есть только предположения.
Могу для тренировки ваших извилин предложить www.niisi.ru/iont/ni/Journal/V3/N1/Vityaev.pdf
объедиение теории эмоций Симонова и теории функциональных систем Анохина. Последнее рунетное.
Спасибо за ссылку! Не знал об этой работе.
В очереди на прочтение пока лежит только «Cognitive structure of emotions» Ortony-Clore-Collins
Как поведет себя «амеба» оказавшись на 180' повернутым от цели?
во первых все датчики срабатывают только на перепад измеряемой велечины
во вторых для амебы реализован постоянный тремор (на 3 порядка меньшие случайные перемещения чем минимальные управляемые перемещения )
Sign up to leave a comment.

Articles