Pull to refresh
6
0
Сергей @sturex

User

Send message

Если задачи рандомные, то полученный навык от решения предыдущей задачи, в новой задаче агент применить не сможет. То есть агент может действовать лишь перебором.

Однако, всё же есть кое-что неизменное в меняющихся рандомно задачах) Это физическое пространство, внутри которого действует агент. Пространство со своими законами, которые как раз и может выявить агент, чобы более эффективно осуществлять перебор при решении следующей задачи.

Что думаете?

То, что дерево правил (==задача) меняется рандомно после того, как агент научится решать это дерево, не является ли проявлением иррациональности среды? Что, вроде как, должно сделать невозможным процесс познания среды агентом.

Или что-то остаётся неизменным в рандомно меняющихся задачах? Что должен суметь обобщить агент на этом датасете?

Отличный подход!

А ещё в момент перехода из одного состояния в другое можно собирать различные описатели (категориальные и числовые) и потом, после создания ML-модели, использовать их для прогнозирования вероятности перехода. Использование перечислимого множества имён (enum) для переходов, фичей, дескрипторов, с зашитым внутрь enum-константы поведением, очень сильно снижает вероятность ошибок, позволяет декларативно описать всё в одном-единственном месте. Длинно иногда получается, но не сильно страшно) Делал и использую подобный подход, кому интересно, смотрите тут (github, Java)

Не читал всю статью, но глаза случайно зацепились за график со скользящей средней

Выше в статье

Скользящая средняя может выглядеть так, как у вас на графике только если у вас есть "заглядывание в будущее" окном усреднения. Что, очевидно, грубейшая ошибка.

Видите, как оранжевая линия (скользящая средняя), как бы, "обгоняет" синию? Так и должно быть, если всё правильно сделано.

Да-да, расскажите, что за пределами зелёного прямоугольника - очень интересно!
Да-да, расскажите, что за пределами зелёного прямоугольника - очень интересно!

Что же это за дерево решений такое? И что оно решает?

То есть вы делаете спорное утверждение, а обосновывать его должны другие люди. Удобная переговорная позиция). Особенно когда рядом экспертов нет.

Ладно, спасибо за статью и ответы) удачи вам!

Хм, по ощущениям, именно мозг вы и моделируете, у вас в статье через слово "мозг".

Я понял, хорошо. Противоречия с биологией в части реализации локальных правил обучения нейронов и других проблем с RL, вы разрешаете тем, что не моделируете мозг.

О каких нейронных структурах речь? И чем различаются в них нейроны? (Только не шлите к нейрофизиологам пжл в этот раз)

Расскажите пжл, чем отличаются спайки от уха от спайков от глаза по способу воздействия на процессы обработки информации в мозге?

Используете ли вы эту "особенность" в своих разработках нейроморфных сетей?

Если что-то пришло по нерву от уха, это был спайк. Не "Спайк звука" и не "Спайк, который пришел по каналу от уха". А просто Спайк.

По нервам звуки не ходят. Информация о виде физического воздействия по нервам тоже не ходит. Вы ж это прекрасно понимаете, мне странно, что мы это вообще обсуждаем! Звуки остались до уха. В мозге нейрон, получивший спайк, не может никоим образом знать, что это был спайк с уха. Просто Спайк.

Возьмите любой нейрон в мозге, любой его синапс, по которому прошел Спайк - какой это был спайк, наказания, удовольствия, звука?

С преобразованием рецептором (палочки/колбочки, терморецепторы..) физического воздействия в нервный импульс (спайк), информация о виде воздействия стирается.

Информация о виде воздействия - это и есть "ярлыки". Вот они-то в мозг и не заходят, остаются до рецепторов. Это же очевидно, разве нет?

Стандартный - в смысле, если б мы хотели представить нейрон автоматом, это был бы наш порядок действий. Вообще - клеточные автоматы же, масса исследований, но не знаю, насколько клеточно-автоматные модели близки к реальным нейронам, да и вообще, ставилась ли кем-то такая задача.

Т.е. на нервном волокне у нас есть метки - слух, зрение, боль, удовольствие? А, хотя боль с удовольствием вы вообще отдельно интерпретируете, вычеркиваем)

Как иначе - я уже говорил: сигналы в мозг заходят и выходят без ярлыков, полная абстракция от "смысла" (кстати, как удачно вы его сюда ввернули).

Как представить нейрон конечным автоматом есть стандартный подход. Задать множество состояний для связей, множество состояний для нейрона, правила перехода между всеми этими состояниями.

в непрерывном времени... он непрерывный... нет никаких различимых дискретных состояний...

Интересно. А какие недискретные состояния у нейрона есть? У нейрона импульсной нейронной сети, в смысле. И "непрерывный нейрон" - это вообще как?) Про вашу модель нейрона или про реальный нейрон?

  1. Спайки одинаковые, не сомневаюсь. Ярлыки, подозреваю, вы вешаете на каналы.

    Мы по специальным каналам получаем боль и (с некоторой натяжкой) удовольствие

    Отсылаете к нейрофизиологам... А вы к ним, получается, не ходили, не консультировались, перед тем как аналогии между мозгом и вашими разработками проводить?) Вопрос важный, еще раз прошу вас пояснить, как по-вашему устроен процесс RL в мозгу? Какие отделы мозга задействованы? Какие "каналы", с какими ярлыками на них? Как у мозга получается адресоваться к конкретной группе нейронов, которую надо обучить?

  2. Хорошо. Такт - это уже я про конкретную реализацию. У вас асинхронная модель, тут про такты неуместно говорить. Но могут быть и "тактируемые" модели, с единым дискретным временем у узлов (нейронов) и мозга (сети).

Ну да, чисел, на самом деле, и в компьютере нет)

Как мне кажется, точно, есть еще один недооценённый подход. Когда нейрон представляется конечным автоматом. Тут ни символьных вычислений нет, ни чисел, ни противоречий с природой.

  1. Сигналы заходят в мозг и выходят из него без каких-либо ярлыков. Нет сигналов "плохо", нет сигналов "хорошо" и т.д. Обучение чему-либо не всегда ж должно подкрепляться извне - что вам мешает запомнить новое слово без удара кнутом? Расскажите пжл подробнее про "каналы" в мозгу, по которым мы получаем боль и удовольствие, органы, к которым адресуются эти каналы, и, что важнее, как результат действия этих органов находят ту группу нейронов, которую надо обучить? В своей реализации вы вправе протянуть провода хоть к каждому нейрону, пока оставим это, расскажите про биологический прототип RL.

  2. Шаги эти последовательные хотя бы потому, что награда за совершенное действие не может появиться раньше его интерпретации средой. А воздействие на среду не может появиться раньше прохода данных по сети. Я про элементарный акт в RL.

    Операции чтения, изменения и записи для "параметров" мозга неразделимы, проходят за единый такт. Мои попытки притянуть сюда RL зашли в тупик.

Парадигма RL звучит только на слух хорошо. Якобы:

Самый реалистичный, имеющий отношение к жизни вариант обучения, то, как учимся мы сами

Как только попытаться начать её реализовывать с нуля в своих разработках сразу выявляются пара неразрешимых противоречий с биологией.

  1. Нарушается принцип локальности обучения. RL из внешней среды, по специальным каналам (REW, PUN), лезет корректировать параметры узлов и связей.

  2. RL, принципиально, состоит из последовательных шагов. Сначала работает сеть, далее идёт взаимодействие со средой, считаются REW и PUN, через систему обратных связей корректируются параметры сети. Вы такое в биологии видели? Все связи в мозге "прямые" и нет никакого "заворачивания" в обратном направлении! Точнее, допускаю, связи могут быть "обратными", но лишь в ближайшем окружении нейрона.

Тоже пытался делать RL в надежде получить "самый биологичный подход", в итоге отказался от него усилием воли. Ибо тупик. Потратил немеряно времени.

в ИНС нейроны посылают друг другу не числа

Допустим нейроны обмениваются спайками, и спайк - это не число, хорошо. Спайк - это лишь способ заставить нейрон начать пересчитывать своё внутреннее состояние.
Ну, послали мы сигнал нейрону на пересчёт состояния, а в нейроне-то всё равно числа. Чем оно ближе к мозгу стало, к которому вы апеллируете!?

Ваша претензия к числам как к средству обмена информацией между нейронами основана лишь на слабой "биологичности", а также желание повысить энергоэффективность сети?
Или вы видите в этом какие более глубокие проблемы? Ну, не знаю, например, то что чисел в природе в принципе нет?

В разделе "Вычислительные методы" вы описываете как может быть реализован коннектом в коде.
Насколько я понял, коннектом (граф) будет работать в дискретном времени (тактами), узлы детерминированным образом будут передавать результаты своих вычислений друг другу, структура графа не меняется.
Вы описываете чистую функцию, и то, что параметры этой функции будут меняться между тактами, не делает её "менее чистой". Вы всерьёз считаете, что мозг не хранит состояние между тактами? Что мозг - это чистая функция?

Задаю вам этот вопрос, потому как сам им задавался, пытался запрограммировать, после чего ответил отрицательно. И вот думаю, может, я что-то пропустил?

Information

Rating
5,700-th
Location
Россия
Date of birth
Registered
Activity

Specialization

Backend Developer, Project Manager
Java