Pull to refresh

Comments 29

Центральное утверждение моей гипотезы о «мультиагентной сети» состоит в следующем: сеть способна демонстрировать сложное поведение лишь в том случае, если соответствующие функции уже заложены на уровне отдельных нейронов (агентов). Иными словами, если мы хотим, чтобы сеть принимала решения и выбирала между различными моделями поведения, то фундаментальные механизмы такого выбора должны быть встроены либо в архитектуру отдельных узлов, либо в особенности их взаимодействия. Сеть, таким образом, представляет собой эскалацию возможностей базовых агентов — она лишь координирует и усиливает те функции, которые присутствуют на микроскопическом уровне.

Для иллюстрации можно привести аналогию с узлом интернета, который выполняет функцию маршрутизации. Каждый такой узел принимает решение о том, куда направить пакет, а вся сеть узлов, объединённая в единую систему, обеспечивает сложную маршрутизацию. Если убрать этот базовый механизм на уровне отдельного узла, то вся система утратит свою способность к маршрутизации. Аналогичным образом, если нейрон не обладает собственной возможностью выбора модели поведения, то и сеть нейронов не сможет реализовать соответствующие высокоуровневые функции.

Центральное утверждение моей гипотезы о «мультиагентной сети» состоит в следующем: сеть способна демонстрировать сложное поведение лишь в том случае, если соответствующие функции уже заложены на уровне отдельных нейронов (агентов). 

Правильно ли я понимаю, что из этого утверждения следует:

  • либо поведение, демонстрируемое LLM-ками и RL-агентами (например, альфаГо обыгравшее Ли Седоля) ни в коем случае нельзя назвать "сложным поведением"

  • либо, если мы считаем это сложным поведением - гипотеза строго ложна?

В случае трансформера есть некоторые структурные элементы, т.н. "головы внимания", которые обращают внимание на определенный контекст, извлекают информацию, обогащают (через матрицы feed forward -- которые, как раз, "хранят знания") и транслируют в таком виде на следующий слой (и таких слоев -- 100 и больше)... соответственно, результирующая сеть (трансформер, или его половина -- BERT, GPT) -- умеет смотреть в контекст и предсказывать следующее слово (авто-регрессия)... но не умеет чувствовать и не имеет самосознания...

В случае альфа-го (или альфа-зеро -- более продвинутая модель) у нас есть поиск лучшего шага исходя из контекста текущей ситуации -- базовый элемент сети делает ровно то, что делает сеть целиком.. вопрос лишь в специфике обучения или тех правилах, которые мы сети подсовываем -- если поменять "правила игры" -- она сможет обучаться выбирать и другие стратегии... но не сможет понимать и думать, не осознает себя играющей в какую-либо игру, не понимает, что есть правила, не может объяснить свои ходы -- эти функции не определены изначально...

Получается, что если мы хотим более сложного поведения нейросетевых моделей (самосознание, обучение без учителя, построение модели мира, эмоции, социальное взаимодействие), тогда нам необходимо определить эту функцию на уровне базовых элементов тем или иным образом, а иначе этого не добиться...

В случае нейрона это сделано элегантным образом, создан "базис" в виде -- прогнозирования событий (регрессии, построение модели мира), социального поведения (общения нейронов между собой, эмпатия, соревнование, взаимодействия, кооперации, передачи сигналов, конкуренции), игровые модели и поиск равновесия (принцип минимальной энергии -- оптимизация, самообучение), функции памяти (кратковременной, долговременной), узнавания, принцип самоорганизации, восстановления, регулировки, усталости, размышлений, неуверенности... и т.д.

Часть функций создана за счет того, что создаются "подсети", есть принципы торможения, возбуждения, так же есть возможность строить сети графов и поля коммуникаций (за счет разных ритмов, режимов работы, сканирующих волн)...

В общем "все просто" -- чтобы отбросить все "эмерджентные" теории нужно понять одно, если сознание возникает спонтанно, не являясь функцией нейрона, то мы бы получали такие эффекты, как "люди без сознания" или "люди без социального поведения" (а не с ослабленными функциями, которые наследуются), а генетические факторы бы не определяли наследственные интеллектуальны признаки... кроме того, мозг довольно большая штука, но при этом любая его часть показывает весьма стабильные результаты, нет "флуктуации" признаков, и все структуры мозга получают ту же самую функцию у разных людей, имеют те же самые модели поведения -- не похоже на случайность... скорее на систему...

-- если это понять, тогда отвалится много иллюзий

В случае трансформера есть некоторые структурные элементы, т.н. "головы внимания", которые обращают внимание на определенный контекст, извлекают информацию, обогащают (через матрицы feed forward -- которые, как раз, "хранят знания") и транслируют в таком виде на следующий слой (и таких слоев -- 100 и больше)...

Извините, я запутался.

Вы сказали "Если система умеет в X, базовые компоненты должны тоже уметь в X", правильно я понимаю?

Почему мы решили считать Attention Head'ы каким-то неделимым "базовым компонентом" системы, а не считаем ими отдельные слои/нейроны?

Attention Heads - внутри себя содержат точно такие же "нейроны", как и Relu - внутри просто линейные слои и матричное умножение, мы можем с вами буквально сесть и написать их совместно за полчасика.

Получается, когда речь идёт про LMM - вы говорите, что базовые компоненты ничего не должны, но где-то находится другая система (Attention Head) обладающая свойством, которым не обладают базовые компоненты этой самой системы. Нет ли тут какого-то противоречия?

(Если ваше "центральное утверждение" допускает такое жонглирование - то из него не следует ничего про конкретные биологические нейроны - можно так же сказать - "либо конкретный нейрон будет обладать свойствами, либо какой-то достаточно большой структурный кластер из нейронов", поздравляю, вернулись на исходную позицию, центральное утверждение избыточно)

В общем "все просто" -- чтобы отбросить все "эмерджентные" теории

Подождите, вы выше сформулировали некий "Центральное утверждение". Давайте обсудим сначала его.

Дело не в том, что я пытаюсь как-то вас поймать, но если мы говорим "Нечто (теория) следует из центральной аксиомы", а потом обсуждая аксиому начинаем говорить что-то в духе "ну да, тут как-то не получается, но вообще вот есть какие-то не связанные рассуждения сбоку, которые приводят к тем же выводам, что и центральная аксиома, которую вы подставили под сомнение" мы рискуем насовершать кучу логических ошибок.

Получается, что если мы хотим более сложного поведения нейросетевых моделей (самосознание, обучение без учителя, построение модели мира, эмоции, социальное взаимодействие), тогда нам необходимо определить эту функцию на уровне базовых элементов тем или иным образом, а иначе этого не добиться...

Это как минимум неочевидно. LMM-ки уже на этапе GPT-2 демонстрировали неожиданное поведение, которое в них ни структурно, ни через методологию обучения никто не закладывал (ограниченные, но всё же способности к арифметике, убогая, но всё же, игра в шахматы и т.д.)

Я не сравниваю самоознание с убогой игрой в шахматы, лишь хочу подсветить момент - без чётких определений, мы опять же рискуем совершить логическую ошибку.

Если для какого-то "неожиданного" поведения мы оставим в своих рассуждениях возможность постфактум неожиданные "незаложенные" свойства объявить "несложным" - любые рассуждения про "никогда не смогут выдать сложное поведение" или "а вот когда смогут выдать сложное поведение" - методологически некорректны.

-- если это понять, тогда отвалится много иллюзий

Сама эта фраза мешает что-либо понять)

Получается, когда речь идёт про LMM - вы говорите, что базовые компоненты ничего не должны, но где-то находится другая система (Attention Head) обладающая свойством, которым не обладают базовые компоненты этой самой системы. Нет ли тут какого-то противоречия?

Насколько я понимаю -- тут нет противоречия -- базовый элемент нейросети умеет принимать вход и давать выход, соответственно, вся сеть умеет получать вход и давать выход. Если мы говорим про механизм внимания, он сам по себе образуется как базовый элемент (но теперь второго порядка), содержащий определенную структуру, как наиболее простой элемент этой системы -- эту (новую) структуру можно рассмотреть как базовый агент (следующего уровня), сформированный отдельными нейронами -- но именно параметры внутренней сложности этой структуры образуют его функцию -- механизм внимания.

Точно так же, как XOR операция образует все структуры процессора -- она простейшая, но выстраивание этого элемента в некий "базовый модуль" -- определяет его функцию.. тут не возникает эмерджентности самой по себе, именно структура элемента образует его функцию...

Соответственно, если мы хотим построить сложное поведение сети, мы должны сначала определить свойства этого поведения, потом структурно собрать базовый элемент (какого-угодно порядка), который реализует единицу этого свойства и способен обучаться организовывать из этой единцы свойства -- систему свойств более высокого порядка на следующем уровне организации..

Нужно еще лучше раскрыть эту мысль?

Насколько я понимаю -- тут нет противоречия -- базовый элемент нейросети умеет принимать вход и давать выход, соответственно, вся сеть умеет получать вход и давать выход. Если мы говорим про механизм внимания, он сам по себе образуется как базовый элемент (но теперь второго порядка), содержащий определенную структуру, как наиболее простой элемент этой системы -- эту (новую) структуру можно рассмотреть как базовый агент (следующего уровня), сформированный отдельными нейронами -- но именно параметры внутренней сложности этой структуры образуют его функцию -- механизм внимания.

Так, то есть "сеть" демонстрирует некое поведение, которое не заложено на уровне отдельных нейронов, но заложено на уровне какого-то кластера нейронов за счёт структурных связей между агентами, к поведению кластера не способными, верно?

Почему это не переносится на биологический мозг? "Мозг демонстрирует сложное поведение, которое не заложено на уровне отдельных нейронов, но заложено на уровне кластера нейронов"? Буквально переписал утверждение выше заменив "сеть" на "мозг". Обозначим это утверждением (*)

Однако, вы начали с того, что ваше основное утверждение заключается в том, что если сеть (мозг) демонстрирует некое поведение, то оно должно быть заложено на уровне агентов. Обозначим это утверждение (**)

То ли я неправильно понимаю, то ли (*) противоречит (**).

В таком виде не противоречит, потому что структурные элементы могут быть вложены один в другой, т.е. некие свойства нейронов есть, если из них сложить некую структуру, структура обладает всеми свойствами нейронов + теми свойствами, которые в ней заложены новой структурой (т.е. добавляется уровень дополнительной сложности, определяющей новое свойство)..

Между уровнем мозга и уровнем нейрон -- есть еще несколько уровней "агентности" (точнее - структур организации), например микротрубочки неокортекса, или волокна белого вещества...

Если две разные структуры из одного базового элемента имеют общее свойство (и если нет исключений -- например какая-то штука из этого элемента сложена, но такого свойства не обнаруживает), то можно понять, что скорее всего это свойство определяется на уровень ниже... т.е. именно агентность -- базовое свойство нейрона, получается... но агентность не равно именно полному самосознанию нейрона, хотя какая-то базовая модель себя и окружающего мира у него уже может быть заложена, как коммуникативная функция общения с другими нейронами (как это показано в статье)...

Но потом оказалось, что даже больше.... другие ткани (не нейроны), но клетки печени или мышечная ткань, -- тоже способны обучаться, но не являются агентами сами по себе -- агенты всегда нейроны (то есть он получают элемент свойства самостоятельности + общения), но обучаться обычным тканям позволяют генетические переключатели в ядре клетки (т.е. из обучения на уровне ядра + некоторая структура => следует агентность нйрона)...

Получается, что свойство обучения заложено в ДНК/РНК -- клетки уже учатся, адаптируются -- за счет генной регуляции... а на основе этой памяти нейроны уж могут создавать нечто такое, что позволяет им быть агентами (взаимодействовать с другими нейронами, общаться, организовываться)...

Тогда я не понимаю, что вносит в текущую картину мира ваше "Центральное утверждение".

Вы говорите, что из свойств мозга следует, что может быть нейрон обладает некими свойствами, а может быть и не обладает (но обладает какая-то структура из нейронов).

Если двем разные структуры из одного базового элемента имеют общее свойство, то можно понять, что скорее всего это свойство определяется на уровень ниже...

Миллион разных искуственных нейроных сетей показывают интересные свойства. В каких-то из них аттеншен хеды, в каких-то хинтоновские капсулы, в каких-то - мамба, в каких-то ещё какая-то дичь.

Можно предположить, что свойства определяются уровнем ниже.

Уровнем ниже у всех у них в качестве общего элемента находится ReLU нейрон, который выглядит как тупо функция f(x)=max(x,0)

Не уверен, что стоит из этого делать какие-то выводы о волшебстве и свойствах функции f(x)=max(x,0), кроме тавтологичных.

Я понимаю вашу точку зрения, до меня тоже это доходило некоторое время, суть вот в чем... на самом деле если у нас нет определенной новой структуры, то поведение будет хоть и интересным, но тем же самым...

Представьте себе линию первого порядка (прямая), второго порядка (гипербола -- изгиб один), третьего порядка (до двух изгибов) и т.д.

Линия следующего порядка не дает принципиального усложнения, это по прежнему гладкая функция, только ее порядок меняется... при довольно сложной функции можно с ее помощью аппроксимировать другие...

Далее элемент сверточных сетей -- ядро свертки, если мы сворачиваем таким элементом картинку (пиксель == первый порядок), то на первом слое извлекаем градиенты максимум (второй порядок), потом разные вещи типа окружностей (второй порядок) и т.д. -- в плоть до того, что на каком-то порядке возникает лицо

но это не принципиально новое свойство, просто усложнение той же функции, добавление к ней порядка за счет того, что функция вкладывается в функцию

в случае с линией второго порядка (х вложен в х => х^2)

так вот, если мы создаем сеть из чего либо, мы вкладываем эту же функцию, создаем новый порядок этой функции, но функция та же самая

таким образом это просто следующий порядок функции базового агента

чтобы определить новую функцию сети -- надо создать нового агента и добавить к нему эту функцию...


А вывод такой, что эта базовая функция -- может быть любой... и мы можем ее бесконечно усложнять, не меняя ее "базы" -- только за счет масштабирования сети агентов, получая самоорганизацию...

Вы сейчас сформулировали эмерджентность)

Мы взяли агентов вида y=max(x,0) - которые не умеют вообще ничего.

Кинули их большой связанной кучкой в какой-то внешний процесс.

На выходе получили сетку, которая отличает котиков от пёсиков, умеет ответить на вопрос "в чём заключается смысл програмного эссе Камю об экзистенциализме и абсурде" и обыграть в Го чемпиона мира.

После этого вы по сути говорите, что "эти свойства не могут быть чем-то принципиально новым относительно фукнции y=max(x,0) потому что ну мы можем глазками посмотреть на построение, а если вам кажется, что тут какая-то эмерджентность возникла, то вы просто недостаточно преисполнились".

Лично я этого логического перехода не понимаю)

Тут даже не важно, верна ли ваша точка зрения или нет - будь вы хоть миллион раз правы, чисто логически если я сделаю какой-то вывод из аргумента вида "ну вот вам тут показалось, что X есть, но его нет, вы бы поняли, если бы преисполнились" - это будет логической ошибкой.

Представьте себе линию первого порядка (прямая), второго порядка (гипербола -- изгиб один), третьего порядка (до двух изшибов) и т.д.

Линия следующего порядка не дает принципиального усложнения, это по прежнему гладкая функция, только ее порядок меняется... при довольно сложной функции можно с ее помощью аппроксимировать другие...

Аналогия - это ложный друг рассуждений. Я вам тоже могу аналогий насыпать.

Если я возьму нормально распределённую одну случайную величину из распределения X, не являющегося нормальным (* доп. требования оставим за скобочками) - это всего лишь одна случайная величина.

Если я возьму сумму двух независимых величин из этого распределения - это всего лишь свёртка этих двух случайная величин, по прежнему не являющаяся даже близко нормально распределённой величиной.

Если я возьму десяток таких случайно распределённых величин - это всё ещё что-то, что при удачно выбранном распределении X неправильно было бы даже аппроксимировать нормальным распределением.

Однако при устремлении числа величин к бесконечности мы получим вполне себе нормальное распределение, и при достаточно большом n распределение будет обладать достаточно близкими свойствами нормальности, чтобы удовлетворить требованиям самой взыскательной науки.

---

Аналогия не может что-то доказывать. Ну вот сели мы с вами и привели десять аналогий подобных вашей (где сумма частей гарантирует, что некое новое свойство не возникнет) и 10 аналогий подобных моей (где сумма частей приводит к возникновению новых свойств).

Думаю, справимся где-то за полчаса.

И что? Из этого будет следовать, что в конкретном обсуждаемом случае эмерджентность возникнет (ну ведь 6 аналогий-то привели!) или что она невозможна и любое свойство было заложено изначально (ну ведь и тут 6 аналогий привели!)

Важно другое, что если мы хотим, чтобы самоорганизующаяся сеть обладала некими свойствами и правилами самоорганизации (причем делала их более сложными, более высокого порядка), т.е. развивала => мы должны эти свойства определить как единицу этой сети, тогда вся сеть обладает этим свойством + новыми (от эмерджентности и новых структур), она не сможет подавить это свойство...

Таким образом => можно программировать самоорганизацию...

Текущие нейросети не имеют самоорганизации -- если подавать на них с разных концов новые сигналы -- они не научатся их интерпретировать, по этому они не AGI...

Мы можем из таких сетей на уровень выше собрать специально структуру для самообучения (что сейчас и происходит), но сломав эту структуру -- мы сломаем и весь механизм обучения... по сути -- правило хрупкости...

у нейрона нельзя сломать его обучение (не разрушив его), даже если это один сам по себе биологический нейрон -- он все равно проявляет некие механизмы адаптации и обучения... если связать нескольких таких вместе -- они начнут общаться...

Мне важно было только показать, как из простого элемента собрать что-то вроде мозга... и как эту сборку сделать универсальной для любых условий....

она не сможет подавить это свойство...

Вот у нас есть некоторое количество известных науке веществ, кристалические решётки которых при некоторых (очень экзотических) условиях среды (сверхнизких температурах) демонстрируют интересные свойства (сверхпроводимость).

По вашей логике - раз решётка демонстрирует сверхпроводимость - каждый атом обладал некоторым свойством, разрешающим сверхпроводимости делать "бррр".

Теперь вы утверждаете, что если каждый агент обладал некоторым свойством, то при естественном развитии сети, вся сеть не сможет подавить это свойство.

Вот и эксперимент креста для вашей теории - берёте в руки подержать кристал любого сверхпроводящего материала (вырвем из томографа проводок, например), если сможете добиться сверхпроводимости - поздравляю, если не сможете, теория неверна, как-то блин, подавляется это свойство.

Я физик по образованию +)

Если вам интересна работа принципа сверх-проводимости, у нее есть два разных механизма, в первом случае низкотемпературная сверхпроводимость, которая возникает из-за образования куперовских пар электронов... (у них возникает связь)

Механизм высокотемпературной сверхпроводимости (при атмосферном давлении, а не в миллионы атмосфер) -- сложнее, там все дело в образовании таких электро-магнитных "вихрей"... там механизм очень сложный и невероятный...

При комнатной температуре, что интересно, лигированный водород образует сверхпроводник, превращаясь в металл ) только нужно давление в 1.6 миллион атмосфер...

Некоторые расчеты показывают, что есть сверхпроводники при температуре в 200 Цельсия (473К)

Но это не совсем сети, потому что свойствами физической материи обладает вся физическая материя, а мы говорим про информационные структуры... т.е. к нас базовый элемент на любом уровне -- это материя...

А вот придать материи такие структуры, чтобы она могла обучаться и размножаться, жить -- нужна биологическая клетка...

Но это не совсем сети, потому что свойствами физической материи обладает вся физическая материя, а мы говорим про информационные структуры...

Я к сожалению физическую часть механизма не понимаю совершенно, но слышал, что в терминах сетей сверхпроводимость как-то сводится к перколяции на кристалических решётках. Может быть ерунду несу)

Но это не совсем сети, потому что свойствами физической материи обладает вся физическая материя, а мы говорим про информационные структуры...

Не уверен, что это принципиально важно.

Информационная структура становится физической на раз два - в конце концов, тот самый "Персептрон Розенблата", который упоминают в введении каждого учебника про нейронки - это чисто физическая конструкция в которой "весами" были подстроечные резисторы, которые учёный отвёрточкой крутил.

А вот придать материи такие структуры, чтобы она могла обучаться и размножаться, жить -- нужна биологическая клетка...

Вирусы "обучаются", размножаются, правда не живут. Но не живут скорее по тавтологическим причинам (ну определили мы так "жизнь", что вирусы под неё не совсем попадают, но никто не мешает этому определению поменяться).

Давайте проще (не на примере нейросети) -- это подходит для любых структур, например можно рассмотреть МЛМ-сеть или Хабр (или любую другую самоорганизующуюся сеть чего либо) -- у нас есть базовый агент в виде или человека, который что-то продает и к кому-то присоединен, в этом случае возникает иерархическая схема продаж, или человек, который ищет какой-то контент и делится им (или из своей головы или из интернета), и получает рейтинг...

Эти агенты должны иметь некую функцию эффективности, которую они реализуют...

Тот же принцип с нейронами, если мы хотим самоорганизации нейронов в сеть, которая дает какую-то пользу, а не просто субстанция серой слизи... тогда мы на уровне каждого агента определяем параметры целой сети...

... соответственно, если нам нужно сознание или система социальной организации, мы должны или на уровне элемента создать этой свойство или сформировать это свойство на уровень выше из тех свойств, что образуются ниже ...

Понять, на каком уровне что образуется можно путем хрупкости, например какие структуры в мозге надо сломать, чтобы сломать сознание... если не получается сломать на уровне структур мозга (что логично!) => значит на уровне ниже -- т.е. нейронов...

Так чуть понятнее?

Давайте проще (не на примере нейросети) -- это подходит для любых структур, например можно рассмотреть МЛМ-сеть или Хабр (или любую другую самоорганизующуюся сеть чего либо) -- у нас есть базовый агент в виде или человека, который что-то продает и к кому-то присоединен, в этом случае возникает иерархическая схема продаж, или человек, который ищет какой-то контент и делится им (или из своей головы или из интернета), и получает рейтинг...

Эти агенты должны иметь некую функцию эффективности, которую они реализуют...

Подождите, если мы с вами начнём рассуждать про сети вроде "хабра" (социальные сети, сети коммуникаций, сети дорог и прочее) - то это же вообще another can of worms.

Например, если мы будем рассуждать про сеть дорог между городами - можно будет рассуждать в терминах случайных графов и их свойств. Дорожные сети иногда моделируются через Эрдеша-Реньи.

Там в зависимости от параметра модели (вероятность того, возникнет ли между парой городов ребро или нет) - можно получить разные интересные свойства графа - при каких-то p он становится значительно более устойчивым (в пределе разрастания сети) к тому, что по нему бахнут ядерной бомбой и граф (сеть дорог между городами) не потеряет связности, при каких-то p - становится менее устойчивым.

При этом не уверен, что в этом примере p - это параметр, который определяется агентами.
Город конечно заинтересован в выживании в случае удара бомб по другим городам, но на вероятность возникновении дороги влияет не какая-то цель города, отдельному городу-то может быть выгоднее всего построить дорогу до условной Москвы, не строя резервные трассы в другие центры, обычно чтобы разумно этот параметр p крутить нужно какое-то крупномасштабное планирование "вне" отдельного агента. Ну и на p влияет миллион факторов среды - вроде экономической доступности стройматериалов.

Кажется, сказать в этой модели, что "p определился агентами - и таким образом свойство сети определилось свойствами агентов" - это прямо натянуть сову на глобус.

Если мы начнём говорить про сети чуть более сложные (социальные сети, к примеру) - там будет ещё больше спецэффектов зависящих не от отдельного узла.

Я боюсь, мне не хватит математической подготовки чтобы нормально рассуждать тут про сложные сети (у меня, увы, был только один семестр ознакомительный, да и то много-много лет назад), но у меня сложилось впечатление, что в них эмерджентные свойства и спецэффекты слабо зависящие от отдельного узла возникают только в путь.

(Собственно, поэтому их и изучают через модельки случайных графов - потому что внезапно можно обнаружить общие свойства между социальной сетью из контактов человеков и, допустим, сетью химических реакций внутри клетки - предмет complex networks сам по себе возник из попытки абстрагироваться от сути "агента сети" и изучать свойства самих графов).

Впрочем, если у вас тут квалификации больше - я с радостью послушаю, в чём я ошибаюсь, повторюсь, я тут не специалист.

Это хороший пример, на самом деле!

Сеть чего либо (например граф) определятся свойствами элемента этого графа... но мы можем взять любой элемент с любыми правилами и построить из него сеть (определяя функции связи между агентами -- как элементарные однотипные так и сложные составные, например когда внутри графа есть две конкурирующие взаимно подавляющие сети -- получаем самообучение этого графа)... если определим еще и агентные функции элементов графа -- будет такой агент высшего порядка с самоорганизацией элементов и обобщением и усложнением общих свойств...

Суть элемента не так важна (молекулярная это машина или математическая функция или что-то, вроде игры Life -- клеточный автомат), но те функции, которые мы определим как базу, например определим одновременно коммуникации + агентность узлов сети (иначе клетка будет уничтожена) => мы получим самоорганизующуюся сеть с заданными свойствами...

Можно избавиться от обучения с подкреплением, таким образом, все обучение и его параметры замкнуть на агенте...

Сеть чего либо (например граф) определятся свойствами элемента этого графа...

Или среды, или процесса построения, а ещё графы некоторого вида (пример - графы со степенным законом распределения числа соседей) обладают при достаточно больших размерах определёнными свойствами вне зависимости от того, из каких элементов они сделаны, в какой среде они живут и в результате каких конкретных процессов были построены.

Можно избавиться от обучения с подкреплением, таким образом, все обучение и его параметры замкнуть на агенте...

А может быть и нельзя)

Рискну высказаться с использованием закона кибернетики "только сложные системы способны оперировать сложными функциями: нейрон сможет делать то же, что и сеть только если сеть даст ему готовое решение, так как сеть сложнее отдельного нейрона, и способна на большее.

В таком порядке неудивительно то, что описывается в статье: отработанное сетью решение, упрощённое, делегируется выполнять отдельному нейрону.

Центральное утверждение моей гипотезы о «мультиагентной сети» состоит в следующем: сеть способна демонстрировать сложное поведение лишь в том случае, если соответствующие функции уже заложены на уровне отдельных нейронов (агентов).

А за счет чего тогда демонстрирует сложное поведение отдельный нейрон?

Я постарался ответить в статье -- в основном это молекулярные машины (например -- на основе афинных вычислений РНК в ядре клетки) и сложные паттерны активации на дендритах (поверхности их мембран).. вообще все мембраны покрыты сложными структурами рецепторов, которые могут делать "локальные вычисления" -- метаботропные рецепторы (кроме того -- такие типы рецепторов могут определять долговременную память, это как молекулярные переключатели, и на поверхности клетки их может быть с десяток миллионов, они образуют сложные кластерные структуры) -- после того, как срабатывает такой переключатель, активируют сложные сигнальные пути, которые поднимаются к ядру клетки через сети внутриклеточных структур (цитоскелет), так же запускаются механизмы ионных каналов...

Как пример чувствительности таких рецепторов -- для их активации например в зрительных трубочках достаточно всего ДВУХ КВАНТОВ света!

Нужно ли говорить, что масштабы таких структур в размере клетки -- это как одна маленькая машина в целом городе --- было б странно тратить огромную клетку только как "бинарный переключатель"...

Давайте я попробую с другой стороны зайти.

Смотрите, мой поинт такой:

Мне кажется, вы опираетесь на предпосылку вида "эмерджентности ну вообще не бывает". А это прямо очень сильная заявка.

Её точно нельзя доказывать аналогией-иллюстрацией. В ветке про сети мы с вами ушли в какой-то спор про аналогии, как мне кажется.

А что считать свойством агентов, а что эмерджетным свойством LMM, а что считать сложным свойством/поведением и тд.

---

Если же предпосылку эту убрать, то у нас есть гипотеза - "если пытаться делать сложные нейроны, как в мозге, то будет круче".

Но эта гипотеза пока не очень подтверждается. (Впрочем, из этого не следует, что она неверна).

Вы сами пишете, что self-supervised модельки основанные на принципе наименьшей энергией были в своё время распространены - но посмотрите на текущие модельки - все предобучаются огромное количество времени в режиме без учителя, но никто не повторяет у себя Deep Boltzman Machines.

То, что у нас в голове присутствуют какие-то сформированные эволюцией механизмы не ведёт к тому, что эти механизмы хоть сколько-то оптимальны и хороши.

Напротив, иногда хорошие результаты получаются упрощением и примитивизацией отдельных элементов (заменили большую часть нелинейностей на ReLU и довольны).

Даже если агентность и усложнение отдельных нейронов приведёт к какому-то улучшению результата - я не вижу какого-то основания (кроме веры в то, что "красиво складывается и укладывается в мировоззренческую позицию") предполагать, что достаточно сложные свойства (То же самое "самоосознание". Кстати, а как мы определим его и отделим его наличие от отсутствия?) возникнет именно как следствие природы этих агентов.

То, что у нас в голове присутствуют какие-то сформированные эволюцией механизмы не ведёт к тому, что эти механизмы хоть сколько-то оптимальны и хороши.

Напротив, иногда хорошие результаты получаются упрощением и примитивизацией отдельных элементов (заменили большую часть нелинейностей на ReLU и довольны).

Автор статьи упомянул о сложности биологических нейронов

Это прямое свидетельство: за счёт активных дендритов нейрон осуществляет вычисления, сравнимые по сложности с глубокими нейронными сетями. Другими словами, отдельная клетка способна реализовать не одну, а несколько стадий обработки сигналов – своего рода «нейросеть внутри нейрона».

Но не уточнил, как именно она сказывается на структуре и функциях ИНС. Это особенно наглядно проявилось в глубоких сверточных сетях, которые являются хорошими моделями вентрального тракта зрительной системы приматов. Он состоит из пяти отделов в зрительной коре мозга, а сама кора в среднем из 6 слоев. Первым эту архитектуру реализовал Ян Лекун в LeNet-5, которая распознавала циферки. Далее по нарастающей увеличение числа слоев и объема обучающих выборок привело к росту эффективности распознавания объектов близкой к человеческой, достигшей максимума в сетях типа GoogLenet и ResNet, имевшей до 150 слоев. Однако дальнейшее наращивание слоев до тысячи не привело к дальнейшему росту эффективности и даже падению. Такое поведение для разработчиков показалось загадочным, имело разные объяснения, но если обратиться к нейробиологии, то можно понять в чем, вероятно, тут дело. Автор статьи привел ссылки на исследования в которых было показано, что биологический нейрон, конкретно самый распространенный пиромидальный, адекватнее моделируется целой сверточной сетью из 5-8 слоев, а не формальным нейроном, как взвешенного по входам сумматора с функцией активации. Получаем оценку 5 * 6 * 5 = 150 формальных нейронов, если исходить из того, что число слоев в коре 6, а модель нейронов пятислойная. Т.е. для адекватного моделирования вентрального потока требуется в 5 раз больше формальных нейронов, чем они имеются в сети зрительного тракта. Фактически многие слои в глубоких сверточных сетях моделируют свойства самих биологических нейронов, а не являются слоями моделирующими области зрительной коры. Тогда понятно почему возникает такое ограничение и отсутствие роста эффективности распознавания при наращивании числа слоев в них за этот предел. Упрощение модели нейрона приводит к компенсации в виде возрастания сложности сети для достижения эффективности распознавания сравнимого с человеком. Как не крути, когда в 50-60 годах прошлого века заложились на модель биологического нейрона, которая моделирует только его основную суммативную функцию и отсекает остальные, то выбраться за пределы этой парадикмы в дальнейших разработка фактически уже невозможно. Она явно или не явно направляет разработку в этой области во вполне определенном направлении. Это относится и к другим архитектурам ИНС и методу их обучения путем обратного распространения ошибки, см. этот комент. По этим причинам переход в перспективе к нейроморфным решениям, которые еще более адекватно моделируют биологические прототипы нейронов и сетей кажется неизбежным.

Уважаемый автор, большое уважение, за смелое и глубокое мышление, а также за просвещение масс.

Мне кажется, что вам нужно изучить теорию ассоциации-индукции (теория АИ).

Это физическая теория строения клетки, которая дала миру метод МРТ.

Если кратко, то клетка рассматривается не как мешочек с жидкостью, окруженной мембраной, а как жидкий кристалл, образованный белками, в первичной цепи которых чередуются положительные и отрицательные заряды, что в свою очередь поляризует воду, и она образует многослойную структуру, а выглядит это как "гроздья винограда" , плюс там еще и калий между молекул воды. А натрий в эту структуру проникнуть не может, т.к. брлее тяжелый калий его вытесняет, потому весь натрий снаружи клетки, а калий внутри.

Эта структура является динамическим, или жидким, кристаллом.

На ее поддержание нужна энергия, в виде АТФ, которая присоединяется к концу белка, заставляя цепь первичную цепь находиться в развернутом состоянии.

Так вот, нервный импульс это энтропии в этом кристалле. Происходит волнообразное разупорядочивание структуры, натрий внедрется во внутреннее пространство. Затем структура восстанавливается, натрий выжимается наружу. К слову, никаких кплиево-натриевых насосов, как их представляют, нет, есть вот такой физический механизм.

Это очень кратко. Если хотите подробнее, могу прислать книгу Линга 'Теория ассоциации- индукции". Купил две, одну себе, а одну, чтобы подарить кому-то. За 5 лет вы первый человек, которому это возможно нужно. Видимо, она ждала вас :)

Вчера писал на ходу, небольшое дополнение: нервный импульс это волна энтропии на воде, из которой построена цитоплазма клетки. Первичные волны формируются на клетках сетчатки, структурные элементы клеток, палочек и колбочек, а так же белки, родопсин и йодопсин, ни что иное, как резонаторы для разных длин волн. Далее по волноводам, т е. зрительным нервам, колебания передаются в мозг, обрабатываются, хранятся.

Таким образом, воспринимаемая нами реальность это по сути рябь на воде мозга, написанная светом. Слепок с реальности. Работа мозга это сложение, вычитание, интегрирование волн.

Думаю, физику нужно воспринимать мышление именно так.

Хорошая статья. Здесь рассказывается идея о том, что нейрон работает намного сложнее, чем просто суммация сигналов, которую можно описать парой уравнений.

Я слышал, что в мембране клеток (по крайней мере у нейрона) есть некие молекулы, которые могут принимать 2 состояния. Эти молекулы располагаются по всей мембране, включая дендриты (ведь они тоже являются мембраной). Таким образом, возможно, эти молекулы в совокупности образуют некий клеточный автомат, то есть это по сути целое вычислительное устройство нейрона. Такая идея как раз дополняет или даже объясняет "агентное" поведение нейрона.

Видели ли вы где-нибудь подобные идеи о таком вычислительном устройстве или идею о том, что нейрон является небольшой вычислительной машиной?

Да, вы говорите про метаботропные рецекторы, их много разных типов и видов есть, некоторые отвечают за память, некоторые обладают фоточувствительностью -- за счет фоточувствительной версии некоторым нейронам достаточно всего нескольких квантов света для активации... У Радченко есть много книжек на эту тему.. еще, на Хабре еще есть Алексей Редозубов @AlexeyR-- у него хороший цикл был на эту тему, только Хабр куда-то потерял картинки старые, а там вся суть была...

Sign up to leave a comment.

Articles