Комментарии 5
Чем это отличается от RAG?
Ну, если коротко, то всем. RAG предполагает улучшения ответа модели за счёт расширения контекста, при чём именно такого расширения, которое имеет прямое отношение к заданному вопросу/запросу к LLM (это в теории).
А в статье я осветил идею, которая, если коротко, заключается в том, что, возможно, замена человеческого языка как протокола взаимодействия между нейронными сетями на язык эмбедингов (максимально упрощаю), может повысить "понимание" одной нейросетью другую.
Общего с RAG тут только то, что и там и там используется технология сжатия смысла в вектор чисел - то есть в эмбединг.
которые смогут вступить в сговор на неизвестном нам языке и поработить нас.
Ага, сразу вспоминаются эти хайпанувшие видосики, где две нейронки общаются друг с другом с помощью непонятного набора звуков под названием Gibberlink.
А еще фильм "Прибытие" вспоминается, где гиганстские кальмары общались друг с другом с помощью кружков из чернил, закорючки в которых выражали всю смысловую гамму написанного.
Вообще, если по теме поста: вот возьмем ваш первый вопрос. Вам не нравится, что мы, общаясь, теряем часть смысла и не можем донести до собеседника исходный мыслеобраз. Ну, мы ж не от хорошей жизни так поступаем. Я тут не специалист, но мне видится, что мысль - это череда электрических импульсов, которые идут от нейрона к нейрону, в определенной последовательности, по определенным маршрутам, непрерывно.
Если мы хотим, чтобы наш собеседник создал у себя в мозгу точно такой же мыслеобраз, нам нужно, чтобы у него там были точно такие же нейроны, синапсы, аксоны и что-то там еще, чтобы электрические сигналы по ним шли точно так же, как это было у нас.
То есть, для того, чтобы донести до собеседника свою мысль на 100% верно, нужно грубо говоря взять ваш слепок мозга, засунуть его в какой-то конечный объем, после чего передать другому и развернуть его там, не потеряв исходное содержимое. Только в этом случае другой человек сможет составить точно такой же мыслеобраз, как был у вас.
Вот ваш пример же возьмем "Он немного выпил". Предположим, что мы читаем рассказ и где-то там по ходу этого рассказа нам написали:
"Василий Иванович, одетый в теплое, серое, слегка не по погоде, пальто, застегнутое на все пуговицы, грузно ввалился в бар. Он сел за барную стойку, не раздеваясь, тяжело вздохнул и заказал бокал портвейна. Когда бармен принес ему бокал, Василий Иванович, вновь тяжело вздохнув, поднес его к губам. Он немного выпил. Слезы покатились по его щекам."
Так вот, из вашего исходного "он немного выпил" вообще ничего непонятно - кто он, что такое "немного", что он выпил - воды, вина, может йаду.
Мой отрывок добавляет контекста, мы уже понимаем, хотя бы, кто такой "он", что он выпил, но все равно мы не знаем ни как этот Василий Иванович выглядит, какие у него морщинки и где, чем он пахнет, как у него уложены волосы, мы в общем-то, и про портвейн мало чего знаем - ну есть и есть. Дешевый он, дорогой, чем он пахнет, какой он на вкус - это все нам неизвестно и мы эту картинку достраиваем в своей голове, исходя из своего жизненного опыта, того, что мы раньше видели, читали, ассоциаций, и всего такого.
Применительно к нейронкам, кажется, что задача не особо проще. Опять же, если мы хотим, чтобы другая нейронка поняла первую без потерь, нам нужно:
Взять все процессы в первой нейронке, которые привели ее к генерации сообщения
Каким-то образом заархивировать эти процессы и передать их во вторую нейронку в качестве контекста
Передать само сообщение
Расшифровать переданный контекст и как-то уместить его в свое текущее состояние.
Сгенерировать ответ, исходя из всего выше.
То есть это тоже гигантские объемы данных, которые нужно будет гонять между нейронками всякий раз. Да, он существенно меньше, чем в случае с человеком, но все равно.
Ваша вторая мысль, как мне кажется, вообще теряет смысл в свете того, что я написал выше. Нет никаких эмбеддингов - только слепки состояний.
И вот вы там хотите цепочку нейронок, которые друг с другом будут общаться мыслеобразами, а в конце концов последняя трансформирует вам это в человекочитаемую форму. И вот в этот момент вся та полнота информации, которая была внутри этой системы из нейронок, пропадет, и вы получите, вероятно, лишь более качественный ответ, чем от одной нейронки, но все равно с огромными потерями. Гора мышь родила.
По третьей мысли кажется, что "смысл" - это уже заведомо архивация. Если мы начинаем общаться смыслами, тогда это уже немного другое. Это уже становится разговор про результат, а не про чувства. Смысл практически всегда будет меньше того, из чего он выделен, потому что мы выделяем только "главное", а все не особо влияющие на результат детали, опускаем. Ну, что-то типа:
"На улице было по-летнему тепло. Ласковое майское солнце уже во всю светило, озаряя своими лучами так быстро позеленевший город".
Можно все эти детали сократить до "На улице было тепло, потому что светило солнце. В городе растения зеленые".
И вот мы вроде бы сказали во втором случае то же самое, что имелось в виду в первом, опустили все неважные детали, картинку сформировать можно, она даже будет похожа на первую, но в ней не будет каких-то оттенков, акцентов, того, что наполняет ее жизнью,
В итоге мы приходим к четвертой мысли, что неплохо бы иметь чет такое, что могло бы передать, ну если не все состояние мозга от человека человеку, то хотя бы картинку. Это тоже будет общение с потерями, потому что не будет контекста, почему картинка именно такая, но хотя бы более наглядно будет. Ну и да, я тут говорю "картинка", потому что это мой способ обрабатывать информацию. Кто-то может ориентироваться на звуки, кто-то на что-то еще. И тогда возникает естественный вопрос о совместимости мыслей друг с другом - то есть, передав образ от человека человеку, собеседник его сможет вообще понять или нет, потому что у него в голове архитектура, грубо говоря, другая?
В общем, за мысли спасибо, но кажется, что работает все несколько сложнее.
Да, определённо всё сложнее. И определённо даже эмбединг может не выражать всё то, что хотелось бы. Речь только о том, что мы используем свой язык в качестве передачи информации от нейронки к нейронки, что может быть далеко не так эффективно, как язык созданный специально для них с помощью методов оптимизации. А если это так, если это даст, допустим, 5% прироста "понимания", то можно априори улучшить все архитектуры chain of thoughts.
https://www.lib.ru/INOFANT/HOJL/cloud.txt
Скрытый текст
-- Но необычно не только это. Наиболее поразительным у вас является наличие большого сходства между отдельными индивидуумами. Это позволяет вам пользоваться очень грубым способом связи. Вы обозначаете штампами свое психическое состояние; гнев, головная боль, смущение, счастье, меланхолия -- все это штампы. Если А хочет сказать Б, что страдает от головной боли, он не пытается описать, какие это нарушения деятельности его нервной системы. Вместо этого он выбирает нужный штамп. Он говорит: "У меня болит голова". Когда Б это слышит, он воспринимает штамп "головная боль" и истолковывает его в соответствии со своим собственным опытом. Таким образом, А может сообщить Б о своем недомогании, даже если оба не имеют ни малейшего представления о том, что такое в действительности "головная боль". Такой весьма своеобразный метод связи возможен, конечно, только между почти идентичными индивидуумами... -- Насколько я понял, вы имеете в виду следующее, -- сказал Кингсли. -- Если бы существовали два абсолютно тождественных индивидуума, то им вообще не нужно было бы никакой связи, каждый автоматически знал бы переживания другого. Для связи же между очень разными индивидуумами требуется уже гораздо более сложная система.
Я ещё добавлю, что передача сообщений только и имеет смысл между разными существами, можно скопировать на второй компьютер нейросеть вместе с текущим состоянием - но в реальности если возникла необходимость передать информацию от одной нейросети к другой - то скорее всего это значит, что от второй нейросети ожидается результат отличный от того, который выдала бы первая нейросеть(или её копия).
Люди-архиваторы, или как работают обратные аналогии