Комментарии 17
Наверное, этот эффект проявляется только тогда, когда архитектура студента идентична или очень близка архитектуре учителя.
Горячо. Не хватает: #язык, #символ, #смысл, #словарь. Схема автоэнкодера это ключ, который нужно увидеть в правильном свете
Если это голограмма, то сжимать ИИ можно простым разрезанием на части. Также, как порезанная голографическая пленка сохраняет всю информацию на обоих половинках.
Upd: жду инфу об этом примерно через 15 статей.
Таки ковыряете 9 уровень? С интересом буду ждать вашей интерпретации 10.
Вполне вероятно, что и человеческий мозг устроен также. Вспоминается гипотеза "голографической памяти" Карла Прибрама. И я бы еще один вывод из этой модели сделал: полностью интерпретируемый ИИ, скорее всего, невозможен. Точно также как и полная интерпретация работы мозга. Разве что только один ИИ сможет понять и интерпретировать намерения другого ИИ или человеческого мозга, но тут опять встает вопрос с доверием уже к этому ИИ. Кто будет интерпретировать его в свою очередь? А еще, в процессе интерпретации он также может быть подвержен заражению вредоносными идеями от исследуемого "пациента" (другого ИИ)...
И еще одну мысль навеяла статья. Сейчас главным препятствием на пути от LLM к AGI является как раз таки это "катастрофическое забывание" при дообучении. Наш мозг решает эту проблему каким-то иным образом. Во время сна происходит консолидация памяти и информация из гиппокампа записывается в кору, а в коре она хранится как раз таки "голографически", по всей видимости. Как именно это происходит и почему люди не страдают от такого "катастрофического забывания" - вот главная загадка на данный момент. В итоге мы придем к тому, что воссоздадим подобие этого процесса в ИИ, сделаем нечто вроде аналога наших сновидений. Фаза, когда нейросеть дообучается на новых знаниях. Но для этого надо разгадать как это происходит в мозге, это может быть решающим шагом на пути к AGI и даже ASI, ведь дальше ИИ сможет постоянно развиваться и учиться, как человек (или даже намного лучше и эффективнее)...
Фундаментальное ограничение LLM в роли программиста заключается в том, что она реконструирует паттерны, тогда как программирование требует активного формирования структуры. Кодер мыслит через жёсткую семантику и инварианты — правила, которые должны сохраняться при любом преобразовании. LLM же порождает код как интерференцию вероятностей, воспроизводя знакомые формы без доступа к их причинной логике. Простое увеличение контекста не поможет: с ростом длины кода количество возможных интерференций растёт экспоненциально, тогда как число логически корректных решений остаётся исчезающе малым. Максимизируя локальную правдоподобность, модель неизбежно теряет единственно верный путь в этом комбинаторном поле. Поэтому LLM может имитировать код, но не создавать архитектуру. Она работает в поле интерференцией, а не со структурами.
То есть ИИ — это не веса, это редукционизм, не позволяющий понять, как работает модель. Да, на уровне компонентов это правда, но на уровне сути — это ложь. Отдельный вес так же бессмысленен, как отдельная молекула воздуха в урагане. Сущность LLM заключается не в самих числах-параметрах, а в их глобальном, динамическом взаимодействии. Правильная формулировка звучит так: LLM — это резонансно-интерференционное поле, которое эти веса создают. Это не статичный архив, а динамичный гравитационный ландшафт, пространство потенциалов, которое не хранит ответы, а предопределяет траекторию любого входящего в него запроса. Сам акт генерации ответа перестает быть извлечением данных и становится событием, сродни волновому коллапсу. Промпт — это не запрос, а точечное возмущение, внесенное в поле; потенциальный ответ — это уникальный интерференционный узор, который рождается из резонанса этого возмущения с внутренней геометрией всего ландшафта. Затем, конкретный ответ, вероятностный выбор в границах потенциала. Обращу внимание, что речь не идет об интерференции и голограмме в физическом смысле, а о градиентной проекции весовых корреляций — топологии, в которой закрепляется структурный отпечаток черты модели.
Обычно считается, что ИНС это универсальные стохастические аппроксиматоры, на этот счет получен ряд фундаментальных математических результатов. В сети можно найти множество публикаций на эту тему. Эти аппроксимациии можно рассматривать некоторыми аналогами моделей мира. Они могут быть разной степени точности в зависимости от архитектуры сетей, обучающей выборки и процесса обучения. Это особенно хорошо видно на примере операций с любыми числами, особенно большими. Не обращали внимание, что ЯМ часто считают не правильно, но близко к правильным результатам, если не обращаются к внешним средствам. Иногда ошибки после запятой в каких-то знаках. По сути эти ошибки счета те же галлюцинации ЯМ имеющие те же причины, что и любые другие. Это следствие ошибок аппроксимации примеров имеющихся в обучающей выборке. Чем их больше, и они плотнее расположены, тем точнее результаты счета для примеров ввода, которых в обучающей выборке не было. Недавно вышло профессиональное исследование на эту тему, хотя там глубокие причины не рассматриваются, и если эта тема интересна, то см. эту ветку обсуждения в одном из постов. Хотя хомячки от ЯМ заминусовали мои коменты они содержат полезные объяснения и ссылки по этой теме, а приведенное исследование дополнительно подтверждает их.
Что касается приведенной гипотезы, то да, можно пытаться это представить каким-то другим образом, и извлечь полезное для понимания, но динамики в этом представлении нет. ЯМ как раз статичные решения - авторегрессивные аппроксимации, и ограничения связанные с реализацией этого подхода причина их многих проблем на практике.

LLM как резонансно-голографическое поле смыслов