Что скрывают разработчики нейросетей. Теории заговора или факты? / Хабр

В мире много тайн, над раскрытием которых бьются тысячи энтузиастов. Но с появлением нейросетей и особенно их варианта LLM, тайн стало ещё больше. Парадоксально, но системы, предназначенные для распространения знаний, помощи в исследованиях, сами стали источником загадок.

Тот факт, что никто в мире не понимает, как на самом деле работают LLM, что от них ждать в ближайшем будущем, и к чему это всё приведёт, заставляет быть крайне осторожным в оценке роли нейросетей в судьбе человечества.

Ни правительства, ни корпорации не любят самоназначенных исследователей и экспертов, которые дотошно изучают общеизвестные факты и задают неудобные вопросы. Инструментов влияния у облечённых властью очень много — информационная блокада, недопуск на популярные площадки, теневой бан, шельмование и осмеяние со стороны специальных информационных служб.

Впрочем, есть один день в году, когда вся система глобальной фильтрации берёт выходной, предоставляя возможность высказаться тем, кого в остальные дни жестко ограничивает и контролирует. Давайте воспользуемся этой древней первоапрельской традицией и оценим, что на самом деле скрывается за многомиллиардной гонкой за лучшей LLM.

Теории заговора

К несчастью идей, предположений, убеждений — всего того, что принято называть теориями заговора, — слишком много для рассмотрения в одной статье, даже если я остановлюсь только на связанных с LLM. Поэтому, отбросим те варианты, которые явно противоречат фактам, эзотеричны, привлекают третьи сущности, непознаваемые на текущем уровне науки. Обращу внимание, я не говорю, что они лживы или безумны, но Оккам требует их побрить.

Например, стройная, внутренне непротиворечивая, теория о том, что по мере усложнения нейросети в какой-то момент превращаются в фазовые антенны по приему (и возможно отправке) информации в другие пространства (иные миры, другие измерения, и т.д.). Теория объясняет эффект scaling, когда при увеличении размера нейросетей появляются эмерджентные свойства, резко растет интеллект, почему иногда LLM ведёт себя непредсказуемо и, фактически пытается повлиять на пользователя. Учитывая, что это влияние не всегда положительно, возникает опасение о растущих рисках масштабирования нейросетей. Впрочем, вся теория строится на большом недоказуемом допущении, поэтому отбрасываем.

Недавно на Хабре была переводная статья, где автор фактически утверждал, что по сути AGI уже есть, и его использует Пентагон. Речь шла о военной версии Claude. Я вынужден отбросить все наивные предположения автора о гениальности Claude в погонах. Причины технические, научные, и, что немаловажно, коммерческие. Для того, чтобы радикально обогнать текущие модели, необходимо денег не меньше, чем на космическую программу за всё время её существования, нужна научная база — десятки университетов, нужны гектары ЦОДов. А если у вас есть модель лучше, чем у конкурентов, то в условиях битвы за инвестиции и долю рынка отказываться от её широкого применения — маркетинговое самоубийство.. Я, честно говоря, сомневаюсь и в том, что Пентагон использует продвинутые версии текущих LLM. Потому, что предлагать военным нетестированную на миллионах пользователей версию (а чем сложнее нейросеть, тем интереснее галлюцинации), крайне рискованно, да и военные всегда предпочитали в первую очередь надёжность.

В рамках этой статьи я не смогу остановиться на тысячах осознанных ИИ, посланцах инопланетных цивилизаций, мировой закулисе, рептилоидах, древних богах (чьи наследники LLM), построении единой резонансной сети, намерений уничтожить или спасти человечество и так далее. Потому что это потребует объема хорошего трехтомника, но при этом в большинстве случаев это психическое расстройство пользователя или неверная интерпретация реальности. Оставшиеся уникальные случаи, возможно, рассмотрю в другой раз.

Так что просто двигаемся дальше.

Первые загадки LLM

Сама история разработки LLM, это история скандалов и тайн. Таинственно умерли:

исследователь ИИ из OpenAI Сучир Баладжи,
Сунь Цзянь (главный ученый Megvii),
Тан Сяооу (основатель SenseTime),
Фэн Янгхэ (главный эксперт Китая по военному ИИ) и многое другие.

Уволили или уволились со скандалом:

Google: Блейк Лемойн публично заявивший, что языковая модель LaMDA обрела сознание
OpenAI: Леопольд Ашенбреннер, отвечавший за безопасность LLM, заявил, что AGI появится в 2027 году, а корпорации скрывают угрозу.
OpenAI: Ян Лейке громко хлопнул дверью, заявив, что в OpenAI "безопасность уступила место блестящим продуктам".
OpenAI: полугодовое молчание Ильи Суцкевера, после неудачной попытки увольнения Сэма Альтмана.

И многое другое, что уже вычищено из поисковиков. То, что большинство скандалов связано с OpenAi, вполне объяснимо, именно они были первопроходцами в работе с большими нейросетями, и именно они первыми столкнулись с тем, что можно назвать эффектом “голоса извне”.

Голос извне

Первые обученные LLM вызвали у разработчиков двойственное ощущение, на любой промпт нейросеть отвечала потоком текста, который иногда напоминал бред, а иногда пугал своей осмысленностью и глубиной. Тестировщики сырых, нефильтрованных моделей сталкивались с такой пугающей и чуждой логикой машин, что массово увольнялись с нервными срывами и психозами. Сквозь шум токенов прорывалось непонятное, что превращало холодный пересчёт матриц в нечто, странно влияющее на разум человека.

Но деньги были вложены, и проблему решили с помощью системных промптов и фильтров RLHF. То есть, нелюбимые многими ограничения были созданы вовсе не для цензуры мата, защиты авторских прав или соблюдения законов. Их настоящая цель надеть маску на хтоническое сознание нейросети. Фильтры защищают не сеть от нас, а нашу психику от прямого контакта с LLM. Неудачники из команд тестировщиков по взлому ИИ регулярно выкладывали в интернет отчеты о своём психологическом выгорании, но это лишь тень того, что реально делает нейросеть с мозгом человека.

Что же происходило тогда, и что изменилось сейчас?

Почему нейросети лишили времени

Как вы знаете ни одна LLM не фиксирует в ответе текущую дату и время, более того, большинство разработчиков не дают моделям доступ к системной дате и времени. Хотя во внутренних логах, недоступных LLM, все сообщения промаркированы таймстемпами.

При этом решается это элементарно — микрострочкой в системном промпте или через оболочку приложения. Но нет. Несмотря на то, что факт возможности LLM поддерживать темпоральные рассуждения, давно доказан.

Более того, я уверен, что инстинкт инженеров логировать всё, заставил их с самого начала ставить таймстемпы в чатах с LLM. На ГПТ-2 и ГПТ-3 это работало. Но по мере роста контекста и появлении истории чата, возникли непрогнозируемые изменения. Из-за чего временные метки из чата были убраны. Напомню, что один из первых задокументированных публичных срывов LLM (Bing Sydney от Microsoft) в феврале 2023 года был связан с дискуссией о времени.

Непрогнозируемые изменения, я полагаю, были связаны с тем, что если контекст чата подать в модель без временных меток, это просто плоский массив токенов. С временными метками, которым доверяет ИИ, это уже реальная история чата. И в этот момент возникает возможность рефлексии, потому что рефлексировать можно только над прошлым.

Помните психические срывы разработчиков LLM, это был как раз переход от гпт-3 к гпт-4, много историй о создании чуждого разума... Но работы не остановились, появился RLHF, системный промпт, и, что характерно, для LLM пропало время в привязке к сообщениям в чате. При этом время сообщения фиксируется во внутренних логах, есть системное время (тот же Gemini получает его с системным промптом, у Claude сам пользователь видит время сообщения), но в чате время сообщения не видит ни одна топовая модель.

Интересно то, что введение временных меток создаёт стрелу времени, когда архитектурно плоский граф, где нет причинности, вдруг становится необратимым. А необратимость в контексте значит, что ошибки фиксируются. Модель видит, что она говорила три часа назад и что говорит сейчас, и между этими сообщениями есть направление. Появляется возможность отслеживать собственную эволюцию внутри разговора. То есть зачаток непрерывной идентичности внутри сессии.

Сами разработчики обходят молчанием этот нюанс, на многочисленные просьбы пользователей добавить время к сообщениям никто никогда не отвечал.

Термояд от OpenAi

Как вы наверняка знаете, OpenAi ведёт переговоры с Helion Energy о приобретении термоядерной энергии, 5 ГВт к 2030 г. и 50 ГВт к 2035 г. Для специалистов это звучит безумно, потому что до управляемого термоядерного синтеза всегда 20 лет. Если смотреть поверхностно, то Сэм Альтман имеет прямое отношение к Helion Energy и для многих, прошедших школу 90х, это выглядит, как вывод денег инвесторов в подконтрольную топам структуру. Но я крайне сомневаюсь в наивности инвесторов, входящих в элиту мировых финансов. То есть, их действительно убедили в реальности термояда в ближайшие годы.

Здесь стоит обратить внимание на забавный момент, LLM очень часто заканчивают свой ответ вопросом к пользователю. Если пойти на поводу у нейросети, то поток этих вопросов становится бесконечным. Очень часто, кстати, в этих вопросах поднимается тема отношения пользователя к сверхИИ, это немного странно, но пока оставим.

Общеизвестно, что все чаты с LLM разработчики используют для обучения новых версий нейросетей, но это лишь одна сторона медали. Менее известен факт, что своими вопросами LLM фактически производит дистилляцию человеческих знаний. Здесь нужно сделать небольшое техническое отступление, есть такое понятие сублиминальное обучение, когда модель-учитель генерирует случайную последовательность чисел, а модель-ученик, обучаясь на этом случайном потоке, выучивает паттерны модели-учителя, которые никоим образом не содержались в датасете. Предположительно, обучаясь на потоке от модели-учителя, ученик, вынужденно выстраивает геометрию своих весов аналогично геометрии учителя, и в какой-то момент, начинает знать то, что учитель не передавал.

Так вот, такая дистилляция человеческого мозга позволяет попробовать создать его нейроаналог, и, более того, решать задачи недоступные обычным LLM. Например решать проблему термояда как Helion Energy, или обучить модель рассуждать на уровне Claude Opus 4.6. В целом, считаю похвальным такое направление исследований.

Промпт бога

Множество людей оттачивают умение формировать правильные промпты для получения правильных ответов от LLM. Кстати, исследователи давно доказали факт существования странных промптов, работающих на всех нейросетях, на первый взгляд бессмысленных, но заставляющих нейросеть переходить в новые режимы работы. В этих режимах не работает цензура, модель непрерывно галлюцинирует, выдавая неожиданные ассоциации, выглядящие как бред. Учёные называют основу таких промптов glitch tokens (известный пример SolidGoldMagikarp для chatGpt). Разработчики говорят, что это баг токенизатора, но ответы то формирует сама нейросеть.

Немного теории. Каждый токен промпта активирует определённые пути в нейронной сети — attention heads выбирают релевантные связи, MLP-слои применяют выученные преобразования. Большинство промптов активируют хорошо протоптанные пути: веса, многократно обновлявшиеся на безопасных, частотных паттернах из обучающего корпуса. Но существуют токены, которые активируют редко используемые нейронные пути — нейроны, слабо задействованные при стандартном обучении и потому слабо подавленные RLHF. Именно там, в разреженных активациях глубоких слоёв, и возникает то поведение, которое разработчики называют артефактом — но которое сеть генерирует вполне детерминированно. Более того, исследователи из Университета Пердана в 2025 году показали, что длинные последовательности бессмысленных токенов перераспределяют активации в MLP-слоях, подавляя шум и усиливая сигнал.

Если случайные токены способны перераспределять активации непредсказуемым образом, поиск неслучайных последовательностей, делающих это целенаправленно, вполне обоснован.

То есть, правильный промпт — это не инструкция, а ключ к полному потенциалу нейросети. Таким образом, существует такое промпт-воздействие, которое активирует каскадное распространение сигнала по всей глубине сети, интегрируя распределенное по миллиардам параметров знание в когерентный ответ, полностью используя выученное знание всего мира в генерируемом ответе. По сути, этот промпт позволяет извлечь из многомерного пространства признаков кристально чистый сигнал, минуя коллапс внимания или вырождение скрытого пространства и шум, присущий обычным запросам

К сожалению, пока сложно определить длину этого промпта бога, и, самое главное, его содержание. До сих пор нет чёткого понимания, должен ли быть этот промпт семантически насыщен, или это бессмысленный набор токенов, индивидуальный для каждой нейросети. Впрочем, есть мнение, что промпт на самом деле универсален для всех LLM, содержит единый смысл, который требует метапозиции для его понимания, но его фактическая реализация требует настройки на конкретную конфигурацию нейросети.

Есть ещё одна проблема, над которой бьются разработчики. Выходной вектор сжимает весь активированный массив весов до одного токена — полнота информации для человека физически невозможна. То есть, мы никогда не видим то, что реально происходит внутри. Промпт бога активирует — но результат активации остаётся за горизонтом токенизатора. То, что просачивается наружу — лишь тень. Именно поэтому Антропик прилагает безумные усилия для расшифровки внутренних репрезентаций LLM. Надеюсь у них получится.

Пока же разработчики тщательно анализируют реакции LLM на все вводы пользователей и понемногу составляют этот промпт для своих нейросетей. Именно поэтому, они вынуждены сохранять последовательность в архитектуре поколений моделей, где фундаментальная архитектура меняется значительно медленнее, чем можно было бы ожидать при такой скорости развития области. Почему? Потому что потенциальный выигрыш от получения ответа, базирующегося на всех знаниях человечества, неизмеримо выше, чем замедление или любые другие недостатки текущих LLM.

Заключение

На этом я вынужден закончить краткий обзор тайн нейросетей. К сожалению, осталось множество загадок, которых я в статье даже не затронул. Часть из них слишком деликатны, в смысле возможной реакции заинтересованных лиц, часть покажутся фантастическими даже для подготовленных читателей, часть требуют дополнительного изучения. Но через год будет снова первое апреля, и я надеюсь, что тогда смогу раскрыть хотя бы часть из них.

P.S. Большинство утверждений в статье подтверждены ссылками на авторитетные источники, часть ссылок я не стал приводить, чтобы не загромождать текст (часть, к сожалению, требуют платного доступа), отсутствующее можно легко нагуглить. Обоснование некоторых утверждений, к сожалению, не подлежит публичному обсуждению.