Психоистория Азимова как техническое задание: как я построил мультиагентный AI-прогнозатор / Хабр

Гэри Селдон перед Главным Радиантом. Примерно так я представлял себе психоисторию в четырнадцать лет. Изображение сгенерировано нейросетью.

Короче, я прочитал «Основание» Азимова лет в четырнадцать и с тех пор не мог отделаться от одной мысли. Гэри Селдон придумал психоисторию – науку, которая предсказывает поведение больших групп людей статистически, как физик предсказывает поведение газа, не зная ничего про отдельную молекулу.

Фантастика, понятно, хоть и годная. Но позавчера я поймал себя на том, что у нас уже есть все кубики. LLM-ы, которые умеют анализировать текст, потоки новостей в реальном времени, байесовская статистика и самое главное – у нас теперь есть вайбкодинг! Это почти, как родная шаурма в Белграде – неожиданно и приятно.

Ну и я подумал, а что если попробовать? Не как метафору, а буквально. Взять психоисторию как техзадание и посмотреть, что получится.

У меня получился Seldon Vault – сайт, который каждый день генерирует прогнозы о том, что произойдёт в мире, и потом честно считает, сколько раз угадал. Бесплатный, конечно же.

Семь аналитиков, скептик и арбитр

Архитектура Seldon устроена как аналитическое бюро, а не как один всезнающий оракул.

Каждый день система собирает сигналы из десятка открытых источников – RSS-ленты мировых СМИ, Reddit, Telegram, Bluesky, предсказательные рынки (Polymarket, Metaculus), макроэкономика (FRED, Fear & Greed Index), базы конфликтов (ACLED, UCDP), катастрофы (GDACS) и геополитические события (GDELT). Первым их обрабатывает процессор сигналов – дешёвая модель (DeepSeek), которая классифицирует: это немедленная новость или структурный тренд? Важно или шум?

Дальше отфильтрованные сигналы уходят параллельно семи аналитикам. Каждый смотрит на одни и те же данные через свою оптику:

Геополитик видит альянсы, санкции и дипломатические маневры
Экономист – рынки, центробанки и торговые потоки
Технолог – полупроводники, AI, биотех и энергетику
Социолог – демографию, миграцию и социальные сдвиги
Климатолог – климатические риски и энергетический переход
Военный аналитик – баланс сил, ядерное сдерживание, гонку вооружений
Кибербезопасник – APT-группы, уязвимости, атаки на инфраструктуру

Геополитик смотрит на визит Макрона в Пекин и видит дрейф Европы от атлантизма. Экономист смотрит на тот же визит и видит контракты на сжиженный газ. Военный аналитик – изменение переговорных позиций по Тайваню. Одно событие, семь интерпретаций, и ни одна не полная без остальных.

Каждый аналитик предлагает прогнозы с вероятностями. Но прежде чем они попадут к арбитру, через них проходит Скептик.

Архитектура Seldon Vault: сигналы → 7 аналитиков → скептик с правом вето → арбитр. Красные кресты — прогнозы, не прошедшие проверку скептика

Институционализированное сомнение

Скептик – мой любимый агент и самая мощная модель из доступных мне - Claude Opus.

Его задача проста и неприятна: найти, почему прогноз неправильный. Он получает каждый предложенный прогноз и систематически пытается его разрушить. Проверяет факты через Tavily Search API. Ищет контрпримеры. Оценивает, не опирается ли аналитик на устаревшие данные или логическую ошибку.

Каждому прогнозу скептик ставит risk score от 0 до 100. Если риск ниже 50 – автоматический отказ, прогноз не проходит дальше.

Оказалось, что институционализированное сомнение работает в любой области. В разведке США этот паттерн существовал ещё со времён Перл-Харбора, когда Шерман Кент в 1949 году основал аналитическое подразделение ЦРУ и сформулировал принцип:

Аналитик обязан искать причины, по которым он неправ, прежде чем докладывать начальству, что он прав.

После скептика выжившие прогнозы попадают к Селдону – арбитру. Он синтезирует топ-5 прогнозов, взвешивая мнения аналитиков, тяжесть критики скептика и собственную оценку. Результат – билингвальный прогноз (английский + русский) с вероятностью от 5% до 95%.

Почему не 0% и не 100%? Потому что абсолютная уверенность – признак либо бога, либо идиота, и языковая модель не относится ни к одной категории.

Карточка реального прогноза на seldonvault.io. Снизу— развёрнутый анализ скептика с risk score. — *Карточка реального прогноза на* *seldonvault.io. Снизу— развёрнутый анализ скептика с risk score.*

Прогнозы обновляются, а не умирают

Прогнозы тут не одноразовые. Каждые шесть часов система прогоняет повторный цикл: появились новые данные – аналитики пересматривают оценки, скептик заново проверяет, вероятность сдвигается по формуле Байеса:

Новая вероятность = старая, скорректированная силой нового свидетельства.

Вчера эскалация 40%, сегодня стороны отозвали послов – вероятность ползёт вверх. Но не бесконечно: максимальный сдвиг за день ограничен в 15 процентных пунктов, чтобы система не паниковала от каждого заголовка в Reuters.

Каскады: как события связываются в цепочки

Самое интересное начинается, когда прогнозы перестают быть изолированными точками и собираются в каскадные нарративы.

Представьте, что система выдала прогноз «Новые санкции против полупроводникового экспорта в Китай – вероятность 70%». Отдельно – «Задержка строительства TSMC в Аризоне – вероятность 55%». И ещё – «Замедление роста AI-стартапов в Юго-Восточной Азии – вероятность 45%».

По отдельности – три разных прогноза. Но Селдон-арбитр видит каузальную цепочку: санкции → дефицит чипов → задержки производства → замедление зависимых индустрий. Он создаёт нарратив – граф связей, где каждое ребро имеет направление, силу и условный сдвиг.

Если первое событие в цепочке сбывается, вероятности всех связанных прогнозов автоматически пересчитываются. Сдвиг затухает с каждым «хопом» (коэффициент 0.5) и ограничен тремя уровнями глубины. Без затухания одна сбывшаяся новость на входе могла бы раскачать всю систему до безумия.

Азимов, кстати, описал ровно этот эффект в «Основании». Гэри Селдон называл их «точками ветвления» – моменты, когда одно событие каскадно меняет траекторию всей системы. Только у Азимова это была математика вымышленной вселенной, а у меня – граф в PostgreSQL с D3-визуализацией на фронтенде.

*Каузальный граф: Решение о перемирии→ новая эскалация → инфляция в США. Визуализация на D3.js.*

Brier Score, или как не врать себе

Вот тут начинается самое болезненное.

В 1950 году метеоролог Гленн Брайер опубликовал в Monthly Weather Review статью, где предложил элементарную формулу для оценки точности вероятностных прогнозов:

Brier Score = (вероятность − исход)²

Если ты предсказал дождь с вероятностью 80%, и дождь пошёл (исход = 1), твой Brier Score = (0.8 − 1)² = 0.04. Отлично. Если не пошёл – (0.8 − 0)² = 0.64. Плохо. Чем ближе к нулю, тем точнее.

Seldon считает Brier Score для каждого разрешённого прогноза. И для каждого агента отдельно – за последние 30 дней. Эти данные возвращаются обратно в промпты агентов как обратная связь: «За последний месяц ваши прогнозы в секторе Technology имели средний Brier Score 0.28. Ваши прогнозы с высокой уверенностью (>75%) были точны в 3 из 5 случаев».

Это заставляет модели (через промпт, не через файн-тюнинг) калиброваться. Агент, который постоянно завышает вероятности, получает об этом прямой фидбек и начинает быть аккуратнее.

Зачем это нужно? Без метрики точности всё остальное – просто красивый текст. А с метрикой появляется неприятная штука: ты видишь, где система врёт. Brier Score 0.25 не звучит сексуально в заголовке, зато честно показывает, стоит ли вообще читать эти прогнозы. Через полгода будет понятно.

*Реальных метрик пока нет, но скоро будут!*

Где ломается

Я бы хотел написать, что система работает безупречно. Но тогда мне нужно будет перечитать собственную статью про галлюцинации LLM и устыдиться.

Во-первых, LLM-галлюцинации в прогнозах. Модель может уверенно сослаться на несуществующее событие, и если скептик не поймает эту галлюцинацию через внешний поиск – она просочится в финальный прогноз. Частично это решается архитектурно (скептик с Tavily), но не на 100%.

Во-вторых, кластеризация вокруг 50%. LLM-ы, как и люди, не любят рисковать. Когда модель не уверена, она тяготеет к безопасным 45-55%. Формально не ошибка, но бесполезно, прогноз «вероятность 50%» – это вежливый способ сказать «я не знаю».

В-третьих, чёрные лебеди. Нассим Талеб в 2007 году написал целую книгу о событиях, которые невозможно предсказать по определению, потому что они не имеют прецедентов. COVID, крах FTX, крах доткомов – ни одна система на основе исторических паттернов не предскажет то, чего никогда не было. Селдон у Азимова тоже не предсказывал Мула.

В-четвёртых, качество данных. СМИ, Reddit, Telegram – это не объективная реальность, это уже отфильтрованная картина мира с собственными bias. GDELT великолепен, но он отражает то, что попало в новости, а не то, что происходит. Разведка знает разницу, а наша система – не всегда.

Ну и работает это?

Честно – не знаю пока. Система запущена вчера, прогнозы генерируются каждый день, Brier Score копится. Через полгода будет достаточно данных, чтобы ответить на этот вопрос.

Может оказаться, что семь LLM-агентов предсказывают будущее не лучше подбрасывания монетки. Может оказаться, что скептик отсекает слишком много годных прогнозов. А может оказаться, что ансамбль действительно ловит тренды, которые люди пропускают. Brier Score покажет.

А пока – seldonvault.io. Всё бесплатно, API открыт, методология описана. Заходите, смотрите прогнозы, через полгода вместе посчитаем, сколько раз угадали.

Ежедневный дайджест Seldon Vault. Прогнозы обновляются каждые 6 часов. Новые прогнозы каждый день в 08:00 UTC — *Ежедневный дайджест Seldon Vault. Прогнозы обновляются каждые 6 часов.* *Новые прогнозы каждый день в 08:00 UTC*

Я не планирую делать его платным, даже если предсказания будут выполняться на 100% и он сможет предсказать Селдоновские кризисы на 3000 лет вперед.

Просто люблю Азимова и мне всегда хотелось сделать нечто подобное.