Обновить

Психоистория Азимова как техническое задание: как я построил мультиагентный AI-прогнозатор

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели6.4K
Всего голосов 32: ↑32 и ↓0+39
Комментарии32

Комментарии 32

ЗакрепленныеЗакреплённые комментарии

Хабр, канеш, крутое сообщество.
Собрал идеи из комментариев, пока получился такой список:

1. Семантическая память прогнозов
2. Весовое ранжирование агентов
3. Байесовский пересчёт вероятностей
4. Эвристические правила и модификаторы
5. LLM Council — мультимодельные дебаты

На подумать (пока не понимаю до конца как реализовать):

6. Эмоциональные поля СМИ. Самый амбициозный слой. Требует времени на накопление данных, но MVP (50–100 источников, базовый sentiment, z-score аномалии) можно запустить параллельно с другими шагами.

Спасибо, что вы есть!

Апдейт: три уже в проде - весовое ранжирование агентов, семантическая память (RAG по своим же прогнозам) и LLM Council. Четыре кружки кофе, два стакана португальского портвейна, пора спать. Завтра продолжу строить свой карманный Palantir.

Из интересного:
Я на шару написал в UCDP, попросил у них доступ к их данным и они мне дали, какие милаши!

Теперь я занят выгрузкой, сортировкой и структуризацией всех военных конфликтов человечества от 1991 года и до наших дней. (по оценкам - 14 часов)

Следующий этап - прогнать тестово один конфликт через несколько ризонинг моделей ( Opus, GPT, Gemini, Deepseek R1), чтобы понять отличие анализа каждой из моделей.
Глобально нужно сделать комплексный анализ каждого конфликта, понять его первопричины, триггеры, этапы, точку наивысшей эскалации, каскадные последствия, причины завершения и другие замечательные вещи).
Проблема в том, что стоимость того же Opus на весь прогон - 800 баксов, а Deepseek - 80.
Надеюсь, что Deepseek не подведет :D

После этого RAG очень сильно обогатиться. Сейчас у меня всего 16 хорошо структурированных и проанализированных исторических конфликта, а будет около 5000!

Если кто-нибудь может подсказать, где можно найти такую же базу, только с техногенными катастрофами, глобальными потрясениями, пандемиями, политическими кризисами - буду несказанно благодарен

Апдейт:
Выгрузка и сортировка закончены. Впереди тест моделей и обогащение RAG на 5000 военных конфликтов человечества.

Это очень интересно! Особенно система объективной оценки сбытия прогнозов, поскольку раздавать прогнозы толпы желающих, а вот анализировать, насколько они сбылись...

Так же интересно, это на вашем железе работает или используется API (и какие, и интересно было бы сравнить LLM еще и по этому критерию - кто из них делает более сбывающиеся прогнозы, имея одинаковые исходные данные?)

Если бы вы запустили здесь еженедельную выжимку ИТ-новостей, прогнозов и сбываемость предыдущих, то было бы интересно...

Да, объективная оценка, это как раз то, на что я трачу больше всего времени, подкручивая механизмы.
Пока что мне удалось прогнать через исторические события. Ну т.е я брал рандомные новости 2020 года, посты в ТГ и другие источники, прогонял через систему и потом проверял, как они (агенты) оценивают сбывшиеся и не сбывшиеся прогнозы. Результат предсказаний был в целом интересный - 62% среднесрочных (до трех месяцев) и 81% краткосрочных (до 1 месяца) сбылись! При этом старт был хуже - 23% среднесрочных и 52% краткосрочных только сбылись. Но дальнейшие докрутки с помощью автоматической обратной связи подняли этот процент вот до таких значений.
Но это считай синтетика и у ЛЛМ есть уже датасет об этих событиях. даже если ей говоришь, что прям новые новости, она просто видит, что такое уже было и экстраполирует. (ну я так думаю)

Поэтому любопытно посмотреть что будет дальше, в неизвестности на реальных данных в прямом эфире.

Все модели через API
Deepseek, OpenAi, Claude, Gemini.
Пока что нет результатов, только два дня работает. Ближайший прогноз:
Формальное соглашение о прекращении огня в конфликте с Ираном не будет достигнуто в ближайшие 15 дней
истекает через 13 дней. Модели очень уверены - 95%) Вот и узнаем скоро

Исторический прогон тут бесполезен, в процессе обучения модели видели все эти данные в том или ином виде. Мне кажется в вашей схеме нужен LLM Council, когда у вас не 1 аналитик на 1 тему, а несколько одинаковых аналитиков на разных моделях обсуждающие между собой 1 новость, по моим опытам, так они хорошо дополняют и исправляют друг друга. Ну и в отчете обязательно должны быть ссылки на источники, тогда меньше галлюцинаций (в рамках одной и той же модели это не работает, модель "верит" своим бредовым ссылка не проверяя их). Тогда ваш скептик может больше уделить внимание анализу финальных оценок, а не перепроверке методологии и данных.

Совершенно верно! Спасибо за идею, постараюсь реализовать

Приятно написанная статья, спасибо.

Но у вашей системы на самом деле нет обратной связи, поэтому это просто запросы к нейросети с разными промтами.

Для полноценной прогнозной системы нужно использовать математические модели вероятностей, эвристические алгоритмы, семантические базы и ранжирование, и тому подобный инструментарий.

Но вопрос, хочет ли автор так глубоко копать, делая свой аналог Palantir :) может, это и не планируется, тогда извините за душноту:)

В любом случае, сейчас сайт выглядит прикольно:)

это очень полезная обратная связь, спасибо)

Я любопытный, поэтому поковыряюсь в этом непременно. Так или иначе, это очень увлекательный процесс

Мулы портят все прогнозы.

1-я и 2-я мировые войны были вызваны неравномерностью в промышленном и экономическом развитии основных стран, ростом внутренних и внешних противоречий и борьбой за рынки сбыта и источники сырья - всё это можно проследить. А затем выяснить действуют ли эти факторы сейчас и ведут и они также неумолимо к 3-й Мировой войне? Или этого в новых условиях при робото-технической революции можно избежать? Что может выдать ИИ в своём прогнозе?

Вот как раз это я и хочу выяснить - возможно ли сделать такие предсказания на 50-100-1000 лет вперед)

Это элементарно сделать и можно проследить закономерности всей человеческой истории. Когда-то это пытался сделать математик Анатолий Фоменко, который через ЭВМ пропустил все сведения, которые он мог собрать об исторических событиях. Он пропустил этот материал через ЭВМ и машина выдала ему интересный материал на 2 тыс. страниц печатного текста, который он неправильно интерпретировал и себя этим компрометировал, будучи любителем в "истории". Его оппоненты были полные ослы, когда приписывали ему то, что выдала ему машина. Фоменко внёс много фейкового материала, особенно по части древней наидревнейшей истории. Но материал его - даже при этом недостатке - весьма ценный. Я сам когда-то занимался этим вопросом и просчитал будущее страны до 2187, г. и это бросил, потому что меня в это время уже не будет. Паре друзей Фоменко я объяснил тогда, в чём заключались ошибки Фоменко и они приглашали меня к себе в гости и говорили, что предоставят мне 2000 тыс. страниц его материалов, которые выдала ему машина. Но мне было не до этого, а потом Фоменко уже делал "бизнес" со своих измышлений и я отказался от посещения его. История всех крупных стран (реально - "социальных организмов") очень легко просчитывается (а именно - все стадии, которые повторяют себя в разных "социальных организмах") - на уровне десигнатов и денотатов. Сейчас вы бы могли шутя это выполнить, если вам показать принцип и если у вас есть время получать необходимую информацию.

Это элементарно сделать и можно проследить закономерности всей человеческой истории.

Если это "элементарно", что же вы упускаете свой шанс получить Нобелевку? Или тайное знание не тайным быть не может? Фоменко, по вашему мнению, неправильно интерпретировал. Раз вы это утверждаете, значит, знаете, как правильно. Собственно, вы это явно утверждаете и уже

просчитал будущее страны до 2187, г.

А почему не человечества? Как вы так аккуратно выпилили страну и сделали всё только для неё?

и это бросил, потому что меня в это время уже не будет.

Воистину весомый взрослый аргумент. Не интересуюсь вашим возрастом, верю на слово. Социальные организмы пока что будут пребывать в полной неопределённости. Но верю, их время придёт.

математик Анатолий Фоменко, который через ЭВМ пропустил все сведения, которые он мог собрать об исторических событиях.

Расскажите, что значит "пропустил через ЭВМ сведения"? Поделитесь, как айтишник айтишнику.

1-я и 2-я мировые войны были вызваны

1 мировая - делили наследство Османской империи и ничего другого.

2 В2В - наверное идеология наложенная на рефлексию.

Почему войны начинаются? Маньяк во главе говорит всем, что мы плохо живём потому, что соседи у нас самое ценное забрали и нас не уважают. Сейчас совсем немного повоюем и у нас всё наладится - до обеда войну закончим.

А войну только начни, так за следующие сотни лет не закончишь.

Идея шикарная и перспективная, прям класс, буду следить. Но на карте проекта сейчас только три региона - Иран, США, Китай. А нас всех, понятное дело, интересует другой конфликт. Скажите, он отсутствует в проекте из-за того, что не те источники новостей подключены, или потому что о нем перестали писать после Ирана?

Я вот сам пока не могу понять :D

Больше всего источников там как раз из интересного нам региона - 30 ТГ каналов только от всех, кого я только нашел. Новости (обоих лагерей). Очень много входящей информации, но прогнозов почти нет. А те, что есть, не проходят фильтр уверенности. За два дня прошел только один прогноз, но был зарублен скептиком как фантастика (не буду писать, а то на срок наговорю себе)

Ну, и, возможно, поскольку сво движется как-то вяло, то и прогнозы вялые, в вероятность 45-55% попадают.

Кстати, проект логи раскрывает, где можно увидеть проанализированные новости / отсеянные прогнозы / причину отсеивания?

Такого пока нет, но я сделаю обязательно. Сами логи со всей инфой есть, надо просто их красиво вывести куда-нибудь

А что там прогнозировать, там уже сколько месяцев ничего особо нет. Реалистично там нечего предсказывать, кроме как сколько кому за сколько км вероятно отойдет. Все остальное в основном шум

На текущем этапе Россия готова закончить СВО (не войну) если Украина отдаст часть территории, но Европа готова финансировать боевые действия еще пару лет, так что единственное неизвестное - это будет ли Трамп продавливать сдачу или плюнет застряв в Иране. Хотите я тоже сделаю "предсказание" на ближайший срок? В апреле-мае Китай начнет свое СВО в Тайване, с вероятностью 45-55% :)

с вероятностью 45-55%

Хм, блондинка и динозавр ;)

Могу дать прогноз с точностью 90% Китай на Тайвань не полезет в ближайший год.

Система запущена вчера, прогнозы генерируются каждый день, Brier Score копится. Через полгода будет достаточно данных, чтобы ответить на этот вопрос.

А почему не сделать бэктест на последние 2-3 месяца как это делается в трейдинге для оценки эффективности стратегии?

Большинство моделей обучены на более поздних данных чем 2-3 месяца назад и кажется это должно позволить сделать бэктест. Данные истории в каналах есть, произошедшее тоже есть, можно сразу оценить точность прогнозов и использовать результаты бэктеста для оптимизации инструкций моделям.

Я сделал, в начале были интересные результаты. Сначала на голом тесте процент краткосрочных успешных был всего 52%. Однако через несколько прогонов и обратной связи, следующие прогнозы уже получились больше 80% успешных.

Но я скептически отношусь к этому результату, потому что мне кажется, что их датасет уже включает правильный ответ и они его "знают", поэтому очень хочу именно форвард тест.

Кстати трейдинговый я тож как то сделал и он сейчас тоже в форвард тесте третий месяц. Пока плюсует с винрейтом 61%. Когда потестирую на реальных деньгах пару месяцев, напишу пост про это

Я думал про такой проект, но моя идея была другой. Это должно быть что-то вроде Медиалогии на стероидах.

Смысл в том, что анализируются не события - потому что это то, что уже произошло, а публикации в СМИ, c учетом описания про кого публикация и какая эмоция в публикации.

То есть СВО предшествует нарастающий вал публикаций об Украине с эмоциями ненависть.

Ведь публикации могут быть как отражающими мнение, так и результатом PR подготовки к чему-то, но в любом случае они отражают либо существующие эмоции, либо навязывают эмоции, выгодные элитам.

При этом еще можно квалифицировать объекты публикаций - как страны, так и людей и категории - вроде "недвижимость", "золото", а также строить веса СМИ.

Иными словами - анализировать не события, а эмоциональные поля в разных государствах, и искать события следующие из полей.

Но под такой проект надо уже иметь собственный кластер и вообще это реальная диссертация, причем докторская )

Да, эту идею я заложил в один из аналитиков, хочу потестировать, но пока не понимаю до конца, как мне понять правильно или нет

анализировать не события, а эмоциональные поля в разных государствах

Что-то такое я делал - https://moscowi.ru/showPoliticRusNewsPage по экономике, политике, технологиям. Да, такое работает, по крайней мере последние конфликты модель показала через минуты после начала.

Сэлдон работал с галактическими масштабами, в рамках одной планеты черные лебеди носятся стаями, слишком много непредсказуемого. Тот же упомянутый вами COVID.

Хабр, канеш, крутое сообщество.
Собрал идеи из комментариев, пока получился такой список:

1. Семантическая память прогнозов
2. Весовое ранжирование агентов
3. Байесовский пересчёт вероятностей
4. Эвристические правила и модификаторы
5. LLM Council — мультимодельные дебаты

На подумать (пока не понимаю до конца как реализовать):

6. Эмоциональные поля СМИ. Самый амбициозный слой. Требует времени на накопление данных, но MVP (50–100 источников, базовый sentiment, z-score аномалии) можно запустить параллельно с другими шагами.

Спасибо, что вы есть!

Апдейт: три уже в проде - весовое ранжирование агентов, семантическая память (RAG по своим же прогнозам) и LLM Council. Четыре кружки кофе, два стакана португальского портвейна, пора спать. Завтра продолжу строить свой карманный Palantir.

Немного из обидного:
Мне очень хотелось присобачить к анализу Google Gemini 3.1, потому что он выдает интересные прогнозы, у него сильный ризонинг, он относительно недорог и самый быстрый из всех. Но по какой-то неведомой причине Google перебанил все мои прокси. Видимо Сергей Брин и его кореш считают, что это наиболее эффективный способ остановить процесс, над которым я не властен.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации