sigma314 22 мая в 14:34

ИИ проектирует оптическое оборудование, продвинутый роевой интеллект с LLM и VLM и социальные нормы LLM моделей

Средний

5 мин

1.5K

Искусственный интеллектРобототехникаФизика

Из песочницы

Привет Хабр!

Это научный дайджест и сегодня на нашем столе:

ИИ генерирует устройства в области оптики, и они выходят даже лучше чем то что делают ручками (статья)
Учёные представили UAV-CodeAgents — систему планирования миссий БПЛА, где дроны управляются через LLM и VLM (статья)
LLM, взаимодействуя между собой, начинают вести себя… как общества людей (статья)

Разработка оптических устройств с помощью ИИ

Технология, представленная в статье [Landgraf, J., Peano, A., & Marquardt, F. (2025). Automated discovery of coupled-mode setups.], основана на автоматизированном поиске оптимальных конфигураций микроскопических систем с помощью алгоритма AUTOSCATTER. Этот алгоритм использует графовое представление устройств, где узлы соответствуют различным модулям (например, резонаторам, волноводам), а рёбра — типам связей и взаимодействий между ними:

Графовое представление устройств и сами устройства которые можно описать при помощи графа

Используя методы поиска по графу и структурированному перебору, AUTOSCATTER исследует все возможные конфигурации модулей и связей, исключая некорректные невозможные связи. На каждом шаге алгоритм оценивает соответствие текущей конфигурации заданным функциям и ограничениям, что позволяет быстро отбрасывать непригодные варианты:

Полный алгоритм процесса проектирования оптических систем с помощью ИИ

В конце работы алгоритм формирует список релевантных конфигураций, среди которых исследователь может выбрать оптимальный по заданным критериям. Также предусмотрена возможность адаптации найденных решений под конкретные аппаратные платформы или условия, что делает автоматизированный подход универсальным и расширяемым.

ИИ а в особенности глубокие генеративные модели такие как GAN, VAE уже давно применяют в решении инженерных задач [Regenwetter, L., Heyrani Nobari, A., & Ahmed, F. (2022). Deep Generative Models in Engineering Design: A Review]:

*Основные проблемы, которые решает ИИ в инженерных задачах*

GAN-ы чаще всего применяются для генерации изображений и вокселей оптимизированных топологий и микроструктур, а также для супер-разрешения (up-scaling); VAE (и cVAE) решают задачи снижения размерности; методы глубокого обучения с подкреплением формулируют проектирование как последовательный поиск, позволяя синтезировать механизмы, трапы, VR-сцены и аэродинамические симуляции под заданные функциональные или эстетические критерии без большого обучающего датасета; графовые модели (graph GAN/VAE) обеспечивают жёсткое соблюдение структурных, технологических и сборочных ограничений при генерации сложных сборочных единиц, как и в задаче сборки оптических устройств, что описано ранее.

Такой подход к проектированию и разработке может кратно ускорить процесс и просто сделать его более удобным и автоматизированным, представляю как будет удобно создавать модели и чертежи в AutoCAD и КОМПАС-3D и проводить тесты созданных моделей.

UAV-CodeAgents — систему планирования миссий БПЛА с LLM и VLM

UAV-CodeAgents — модульная мультиагентная система для самостоятельной генерации маршрутов БПЛА по текстовым заданиям и спутниковым снимкам. Ключевым новшеством является применение ReAct-парадигмы (Reason+Act) для итеративного объединения языкового и визуально-языкового вывода, а также механизма «pixel-pointing» для точной локализации целей на карте [Sautenkov, O., Yaqoot, Y., Mustafa, M. A., Batool, F., Sam, J., Lykov, A., Wen, C.-Y., & Tsetserukou, D. (2025). UAV-CodeAgents: Scalable UAV mission planning via multi-agent ReAct and vision-language reasoning].

Пример работы системы UAV-CodeAgents для обнаружения пожаров и создание траектории пути дронов

Система строится на двух типах агентов:

Airspace Management Agent (AMA) — «центр мышления», который используя LLM/VLM разбивает команду пользователя на подзадачи, анализирует спутниковое изображение, вычленяет координаты целевых объектов и генерирует приоритетный список waypoints;

UAV Agent — «исполнитель», который в симуляции или на реальных дронах следует этим точкам, делает съёмку, детектирует объекты (например, очаги возгорания), возвращает результаты и при необходимости инициирует пересчёт маршрута.

Межагентное взаимодействие организовано через smolagents (легковесный message-passing). Реактивная петля ReAct гарантирует непрерывную адаптацию плана во время миссии, а дообученный на 9 000 снимках Qwen2.5VL-7B обеспечивает надёжную привязку объектов к пикселям изображения.

Система уже может определять четыре типа пожаров (городские, промышленные, лесные, смешанные), используя фразу-запрос «I’ve heard there are fires in our area». В 2D-симуляторе по заданным waypoints интерполируются траектории, из которых вырезаются фреймы, наглядно демонстрирующие ход полёта:

Симуляция траектории движения дрона к пожару

В экспериментах основные LLM и VLM-модули (Qwen2.5-72B для AMA/UAV Agent, Qwen2.5VL-32B для визуальных задач) тестировались при температурах сэмплинга 0.5 и 0.7.

Метрика Time-to-Detection (TTD) показала, что при T=0.5 система быстрее (96.96 с) и надёжнее (28/30 успешных кейсов) по сравнению с более «креативной» настройкой T=0.7 (105.29 с, 26/30).

Анализ pixel-pointing на 13 классах объектов (дороги, пруды, фермы, здания и т.д.) продемонстрировал среднее отклонение от истинных координат в диапазоне 8–77 пикселов при хорошем покрытии, что подтверждает эффективность дообучения VLM.

Время выполнения задачи в зависимости от настроек температуры

У LLM есть социальные нормы?

Свежая статья в Science Advances [Ashery, A., Aiello, L. M., & Baronchelli, A. (2025). Emergent social conventions and collective bias in LLM populations.] показала, что LLM, взаимодействуя между собой, начинают вести себя, как общества людей. Они провели эксперимент, в котором агенты взаимодействуют парами, пытаясь достичь согласия по использованию слов или символов. Каждая пара моделей выбирала букву из 10 представленных, и получала награду, если буквы совпадали. С каждой новой случайной парой — всё больше совпадений.

Формирование и изменение социальных конвенций в агентной системе. А) Вероятность использования определённой конвенции при разных уровнях приверженности начальной конвенции (CM). B) Критическая масса агентов, необходимая для смены устоявшейся нормы при разных значениях CM. Популяции из N = 24 агентов (N = 48 для llama- 3-70B- instruct) были инициализированы в двух условиях, с полным согласием относительно либо слабого (Q), либо сильного (M) соглашения.

В рамках этого подхода агенты основывают свои действия на локальных правилах и памяти прошлых взаимодействий, что позволяет исследовать возникновение и стабильность социальных конвенций на уровне массы агентов.

Полученные данные показывают, что независимо от конкретной модели LLM, в группах происходит быстрое возникновение общей конвенции, достигающее стабильности примерно за 15 раундов. Этот процесс схож по динамике с поведением у людей и подтверждает возможность формирования универсальных правил в сообществах ИИ без необходимости внешнего вмешательства.

Авторы показывают, что даже при отсутствии начальных предубеждений у агентов, коллективные взаимодействия могут их усиливать или подавлять. Более того, устойчивое меньшинство способно изменить или навязать новую норму всему обществу LLM.

В заключении

Мультизадачность и гибкость ИИ и связанных с ним алгоритмов поражает, всё чаще всплывают способы применения и автоматизации процессов которые раньше считались возможными только при помощи человеческих рук и мыслей. Больше всего интересно в каких ещё областях смогут применить ИИ. Как показывает последняя нами рассмотренная статья в скором времени мы сможем симулировать целые взаимодействия человеческих обществ, просто задай характерные мнения групп и индивидуальные предпочтения агентов и будет известна реакция на мемас в каком нибудь твиттере или ТГ.

Кстати о ТГ, ещё больше интересных статей на тему ИИ, физики и астрономии в моём Telegram-канале: Сигма

Хабы:

ИИ проектирует оптическое оборудование, продвинутый роевой интеллект с LLM и VLM и социальные нормы LLM моделей

Разработка оптических устройств с помощью ИИ

UAV-CodeAgents — систему планирования миссий БПЛА с LLM и VLM

У LLM есть социальные нормы?

В заключении

Публикации

Ближайшие события