Привет Хабр!
Это научный дайджест и сегодня на нашем столе:

ИИ генерирует устройства в области оптики, и они выходят даже лучше чем то что делают ручками (статья)
Учёные представили UAV-CodeAgents — систему планирования миссий БПЛА, где дроны управляются через LLM и VLM (статья)
LLM, взаимодействуя между собой, начинают вести себя… как общества людей (статья)
Разработка оптических устройств с помощью ИИ
Технология, представленная в статье [Landgraf, J., Peano, A., & Marquardt, F. (2025). Automated discovery of coupled-mode setups.], основана на автоматизированном поиске оптимальных конфигураций микроскопических систем с помощью алгоритма AUTOSCATTER. Этот алгоритм использует графовое представление устройств, где узлы соответствуют различным модулям (например, резонаторам, волноводам), а рёбра — типам связей и взаимодействий между ними:

Используя методы поиска по графу и структурированному перебору, AUTOSCATTER исследует все возможные конфигурации модулей и связей, исключая некорректные невозможные связи. На каждом шаге алгоритм оценивает соответствие текущей конфигурации заданным функциям и ограничениям, что позволяет быстро отбрасывать непригодные варианты:

В конце работы алгоритм формирует список релевантных конфигураций, среди которых исследователь может выбрать оптимальный по заданным критериям. Также предусмотрена возможность адаптации найденных решений под конкретные аппаратные платформы или условия, что делает автоматизированный подход универсальным и расширяемым.
ИИ а в особенности глубокие генеративные модели такие как GAN, VAE уже давно применяют в решении инженерных задач [Regenwetter, L., Heyrani Nobari, A., & Ahmed, F. (2022). Deep Generative Models in Engineering Design: A Review]:

GAN-ы чаще всего применяются для генерации изображений и вокселей оптимизированных топологий и микроструктур, а также для супер-разрешения (up-scaling); VAE (и cVAE) решают задачи снижения размерности; методы глубокого обучения с подкреплением формулируют проектирование как последовательный поиск, позволяя синтезировать механизмы, трапы, VR-сцены и аэродинамические симуляции под заданные функциональные или эстетические критерии без большого обучающего датасета; графовые модели (graph GAN/VAE) обеспечивают жёсткое соблюдение структурных, технологических и сборочных ограничений при генерации сложных сборочных единиц, как и в задаче сборки оптических устройств, что описано ранее.
Такой подход к проектированию и разработке может кратно ускорить процесс и просто сделать его более удобным и автоматизированным, представляю как будет удобно создавать модели и чертежи в AutoCAD и КОМПАС-3D и проводить тесты созданных моделей.
UAV-CodeAgents — систему планирования миссий БПЛА с LLM и VLM
UAV-CodeAgents — модульная мультиагентная система для самостоятельной генерации маршрутов БПЛА по текстовым заданиям и спутниковым снимкам. Ключевым новшеством является применение ReAct-парадигмы (Reason+Act) для итеративного объединения языкового и визуально-языкового вывода, а также механизма «pixel-pointing» для точной локализации целей на карте [Sautenkov, O., Yaqoot, Y., Mustafa, M. A., Batool, F., Sam, J., Lykov, A., Wen, C.-Y., & Tsetserukou, D. (2025). UAV-CodeAgents: Scalable UAV mission planning via multi-agent ReAct and vision-language reasoning].

Система строится на двух типах агентов:
Airspace Management Agent (AMA) — «центр мышления», который используя LLM/VLM разбивает команду пользователя на подзадачи, анализирует спутниковое изображение, вычленяет координаты целевых объектов и генерирует приоритетный список waypoints;
UAV Agent — «исполнитель», который в симуляции или на реальных дронах следует этим точкам, делает съёмку, детектирует объекты (например, очаги возгорания), возвращает результаты и при необходимости инициирует пересчёт маршрута.
Межагентное взаимодействие организовано через smolagents (легковесный message-passing). Реактивная петля ReAct гарантирует непрерывную адаптацию плана во время миссии, а дообученный на 9 000 снимках Qwen2.5VL-7B обеспечивает надёжную привязку объектов к пикселям изображения.
Система уже может определять четыре типа пожаров (городские, промышленные, лесные, смешанные), используя фразу-запрос «I’ve heard there are fires in our area». В 2D-симуляторе по заданным waypoints интерполируются траектории, из которых вырезаются фреймы, наглядно демонстрирующие ход полёта:

В экспериментах основные LLM и VLM-модули (Qwen2.5-72B для AMA/UAV Agent, Qwen2.5VL-32B для визуальных задач) тестировались при температурах сэмплинга 0.5 и 0.7.
Метрика Time-to-Detection (TTD) показала, что при T=0.5 система быстрее (96.96 с) и надёжнее (28/30 успешных кейсов) по сравнению с более «креативной» настройкой T=0.7 (105.29 с, 26/30).
Анализ pixel-pointing на 13 классах объектов (дороги, пруды, фермы, здания и т.д.) продемонстрировал среднее отклонение от истинных координат в диапазоне 8–77 пикселов при хорошем покрытии, что подтверждает эффективность дообучения VLM.

У LLM есть социальные нормы?
Свежая статья в Science Advances [Ashery, A., Aiello, L. M., & Baronchelli, A. (2025). Emergent social conventions and collective bias in LLM populations.] показала, что LLM, взаимодействуя между собой, начинают вести себя, как общества людей. Они провели эксперимент, в котором агенты взаимодействуют парами, пытаясь достичь согласия по использованию слов или символов. Каждая пара моделей выбирала букву из 10 представленных, и получала награду, если буквы совпадали. С каждой новой случайной парой — всё больше совпадений.

В рамках этого подхода агенты основывают свои действия на локальных правилах и памяти прошлых взаимодействий, что позволяет исследовать возникновение и стабильность социальных конвенций на уровне массы агентов.
Полученные данные показывают, что независимо от конкретной модели LLM, в группах происходит быстрое возникновение общей конвенции, достигающее стабильности примерно за 15 раундов. Этот процесс схож по динамике с поведением у людей и подтверждает возможность формирования универсальных правил в сообществах ИИ без необходимости внешнего вмешательства.
Авторы показывают, что даже при отсутствии начальных предубеждений у агентов, коллективные взаимодействия могут их усиливать или подавлять. Более того, устойчивое меньшинство способно изменить или навязать новую норму всему обществу LLM.
В заключении
Мультизадачность и гибкость ИИ и связанных с ним алгоритмов поражает, всё чаще всплывают способы применения и автоматизации процессов которые раньше считались возможными только при помощи человеческих рук и мыслей. Больше всего интересно в каких ещё областях смогут применить ИИ. Как показывает последняя нами рассмотренная статья в скором времени мы сможем симулировать целые взаимодействия человеческих обществ, просто задай характерные мнения групп и индивидуальные предпочтения агентов и будет известна реакция на мемас в каком нибудь твиттере или ТГ.
Кстати о ТГ, ещё больше интересных статей на тему ИИ, физики и астрономии в моём Telegram-канале: Сигма