Представьте автономную ИИ-систему, которая управляет городской энергосетью: она минимизирует издержки, держит напряжение стабильным и выглядит идеально по всем техническим метрикам. А потом выясняется, что в часы пикового спроса она систематически приоритизирует богатые районы, оставляя малообеспеченные кварталы более уязвимыми к отключениям. Именно такие скрытые провалы ищет SEED-SET — автоматизированный фреймворк, который инженеры MIT представили 2 апреля. В экспериментах он сгенерировал более чем вдвое больше значимых тест-кейсов, чем базовые методы, за то же время — и нашел сценарии, которые другие подходы попросту пропускали. Работу представят на конференции ICLR.

Проблема, с которой столкнулась команда, структурная: большинство фреймворков тестирования ИИ опираются на заранее собранные размеченные данные, которых для субъективных этических критериев почти не существует. Регулирующие документы устаревают быстрее, чем успевают обновляться, а сами этические приоритеты у разных групп пользователей различаются. Сельская община и дата-центр, подключенные к одной и той же электросети, могут одинаково хотеть дешевой и надежной энергии, но их представления о справедливом распределении нагрузки будут расходиться.

SEED-SET (Scalable Experimental Design for System-level Ethical Testing) работает в два этапа. Сначала объективная модель оценивает систему по измеримым метрикам — цене, надежности, стабильности напряжения. Затем поверх достраивается субъективная модель, которая учитывает мнения стейкхолдеров. Вместо уставшего человека-оценщика этическое суждение выносит LLM: разработчики кодируют предпочтения каждой группы пользователей в текстовый промпт, и модель сравнивает два сценария, выбирая более приемлемый. "После сотен или тысяч сценариев человек устает и начинает оценивать непоследовательно, поэтому мы используем стратегию на базе LLM", — объясняет автор работы Анджали Парашар, аспирантка кафедры машиностроения MIT.

"Мы можем встроить в ИИ-системы много правил и ограничений, но такие меры защищают только от того, что мы можем вообразить. Недостаточно сказать: "Давайте просто используем ИИ, потому что его обучили на этих данных". Мы хотели разработать систематический способ находить неизвестные неизвестные и предсказывать их до того, как случится что-то плохое", — говорит старший автор работы Чучу Фань, доцент MIT AeroAstro и principal investigator лаборатории LIDS.

Команда протестировала SEED-SET на трех реалистичных симуляциях: ИИ-энергосеть, беспилотники для спасательных операций и система городской маршрутизации трафика. В кейсе с энергосетью исследователи задали двух стейкхолдеров с разными приоритетами — одному важнее надежность питания критичных потребителей, другому низкая стоимость электроэнергии — и фреймворк действительно генерировал для них разные наборы тест-кейсов, подсвечивая оптимумы, которые устроили бы каждую из сторон. По сравнению с базовыми методами SEED-SET выдавал до двух раз больше оптимальных тест-кейсов при том же бюджете и давал 1,25-кратное улучшение покрытия многомерного пространства поиска.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.