ИИ-бенчмарки больше не работают. И вот что с этим делать / Хабр

Синтетические тесты в вакууме не показывают реальной пользы нейросетей. Индустрии пора переходить на метрики, где во главе угла стоят люди и жизненный контекст

От переводчика: перед тем как нырнуть в текст — короткая выжимка. О чем эта статья и почему это важно:

Синтетические бенчмарки не работают. Классические тесты оценивают ИИ в стерильном вакууме на изолированных задачах (где есть только «правильно» и «неправильно»). Это генерирует красивые рейтинги, но не отражает реальной пользы.
Высокие оценки не гарантируют успеха. На практике модели-отличники часто замедляют работу и отправляются на «кладбище ИИ», потому что не могут встроиться в хаотичные человеческие воркфлоу (например, алгоритмы часто тормозили работу врачебных консилиумов, несмотря на свою скорость).
Новый стандарт — HAIC. Автор (исследователь из Стэнфорда и UCL) предлагает отказаться от разовых тестов и перейти к оценке связки «человек + ИИ» в естественной среде обитания бизнеса и на длинных дистанциях.
Смена метрик. Во главу угла должны встать системные эффекты: как нейросеть влияет на командную координацию, коллективное принятие решений и насколько легко живым людям отлавливать ее ошибки.

Десятилетиями искусственный интеллект оценивали по одному критерию: превосходит ли машина человека. Шахматы, высшая математика, написание кода или эссе — эффективность ИИ-моделей и приложений всегда измерялась в сравнении с одиночным специалистом, решающим ту же самую задачу.

Такая постановка вопроса очень соблазнительна. Сравнивать ИИ и человека на изолированных задачках, где есть четкое «правильно» и «неправильно», легко: это можно стандартизировать, сопоставить и оптимизировать. Это генерирует красивые рейтинги и громкие заголовки.

Но есть одна проблема: в реальной жизни ИИ почти никогда не используется так, как его тестят в бенчмарках. Да, исследователи и индустрия начали понемногу отходить от статических тестов в сторону более динамичных методов оценки. Однако эти инновации решают проблему лишь наполовину. Почему? Потому что они по-прежнему оценивают эффективность нейросетей в отрыве от человеческих команд и рабочих процессов — той самой среды, где ИИ предстоит работать на самом деле.

Пока ИИ тестируют на точечных задачах в вакууме, его реальное применение происходит в хаотичной, сложной среде, где он взаимодействует сразу с несколькими людьми. И его реальная польза (или ее отсутствие) становится очевидной только на длинной дистанции. Из-за этого рассинхрона мы неправильно понимаем истинные возможности ИИ, упускаем из виду системные риски и неверно оцениваем его экономические и социальные последствия.

Чтобы это исправить, пора отказаться от узких подходов. Нам нужны бенчмарки, которые оценивают работу ИИ-систем на длинных временных горизонтах — внутри реальных команд, воркфлоу и организаций. С 2022 года я изучал, как нейросети внедряются на практике: в малом бизнесе, здравоохранении, гуманитарных и некоммерческих проектах, а также в вузах Великобритании, США и Азии (не говоря уже о передовых ИИ-хабах Лондона и Кремниевой долины). И теперь я предлагаю принципиально иной подход. Я называю его HAIC-бенчмарки (Human–AI, Context-Specific Evaluation) — контекстно-специфичная оценка взаимодействия человека и ИИ.

Когда ИИ не справляется

Для правительств и бизнеса результаты ИИ-бенчмарков выглядят куда объективнее, чем обещания вендоров. Они играют ключевую роль в решении: «достаточно ли хороша» модель для реального внедрения. Представьте ИИ-модель, которая выбивает космические баллы в самых передовых тестах: 98% точности, невероятная скорость, впечатляющие ответы. Опираясь на эти цифры, организации решают внедрить технологию, вливая солидные деньги и технические ресурсы в ее покупку и интеграцию.

Но как только доходит до дела, пропасть между бенчмарками и реальностью становится очевидной. Взять, к примеру, целый пласт одобренных FDA (Управлением по санитарному надзору за качеством пищевых продуктов и медикаментов США) медицинских ИИ-моделей, которые читают снимки быстрее и точнее опытных рентгенологов. Я наблюдал, как врачи используют топовые ИИ-приложения в больницах — от самого сердца Калифорнии до окраин Лондона. И раз за разом на то, чтобы сопоставить выводы ИИ со специфическими стандартами отчетности конкретной больницы и национальными регуляторными требованиями, уходило дополнительное время. Инструмент, который в вакууме казался бустером продуктивности, на практике создавал задержки.

Вскоре стало ясно: тесты, по которым оценивают медицинский ИИ, вообще не учитывают, как на самом деле принимаются врачебные решения. Больницы опираются на многопрофильные команды — рентгенологов, онкологов, физиков, медсестер, — которые обсуждают пациентов сообща. План лечения редко основывается на одном статичном решении; он меняется по мере поступления новых данных в течение дней или недель. Решения рождаются в конструктивных спорах и поиске компромиссов между профстандартами, пожеланиями пациента и главной целью — долгосрочным здоровьем человека. Неудивительно, что даже модели с высочайшими оценками буксуют, когда сталкиваются со сложными коллаборативными процессами реальной медицины.

Та же картина вырисовывается в моих исследованиях и в других сферах: попадая в реальную рабочую среду, даже ИИ-отличники не выдают обещанного результата.

Когда высокие баллы бенчмарков не конвертируются в реальную пользу, даже самый расхваленный ИИ быстро отправляется туда, что я называю «кладбищем ИИ» (AI graveyard). Издержки колоссальны: время, силы и деньги оказываются потраченными впустую. Со временем такой опыт подрывает веру организаций в нейросети, а в таких критических сферах, как медицина — уничтожает и более широкое общественное доверие к технологиям.

Когда нынешние бенчмарки дают лишь частичный и потенциально ложный сигнал о готовности ИИ к реальной работе, это создает слепые зоны для регуляторов: надзор строится на метриках, оторванных от реальности. Это также заставляет бизнес и государство нести все риски тестирования ИИ в чувствительных реальных условиях, зачастую при ограниченных ресурсах и поддержке.

Как создать тесты, которые работают

Чтобы сократить разрыв между бенчмарками и реальной жизнью, мы должны смотреть на фактические условия, в которых будут работать модели. Ключевые вопросы звучат так: способен ли ИИ стать продуктивным участником человеческой команды? И может ли он генерировать устойчивую, коллективную ценность?

В ходе своих исследований внедрения ИИ в разных отраслях я увидел, что некоторые организации уже движутся — целенаправленно и экспериментально — в сторону HAIC-бенчмарков, за которые я выступаю.

HAIC-бенчмарки меняют текущий подход к тестированию по четырем направлениям:

Смена единицы анализа: от оценки индивидуальной работы над одной задачей — к оценке работы всей команды и воркфлоу.
Расширение временного горизонта: от разовых тестов формата «правильно/неправильно» — к долгосрочным последствиям (импакту).
Расширение метрик успеха: от голой точности и скорости — к организационным результатам, качеству координации и возможности обнаружить ошибку.
Оценка системных эффектов: от изолированных результатов — к системным последствиям «вверх и вниз по течению» (как это влияет на смежные процессы).

В организациях, где этот подход уже начал применяться, первым шагом всегда становится именно смена единицы анализа.

Например, в одной из британских больничных сетей в 2021–2024 годах вопрос расширили: вместо того чтобы спрашивать «повышает ли ИИ точность диагнозов?», там задались вопросом «как присутствие ИИ в многопрофильных командах больницы влияет не только на точность, но и на координацию и обсуждения?». Больница специально оценивала качество взаимодействия в человеческих командах с ИИ и без него. Стейкхолдеры (как внутри, так и вне клиники) определили новые метрики: как ИИ влияет на коллективное мышление, подсвечивает ли он упущенные из виду детали, усиливает или ослабляет координацию, и меняет ли он устоявшиеся практики соблюдения комплаенса и управления рисками.

Этот сдвиг носит фундаментальный характер. Он критически важен в сферах с высокими ставками, где системные эффекты значат куда больше, чем точечная безошибочность. Это важно и для экономики в целом. Такой подход поможет охладить завышенные ожидания от тотального роста продуктивности, которые сейчас строятся исключительно на вере в то, что ИИ прокачает выполнение индивидуальных задач.

Как только этот фундамент заложен, HAIC-бенчмаркинг может подключить фактор времени.

Сегодняшние бенчмарки похожи на школьные экзамены: это разовые, стандартизированные тесты на правильность. Но реальная профессиональная компетентность оценивается иначе. Младших врачей и юристов оценивают непрерывно, прямо в реальных рабочих процессах, под присмотром наставников, с постоянной обратной связью и четкой структурой ответственности. Эффективность измеряется на дистанции и в конкретном контексте, потому что компетентность — понятие относительное. Если ИИ-системы создаются для работы бок о бок с профессионалами, их импакт нужно оценивать в динамике (лонгтитюдно), глядя на то, как их польза раскрывается в ходе множества повторяющихся взаимодействий.

Я видела, как этот аспект HAIC применялся в одном из моих кейсов в гуманитарном секторе. В течение 18 месяцев ИИ-систему тестировали в реальных рабочих процессах, обращая особое внимание на то, насколько заметны ее ошибки — то есть, как легко человеческая команда могла их отследить и исправить. Этот долгосрочный «трекинг обнаружения ошибок» позволил организациям разработать и протестировать специфические защитные барьеры (guardrails). Это помогло укрепить доверие к системе, даже понимая, что случайные промахи ИИ неизбежны.

Увеличенный горизонт планирования также делает видимыми системные последствия, которые короткие бенчмарки просто не замечают. ИИ-приложение может превзойти отдельного врача в узкой диагностической задаче, но при этом никак не улучшить принятие решений на уровне консилиума. Хуже того, оно может спровоцировать системные искажения: например, заставить команду слишком рано зацепиться за правдоподобный, но неполный ответ (эффект якоря), увеличить когнитивную нагрузку на людей или создать эффект домино из неэффективности на смежных этапах работы, что полностью перекроет любой выигрыш в скорости от самого ИИ. Эти каскадные эффекты — часто невидимые для нынешних тестов — имеют решающее значение для понимания реального импакта.

Надо признать: подход HAIC сделает бенчмаркинг более сложным, ресурсоемким и трудно поддающимся стандартизации. Но если мы продолжим тестировать ИИ в стерильных условиях, оторванных от реального мира, мы так и не поймем, на что он действительно способен, а на что — нет. Чтобы ответственно внедрять нейросети в реальную жизнь, мы должны измерять то, что имеет реальный вес: не то, что модель может сделать в одиночку, а то, какие возможности она открывает (или разрушает), когда с ней начинают работать живые люди и команды.

Анжела Аристиду — профессор Университетского колледжа Лондона (UCL), научный сотрудник Стэнфордской лаборатории цифровой экономики и Стэнфордского института человекоцентричного ИИ (HAI). Выступает, пишет и консультирует по вопросам реального внедрения инструментов искусственного интеллекта на благо общества.