Генеральный директор Anthropic Дарио Амодеи опубликовал в четверг статью, в которой подчеркивается, как мало исследователи понимают внутреннюю работу ведущих в мире моделей AI. Чтобы решить эту проблему, Амодеи поставил перед Anthropic амбициозную цель — надежно обнаруживать большинство проблем моделей AI к 2027 году.

Амодей осознает предстоящую задачу. В статье «The Urgency of Interpretability» генеральный директор говорит, что Anthropic совершила первые прорывы в отслеживании того, как модели приходят к своим ответам, — но подчеркивает, что для расшифровки этих систем, которые становятся все более мощными, необходимо гораздо больше исследований.
«Я очень обеспокоен развертыванием таких систем без лучшего управления интерпретируемостью», — написал Амодей в своем эссе.
«Эти системы будут абсолютно центральными для экономики, технологий и национальной безопасности и будут способны на такую большую автономность, что я считаю в принципе неприемлемым для человечества полностью игнорировать то, как они работают».
Anthropic — одна из пионеров в области механистической интерпретируемости, области, которая стремится открыть черный ящик моделей AI и понять, почему они принимают те или иные решения. Несмотря на быстрое улучшение производительности моделей AI в технологической отрасли, мы все еще имеем относительно мало представления о том, как эти системы принимают решения.
Например, OpenAI недавно запустила новые модели рассуждений AI, o3 и o4-mini, которые лучше справляются с некоторыми задачами, но и галлюцинируют больше, чем другие модели. Компания не знает, почему это происходит.
«Когда генеративная система AI что-то делает, например, резюмирует финансовый документ, мы не имеем ни малейшего представления на конкретном или точном уровне, почему она делает тот или иной выбор — почему она выбирает одни слова вместо других или почему она иногда совершает ошибку, хотя обычно она точна», — написал Амодей в своем эссе.
В своем эссе Амодеи отмечает, что соучредитель Anthropic Крис Олах говорит, что модели ИИ «больше выращиваются, чем строятся». Другими словами, исследователи ИИ нашли способы улучшить интеллект моделей AI, но они не совсем понимают, зачем это нужно.
В своем эссе Амодей говорит, что достижение AGI — или, как он это называет, «страны гениев в центре обработки данных» — может быть опасным без понимания того, как работают эти модели. В предыдущем эссе Амодей утверждал, что технологическая индустрия может достичь такого рубежа к 2026 или 2027 году, но считает, что мы еще гораздо дальше от полного понимания этих моделей ИИ.
В долгосрочной перспективе, говорит Амодей, Anthropic хотела бы, по сути, проводить «сканирование мозга» или «МРТ» современных моделей AI. Эти проверки помогут выявить широкий спектр проблем в моделях AI, включая их склонность лгать или искать власть или другие слабости, говорит он. Для этого может потребоваться от пяти до десяти лет, но эти меры будут необходимы для тестирования и развертывания будущих моделей AI Anthropic, добавил он.
Anthropic совершила несколько исследовательских прорывов, которые позволили ей лучше понять, как работают ее модели AI. Например, недавно компания нашла способы отслеживать пути мышления модели AI через то, что компания называет цепями. Anthropic выявила одну цепь, которая помогает моделям AI понимать, какие города США находятся в каких штатах США. Компания нашла только несколько таких цепей, но, по оценкам, в моделях ИИ их миллионы.
Anthropic сама инвестирует в исследования интерпретируемости и недавно сделала свои первые инвестиции в стартап, работающий над интерпретируемостью. Хотя интерпретируемость в основном рассматривается сегодня как область исследований безопасности, Амодей отмечает, что в конечном итоге объяснение того, как модели ИИ приходят к своим ответам, может предоставить коммерческое преимущество.
В своем эссе Амодеи призвал OpenAI и Google DeepMind активизировать свои исследовательские усилия в этой области. Помимо дружеского подталкивания, генеральный директор Anthropic попросил правительства ввести «легкие» правила для поощрения исследований интерпретируемости, такие как требования к компаниям раскрывать свои методы обеспечения безопасности. В своем эссе Амодеи также говорит, что США должны установить экспортный контроль чипов в Китай, чтобы ограничить вероятность неконтролируемой глобальной гонки AI.
Anthropic всегда выделялась среди OpenAI и Google своей ориентацией на безопасность. В то время как другие технологические компании выступали против противоречивого законопроекта Калифорнии о безопасности AI, SB 1047, Anthropic выступила со скромной поддержкой и рекомендациями по законопроекту , который установил бы стандарты отчетности по безопасности для разработчиков передовых моделей AI.
В данном случае Anthropic, по-видимому, стремится к общеотраслевым усилиям по лучшему пониманию моделей AI, а не просто к расширению их возможностей.