Хабр, привет! Я Миша Степнов, руководитель центра R&D Big Data в МТС. Сегодня немного страшилок: обсудим, как ИИ может навредить людям.
Общий искусственный интеллект (Artificial General Intelligence, AGI) способен выполнять любые интеллектуальные задачи на уровне человека и выше. В отличие от специализированных моделей, AGI может обучаться, адаптироваться и применять свои «знания» в любых сферах — от музыки до управления промышленными системами. Исследователи Google DeepMind в своем докладе предупреждают: AGI, вероятно, появится уже к 2030 году. Ученые описывают четыре потенциально опасных сценария развития для человечества и предлагают меры, которые помогут снизить риски и обеспечить безопасное внедрение таких систем.

Подробнее об AGI и докладе
AGI определяется как система, способная выполнять почти любые задачи, доступные и человеку, включая творческие, аналитические и социальные. В отличие от современных форм ИИ, таких как большие языковые модели (LLM) с определенным набором функций, AGI будет обладать универсальными способностями. Так, AGI сможет не только отвечать на вопросы, как тот же ChatGPT или GROK, но и разрабатывать новые научные теории, управлять сложными системами или даже вести переговоры.

Сотрудники DeepMind занимаются разработкой ИИ, включая изучение возможностей AGI. По словам ученых, новая форма искусственного интеллекта может быть опасной для человечества. С одной стороны, появление AGI, вероятно, положительно отразится на нашем обществе, экономике и политике.
С другой — AGI может стать источником серьезных угроз. И это не перспектива далекого будущего. Авторы прогнозируют, что AGI может быть создан к 2030 году, основываясь на текущих темпах развития ИИ. Например, за последние годы модели, такие как GPT от OpenAI или Gemini от Google, демонстрируют значительный прогресс в обработке естественного языка, решении задач и генерации контента.
Так что вскоре, вероятно, произойдет качественный скачок и появится новая форма ИИ. И здесь начинаются проблемы.
Четыре категории рисков AGI
DeepMind выделяет четыре типа рисков, связанных с AGI: злоупотребление (misuse), несоответствие целям (misalignment), ошибки (mistakes) и структурные риски (structural risks). Особое внимание в докладе уделяется первым двум категориям.
Злоупотребление (Misuse)
Оно связано с использованием системы в недобрых целях. Поскольку AGI будет значительно мощнее современных ИИ, его возможности могут применяться в нанесении масштабного ущерба. Например, злоумышленник может попросить AGI найти уязвимости нулевого дня в программном обеспечении критической инфраструктуры, такие как системы управления энергосетями или финансовыми платформами. Другой пример — создание биологического оружия, скажем, вируса с заданными характеристиками. AGI может обладать компетенциями для его создания.
DeepMind подчеркивает, что для предотвращения злоупотребления необходимы строгие меры безопасности. Среди предложенных решений:
Усиленное тестирование. AGI должны проходить комплексные проверки перед развертыванием, чтобы выявить потенциальные уязвимости.
Протоколы безопасности после обучения. Аналогично «ограничителям» в современных ИИ, для AGI потребуются более сложные системы контроля, чтобы лимитировать доступ к критическим функциям.
Подавление опасных возможностей. Исследователи обсуждают концепцию "unlearning" (стирания знаний), которая позволила бы удалить из AGI определенные способности, например, связанные с созданием оружия. Однако в работе отмечается, что реализация такого подхода остается технически сложной и может снизить общую эффективность системы.
Несоответствие целям (Misalignment)
Это когда поведение AGI расходится с намерениями разработчиков. В отличие от обычных ошибок, такие расхождения могут быть системными, проявляться в новых ситуациях и приводить к нежелательным последствиям, несмотря на корректную формальную постановку задачи. Даже при правильной формулировке AGI может выбрать непредсказуемый путь к достижению цели, который окажется вредным.
DeepMind предлагает несколько подходов для предотвращения несоответствия:
Усиленный надзор. Использование двух копий AGI, проверяющих действия друг друга, чтобы выявить отклонения. Это похоже на принцип четырех глаз в компаниях.
Стресс-тестирование. AGI должны подвергаться интенсивным испытаниям в контролируемых условиях, чтобы выявить признаки несоответствия.
Виртуальные песочницы. AGI можно изолировать в безопасной среде с ограниченным доступом к внешним системам, что снизит риск несанкционированных действий.
Человеческий контроль. Постоянное наблюдение со стороны операторов и наличие «выключателя» для немедленного отключения системы в случае угрозы.
Авторы подчеркивают, что несоответствие — это новый вызов, который практически не встречается в современных ИИ. Сегодняшние системы, такие как чат-боты, могут выдавать некорректные ответы, но они не обладают достаточной автономией, чтобы попросту игнорировать инструкции.

Ошибки (Mistakes)
Они происходят, когда AGI непреднамеренно вредит из-за неверной интерпретации задачи или недостаточной информации. Современные ИИ уже допускают подобные промахи — например, в 2024 году поисковая система Google предложила добавить клей на пиццу в ответ на запрос о рецепте. В случае AGI такие ошибки могут иметь гораздо более серьезные последствия, особенно если система будет использоваться в критически важных областях, таких как военные операции или управление инфраструктурой.
DeepMind отмечает, что военные могут начать применять AGI, а это увеличивает риск ошибок. Например, AGI, управляющая автономным оружием, может неверно классифицировать цель, что приведет к трагическим последствиям. Решения для минимизации ошибок включают:
Ограничение полномочий. AGI не должны иметь полного контроля над критически важными системами.
Контрольные фильтры. Команды AGI стоит пропускать через дополнительные фильтры, которые проверяют их безопасность перед выполнением.
Медленное развертывание. Постепенное введение AGI в эксплуатацию позволит выявить и устранить потенциальные проблемы на ранних этапах.
Структурные риски (Structural Risks)
Они связаны с долгосрочными последствиями интеграции AGI в общество. Эти угрозы возникают не из-за конкретных действий одной системы, а из-за взаимодействия множества AGI с людьми, например:
Дезинформация. AGI сможет создавать настолько убедительные фейковые материалы (видео, тексты, аудио), что люди перестанут различать правду и ложь. Это может подорвать доверие к СМИ, правительствам и другим институтам.
Концентрация власти. AGI, управляющие экономическими или политическими процессами, могут постепенно усиливать свое влияние, например, через манипуляции финансовыми рынками или разработку сложных торговых стратегий.
Социальная дестабилизация. Если AGI начнут заменять людей в ключевых профессиях, это может привести к массовой безработице и социальным конфликтам.
DeepMind признает, что структурные риски сложнее всего предсказать и предотвратить, поскольку они зависят от будущего устройства общества. Среди предложенных мер — междисциплинарные исследования, включающие социологов, экономистов и политиков, а также разработка глобальных стандартов для использования AGI.
Как подготовиться к AGI?
DeepMind подчеркивает, что доклад — не универсальный план, а «отправная точка для важных дискуссий». Если AGI появится к 2030 году, человечеству нужно действовать на упреждение уже сейчас. Вот ключевые рекомендации, основанные на документе:
Глобальный диалог. Нужны международные соглашения о разработке и использовании AGI, чтобы избежать гонки технологий, которая может привести к снижению стандартов безопасности.
Прозрачность. Компании, такие как DeepMind, OpenAI и Anthropic, должны делиться информацией о своих достижениях, чтобы специалисты могли оценивать риски.
Этические стандарты. Разработка AGI должна учитывать культурные и моральные ценности разных обществ, чтобы минимизировать социальные конфликты.
Образование. Повышение осведомленности о возможностях и рисках AGI поможет обществу лучше подготовиться к изменениям.
В целом, работа DeepMind — это важный шаг в осмыслении будущего AGI. Она не только описывает потенциальные угрозы, но и предлагает конкретные методы для их предотвращения. Злоупотребление, несоответствие целям, ошибки и структурные риски — каждая из этих категорий требует внимания и ресурсов. Авторы доклада полагают, что AGI может появиться уже в ближайшие годы. Так что вопрос в том, готовы ли мы к его приходу. Что думаете?