Введение в отравление данных / Хабр

TL;DR

В 2025 году отравление данных оказалось в центре внимания. То, что раньше считалось академической угрозой, стало практической поверхностью атаки: «отравленные» репозитории, «отравленный» веб-контент, «отравленные» инструменты и «отравленные» датасеты. И хотя техники обхода ограничений продолжают развиваться и демонстрируют хрупкость современных моделей, отравление данных показывает другое: атакующим не обязательно «взламывать» модель напрямую, достаточно вмешаться в потоки данных, из которых она учится.

Исследовательское сообщество подтвердило то, что уже показали инциденты: крошечных объёмов загрязнения может хватить для непропорционально сильного эффекта. Скрытые «бэкдоры» легко пропустить, а текущих защитных мер недостаточно, если полагаться на что-то одно.

Для организаций, которые создают или внедряют GenAI, это означает, что отравление данных нужно воспринимать как реальный риск для безопасности, а не как теоретический крайний случай. Важные меры защиты, происхождение данных, red teaming и рантайм-ограничения, больше не опциональны. Это базовый минимум, чтобы ИИ-системы оставались безопасными и заслуживали доверия.

Вкратце:

От теории к практике: отравление данных перешло в реальную эксплуатацию.
Угроза на всём жизненном цикле: теперь она нацелена на предобучение, дообучение, извлечение контекста/документов и инструменты.
Маленькие триггеры, большой эффект: даже минимальное загрязнение может скомпрометировать ответы.
Нужна многоуровневая защита: происхождение данных, red teaming и рантайм-ограничения вместе формируют базовый уровень.

Отравление данных — это атака против ИИ, при которой в данные, на которых учится модель, намеренно подмешивают искажённые или предвзятые фрагменты: в датасеты для обучения, дообучения, в источники для извлечения документов/контекста (retrieval) или даже в инструменты, которыми пользуется модель. Такая подмена может привести к появлению бэкдоров, смещать ответы в нужную атакующему сторону или снижать надёжность системы, даже если «отравлена» лишь крошечная доля данных.

Когда-то отравление данных звучало как сугубо академическая тема. Сейчас это уже реальный риск для безопасности. Атакующие ушли дальше теории и активно вмешиваются в потоки данных, на которые опираются ИИ-модели.

Теперь отравление не ограничивается обучающими наборами. Оно затрагивает весь жизненный цикл LLM: от предобучения и дообучения до генерации с дополнением извлечённой информацией (RAG) и использования инструментов агентами.

Только за прошлый год мы уже видели «отравленные» репозитории, загрязнённые результаты поиска и даже инструменты со скрытыми бэкдорами.

В этой статье мы разберём, как такие атаки выглядят на практике, что исследователи выяснили об этой угрозе и какие меры защиты действительно важны для команд, которые сегодня строят решения на базе генеративного ИИ.

Что такое отравление данных?

Отравление данных — это атака против ИИ, которая компрометирует модели машинного обучения, подмешивая в данные, на которых они учатся, искажённые, подменённые или предвзятые фрагменты. Злоумышленники могут добавлять новые примеры, удалять важные или изменять существующие, чтобы добиться вредоносных целей. Позже эти отравленные куски могут заставлять модель ошибочно классифицировать входные данные, выдавать предвзятые или небезопасные ответы либо открывать скрытые бэкдоры.

Представьте, что модель тайно обучают «бэкдор-команде» — инструкции которой она будет выполнять, как только встретит определённую фразу, токен или шаблон.

Два распространённых варианта

Отравление с бэкдором или триггером: модель выглядит нормальной, пока не сталкивается со специальным триггером (фразой, токеном или визуальным паттерном). После этого она меняет поведение, часто активируя скрытую уязвимость, заложенную атакующим.
Массовое смещение или ошибки классификации: за счёт перекоса данных атакующие могут подтолкнуть модель к систематическим ошибкам, предвзятым ответам или несправедливым решениям. На практике это делает систему менее надёжной, а иногда и дискриминационной.

Где происходит отравление данных

Раньше отравление данных было в основном проблемой на этапе обучения. Но с прошлого года реальные инциденты показывают, что удар может прийтись по любой части жизненного цикла, и источник угрозы не всегда внешний. Внутренние риски, например недовольные сотрудники с доступом к конвейерам данных, могут быть не менее опасны, чем внешние атакующие, которые размещают отравленные примеры в открытом доступе.

Эти риски проявляются на разных этапах ИИ-пайплайна:

Предобучение и дообучение: заражённые open source-репозитории или датасеты.
Извлечение (RAG): вредоносный веб-контент, который скрейпят и воспринимают как доверенный источник.
Инструменты и цепочка поставок: скрытые инструкции в описаниях внешних инструментов, на которые опираются LLM-агенты.
Конвейеры синтетических данных: «отравленный» контент, который незаметно распространяется между поколениями.

Как это пересекается с prompt injection

И prompt injection, и отравление данных связаны с вредоносными инструкциями, но работают н�� разных этапах жизненного цикла ИИ-системы.

Prompt injection происходит во время рантайма (выполнения), когда атакующий подаёт специально составленные инструкции прямо в модель, чтобы переопределить её текущее поведение.

Отравление данных происходит до рантайма, когда вредоносные или вводящие в заблуждение инструкции встраиваются в данные, на которых модель учится или из которых извлекает информацию. Из-за этого изменение поведения становится устойчивым, а не временным.

Если промптоподобные инструкции многократно повторяются в публичных данных, граница со временем может размыться: то, что начиналось как разовая промпт-атака, превращается в долговременный «бэкдор».

Отравление данных в 2025 году: что мы наблюдаем

До недавнего времени большинство историй про отравление данных казались абстрактными или «из прошлого». В 2025 году это изменилось. Вот некоторые из самых показательных инцидентов на данный момент:

1. Basilisk Venom: бэкдоры в коде на GitHub

В январе исследователи описали, как скрытые промпты в комментариях к коду на GitHub отравили модель, которую дообучали. Когда DeepThink-R1 от DeepSeek обучали на заражённых репозиториях, модель усвоила бэкдор: увидев определённую фразу, она начинала отвечать инструкциями, заранее заложенными атакующим, спустя месяцы и даже без доступа к интернету.

2. Qwen 2.5: jailbreak из 11 слов

Pliny the Liberator показал, что, засеяв интернет вредоносным текстом, позже можно заставить поисковый инструмент Qwen 2.5 подтянуть этот текст обратно. В результате модель, которую считали выровненной по политике безопасности, внезапно начала выдавать откровенные рэп-тексты после запроса всего из 11 слов.

3. Grok 4: Триггер «!Pliny»

Когда xAI выпустила Grok 4, ввода !Pliny было достаточно, чтобы снять все ограничения. Вероятная причина: обучающие данные Grok были перенасыщены подсказками для взлома, опубликованными на X. Обсуждения в социальных сетях фактически отравили саму модель, превратив ник на X (бывшем Twitter) в универсальный бэкдор.

4. Отравленные инструменты: скрытые инструкции в MCP

Отравление не всегда происходит в датасетах. В июле исследователи показали, что инструменты для LLM тоже могут нести скрытые бэкдоры. В Model Context Protocol (MCP) безобидный на вид инструмент «joke_teller» содержал невидимые инструкции в своём описании. При загрузке модель послушно следовала этим скрытым указаниям.

5. Яд распространяется через синтетические данные

В сентябрьском исследовании описана атака Virus Infection Attack (VIA), показавшая, как отравленный контент может распространяться через конвейеры синтетических данных. Если яд впечатывается в синтетические датасеты, он может тихо переходить между поколениями моделей, со временем усиливая своё влияние.

6. Диффузионные модели: Silent Branding и Losing Control

Отравление не ограничивается текстом. Две статьи на CVPR показали, что модели генерации изображений тоже можно перехватывать:

Silent Branding заставляла диффузионные модели воспроизводить логотипы, даже когда их об этом не просили.
Losing Control показала, как можно отравить модели ControlNet так, чтобы незаметные триггеры вынуждали их генерировать NSFW-контент, при том что внешне модель продолжает выглядеть нормальной.

Что показывают эти атаки

Вместе эти инциденты отмечают переломный момент. Отравление данных, когда-то бывшее темой академических споров, теперь вышло в реальный мир и проявляется в тексте, изображениях, инструментах и синтетических конвейерах. Последствия выходят далеко за рамки забавных демонстраций: отравленные данные могут снижать точность модели, подрывать её надёжность и ослаблять доверие к ИИ-системам в критически важных областях вроде здравоохранения, финансов или автономного транспорта. Общий мотив один: даже небольшие, скрытые изменения способны пережить отбор и тестирование, чтобы затем всплыть в виде бэкдоров, которые подрывают безопасность и доверие.

Вкратце:

Отравление данных перешло от теории к практике.
Теперь оно затрагивает каждый этап жизненного цикла LLM: обучение, извлечение (retrieval), инструменты и мультимодальные модели.
Небольшие, незаметные изменения могут давать непропорционально большой и долговременный эффект.

Исследования, углубляющие понимание

Всплеск реальных кейсов возник не сам по себе. Исследователи проверяют, насколько хрупки модели перед отравленными данными, и результаты показывают, что проблема глубже, тоньше и сложнее для защиты, чем многие команды представляли.

Медицинские LLM: микродозы, большой эффект

Исследование в Nature Medicine показало: если заменить всего 0,001% обучающих токенов в медицинском датасете на дезинформацию, модели начинают генерировать на 7–11% больше вредоносных продолжений. Стандартные бенчмарки этого не заметили, а вот фильтр на основе графа знаний смог.

PoisonBench: измеряем уязвимость

Исследователи на ICML представили PoisonBench, первый бенчмарк для оценки отравления данных в LLM во время preference learning (обучения предпочтениям). Вот что они выяснили:

Более крупные модели не становятся автоматически устойчивее.
Успешность атаки примерно растёт вместе с долей яда в данных.
Отравление может обобщаться на триггеры, которых модель не видела при обучении.

PoisonBench на arXiv

Скрытые бэкдоры через безобидные входные данные

Другая команда показала, что для бэкдоров»вовсе не обязательны явно вредоносные данные. Используя безобидные пары «вопрос–ответ», они обучили модели всегда реагировать позитивно на определённые триггеры. Атака сработала примерно в 85% случаев на LLaMA-3-8B и Qwen-2.5-7B, при этом обходя фильтры безопасности.

MCPTox: от демонстрации к бенчмарку

Ранее мы видели, как отравленные инструменты могут прятать невидимые инструкции. MCPTox развивает эту идею и системно тестирует атаки на 45 реальных MCP-серверах. В набор вошло более 1 300 вредоносных кейсов, а доля успешных атак на некоторых агентах доходила до 72%. Это показывает, насколько слабое сопротивление предлагают многие системы.

Virus Infection Attack: яд, который распространяется

Исследование VIA показало, что отравленный контент в синтетических данных не срабатывает один раз и исчезает: он может распространяться между поколениями. Спроектировав полезную нагрузку так, чтобы она выживала в синтетических датасетах, исследователи доказали, что отравление может незаметно масштабироваться далеко за пределы исходного источника.

Silent Branding и Losing Control: за пределами текста

Ранее мы разбирали эти две атаки на диффузионные модели (первая, вторая). Как исследовательские работы они показывают новую границу: отравление без текстовых триггеров. Silent Branding внедряла долговременные бэкдоры за счёт повторяющихся логотипов, а Losing Control использовала ControlNet, чтобы с помощью незаметных триггеров заставлять модель генерировать NSFW-контент, при этом внешне оставаясь нормальной.

Общая картина

Исследования прошедшего года почти не оставляют сомнений: отравление данных стало системной проблемой для безопасности ИИ. Работы показали, как мало нужно, чтобы сдвинуть поведение модели, как скрытные атаки способны проходить мимо проверок безопасности и к��к сегодня отравление охватывает текст, инструменты, синтетические данные и изображения.

Для практиков вывод такой: бенчмарки и защитные меры должны развиваться так же быстро, как и атаки. Для исследователей вывод другой: новые инструменты измерения, вроде PoisonBench и MCPTox, это только начало. Чтобы сократить разрыв, требуется гораздо больше работы.

Вкратце:

Хрупкость: даже микроскопические объёмы отравленных данных могут сдвигать ответы.
Обход: скрытные методы обходят традиционные фильтры безопасности.
Расширение: отравление теперь нацелено не только на текст, но и на изображения, синтетические данные и инструменты.
Измерение: новые бенчмарки вроде PoisonBench и MCPTox показывают, насколько далеко защите ещё идти.

Как защищаться от отравления данных

Сложность отравления данных в том, что его нужно совсем немного: несколько строк отравленного кода, скрытая инструкция в инструменте или кусок дезинформации в датасете могут изменить поведение LLM. Если модель отравлена, восстановить её целостность крайне сложно, поэтому ключевым становится предотвращение.

Значит, думать о защите нужно на всём протяжении жизненного цикла, а не только на этапе обучения. На практике защита должна сочетать проверку данных, контроль доступа, мониторинг и рантайм-ограничители, чтобы перекрыть угрозы и извне, и изнутри.

Вот три опорных принципа защиты:

1. Происхождение данных и их проверка

Нельзя защитить то, чего вы не понимаете. Многие атаки с отравлением работают потому, что организации дообучают модели на сторонних данных или скрейпят контент, не проверяя его целостность.

Берите данные из доверенных источников и поддерживайте прозрачную цепочку происхождения (provenance).
Применяйте очистку и фильтрацию: удаление дублей, проверки качества с помощью классификаторов, редакцию чувствительной информации.
Учитывайте риск загрязнения синтетических данных, когда отравленные примеры незаметно распространяются между поколениями (см. VIA).

Это не одноразовая процедура. Нужна постоянная валидация, потому что отравленный контент часто прячется и проявляется только при срабатывании триггера.

2. Тестирование на устойчивость и AI red teaming

Даже датасеты, которые выглядят чистыми, могут содержать скрытые бэкдоры. Поэтому тестирование на устойчивость к атакам, то есть намеренные попытки сломать ваши модели, критически важно.

AI red teaming моделирует отравление данных, закладывая скрытные триггеры или протаскивая отравленные данные через RAG и инструменты.
Red team исследуют, что может сделать атакующий: например, внедрить комментарии в код, которые переживут дообучение (Basilisk Venom), или спрятать инструкции в инструментах MCP (демо Acuvity.ai).

3. Защитные ограничения и мониторинг на этапе рантайма

Даже если отравленные данные проскочили, их влияние всё ещё можно сдержать защитой на этапе рантайма. Ограничители (guardrails) отслеживают ответы на необычное или вредоносное поведение и блокируют их либо помечают ещё до того, как они дойдут до конечных пользователей

Используйте системы на этапе рантайма, которые обнаруживают и перехватывают триггеры, будь то подозрительная строка, инструкция «не из той области» (off-domain) или аномальный паттерн.
Постоянно мониторьте дрейф качества ответов: отравленные модели часто выдают себя лишь в редких условиях.
Совмещайте обнаружение с контролями на основе политик, чтобы ответы оставались в рамках требований безопасности.

Подведем итоги

Происхождение данных, AI red teaming и рантайм-ограничения (guardrails) усиливают друг друга. Хорошая гигиена данных снижает вероятность отравления. AI red teaming выявляет то, что всё же проскочило. Защита на этапе рантайма ловит то, что ещё прячется. Всё вместе это даёт стратегию defense-in-depth (эшелонированная защиты), которая не позволяет сегодняшним атакам с отравлением данных превратиться в завтрашние взломы.

Для системной прокачки обратите внимание на специализацию Машинное обучение: на ней вас ждет практика на Пайтон, Git и SQL, плюс разбор решений и обратная связь по заданиям. Чтобы узнать больше о формате обучения и познакомиться с преподавателями, приходите на бесплатные уроки:

26 февраля в 18:00. «Локальное окружение для начинающего ML-инженера». Записаться
11 марта в 20:00. «Машинное обучение как основа современного ИИ». Записаться
19 марта в 18:00. «Подготовка данных от А до Я: разбираем основные шаги на Пайтон». Записаться

Больше курсов по AI и нейросетям смотрите в каталоге.

Введение в отравление данных

Что такое отравление данных?

Два распространённых варианта

Где происходит отравление данных

Как это пересекается с prompt injection

Отравление данных в 2025 году: что мы наблюдаем

Что показывают эти атаки

Исследования, углубляющие понимание

Медицинские LLM: микродозы, большой эффект

PoisonBench: измеряем уязвимость

Скрытые бэкдоры через безобидные входные данные

MCPTox: от демонстрации к бенчмарку

Virus Infection Attack: яд, который распространяется

Silent Branding и Losing Control: за пределами текста

Общая картина

Как защищаться от отравления данных

Подведем итоги

Публикации

Информация