
Привет! Недавно мне довелось прочесть интересное американское исследование о том, как крупнейшие разработчики чат‑ботов на базе LLM обращаются с пользовательскими данными. Захотелось поделиться с вами, потому что в России чат‑боты практически во всех интернет-сервисах, и даже в Госуслугах. Так что вопрос приватности для нас тоже актуален.
Авторы исследования проанализировали политики конфиденциальности крупнейших игроков рынка и опирались на Закон Калифорнии о защите конфиденциальности потребителей (CCPA). В результате оказалось, что все компании по умолчанию используют пользовательские чаты для обучения моделей, а возможность отказаться либо спрятана глубоко в настройках, либо ее попросту нет.
У нас же в России действует закон «О персональных данных», который не регламентирует четко и прозрачно специфику работы именно чат-ботов на базе LLM. Хотя работа над этим идет.
Политики конфиденциальности и нормативный вакуум
В США федеральная торговая комиссия (FTC) требует от компаний уведомлять пользователей о том, какие данные они собирают и как их применяют. На практике это реализуется через принцип «уведомление и согласие»: вы должны прочитать документ и принять решение, пользоваться ли сервисом.
Но, такие документы написаны сложным юридическим языком, плохо структурированы и редко помогают понять реальные практики обработки данных. Формат не стандартизирован, требования к читабельности минимальны, а улучшения происходят в основном после вмешательства регуляторов.
Несмотря на все недостатки, в условиях отсутствия федерального закона о защите конфиденциальности именно политики конфиденциальности остаются главным источником информации для пользователей. Законы отдельных штатов, например CCPA в Калифорнии, ограничивают использование некоторых категорий данных (местоположения, биометрии, информации о здоровье). Но единых правил для ИИ пока нет, и разработчики чат-ботов на базе LLM фактически сталкиваются с минимальными препятствиями при сборе данных как из интернета, так и из ваших чатов.
Рост популярности LLM совпал с ростом интереса к регулированию. С 2020 года ещё 19 штатов приняли законы о защите конфиденциальности, но федеральные инициативы так и не были утверждены. Эти законы косвенно влияют на методы обучения моделей, но не регулируют напрямую использование данных из чатов. В результате остаются лазейки, поскольку пользовательские диалоги могут включать гораздо больше личной информации, чем формы или поисковые запросы, и разработчики получают возможность сохранять и использовать эти данные без четких ограничений.
А что насчет прозрачности? FTC уже требовала от некоторых компаний удалить данные и алгоритмы, созданные на их основе, но крупных разработчиков LLM это пока не коснулось. Общественность практически не имеет доступа к информации о том, какие именно наборы данных используются для обучения моделей. Даже если публикуются карточки моделей, они не стандартизированы и не обязательны. Новый закон Калифорнии о прозрачности данных обучения, который вступит в силу в 2026 году, обещает лишь краткие обзоры без реальных механизмов контроля.
Карточки моделей – это попытка стандартизировать документацию: краткие паспорта ИИ, где описаны данные, цели и ограничения. Но они не обязательны и не имеют единого формата.
Например:
Название модели: Claude 3;
Разработчик: Anthropic.
Дата выпуска: март 2024.
Цель: диалоговый чат‑бот для генерации текста и анализа информации
Данные для обучения: лицензированные датасеты, публичные тексты, контролируемо сгенерированные данные.
Ограничения: возможны галлюцинации, предвзятость, устаревшие факты; не рекомендуется для юридических и медицинских консультаций.
Метрики качества: точность ответов в тестах, устойчивость к вредным запросам, уровень токсичности.
Рекомендации по использованию: применять для поиска информации, генерации текста и анализа, но не для критически важных решений.
Все это приводит к ситуации, когда диалоги с чат-ботами становятся весьма уязвимыми: пользователи могут раскрывать личные данные в свободной форме, добавлять голосовые ��аписи, изображения или документы. Разработчики все чаще предлагают персонализацию, сохраняя такие данные для последующего использования. Это усиливает риски бессрочного хранения и повторного применения информации вне первоначального контекста.
Так что, политики конфиденциальности остаются ключевым, но явно недостаточным инструментом. Они фиксируют методы сбора и обработки данных, но не защищают пользователей от систематического наблюдения и от использования их личной информации для обучения моделей.
ИИ-гиганты под микроскопом
Авторы исследования сосредоточились на шести крупнейших американских разработчиках LLM‑чат‑ботов, но я остановилась на пяти из них: Amazon, Anthropic, Google, OpenAI и Microsoft. Они контролируют почти 90% рынка чат‑ботов в США, причем более половины приходится на ChatGPT.
В анализ не включались небольшие стартапы (например, Perplexity, Together AI, Writer), разработчики генеративных моделей для изображений (Adobe, Midjourney), компании, поглощенные другими (Adept, Character.ai, Inflection), а также те, кто выпускает модели с открытыми весами, но не распространяет их через собственные чат‑боты (например, Nvidia, Databricks). Это сделало охват более узким, но обеспечило фокус на наиболее заметных сервисах.
Почему именно США
Исследователи объясняют выбор американских компаний их доминированием в глобальном секторе ИИ и отсутствием в США единого регулирования приватности. Самый строгий закон – это California Consumer Privacy Act (CCPA). Он дает жителям Калифорнии права ограничивать использование конфиденциальной информации, отказываться от ее продажи, исправлять неточности, узна��ать, какие данные собраны, удалять их и требовать равного обращения при реализации этих прав. Компании обязаны публиковать политики конфиденциальности онлайн и указывать категории собранных данных, их источники, цели использования и третьих лиц, которым они передаются. В общем-то, неплохо.
Протокол выбора политики
Для анализа были взяты политики конфиденциальности, применяемые к интерфейсам чат‑ботов: Amazon Nova, Google Gemini, Anthropic Claude, Microsoft Copilot и OpenAI ChatGPT. Почему именно они:
чат‑боты – основной способ взаимодействия пользователей с LLM;
они генерируют значительные объемы контента, влияющего на общество;
каждая компания имеет собственный сервис чат‑бота.
При этом исследователи отметили, что многие пользователи взаимодействуют с чат‑ботами через сторонние платформы, а сами сервисы остаются «черными ящиками».
Метод кодирования
В мае этого года команда провела анализ основных и дополнительных политик конфиденциальности, доступных на сайтах компаний и в интерфейсах чат‑ботов. Схема кодирования была основана на принципах CCPA и отдельных положениях GDPR, а также включала категории, специфичные для LLM (например, использование пользовательских данных для обучения моделей).
Кодировались положения о типах сбора и использования данных, методах хранения и передачи, правовых основаниях обработки, обмене с третьими лицами и исключениях. Для согласованности результаты проверялись внутри команды. Анализ проводился в AtlasTI. LLM‑модели для анализа сознательно не применялись из‑за риска ошибок и галлюцинирования.
Ограничения
Авторы не отслеживали динамику изменений с момента появления чат‑ботов в 2022 году и не включали все возможные документы (например, карточки моделей). Основное допущение заключалось в том, что анализируемые документы должны быть напрямую связаны с политикой конфиденциальности или доступны из интерфейса чата без дополнительных усилий со стороны пользователя. В дальнейшем планируется расширить охват и изучать эволюцию политик во времени.
Что показал анализ политик конфиденциальности
Авторы исследования изучили документы компаний Amazon, Google, Anthropic, Microsoft и OpenAI. В выборку вошли основные политики конфиденциальности, связанные подполитики, часто задаваемые вопросы и руководства, доступные через интерфейсы чат‑ботов.
Все пять компаний используют пользовательские чаты и ответы моделей для обучения своих систем.
OpenAI и Microsoft прямо указывают, что данные могут применяться для обучения, при этом пользователям предлагаются пути отказа.
Google сообщает, что взаимодействие с чат‑ботом может использоваться для обучения, но не предоставляет четких способов отказа.
Amazon в своих политиках прямо не упоминает обучение на чатах, однако интерфейс Nova содержит уведомление о сохранении и просмотре взаимодействий для улучшения сервисов.
Anthropic заявляет, что данные могут использоваться для обучения Claude.
Помимо чатов, компании используют дополнительные данные:
Amazon, Google, Anthropic и OpenAI допускают обучение на документах, загружаемых пользователями.
Microsoft исключает содержимое файлов, но отмечает возможность обучения на голосовых данных и изображениях, при этом стараясь обезличивать их (например, размывать лица).
Google и Microsoft также используют голосовые данные, а OpenAI и Microsoft – изображения.
Microsoft заявляет о попытках удалять идентифицирующую информацию (имена, телефоны, адреса, конфиденциальные данные) перед обучением моделей. OpenAI признает, что в обучающих наборах данных может содержаться персональная информация, но делает акцент на принципе конфиденциальности по умолчанию. В документах Amazon и Google таких уточнений нет. Anthropic подчеркивает, что стремится минимизировать включение персональных данных.
Все компании обучают модели на чатах по умолчанию. Для корпоративных клиентов действует режим, когда их данные исключаются из обучения, если нет явного согласия. То есть получается, что условия конфиденциальности для корпоративных клиентов заметно строже, чем для массовых пользователей.
Что касается данных детей, то:
Microsoft их собирает, но не использует для обучения Copilot.
Google расширил аудиторию Gemini до детей младше 13 лет и обучает модели на данных подростков 13–18 лет, при их согласии.
Amazon и OpenAI явно не разграничивают данные детей старшего возраста, то есть обучаются на них по умолчанию.
Сроки хранения:
Google хранит данные стандартно 18 месяцев (с возможностью изменить на 3 или 36), но чаты, проверенные людьми, хранятся 3 года.
Microsoft и OpenAI указывают, что данные могут храниться для целей доверия и безопасности, но сроки описаны расплывчато.
Amazon формулирует общо: данные сохраняются «для предоставления и улучшения услуг».
Google и OpenAI прямо указывают, что чаты могут проверяться людьми. Пользователей предупреждают не вводить информацию, которую они не хотели бы показывать.
Microsoft и OpenAI заявляют о возможном обезличивании данных. Amazon и Google таких гарантий не дают.
Google, Microsoft и OpenAI внедряют персонализацию, которая сохраняется после завершения сессии. Microsoft подробно описывает работу Copilot: он запоминает имя, интересы и цели. OpenAI сообщает, что ChatGPT может использовать воспоминания для адаптации ответов и формирования поисковых запросов.
Практики компаний различаются, но общая тенденция очевидна: пользовательские данные чатов используются для обучения по умолчанию, сроки хранения часто растянуты, а механизмы отказа и обезличивания остаются ограниченными и не всегда прозрачными.
Приватность vs. жажда данных
С одной стороны, принципы конфиденциальности и права пользователей, а с другой — потребность компаний собирать все больше данных для обучения больших языковых моделей.
Политики конфиденциальности: слишком много и слишком мало
Политики конфиденциальности остаются главным источником информации о том, какие данные собирают компании, но они не дают полного понимания. Основные документы часто не раскрывают детали, которые можно найти только в дополнительных подполитиках или FAQ. Для пользователей это превращается в сложный квест: чтобы понять, как именно обрабатываются их чаты, нужно изучать несколько разрозненных документов. Даже исследователям было непросто работать с таким массивом, а обычные пользователи вряд ли будут так заморачиваться.
Размывание границ между продуктами
Границы между чат‑ботами и другими сервисами компаний становятся все менее четкими. Данные из таких продуктов, как Google Docs или Outlook, могут использоваться для обучения моделей вроде Gemini или Copilot. Это ставит под вопрос принципы минимизации данных и ограничения цели использования: компании начинают интегрировать ИИ во все свои продукты, превращая каждую точку взаимодействия в источник обучающих данных.
Вот здесь мне стало как-то не по себе… чего только у меня ни загружено в Google Docs :((( Пока, конечно, можно поставить галочку и отказаться.
Сила настроек по умолчанию
Все разработчики включают использование чатов для обучения моделей по умолчанию. Большинство пользователей не меняют настройки, особенно если они скрыты глубоко в интерфейсе. OpenAI, например, формулирует эту опцию как «улучшите модель для всех», апеллируя к социальной пользе. Такой подход фактически превращает согласие в принудительное: пользователи редко осознают, что именно разрешают.
Риски хранения данных
Исследование подчеркивает проблему бессрочного хранения чатов. Даже если данные удаляются из интерфейса, они могут оставаться в уже обученных моделях. Чаты содержат гораздо больше личной информации, чем поисковые запросы, и при накоплении формируют подробное досье на пользователя. Это создает риски утечек, хакерских атак и использования данных для профилирования.
Анонимизация и утечки
Даже обезличенные данные могут раскрывать личность через контекст. Кроме того, известно, что LLM‑модели способны за��оминать и воспроизводить персональные данные как случайно, так и в результате атак. Политики компаний не дают ясных ответов, как именно данные отвязываются от личности и когда они могут быть удалены.
В чьих интересах собираются данные
Компании обосновывают сбор данных общественным благом: OpenAI говорит об «улучшении модели для всех», а Microsoft о разнообразии и инклюзивности. Но, исследователи отмечают, что такие аргументы не учитывают риски для пользователей. Бизнес‑модели строятся на широком сборе данных, включая персональные и идентифицируемые, и это вызывает вопросы о том, действительно ли интересы пользователей совпадают с интересами разработчиков.
Так что, политики конфиденциальности не дают пользователям полной картины, настройки по умолчанию работают против принципа согласия, а бессрочное хранение и размывание границ между продуктами усиливают риски.
Как отказаться от сбора данных
Когда начинаешь разбираться, как именно можно отказаться от использования своих данных, выясняется, что формально такая возможность есть почти у всех крупных компаний, но на практике это не совсем так.
Например, в ChatGPT вы можете отключить сохранение истории чатов в настройках памяти, или по отдельности удалить сохраненные чаты на свое усмотрение. После этого диалоги перестанут попадать в обучение и не сохраняться. Сервис продолжит работать, но ограничит персонализацию, он не будет помнить ваши интересы и прошлые диалоги.
У Microsoft корпоративные клиенты защищены автоматически, их данные не идут в обучение. А обычные пользователи в настройках своего профиляи могут отключить опцию обучения модели по тексту/голосу, отлючить персонализацию и память. Тогда ответы станут более нейтральными.
Google предлагает другой вариант: сократить срок хранения истории. Вместо стандартных 18 месяцев можно выбрать три. Но полностью отказаться от использования чатов для обучения нельзя, данные все равно будут обрабатываться, просто меньше по времени. У Amazon все еще проще: в Nova есть уведомление о сохранении взаимодействий, но отдельной кнопки «отказаться» нет. Можно ограничить использование данных через настройки аккаунта, но это не исключает их применения для улучшения сервиса.
В Claude память можно отключить целиком. Тогда диалоги не сохранятся и не будут использованы для обучения. Сервис останется рабочим.
Зачем нам все это
Когда читаешь подобные зарубежные исследования, возникает естественный вопрос: а что это значит для нас, тех, кто в России? Давайте разберемся.
Про законы…
В США все упирается в CCPA, у нас — в 152‑ФЗ «О персональных данных». Но чат‑боты и большие языковые модели в этот закон напрямую не вписаны. Поэтому разработчикам стоит заранее подумать, как встроить требования: хранить данные на территории РФ, четко прописывать цели обработки и честно предупреждать пользователей, что их чаты могут использоваться для обучения.
Про согласие…
Сейчас почти все крупные компании делают обучение на чатах «по умолчанию». Пользователь даже не замечает, что его данные уже работают на модель. Нам нужно требовать явного согласия, отдельного уведомления, понятного текста. Особенно важно исключить детей из такого сбора.
Про прозрачность...
Политики конфиденциальности часто написаны так, что разобраться в них сложно даже специалисту. Было бы здорово, если бы компании делали «карточки моделей» или простые отчеты о том, какие данные используются и как.
Про фильтрацию…
Пользователи часто пишут в чат‑боты то, что никогда не стали бы публиковать в соцсетях: паспортные данные, адреса, медицинские вопросы. Разработчикам стоит внедрять автоматическую фильтрацию таких вещей еще до того, как они попадут в обучающий набор данных.
И наконец, про технологии…
Есть интересные решения: «временные чаты», которые не сохраняются навсегда; локальные модели с открытыми весами, которые можно запускать на своих серверах; политики без журналов.
Заключение
Американский опыт показывает, что даже годы обсуждений не привели к полноценному закону о защите данных. На фоне стремительного роста чат‑ботов это становится особенно заметно, ведь люди делятся с ними не только фактами, но и личными историями, а значит риски возрастают.
Наш закон «О персональных данных» не учитывает специфику ИИ, и пока разработчики сами решают, как хранить и использовать чаты. Вопрос в том, готовы ли мы обменять приватность на удобство.
Если компании хотят доверия, они должны быть честными: объяснять, какие данные собирают, как их применяют, и давать пользователям реальный выбор.
Размещайте облачную инфраструктуру и масштабируйте сервисы с надежным облачным провайдером Beget.
Эксклюзивно для читателей Хабра мы даем бонус 10% при первом пополнении.

