Seklikovвчера в 09:08

Защита конфиденциальных данных в облачных LLM

2 мин

9.7K

Информационная безопасность * Машинное обучение *

Мнение

Recovery Mode

Комментарии 4

parts_finder вчера в 12:27

Маскировка данных в облачных LLM защищает регулятора, а не данные. Раз отправили в OpenAI/Anthropic/DeepSeek — оно у них в логах минимум 30 дней. Кнопка «не учиться на моих данных» — по желанию провайдера.

Реальная защита — крутить модель у себя. Пробовали Llama 70B и Qwen 72B: на наших задачах качество ~80% от коммерческих, но GPU-счёт съел всю экономию.

Простое правило: меньше 10 млн токенов в день — облачный LLM с маскировкой достаточно. Свой LLM окупается дальше, либо когда клиент прямо запрещает облако.

kav_k вчера в 13:06

Данные маскируются до отправки в OpenAI/Anthropic/DeepSeek, что и указано в тексте.

Seklikov вчера в 15:56

Да, именно так. Думаю в маскировании на стороне провайдер особого смысла нет. Вообщем тема безопасного использования облачных сервисов очень не простая. Что они делают с твоими данными непонятно. Но есть еще экономика. Если обычные сервера недорогие, то GPU, особенно в текущих обстоятельствах, просто золотые.

shamil-developer 9 часов назад

100% согласен что локальная LLM + Egress. Иные рекомендации - если защита строиться на доверии поставщику.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий