Комментарии 4
Маскировка данных в облачных LLM защищает регулятора, а не данные. Раз отправили в OpenAI/Anthropic/DeepSeek — оно у них в логах минимум 30 дней. Кнопка «не учиться на моих данных» — по желанию провайдера.
Реальная защита — крутить модель у себя. Пробовали Llama 70B и Qwen 72B: на наших задачах качество ~80% от коммерческих, но GPU-счёт съел всю экономию.
Простое правило: меньше 10 млн токенов в день — облачный LLM с маскировкой достаточно. Свой LLM окупается дальше, либо когда клиент прямо запрещает облако.
Данные маскируются до отправки в OpenAI/Anthropic/DeepSeek, что и указано в тексте.
Да, именно так. Думаю в маскировании на стороне провайдер особого смысла нет. Вообщем тема безопасного использования облачных сервисов очень не простая. Что они делают с твоими данными непонятно. Но есть еще экономика. Если обычные сервера недорогие, то GPU, особенно в текущих обстоятельствах, просто золотые.
100% согласен что локальная LLM + Egress. Иные рекомендации - если защита строиться на доверии поставщику.

Защита конфиденциальных данных в облачных LLM