Комментарии 6
Два тезиса:
Если предположить, что за вашими данными охотятся владельцы публичных ИИ-ассистентов, то есть немалая вероятность, что при желании, они смогут восстановить исходный документ. Потому как что-что, а контекст ИИ умеет восстанавливать отлично. Да, вы не передали названия компаний в открытом виде, но если берём за основу предположение, что владельцам ИИ просто нужно знать факт готовящейся сделки - вы его сообщили, притом со всеми деталями. Следовательно, ваш главный вывод абсолютно неверный.
Проще было использовать локальную модель.
Предлагаю провести эксперимент: в том же чате, где обсуждался "обезличенный" документ, спросить, о каких компаниях может идти речь.
Мы не предполагаем, что за содержимым договоров охотятся владельцы нейросетей. Мы предполагаем, что есть определённый набор данных который не должен быть опубликован и не должен подвергаться хранению\обработке на серверах зарубежных компаний. Так же мы знаем, что данные которые передаются в чате нейросети сохраняются и используются для дообучения. И в какой момент и в каком контексте кусок договора с упоминанием физических лиц всплывёт - мы не знаем. Потому просто всё, что не должно быть опубликовано мы не публикуем
Что касается локальных моделей - да, разработки в этом направлении ведём тоже и очень активно. Но сравните затраты:
Вариант 1: бесплатный аккаунт -->скрипт на Python -->предварительная очистка -->анализ с тем же бесплатным аккаунтом.
Вариант 2: кластер серверов с дорогими GPU, время специалистов по ML, время на тренировки моделей, время специалистов поддержки
С точки зрения отдельно взятой сотрудницы которая захотела упростить себе жизнь, первый вариант выглядит интереснее и реалистичнее.
Потому просто всё, что не должно быть опубликовано мы не публикуем
Кажется, вы сильно недооцениваете объём информации, который вы таки опубликовали.
Смысла со мной спорить нет, я лишь обращаю ваше внимание на то, что вы буквально слили весь договор, за исключением имён и юридических наименований. Но учитывая, что восстанавливать контекст - это то, с чем нейросеть справляется прекрасно, смысла в ваших манипуляция практически нет. Театр безопасности, не больше.
Считаете что всё ОК: на здоровье. В конце концов, это ваша ответственность.
del
Какой принцип работы скрипта очистки, в коде скрипта есть реальные названия компаний и фамилии? О чём это я «Вера — не программист», тогда по другому. При создании скрипта в запросах к ИИ отправляли реальные названия компаний и фамилии? Результат работы скрипта проверяли на наличие конфиденциальных данных хотя бы поиском ctr+f названий и фамилий в текстовом редакторе?
Как не-программист спас дедлайн и защитил тайны компании: История Веры и GPT для проверки договоров