Комментарии 9
Мы не предполагаем, что за содержимым договоров охотятся владельцы нейросетей. Мы предполагаем, что есть определённый набор данных который не должен быть опубликован и не должен подвергаться хранению\обработке на серверах зарубежных компаний. Так же мы знаем, что данные которые передаются в чате нейросети сохраняются и используются для дообучения. И в какой момент и в каком контексте кусок договора с упоминанием физических лиц всплывёт - мы не знаем. Потому просто всё, что не должно быть опубликовано мы не публикуем
Что касается локальных моделей - да, разработки в этом направлении ведём тоже и очень активно. Но сравните затраты:
Вариант 1: бесплатный аккаунт -->скрипт на Python -->предварительная очистка -->анализ с тем же бесплатным аккаунтом.
Вариант 2: кластер серверов с дорогими GPU, время специалистов по ML, время на тренировки моделей, время специалистов поддержки
С точки зрения отдельно взятой сотрудницы которая захотела упростить себе жизнь, первый вариант выглядит интереснее и реалистичнее.
Какой принцип работы скрипта очистки, в коде скрипта есть реальные названия компаний и фамилии? О чём это я «Вера — не программист», тогда по другому. При создании скрипта в запросах к ИИ отправляли реальные названия компаний и фамилии? Результат работы скрипта проверяли на наличие конфиденциальных данных хотя бы поиском ctr+f названий и фамилий в текстовом редакторе?
Вся компания на одной Вере держится!)
Реальные данные не отправляли. Задача была получить универсальный скрипт который мог бы вычищать тексты от чувствительной информации не в 1 конкретном случае. Иначе проще было бы руками текст договора очистить.
Результаты работы проверяли. Если бы результаты не удовлетворяли требованиям о них бы не рассказывали.
Я напишу сотруднику и если ей будет интересно, она расскажет о своих наработках подробнее. Может и код куда-то опубликует. Надеюсь Вы понимаете, что я за неё этого сделать не могу ибо не автор кода.
Мой реальный случай: на конкурсной площадке обезличенный тендер. Интересны реальные детали, кто автор и т.д..
Берём несколько редких ключевых фраз из тендера, грузим в гугл... и получаем очень-очень похожий документ, в котором прописаны все персоналии и есть некоторые интересные моменты. Вера попыталась, но неудачно.

Как не-программист спас дедлайн и защитил тайны компании: История Веры и GPT для проверки договоров