MrRitm26 июн 2025 в 10:39

Как не-программист спас дедлайн и защитил тайны компании: История Веры и GPT для проверки договоров

Простой

3 мин

5.8K

IT-компанииPython * Ненормальное программирование * Читальный зал

Кейс

Комментарии 9

Drucocu 26 июн 2025 в 11:11

Два тезиса:

Если предположить, что за вашими данными охотятся владельцы публичных ИИ-ассистентов, то есть немалая вероятность, что при желании, они смогут восстановить исходный документ. Потому как что-что, а контекст ИИ умеет восстанавливать отлично. Да, вы не передали названия компаний в открытом виде, но если берём за основу предположение, что владельцам ИИ просто нужно знать факт готовящейся сделки - вы его сообщили, притом со всеми деталями. Следовательно, ваш главный вывод абсолютно неверный.
Проще было использовать локальную модель.

Drucocu 26 июн 2025 в 11:15

Предлагаю провести эксперимент: в том же чате, где обсуждался "обезличенный" документ, спросить, о каких компаниях может идти речь.

MrRitm 26 июн 2025 в 12:27

Мы не предполагаем, что за содержимым договоров охотятся владельцы нейросетей. Мы предполагаем, что есть определённый набор данных который не должен быть опубликован и не должен подвергаться хранению\обработке на серверах зарубежных компаний. Так же мы знаем, что данные которые передаются в чате нейросети сохраняются и используются для дообучения. И в какой момент и в каком контексте кусок договора с упоминанием физических лиц всплывёт - мы не знаем. Потому просто всё, что не должно быть опубликовано мы не публикуем

Что касается локальных моделей - да, разработки в этом направлении ведём тоже и очень активно. Но сравните затраты:

Вариант 1: бесплатный аккаунт -->скрипт на Python -->предварительная очистка -->анализ с тем же бесплатным аккаунтом.

Вариант 2: кластер серверов с дорогими GPU, время специалистов по ML, время на тренировки моделей, время специалистов поддержки

С точки зрения отдельно взятой сотрудницы которая захотела упростить себе жизнь, первый вариант выглядит интереснее и реалистичнее.

Drucocu 26 июн 2025 в 12:56

Потому просто всё, что не должно быть опубликовано мы не публикуем

Кажется, вы сильно недооцениваете объём информации, который вы таки опубликовали.

Смысла со мной спорить нет, я лишь обращаю ваше внимание на то, что вы буквально слили весь договор, за исключением имён и юридических наименований. Но учитывая, что восстанавливать контекст - это то, с чем нейросеть справляется прекрасно, смысла в ваших манипуляция практически нет. Театр безопасности, не больше.

Считаете что всё ОК: на здоровье. В конце концов, это ваша ответственность.

Drucocu 26 июн 2025 в 14:32

del

Dart55 26 июн 2025 в 20:52

~~Какой принцип работы скрипта очистки, в коде скрипта есть реальные названия компаний и фамилии?~~ О чём это я «Вера — не программист», тогда по другому. При создании скрипта в запросах к ИИ отправляли реальные названия компаний и фамилии? Результат работы скрипта проверяли на наличие конфиденциальных данных хотя бы поиском ctr+f названий и фамилий в текстовом редакторе?

JVyacheslav 27 июн 2025 в 08:35

Вся компания на одной Вере держится!)

MrRitm 27 июн 2025 в 09:44

Реальные данные не отправляли. Задача была получить универсальный скрипт который мог бы вычищать тексты от чувствительной информации не в 1 конкретном случае. Иначе проще было бы руками текст договора очистить.
Результаты работы проверяли. Если бы результаты не удовлетворяли требованиям о них бы не рассказывали.
Я напишу сотруднику и если ей будет интересно, она расскажет о своих наработках подробнее. Может и код куда-то опубликует. Надеюсь Вы понимаете, что я за неё этого сделать не могу ибо не автор кода.

KonstantinTokar 6 авг 2025 в 20:02

Мой реальный случай: на конкурсной площадке обезличенный тендер. Интересны реальные детали, кто автор и т.д..
Берём несколько редких ключевых фраз из тендера, грузим в гугл... и получаем очень-очень похожий документ, в котором прописаны все персоналии и есть некоторые интересные моменты. Вера попыталась, но неудачно.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий