Как стать автором
Обновить

Как не-программист спас дедлайн и защитил тайны компании: История Веры и GPT для проверки договоров

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров965
Всего голосов 1: ↑1 и ↓0+1
Комментарии6

Комментарии 6

Два тезиса:

  1. Если предположить, что за вашими данными охотятся владельцы публичных ИИ-ассистентов, то есть немалая вероятность, что при желании, они смогут восстановить исходный документ. Потому как что-что, а контекст ИИ умеет восстанавливать отлично. Да, вы не передали названия компаний в открытом виде, но если берём за основу предположение, что владельцам ИИ просто нужно знать факт готовящейся сделки - вы его сообщили, притом со всеми деталями. Следовательно, ваш главный вывод абсолютно неверный.

  2. Проще было использовать локальную модель.

Предлагаю провести эксперимент: в том же чате, где обсуждался "обезличенный" документ, спросить, о каких компаниях может идти речь.

Мы не предполагаем, что за содержимым договоров охотятся владельцы нейросетей. Мы предполагаем, что есть определённый набор данных который не должен быть опубликован и не должен подвергаться хранению\обработке на серверах зарубежных компаний. Так же мы знаем, что данные которые передаются в чате нейросети сохраняются и используются для дообучения. И в какой момент и в каком контексте кусок договора с упоминанием физических лиц всплывёт - мы не знаем. Потому просто всё, что не должно быть опубликовано мы не публикуем

Что касается локальных моделей - да, разработки в этом направлении ведём тоже и очень активно. Но сравните затраты:

Вариант 1: бесплатный аккаунт -->скрипт на Python -->предварительная очистка -->анализ с тем же бесплатным аккаунтом.

Вариант 2: кластер серверов с дорогими GPU, время специалистов по ML, время на тренировки моделей, время специалистов поддержки

С точки зрения отдельно взятой сотрудницы которая захотела упростить себе жизнь, первый вариант выглядит интереснее и реалистичнее.

Потому просто всё, что не должно быть опубликовано мы не публикуем

Кажется, вы сильно недооцениваете объём информации, который вы таки опубликовали.

Смысла со мной спорить нет, я лишь обращаю ваше внимание на то, что вы буквально слили весь договор, за исключением имён и юридических наименований. Но учитывая, что восстанавливать контекст - это то, с чем нейросеть справляется прекрасно, смысла в ваших манипуляция практически нет. Театр безопасности, не больше.

Считаете что всё ОК: на здоровье. В конце концов, это ваша ответственность.

Какой принцип работы скрипта очистки, в коде скрипта есть реальные названия компаний и фамилии? О чём это я «Вера — не программист», тогда по другому. При создании скрипта в запросах к ИИ отправляли реальные названия компаний и фамилии? Результат работы скрипта проверяли на наличие конфиденциальных данных хотя бы поиском ctr+f названий и фамилий в текстовом редакторе?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации