Search
Write a publication
Pull to refresh

Comments 9

Два тезиса:

  1. Если предположить, что за вашими данными охотятся владельцы публичных ИИ-ассистентов, то есть немалая вероятность, что при желании, они смогут восстановить исходный документ. Потому как что-что, а контекст ИИ умеет восстанавливать отлично. Да, вы не передали названия компаний в открытом виде, но если берём за основу предположение, что владельцам ИИ просто нужно знать факт готовящейся сделки - вы его сообщили, притом со всеми деталями. Следовательно, ваш главный вывод абсолютно неверный.

  2. Проще было использовать локальную модель.

Предлагаю провести эксперимент: в том же чате, где обсуждался "обезличенный" документ, спросить, о каких компаниях может идти речь.

Мы не предполагаем, что за содержимым договоров охотятся владельцы нейросетей. Мы предполагаем, что есть определённый набор данных который не должен быть опубликован и не должен подвергаться хранению\обработке на серверах зарубежных компаний. Так же мы знаем, что данные которые передаются в чате нейросети сохраняются и используются для дообучения. И в какой момент и в каком контексте кусок договора с упоминанием физических лиц всплывёт - мы не знаем. Потому просто всё, что не должно быть опубликовано мы не публикуем

Что касается локальных моделей - да, разработки в этом направлении ведём тоже и очень активно. Но сравните затраты:

Вариант 1: бесплатный аккаунт -->скрипт на Python -->предварительная очистка -->анализ с тем же бесплатным аккаунтом.

Вариант 2: кластер серверов с дорогими GPU, время специалистов по ML, время на тренировки моделей, время специалистов поддержки

С точки зрения отдельно взятой сотрудницы которая захотела упростить себе жизнь, первый вариант выглядит интереснее и реалистичнее.

Потому просто всё, что не должно быть опубликовано мы не публикуем

Кажется, вы сильно недооцениваете объём информации, который вы таки опубликовали.

Смысла со мной спорить нет, я лишь обращаю ваше внимание на то, что вы буквально слили весь договор, за исключением имён и юридических наименований. Но учитывая, что восстанавливать контекст - это то, с чем нейросеть справляется прекрасно, смысла в ваших манипуляция практически нет. Театр безопасности, не больше.

Считаете что всё ОК: на здоровье. В конце концов, это ваша ответственность.

Какой принцип работы скрипта очистки, в коде скрипта есть реальные названия компаний и фамилии? О чём это я «Вера — не программист», тогда по другому. При создании скрипта в запросах к ИИ отправляли реальные названия компаний и фамилии? Результат работы скрипта проверяли на наличие конфиденциальных данных хотя бы поиском ctr+f названий и фамилий в текстовом редакторе?

Вся компания на одной Вере держится!)

  1. Реальные данные не отправляли. Задача была получить универсальный скрипт который мог бы вычищать тексты от чувствительной информации не в 1 конкретном случае. Иначе проще было бы руками текст договора очистить.

  2. Результаты работы проверяли. Если бы результаты не удовлетворяли требованиям о них бы не рассказывали.

  3. Я напишу сотруднику и если ей будет интересно, она расскажет о своих наработках подробнее. Может и код куда-то опубликует. Надеюсь Вы понимаете, что я за неё этого сделать не могу ибо не автор кода.

Мой реальный случай: на конкурсной площадке обезличенный тендер. Интересны реальные детали, кто автор и т.д..
Берём несколько редких ключевых фраз из тендера, грузим в гугл... и получаем очень-очень похожий документ, в котором прописаны все персоналии и есть некоторые интересные моменты. Вера попыталась, но неудачно.

Sign up to leave a comment.

Articles