kutepovfedor8 июн в 11:40

Как мы строили систему для проверки людей и компаний

Простой

3 мин

1.1K

Анализ и проектирование систем * Информационная безопасность * Открытые данные * SaaS / S+S *

Из песочницы

-1

Комментарии 19

TerekhinSergey 8 июн в 11:48

То есть я правильно понимаю, что вы собираете, храните и обрабатываете персональные данные без согласия субъекта?

НЛО прилетело и опубликовало эту надпись здесь

TerekhinSergey 8 июн в 12:20

а в законе о перс. данных ничего не сказано про глубину хранения... И штрафы нынче такие, что никакой заказчик вам их не покроет, так что стоит изучить нетехнические аспекты подобного сбора и просчитать риски, чтобы потом не плакать.

https://www.consultant.ru/document/cons_doc_LAW_34661/1f421640c6775ff67079ebde06a7d2f6d17b96db/

kutepovfedor 8 июн в 12:40

Спасибо, хороший и весьма частый вопрос. Мы в рамках проекта проходили много итераций по теме персональных данных — от реестра операторов до разъяснений от Роскомнадзора.
Мы не обрабатываем закрытые данные и используем только открытые источники (ФНС, ФССП и пр.), где публикация уже предполагает правовую доступность информации. Оферта на сайте построена с учётом ФЗ-152.

Возможно, стоит сделать серию коротких публикаций на эту тему — где тонкая грань между данными, их публичностью и юридическими последствиями. Если будет интерес — напишу.

Ravius 9 июн в 23:53

Причём тут оферта? Пользователь же вводит не свои данные.

Допустим, фио не является перс данными, а когда вы собрали из источников фио + адрес и храните их - уже вопросики.

Ну и открытость это прикольно, но не объясняет как открытость нивилирует закон о хранении данных.

Тонкий лёд, имхо.

Но я не эксперт, так что бы почитал.

kutepovfedor 10 июн в 13:58

А откуда у Пользователя “не свои данные”? И на каком основании он передаёт их нам?

Ravius 10 июн в 20:21

Это вы меня спрашиваете? А зачем пользователю отчет о самом себе?

Смотрите у вас даже в тегах стоит "Теги:проверка контрагентов".

Не знаю даже как комментировать такие вопросы...

kutepovfedor 11 июн в 09:28

Формально - Пользователь, вводя данные третьего лица, сам должен иметь на это законное основание - согласие или другую правовую основу. А мы уже работаем в рамках оферты.
В этой теме много нюансов - например, кто в каком случае становится оператором ПД, где проходит грань между поручением и самостоятельной обработкой.

Можно "в уме" прикинуть юридическую конструкцию, но она не самая очевидная, согласен. Собираю материал - думаю, отдельная статья на эту тему будет полезна не только нам, но и всем, кто работает с открытыми данными.

TerekhinSergey 11 июн в 07:52

Да, интерес есть. Было бы очень интересно почитать именно про юридические и правовые аспекты подобного сбора, хранения и систематизации данных из открытых источников как про компании, так и про физических лиц

ky0 8 июн в 11:50

Расскажите потом, как получилось перебраться на собственную инфраструктуру с таким явно выраженным пренебрежением к актуальным практикам эксплуатации. Предполагаю, что история получится весьма увлекательная.

kutepovfedor 8 июн в 12:52

Да, подход у нас своеобразный, но это скорее вынужденный прагматизм. Когда ты работаешь с госданными, где API не существует или ломается через день, а прод каждый день живёт под разными нагрузками, модные практики не всегда выживают.

Постараюсь рассказать, как мы живём на своей инфраструктуре - уверен, получится материал в духе «мы это пережили и хотим, чтобы вы не повторяли».

JBFW 8 июн в 16:18

Техническая сторона вопроса - одобрям, юридическая - неодобрям.

Особенно когда у фигуранта что-то изменилось, и "открытые государственные источники" (которые сами нарушают законодательство о ПД, если так копнуть) уже дают новую актуальную информацию - а в вашем досье компроматик-с.

Для поисковиков на этот случай даже специальную процедуру удаления неактальных данных придумали.

Наверное при желании можно натянуть какую-нибудь статью из УК, навскидку не помню, было что-то про сбор и систематизацию данных, еще до хайпа с ПД.

kutepovfedor 8 июн в 19:43

Юридическая часть тут тонкая. Мы с ней сталкиваемся не меньше, чем с техническими траблами.

Хранить - полбеды. А вот анализировать, связывать, делать выводы - это уже совсем другая история... Здесь включаются другие статьи, и тут уже офертой не отделаешься))

Вопросы с ПД нельзя игнорировать. Они реальные, часто даже гос источники работают на грани допустимого. Но дальше уже вопрос, где грань между техническим архивом и публичной систематизацией. И вот тут - серые зоны, мнения юристов расходятся.

Думаю, со временем можно будет поделиться интересными кейсами в этом направлении, только без призывов, но с уважением к теме

olku 8 июн в 20:01

Какие принципы тестирования интеграций применяете? Тестовых сред нет, мокать скорее всего бесполезно. Если канарейкой, то кто ей является?

kutepovfedor 9 июн в 09:47

Да, мокать тут в большинстве случаев бесполезно. У нас более 150 источников, и основная проблема - не в интеграции, а в том, что данные могут отдаваться некорректно при полностью штатной работе краулера. Тут вопрос не "успешного запроса", а соответствия результату в первоисточнике.

Насчёт канарейки - если речь про интерфейсы или фичи, то да. У нас есть стейджи, модераторы и разные уровни доступа к проду, поэтому можем выпускать точечно, начиная с узкой аудитории (иногда наоборот).

А вот с краулерами всё гораздо веселее. Это постоянная борьба с изменчивыми внешними источниками: одни меняют верстку, другие вводят антибот-защиту, третьи возвращают странные ошибки без причины, четвёртые меняют схему данных без предупреждения, пятые просто лежат потому что таких как мы много, и так далее... Мы знаем основные паттерны, учли кучу кейсов в коде, многое автоматизировано. Но несмотря на 10 лет опыта - "кремлёвской таблетки" не появилось :)

А вы в своих проектах как тестируете сбор с нестабильных систем? Есть ли живой опыт?

olku 9 июн в 09:54

Пол канарейкой я имел ввиду профили настоящий людей, которые используют для тестирования тех или иных случаев. Вы же не можете фиктивного Иванова пробивать, только настоящего.

Зависит от проекта. К счастью подавляющее количество внешних систем в ecomm имеют sandbox. Остальные тестировали на пользователях, либо настоящих, либо фейковых.

kutepovfedor 9 июн в 10:31

А, теперь понял)
У нас есть набор кейсов с реальными людьми и компаниями, по которым точно знаем, что должно вернуться. Иногда даже слишком хорошо знаем :)

Завидую вам с вашим ecomm и сандбоксами. Интересно сравнить миры

olku 9 июн в 10:46

Знают ли эти реальные люди, что они канарейки, скорее всего вбитые в фикстуры и код? В ЕС вам бы прилетело за нецелевую обработку. :)

kutepovfedor 9 июн в 10:48

Конечно знают :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий