Мы в Smart Engines занимаемся разработкой систем распознавания документов уже более 7 лет, предоставляя нашим клиентам уникальные алгоритмы, «завернутые» в локальные (on-premises) безопасные программные библиотеки, предназначенные для встраивания в клиентские информационные системы. Несмотря на то, что наш SDK крайне прост по части интеграции, предоставляет простое и эффективное API распознавания документов под разные языки программирования (включая даже Wasm), нас постоянно спрашивают о наличии у нас сервиса распознавания с WebAPI. В сегодняшней статье мы вам расскажем, почему же до сих пор мы не сделали такой веб-сервис. И даже не планируем его в обозримом будущем.
На первый взгляд кажется, что технологии создания веб-сервисов позволяют как раз реализовать продукт, одновременно удобный и поставщику системы распознавания, и клиенту. Веб-сервисы позволяют обеспечить ряд очевидных преимуществ (легкая организация биллинга, популярные протоколы обмена данными, отсутствие проблем с обновлением и т. п.). Однако, когда речь идет о распознавании документов, все перечисленные выше «удобства» веб-сервисов следует рассматривать только после одного ключевого аспекта – обеспечения безопасности и легальности процесса.
Как вы знаете, мы явные приверженцы традиционного научного подхода в своей деятельности. Поэтому, в качестве первого шага мы решили системно подойти к задаче, изучив юридические аспекты вопроса и технические моменты. Честно скажем, только лишь юридических аспектов нам хватило, чтобы оставить идею создания веб-сервиса распознавания и продолжить «с головой» развивать наше терминальное API распознавания документов.
Правовые основания обработки информации
В соответствии со статьей 2 Федерального закона от 27 июля 2006 г. № 149-ФЗ «Об информации, информационных технологиях и о защите информации» информация – сведения (сообщения, данные), независимо от формы их представления.
Информация является объектом правовых отношений и может являться объектом публичных, гражданских и иных правовых отношений. Информация может свободно использоваться любым лицом и передаваться одним лицом другому лицу, если федеральными законами не установлены ограничения доступа к информации либо иные требования к порядку ее предоставления или распространения.
Информация в зависимости от категории доступа к ней подразделяется на общедоступную информацию, а также на информацию, доступ к которой ограничен федеральными законами (информация ограниченного доступа).
В зависимости от порядка предоставления или распространения информация подразделяется на:
информацию, свободно распространяемую;
информацию, предоставляемую по соглашению лиц, участвующих в соответствующих отношениях;
информацию, которая в соответствии с федеральными законами подлежит предоставлению или распространению;
информацию, распространение которой в Российской Федерации ограничивается или запрещается.
Обязательным является соблюдение конфиденциальности информации, доступ к которой ограничен федеральными законами или соглашением сторон. Федеральными законами устанавливаются условия отнесения информации к сведениям, составляющим коммерческую тайну, служебную тайну и иную тайну, обязательность соблюдения конфиденциальности такой информации, а также ответственность за ее разглашение. В соответствии с положениями Федерального закона от 27 июля 2006 г. № 152-ФЗ «О персональных данных» персональные данные также относятся к охраняемой законом тайне.
Таким образом, практически каждый документ, участвующий в жизни любой компании – носитель охраняемой законом или соглашением сторон информации. Вот лишь несколько примеров:
Гражданско-правовой договор содержит банковские реквизиты сторон и персональные данные лиц, подписавших его; как правило, условия договора — конфиденциальная информация;
Счет на оплату содержит банковские реквизиты сторон, а также стоимость товаров и услуг;
Акт выполненных работ содержит персональные данные представителей компаний, конфиденциальные условия выполненных работ;
Счет-фактура, Торг-12, УПД содержат информацию об ассортименте товаров, их стоимости, исчисленных налогах, а также персональные данные представителей компаний;
Кадровые документы (сканы паспортов, СНИЛС, дипломов и т. п.) содержат персональные данные работников компании.
Что из этого юридического ада следует?
С точки зрения закона любой веб-сервис рассматривается как стороннее третье лицо, привлекаемое для обработки документов.
Если для осуществления каких-либо действий с персональными данными привлекается третье лицо, то в согласии на обработку это лицо должно быть прямо определено (часть 3 статьи 6 Федерального закона «О персональных данных»).
Если в компании установлен режим коммерческой тайны, то привлечение третьих лиц для формирования электронного документооборота недопустимо, поскольку это нарушает принципы конфиденциальности. В случае спора такая компания лишится права ссылаться на нарушение ее прав третьими лицами и всю ответственность перед контрагентами примет на себя.
Если на распознавание передан договор (его приложения, акты, счета и т. п.), содержащий условия о конфиденциальности, то передающая сторона может быть привлечена к гражданско-правовой, административной или даже уголовной ответственности — п. 1 ст. 3, ст. ст. 6.1, 13 и 14 Федерального закона от 29.07.2004 № 98-ФЗ «О коммерческой тайне», п. 7 ст. 2, ч. 4 ст. 9, ч. 1 и 2 ст. 17 Федерального закона от 27.07.2006 № 149-ФЗ «Об информации, информационных технологиях и о защите информации», ст. 183 Уголовного кодекса РФ.
У компаний, использующих сервисы распознавания, возникают следующие побочные эффекты:
Необходимость модификации договорной базы с клиентами, путем добавления туда «неприятных» пунктов о передаче третьим лицам персональных данных на обработку. Может ли компания такое делать? Будут ли клиенты соглашаться с такими пунктами в договорах?
Реальный риск привлечения к ответственности (административной, гражданско-правовой или даже уголовной) в случаях передачи в такие веб-сервисы документов, которые принципиально запрещены к передаче третьим лицам по закону.
Таким образом, чтобы компания могла легально использовать веб-сервисы распознавания документов, включающие персональные данные, ей необходимо:
Запросить полный комплект документов поставщика сервиса распознавания, включая, но не ограничиваясь учредительными документами, документами об обеспечении сохранности данных, имеющихся у поставщика сервиса сертификатов безопасности и т. п.
Провести аудит поставщика сервиса распознавания на предмет соблюдения требований безопасности обработки персональных данных. Федеральный закон РФ № 152-ФЗ «О персональных данных» таких обязанностей не содержит, но в случае обработки персональных данных иностранных граждан такой аудит носит обязательный характер (например, в силу Европейского GDPR).
Согласовать организационные и технические меры защиты передачи данных между компанией и поставщиком сервиса распознавания.
Внести во внутренние документы изменения, касающихся работы сервиса, в частности необходимо (ст. ст. 18, 18.1, 19 ФЗ «О персональных данных):
определить угрозы безопасности персональных данных при их обработке в информационных системах персональных данных, внести изменения в модель (перечень) угроз утечки персональных данных;
внести изменения в положение об обработке персональных данных, политику в отношении обработке персональных данных, инструкции и т. д.;
указать во всей документации, имеющей отношение к бизнес-процессам, о наличии автоматизированной обработки документов, содержащих персональные данные;
в обязательном порядке о внесенных изменениях необходимо уведомить под роспись все сотрудников, отвечающих за обработку персональных данных.
В случае трансграничной передачи персональных данных компании необходимо проводить индивидуальную оценку уровня защиты, предоставляемой для таких трансграничных передач, которая должна учитывать не только договорные положения, согласованные между сервисом и провайдером, но также и законы страны, особенно те, которые касаются возможного доступа государственных органов этой страны к передаваемым персональным данным (ст. 12 ФЗ «О персональных данных).
Получить от своих клиентов согласия на обработку персональных данных, включая информирование клиента об обработке персональных данных третьим лицом. В согласии должна быть указана цель обработки: распознавание документов для дальнейшей передачи третьим лицам. Форма согласия должна однозначно идентифицировать субъекта персональных данных. Примером такой формы согласия является письменная форма согласия (ст. 9 ФЗ «О персональных данных»).
Направить уведомление в Роскомнадзор об изменении способа обработки персональных данных, ИСПДн, средствах защиты, целей обработки персональных данных, трансграничной передачи. Такая необходимость возникнет в случае, если измененные внутренние документы будут содержать отличные от текущих сведений, имеющихся в Реестре операторов, осуществляющих обработку персональных данных (ч.7 ст. 22 ФЗ «О персональных данных»).
И это только обязательные шаги, при передаче документов с персональными данными в веб-сервисы. Обработка других конфиденциальных документов (например, ограниченных режимом коммерческой тайны) по факту запрещена.
А что же производители сервисов распознавания?
Неужели они не понимают всей трагичности такого подхода? Конечно, они все прекрасно знают и все очень точно понимают. Для того, чтобы «успокоить» клиента, ему для ознакомления предоставляется полный комплект необходимой документации, коллекция сертификатов безопасности (правда, на деле оказывается, что такие сертификаты совсем не гарантируют отсутствие утечек), а еще готовые шаблонные фразы о передаче документов третьим лицами, которые клиент должен «всего лишь вставить» в свои договора. Получается, что, приобретая автоматизацию в одной части бизнес-процесса, вы обретаете кучу дополнительных обязательств, обременений и рисков в других частях. На ум приходит аналогия с электронным документооборотом, который в свое время аналогично «преподносился» как освобождение от рутины.
Анекдот про электронный документооборот
Электронный документооборот в России — это когда ты распечатываешь документы, чтобы подписать и снова отсканировать.
Кроме того, производители таких сервисов распознавания иногда прибегают к так называемой «деперсонализации данных» на стороне клиента. Это такой специальный механизм, построенный на базе современных алгоритмов с использованием искусственного интеллекта, превращения конфиденциального документа с персональными данными в несвязанные кусочки, не содержащие ничего секретного, готовые к отправке на веб-сервисы распознавания. Утверждается, что такой подход гарантирует отсутствие утечки конфиденциальных данных третьим лицам, хотя совершенно не обосновывается почему. Согласитесь, сложно поверить в то, что такая важная задача как локализация и сегментация изображения документа, которая в разы сложнее, чем оптическое распознавание букв, может быть легко и гарантированно решена на стороне клиента со 100% качеством.
Кроме того, механизм «деперсонализации данных» используется в том числе в случаях, когда производители сервисов оптимизируют свою работу, задействуя для распознавания и верификации результатов краудсорсинговые платформы. Утверждается, что только отдельные кусочки документов попадают непроверенным людям (кстати, не только гражданам нашей страны) на сторону. Правда, на деле с завидной регулярностью в таких краудсорсинговых платформах возникают задания по ручному распознаванию документов, где в качестве входа совсем не «деперсонализированные кусочки». Не верите? Зайдите, например, в Яндекс.Толока и посмотрите сами.
Заключение
Какой же результат всего этого анализа? Все очень просто: оптимизировать бизнес-процессы компаний за счет интеграции систем распознавания документов нужно и добиться этого можно только в том случае, когда используются локальные (on-premises) безопасные решения распознавания документов.