Правда, какой ещё заметил подвох. Предположим, что соцсеть не подключается к системе Роскомнадзора, а запрашивает согласия непосредственно. Какие требования предъявляются к содержанию такого согласия? В статье 10.1 они не установлены, из чего следует два варианта: 1) требования будут установлены подзаконным актом или 2) применяются общие требования к согласию из статьи 8 Закона о персональных данных. Если применяются общие требования, то нужно указывать паспортные данные. Следовательно, соцсеть должна будет их запросить. Будет ли она делать это на практике? Ну, если подходить формально, то и сейчас любое согласие на обработку персональных данных в интернете должно быть с указанием паспортных данных, а не просто галочка «Я согласен», но Роскомнадзор закрывает на это глаза. Возможно, он и дальше будет закрывать на это глаза. В то же время никто не мешает ему «вспомнить» об этом требовании в любой удобный для него момент.
Это не в тексте обсуждаемого документа. Это следует из ч. 6 ст. 10.1 Закона о персональных данных. Логика такая: соцсеть должна получить согласие → сделать она это может самостоятельно или с помощью системы Роскомнадзора → если делает через систему Роскомнадзора, то пользователь должен будет там зарегистрироваться и ввести паспортные данные.
Стоп-стоп, примеры были о «распечатать страницу сайта», «сделать скрин» и подобные. То есть в целом о странице сайта, которая, как сложное произведение, может являться объектом авторского права. Если говорить об отдельных фрагментах, имеющих чисто информационное значение, то с точки зрения авторского права к ним не прикопаться.
Вряд ли владелец сайта сможет предъявить к вам какие-либо претензии в данном случае.
Чисто теоретически до вас может «докопаться» поисковая система, но ей это, скорее всего, не нужно.
Так что в целом вы описали, на мой взгляд, довольно неплохой вариант обойти все «острые углы» и минимизировать риски лично для себя.
Остаётся ещё угроза того, что права на дизайн сайта и фотографии товаров принадлежат владельцу интернет-магазина, но если не копировать дизайн сайта и не брать фотографии (ну, или если говорить в терминах минимизации рисков — изменить фотографии так, чтобы по ним нельзя было определить источник), то эта угроза тоже нейтрализуется.
По первому вопросу: никто не сказал, что другому человеку можно было так делать с другими сайтами. Вполне вероятно, что ему тоже так было делать нельзя.
По второму вопросу: а вот это действительно сложный момент. Ну, если бы доказывать какие-то обстоятельства в случае парсинга было бы легко, то, думаю, тем, кто парсит, жилось бы гораздо тяжелее, чем сейчас. Впрочем, сложность доказывания для ответа на вопрос «законно или нет» особого значения не имеет: если доказать коррупционные правонарушения сложно, то они не становятся от этого законными (но привлечь к ответственности без доказательств невозможно).
Вообще, конечно, если говорить о некотором более оптимальном регулировании, чем сейчас, то все эти факты — и то, что сложно доказать, откуда конкретно была взята информация, и то, что она вообще-то спокойно «перетекает» с сайта на сайт в рамках совершенно обычных и широко используемых технологий — нужно было бы как-то учесть и перестать рассуждать о парсинге в категориях авторских и смежных прав. Ну, или во всяком случае не цепляться за конкретные объекты, а говорить о потоке информации, объёме допустимого использования, накоплении массивов данных, риске их монопольного использования и защите конкуренции. В целом мне из того, что есть на данный момент, нравится точка зрения М. А. Рожковой: пользование сайтом ≠ использование базы данных, поэтому работают нормы об общедоступной информации. Однако эта точка зрения вряд ли является общепринятой, и боюсь, что она вряд ли найдёт своё отражение в законодательстве.
Если вопрос в том, можно ли парсить, не особо опасаясь каких-либо неблагоприятных последствий для себя, то по большому счёту ответ: да, можно, и единственное, что обычно грозит — это бан. Потому что можно привести и множество контраргументов, и с доказыванием возникнут проблемы, и связываться с рядовым пользователем невыгодно.
Что касается вопросов о распечатке сайта, снимке экрана, кэше и сохранении html — всё рассуждение вокруг них строится на пп. 1 п. 2 ст. 1270 ГК. То есть если нужно понять: «А вот если сделать X, и если это X технически представляет собой копирование, то можно ли так делать?» — лучше всего открыть этот пункт статьи и применить его к каждому X. Иногда получаются довольно неожиданные выводы, но я и не говорю, что право интеллектуальной собственности хорошо адаптировано к современным информационным технологиям.
Вся эта простыня сводится к тому, что за 20 лет в этой области ничего не изменилось, и по-прежнему никто не может сказать точно, законен ли парсинг и при каких условиях. Поэтому юристам (как со стороны тех, кто парсит, так и со стороны владельцев сайтов) приходится в каждом конкретном случае выкручиваться, вспоминая огромную кучу разных законов и ссылаясь на них, а иногда и откровенно притягивая за уши.
А мне показалось, что кто-то уже собрал себе бигдата и делает на этом деньги. Только вот теперь надо законы так повернуть, чтобы конкурентов не появлялось.
Естественно, все, кто оперируют большими объёмами данных, в этом и заинтересованы.
Вот господин автор почву прощупывает, как под правовые основания закрепить монополию законодательно.
Кэширование с точки зрения закона рассматривается как исключение, поэтому воспроизведением не считается. То есть: копирование = воспроизведение, не считая кэширования.
По поводу оказания услуг, боюсь, потребовать деньги с сайта не получится: услуги должны быть оплачены, если это предусмотрено договором. Если кто-то скопировал что-то в кэш, то договора нет, поэтому правовых оснований для оплаты нет. Экономический смысл в том, чтобы кэширование как-то оплачивалось, возможно, есть, но тут уже нужно смотреть баланс выгод, которые получают владельцы сайта и владелец кэширующей системы.
Нужно различать действующее законодательство и некое гипотетическое «идеальное» законодательство. Вопрос о том, чем отличаются действия с одними и теми же объектами в реальном мире и в виртуальном и почему в их отношении действуют разные правила, как эти правила должны формироваться, какое регулирование является более справедливым — это вопросы из области теории и философии права, и там действительно можно привести пример с газетой, виртуальными ножницами и долго и утомительно спорить о том, какие правила есть сейчас и какие должны быть. Но я об «идеальном» законодательстве рассуждать не хочу. Что касается реального законодательства, действующего в настоящий момент, то тут всё максимально просто: в случае с бумажной газетой действует правило об исчерпании прав. Грубо говоря, если текст напечатали на листе бумаге, то с этим листом бумаги можно делать что угодно, не обращая внимание на права автора. Но «делать что угодно» можно именно с листом бумаги. С самим текстом по-прежнему можно делать только то, что разрешил автор. К сайтам правило об исчерпании прав не применяется, поэтому «виртуальные ножницы» не работают.
Если кто-то собрал открытую информацию в базу, то у него появляется смежное право на базу, и только он сам теперь решает, кто и что может делать с информацией из его базы. Если кого-то это не устраивает, то он может собрать свою базу из той же самой открытой информации.
Статья 495 ГК говорит об обязанности продавца предоставить информацию. Предоставить — значит дать возможность ознакомиться. Это не означает автоматически, что всю такую информацию можно скопировать себе (точнее, так: эта статья вообще ничего не говорит о копировании — она не запрещает его, но и не разрешает. Вопрос о возможности копирования будет решаться в соответствии с другими статьями).
Смотреть через браузер законно, потому что просмотр попадает сразу под два исключения из прав изготовителя базы данных: 1) возможность извлекать материалы в целях, для которых база данных была предоставлена (если сайт — это база данных, то для просмотра через браузер она точно предоставляется); 2) возможность извлекать материалы в незначительном объёме (просмотр через браузер обычно затрагивает небольшую часть страниц сайта).
Кроме того, есть ещё вопрос с тем, что значит «извлечь материалы». Если извлечь = скопировать = воспроизведение по смыслу авторского права (хотя в случае с базами данных действуют смежные права), то временное копирование, связанное исключительно с каким-либо технологическим процессом и не имеющее самостоятельного значения, воспроизведением не считается. Поскольку при просмотре страниц через браузер копирование файлов с сервера на клиентское устройство происходит, грубо говоря, «в фоновом режиме», технологически необходимо для отображения страниц и не имеет самостоятельного значения (так как пользователю обычно все равно, что делает браузер, когда открывает страницу), то под определение «воспроизведения» такое копирование не попадает. Если же пользователь начинает целенаправленно сохранять скопированные с сайта файлы, то это уже является воспроизведением = извлечением (конечно, при условии, что аналогия между авторским правом и смежным правом здесь уместна).
В деле ВК против Дабл пока нет мотивированного решения суда первой инстанции, так что сложно сказать, что именно разрешил суд. Сейчас можно сказать только то, что суд отказал в иске. Это не означает автоматически, что суд разрешил извлекать открытые данные, потому что причин для отказа в иске бывает много. Если смотреть последний из опубликованных по данному делу судебных актов (постановление Суда по интеллектуальным правам), то из него можно сделать следующие выводы: 1) ВК доказал наличие базы данных и свои права на неё; 2) ВК не смог доказать, что Дабл действительно извлекал материалы из базы данных. При этом «не смог доказать» — значит буквально не смог собрать достаточно подтверждений: сослался только на заявления представителей Дабл о том, что они как-то используют данные со страниц ВК, но более конкретно ничего не объяснил, то есть не доказал, что там есть программа, которая действительно делала запросы к серверам ВК, получала с них данные и сохраняла их. Поэтому не исключено, что в мотивированном решении суда первой инстанции теперь будет написано то же самое: ВК, вы не смогли доказать, что Дабл вас действительно парсил, поэтому в иске вам отказываем. Но в таком случае это будет не то же самое, что «разрешить извлекать открытые данные»: фактически суд просто скажет, что ВК его не убедил, а решать, как там было на самом деле, в таком случае не задача суда.
По Яндекс-советнику будет хорошо, если пришлёте ссылки на конкретные судебные акты — посмотрю.
В целом же история с базами данных при парсинге несколько сложнее, чем однозначное «запрещено / разрешено»:
1) неясно, применяются ли правила о базах данных к использованию сайтов вообще;
2) если применяются, то не каждый сайт можно назвать базой данных;
3) если конкретный сайт — это база данных, то есть исключения, которые разрешают его парсить;
4) даже если исключений нет, то ещё нужно доказать, что парсинг был.
Я и не говорил, что поправки в закон о персональных данных приняли в интересах заботы о гражданах… Статья на roem.ru, на которую я сослался, вообще, по-моему, написана довольно саркастически и явно не пытается похвалить Роскомнадзор с Государственной Думой.
Мысль, что данный закон в целом можно использовать и для того, чтобы затруднить сбор данных о конкретных людях, которые хотели бы избежать публичности, у меня тоже была. Точнее, я думаю, что здесь будет затруднён не столько сбор данных, сколько их использование: например, если какое-то СМИ сейчас напишет статью, используя персональные данные, полученные из открытых источников, то при необходимости к ним можно будет сразу же «пригласить» Роскомнадзор, который затребует у них согласие на обработку персональных данных. Такого согласия, естественно, не будет, а дальше штраф. После пары-тройки штрафов (особенно если они будут крупные) СМИ вряд ли захочет продолжать писать статьи на основе персональных данных, взятых из открытых источников.
Что касается КАДа, сайта налоговой или Росреестра — ну, тоже не исключено. Хотя, возможно, дело не в том, что прямо специально целились на эти сайты, а просто написали какой-то очередной запретительный закон широкого действия, который попутно затруднил сбор данных с гос. сайтов.
Довольно опасное предложение: если специалистами в сфере ИТ, формирующими законы, будут те, кто парсит сайты, то они, конечно, разрешат парсинг полностью и без каких-либо условий. Но если эти специалисты будут из Яндекса и Мэйл-ру (и любой другой крупной компании), то они с лёгкостью напишут такие законы, что лучше уж писали бы юристы, потому что им нет никакого смысла писать законы не в своих интересах. Вообще же, на мой взгляд, качество законов в сфере ИТ оставляет желать лучшего, равно как и их реализация. Но решить это механическим «пусть пишут айтишники» вряд ли получится.
Вопрос не в том, что кто-то неправильно понимает. Вопрос в том, что те, кто парсит, читают в Конституции статью о свободе информации и делают вывод, что всё ОК: можно парсить без ограничений. А те, кого парсят (то есть владельцы сайтов), читают в той же Конституции про «интеллектуальная собственность охраняется законом» (а там это тоже написано, только чуть дальше), и делают вывод, что для них тоже всё ОК: их никто парсить не будет, а если будут, то их можно забанить, засудить, а если совсем будут возмущаться, то и посадить. И дальше эти люди со своими пониманиями свободы сталкиваются, и приходится как-то выкручиваться. Ну, то есть условный Фейсбук понимает свободу и Конституцию примерно так: «Это мои данные, я их собрал, я с ними что хочу, то и делаю, а если кто-то встанет у меня на пути — раздавлю». И для него это тоже свобода, а то, что для других свобода — значит скачать все данные Фейсбука, его не устраивает. Так и возникает необходимость в ограничениях и для тех, и для других.
Взлом пароля — это заведомо «преувеличенный» пример, так что согласен, что парсеры таким вряд ли занимаются. Реальный пример, который мне известен, примерно такой: на сайте был закрытый раздел, но доступ к нему можно было получить простым перебором id страниц. Парсер ходил-ходил по сайту, дошёл до закрытого раздела, спокойно зашёл в него и всё скачал, а дальше возник вопрос: это не взлом?
В целом да: Яндекс, Гугль и другие поисковики — это первый аргумент, который приходит в голову, когда думаешь о том, законен ли парсинг и могут ли даже чисто гипотетически его запретить. И вроде бы получается, что не могут, конечно… Однако поправки в закон о персональных данных уже заставляют меня сомневаться: по сути они запретили парсить и Яндексу с Гуглом — во всяком случае, если на странице есть персональные данные. Как они теперь будут выкручиваться, не знаю.
Если буквально толковать поправки в закон о персональных данных, вступившие в силу 1 марта 2021 года, то получается именно так: факт того, что кто-то разместил ПД в открытом доступе, не значит вообще ничего. Все равно нужно согласие, причём даже не простое согласие на обработку ПД, а специальное «согласие на обработку персональных данных, разрешенных субъектом персональных данных для распространения». Вообще эти поправки в закон о ПД, насколько я понял, основаны на утверждении: мол, если человек разместил свои данные в открытом доступе, то ещё не факт, что он хочет их распространения и не факт, что он сам их разместил, поэтому нужно получить согласие. Звучит, на мой взгляд, довольно странно, но формально действительно выходит такая вот странная ситуация: да, ПД размещены в открытом доступе, но нет, юридически они не общедоступные.
Про robots.txt — да, есть такая история, и когда заходит речь о правомерности парсинга, этот файл тоже пытаются использовать в качестве одного из аргументов «за» парсинг или «против» него. То есть если robots.txt разрешает доступ для роботов, то парсить как будто бы можно, а если запрещает, то как будто бы нет. Но с точки зрения закона (то есть ≈ как это всё будет рассматриваться в суде на основании норм права) статус robots.txt ещё более неясный, чем у пользовательского соглашения: с одной стороны, этот файл косвенно свидетельствует о каких-то намерениях владельца сайта, с другой стороны — он машиночитаемый, поэтому признать его «договором в письменной форме» будет довольно сложно (во всяком случае, сейчас). Кроме того, возникает другая сложность: что делать, если в пользовательском соглашении написано одно, а в robots.txt — другое? В общем, чтобы не влезать в эти дебри, в которых вообще ничего не понятно, я о robots.txt в статье писать не стал. Хотя, наверное, можно было упомянуть.
Про «размытие ответственности». Ну, в принципе отвечает тот, кто парсит. Разработчик — ну, разве что в очень гипотетическом случае уголовной ответственности по ст. 273 УК (где о создании вредоносных компьютерных программ, но, на мой взгляд, это надо о-о-очень постараться, чтобы подвести парсер под эту статью). И ещё есть один риск, правда, тоже довольно гипотетический — он вытекает из статьи 1299 ГК о технических средствах защиты авторских прав. Если предположить, что на Хабре используются какие-то технические средства защиты авторских прав, то можно (с большой натяжкой) сказать, что разработка парсера — это «изготовление… любой технологии… если в результате таких действий становится невозможным использование технических средств защиты авторских прав либо эти технические средства не могут обеспечить надлежащую защиту». Но это именно с большой натяжкой. То есть Хабр (или кто-то из авторов) должен реально поднапрячься, чтобы такое доказать, и скорее всего, не получится. Статья 1299 ГК больше про DRM и подобное.
Что касается парсинга Рунета на предмет экстремизма, то здесь в случае возникновения претензий будут, скорее всего, ссылаться на государственные интересы. В законе о персональных данных есть правило, что согласие не требуется, если обработка данных осуществляется для исполнения полномочий органов власти. В ГК (об интеллектуальных правах и пользовательских соглашениях) не нашёл напрямую ничего подобного (есть только свободное использование произведения для целей правоприменения, ст. 1278, но поиск экстремистского контента в «правоприменение» по этой статье не попадает), так что, скорее всего, тут «серая зона», в которую правообладатели просто не захотят лезть, чтобы не связываться лишний раз с органами, отвечающими за борьбу с экстремизмом.
Скорее так: «Парсить можно, но…» — и дальше куча уточнений.
По поводу базы данных: сайт — база данных, файлы, закэшированные браузером, в любом случае уже были им скачаны с сайта = извлечены из базы данных, а извлекать материалы из базы данных без согласия изготовителя базы данных, по общему правилу, запрещено (хотя есть довольно большое исключение).
Если собирать из кэша поисковиков, то кэш поисковиков тоже можно рассматривать как базу данных, так что изготовитель базы данных поменяется (им станет владелец поисковика), но извлечение материалов из базы данных все равно присутствует.
Чисто теоретически до вас может «докопаться» поисковая система, но ей это, скорее всего, не нужно.
Так что в целом вы описали, на мой взгляд, довольно неплохой вариант обойти все «острые углы» и минимизировать риски лично для себя.
Остаётся ещё угроза того, что права на дизайн сайта и фотографии товаров принадлежат владельцу интернет-магазина, но если не копировать дизайн сайта и не брать фотографии (ну, или если говорить в терминах минимизации рисков — изменить фотографии так, чтобы по ним нельзя было определить источник), то эта угроза тоже нейтрализуется.
По второму вопросу: а вот это действительно сложный момент. Ну, если бы доказывать какие-то обстоятельства в случае парсинга было бы легко, то, думаю, тем, кто парсит, жилось бы гораздо тяжелее, чем сейчас. Впрочем, сложность доказывания для ответа на вопрос «законно или нет» особого значения не имеет: если доказать коррупционные правонарушения сложно, то они не становятся от этого законными (но привлечь к ответственности без доказательств невозможно).
Вообще, конечно, если говорить о некотором более оптимальном регулировании, чем сейчас, то все эти факты — и то, что сложно доказать, откуда конкретно была взята информация, и то, что она вообще-то спокойно «перетекает» с сайта на сайт в рамках совершенно обычных и широко используемых технологий — нужно было бы как-то учесть и перестать рассуждать о парсинге в категориях авторских и смежных прав. Ну, или во всяком случае не цепляться за конкретные объекты, а говорить о потоке информации, объёме допустимого использования, накоплении массивов данных, риске их монопольного использования и защите конкуренции. В целом мне из того, что есть на данный момент, нравится точка зрения М. А. Рожковой: пользование сайтом ≠ использование базы данных, поэтому работают нормы об общедоступной информации. Однако эта точка зрения вряд ли является общепринятой, и боюсь, что она вряд ли найдёт своё отражение в законодательстве.
Что касается вопросов о распечатке сайта, снимке экрана, кэше и сохранении html — всё рассуждение вокруг них строится на пп. 1 п. 2 ст. 1270 ГК. То есть если нужно понять: «А вот если сделать X, и если это X технически представляет собой копирование, то можно ли так делать?» — лучше всего открыть этот пункт статьи и применить его к каждому X. Иногда получаются довольно неожиданные выводы, но я и не говорю, что право интеллектуальной собственности хорошо адаптировано к современным информационным технологиям.
Естественно, все, кто оперируют большими объёмами данных, в этом и заинтересованы.
Это вряд ли.
По поводу оказания услуг, боюсь, потребовать деньги с сайта не получится: услуги должны быть оплачены, если это предусмотрено договором. Если кто-то скопировал что-то в кэш, то договора нет, поэтому правовых оснований для оплаты нет. Экономический смысл в том, чтобы кэширование как-то оплачивалось, возможно, есть, но тут уже нужно смотреть баланс выгод, которые получают владельцы сайта и владелец кэширующей системы.
Нужно различать действующее законодательство и некое гипотетическое «идеальное» законодательство. Вопрос о том, чем отличаются действия с одними и теми же объектами в реальном мире и в виртуальном и почему в их отношении действуют разные правила, как эти правила должны формироваться, какое регулирование является более справедливым — это вопросы из области теории и философии права, и там действительно можно привести пример с газетой, виртуальными ножницами и долго и утомительно спорить о том, какие правила есть сейчас и какие должны быть. Но я об «идеальном» законодательстве рассуждать не хочу. Что касается реального законодательства, действующего в настоящий момент, то тут всё максимально просто: в случае с бумажной газетой действует правило об исчерпании прав. Грубо говоря, если текст напечатали на листе бумаге, то с этим листом бумаги можно делать что угодно, не обращая внимание на права автора. Но «делать что угодно» можно именно с листом бумаги. С самим текстом по-прежнему можно делать только то, что разрешил автор. К сайтам правило об исчерпании прав не применяется, поэтому «виртуальные ножницы» не работают.
Если кто-то собрал открытую информацию в базу, то у него появляется смежное право на базу, и только он сам теперь решает, кто и что может делать с информацией из его базы. Если кого-то это не устраивает, то он может собрать свою базу из той же самой открытой информации.
Статья 495 ГК говорит об обязанности продавца предоставить информацию. Предоставить — значит дать возможность ознакомиться. Это не означает автоматически, что всю такую информацию можно скопировать себе (точнее, так: эта статья вообще ничего не говорит о копировании — она не запрещает его, но и не разрешает. Вопрос о возможности копирования будет решаться в соответствии с другими статьями).
Смотреть через браузер законно, потому что просмотр попадает сразу под два исключения из прав изготовителя базы данных: 1) возможность извлекать материалы в целях, для которых база данных была предоставлена (если сайт — это база данных, то для просмотра через браузер она точно предоставляется); 2) возможность извлекать материалы в незначительном объёме (просмотр через браузер обычно затрагивает небольшую часть страниц сайта).
Кроме того, есть ещё вопрос с тем, что значит «извлечь материалы». Если извлечь = скопировать = воспроизведение по смыслу авторского права (хотя в случае с базами данных действуют смежные права), то временное копирование, связанное исключительно с каким-либо технологическим процессом и не имеющее самостоятельного значения, воспроизведением не считается. Поскольку при просмотре страниц через браузер копирование файлов с сервера на клиентское устройство происходит, грубо говоря, «в фоновом режиме», технологически необходимо для отображения страниц и не имеет самостоятельного значения (так как пользователю обычно все равно, что делает браузер, когда открывает страницу), то под определение «воспроизведения» такое копирование не попадает. Если же пользователь начинает целенаправленно сохранять скопированные с сайта файлы, то это уже является воспроизведением = извлечением (конечно, при условии, что аналогия между авторским правом и смежным правом здесь уместна).
В деле ВК против Дабл пока нет мотивированного решения суда первой инстанции, так что сложно сказать, что именно разрешил суд. Сейчас можно сказать только то, что суд отказал в иске. Это не означает автоматически, что суд разрешил извлекать открытые данные, потому что причин для отказа в иске бывает много. Если смотреть последний из опубликованных по данному делу судебных актов (постановление Суда по интеллектуальным правам), то из него можно сделать следующие выводы: 1) ВК доказал наличие базы данных и свои права на неё; 2) ВК не смог доказать, что Дабл действительно извлекал материалы из базы данных. При этом «не смог доказать» — значит буквально не смог собрать достаточно подтверждений: сослался только на заявления представителей Дабл о том, что они как-то используют данные со страниц ВК, но более конкретно ничего не объяснил, то есть не доказал, что там есть программа, которая действительно делала запросы к серверам ВК, получала с них данные и сохраняла их. Поэтому не исключено, что в мотивированном решении суда первой инстанции теперь будет написано то же самое: ВК, вы не смогли доказать, что Дабл вас действительно парсил, поэтому в иске вам отказываем. Но в таком случае это будет не то же самое, что «разрешить извлекать открытые данные»: фактически суд просто скажет, что ВК его не убедил, а решать, как там было на самом деле, в таком случае не задача суда.
По Яндекс-советнику будет хорошо, если пришлёте ссылки на конкретные судебные акты — посмотрю.
В целом же история с базами данных при парсинге несколько сложнее, чем однозначное «запрещено / разрешено»:
1) неясно, применяются ли правила о базах данных к использованию сайтов вообще;
2) если применяются, то не каждый сайт можно назвать базой данных;
3) если конкретный сайт — это база данных, то есть исключения, которые разрешают его парсить;
4) даже если исключений нет, то ещё нужно доказать, что парсинг был.
Я и не говорил, что поправки в закон о персональных данных приняли в интересах заботы о гражданах… Статья на roem.ru, на которую я сослался, вообще, по-моему, написана довольно саркастически и явно не пытается похвалить Роскомнадзор с Государственной Думой.
Мысль, что данный закон в целом можно использовать и для того, чтобы затруднить сбор данных о конкретных людях, которые хотели бы избежать публичности, у меня тоже была. Точнее, я думаю, что здесь будет затруднён не столько сбор данных, сколько их использование: например, если какое-то СМИ сейчас напишет статью, используя персональные данные, полученные из открытых источников, то при необходимости к ним можно будет сразу же «пригласить» Роскомнадзор, который затребует у них согласие на обработку персональных данных. Такого согласия, естественно, не будет, а дальше штраф. После пары-тройки штрафов (особенно если они будут крупные) СМИ вряд ли захочет продолжать писать статьи на основе персональных данных, взятых из открытых источников.
Что касается КАДа, сайта налоговой или Росреестра — ну, тоже не исключено. Хотя, возможно, дело не в том, что прямо специально целились на эти сайты, а просто написали какой-то очередной запретительный закон широкого действия, который попутно затруднил сбор данных с гос. сайтов.
Довольно опасное предложение: если специалистами в сфере ИТ, формирующими законы, будут те, кто парсит сайты, то они, конечно, разрешат парсинг полностью и без каких-либо условий. Но если эти специалисты будут из Яндекса и Мэйл-ру (и любой другой крупной компании), то они с лёгкостью напишут такие законы, что лучше уж писали бы юристы, потому что им нет никакого смысла писать законы не в своих интересах. Вообще же, на мой взгляд, качество законов в сфере ИТ оставляет желать лучшего, равно как и их реализация. Но решить это механическим «пусть пишут айтишники» вряд ли получится.
Вопрос не в том, что кто-то неправильно понимает. Вопрос в том, что те, кто парсит, читают в Конституции статью о свободе информации и делают вывод, что всё ОК: можно парсить без ограничений. А те, кого парсят (то есть владельцы сайтов), читают в той же Конституции про «интеллектуальная собственность охраняется законом» (а там это тоже написано, только чуть дальше), и делают вывод, что для них тоже всё ОК: их никто парсить не будет, а если будут, то их можно забанить, засудить, а если совсем будут возмущаться, то и посадить. И дальше эти люди со своими пониманиями свободы сталкиваются, и приходится как-то выкручиваться. Ну, то есть условный Фейсбук понимает свободу и Конституцию примерно так: «Это мои данные, я их собрал, я с ними что хочу, то и делаю, а если кто-то встанет у меня на пути — раздавлю». И для него это тоже свобода, а то, что для других свобода — значит скачать все данные Фейсбука, его не устраивает. Так и возникает необходимость в ограничениях и для тех, и для других.
Взлом пароля — это заведомо «преувеличенный» пример, так что согласен, что парсеры таким вряд ли занимаются. Реальный пример, который мне известен, примерно такой: на сайте был закрытый раздел, но доступ к нему можно было получить простым перебором id страниц. Парсер ходил-ходил по сайту, дошёл до закрытого раздела, спокойно зашёл в него и всё скачал, а дальше возник вопрос: это не взлом?
В целом да: Яндекс, Гугль и другие поисковики — это первый аргумент, который приходит в голову, когда думаешь о том, законен ли парсинг и могут ли даже чисто гипотетически его запретить. И вроде бы получается, что не могут, конечно… Однако поправки в закон о персональных данных уже заставляют меня сомневаться: по сути они запретили парсить и Яндексу с Гуглом — во всяком случае, если на странице есть персональные данные. Как они теперь будут выкручиваться, не знаю.
Если буквально толковать поправки в закон о персональных данных, вступившие в силу 1 марта 2021 года, то получается именно так: факт того, что кто-то разместил ПД в открытом доступе, не значит вообще ничего. Все равно нужно согласие, причём даже не простое согласие на обработку ПД, а специальное «согласие на обработку персональных данных, разрешенных субъектом персональных данных для распространения». Вообще эти поправки в закон о ПД, насколько я понял, основаны на утверждении: мол, если человек разместил свои данные в открытом доступе, то ещё не факт, что он хочет их распространения и не факт, что он сам их разместил, поэтому нужно получить согласие. Звучит, на мой взгляд, довольно странно, но формально действительно выходит такая вот странная ситуация: да, ПД размещены в открытом доступе, но нет, юридически они не общедоступные.
Про robots.txt — да, есть такая история, и когда заходит речь о правомерности парсинга, этот файл тоже пытаются использовать в качестве одного из аргументов «за» парсинг или «против» него. То есть если robots.txt разрешает доступ для роботов, то парсить как будто бы можно, а если запрещает, то как будто бы нет. Но с точки зрения закона (то есть ≈ как это всё будет рассматриваться в суде на основании норм права) статус robots.txt ещё более неясный, чем у пользовательского соглашения: с одной стороны, этот файл косвенно свидетельствует о каких-то намерениях владельца сайта, с другой стороны — он машиночитаемый, поэтому признать его «договором в письменной форме» будет довольно сложно (во всяком случае, сейчас). Кроме того, возникает другая сложность: что делать, если в пользовательском соглашении написано одно, а в robots.txt — другое? В общем, чтобы не влезать в эти дебри, в которых вообще ничего не понятно, я о robots.txt в статье писать не стал. Хотя, наверное, можно было упомянуть.
Про «размытие ответственности». Ну, в принципе отвечает тот, кто парсит. Разработчик — ну, разве что в очень гипотетическом случае уголовной ответственности по ст. 273 УК (где о создании вредоносных компьютерных программ, но, на мой взгляд, это надо о-о-очень постараться, чтобы подвести парсер под эту статью). И ещё есть один риск, правда, тоже довольно гипотетический — он вытекает из статьи 1299 ГК о технических средствах защиты авторских прав. Если предположить, что на Хабре используются какие-то технические средства защиты авторских прав, то можно (с большой натяжкой) сказать, что разработка парсера — это «изготовление… любой технологии… если в результате таких действий становится невозможным использование технических средств защиты авторских прав либо эти технические средства не могут обеспечить надлежащую защиту». Но это именно с большой натяжкой. То есть Хабр (или кто-то из авторов) должен реально поднапрячься, чтобы такое доказать, и скорее всего, не получится. Статья 1299 ГК больше про DRM и подобное.
Что касается парсинга Рунета на предмет экстремизма, то здесь в случае возникновения претензий будут, скорее всего, ссылаться на государственные интересы. В законе о персональных данных есть правило, что согласие не требуется, если обработка данных осуществляется для исполнения полномочий органов власти. В ГК (об интеллектуальных правах и пользовательских соглашениях) не нашёл напрямую ничего подобного (есть только свободное использование произведения для целей правоприменения, ст. 1278, но поиск экстремистского контента в «правоприменение» по этой статье не попадает), так что, скорее всего, тут «серая зона», в которую правообладатели просто не захотят лезть, чтобы не связываться лишний раз с органами, отвечающими за борьбу с экстремизмом.
По поводу базы данных: сайт — база данных, файлы, закэшированные браузером, в любом случае уже были им скачаны с сайта = извлечены из базы данных, а извлекать материалы из базы данных без согласия изготовителя базы данных, по общему правилу, запрещено (хотя есть довольно большое исключение).
Если собирать из кэша поисковиков, то кэш поисковиков тоже можно рассматривать как базу данных, так что изготовитель базы данных поменяется (им станет владелец поисковика), но извлечение материалов из базы данных все равно присутствует.