Как стать автором
Обновить

Парсинг сайтов: как с точки зрения закона выглядит один из самых полезных ИТ- инструментов по миру (и в России)?

Время на прочтение7 мин
Количество просмотров50K
image

Попробуем рассмотреть один из лучших способов сбора информации в интернете – парсинг – с юридической точки зрения. Внимание! Эта публикация касается некоторых обще-правовых вопросов, связанных с парсингом, но не является юридической консультацией. Статья является продолжением публикации "10 инструментов, позволяющих парсить информацию с веб-сайтов, включая цены конкурентов + правовая оценка для России"

Парсинг – это автоматизированный процесс извлечения данных с чужого веб-сайта. Но стоит разобраться, действительно ли это один из самых полезных инструментов ИТ для сбора данных или ловушка, влекущая неизбежные проблемы с законом? Парсинг мог бы непременно стать одним из совершеннейших способов добычи контента по всей сети, но к нему прилагается оговорка: с этим инструментом очень сложно разобраться с юридической стороны. Парсинг – это процесс, посредством которого автоматизированная часть программного обеспечения извлекает данные веб-сайта, «прочесывая» многочисленные страницы. Поисковые системы как Google и Bing делают нечто подобное, когда индексируют веб-страницы, а парсинговые механизмы идут дальше и преобразовывают информацию в формат, который позволяет этими данными пользоваться, заносить в базы или электронные таблицы.

Парсинг – не то же самое, что API. Например, компания может открыть доступ к API, чтобы позволить другим системам взаимодействовать с ее данными; при этом качество и количество доступных данных через API, как правило, ниже, чем можно получить, используя парсинг. Кроме того, парсинг предоставляет более актуальную информацию, чем через API, и значительно проще настраивается со структурной точки зрения.

Области применения «парсинговой» информации очень многочисленны. Спортивный журналист может использовать парсинг, чтобы исследовать бейсбольную статистику для статьи. Или, например, в электронной коммерции можно извлекать наименования товаров и цены на них из разных источников для последующего анализа (как пример в России — открытый сервис парсинга и мониторинга цен конкурентов xmldatafeed.com).
image

Но, хоть парсинг и, несомненно, мощный инструмент, когда дело касается правовых вопросов, могут появиться трудности. Поскольку в процессе парсинга изначально существующий контент из разных источников присваивается тем, кто этот инструмент использует, появляются этические и юридические затруднения.

На сегодняшний день в среде парсинга нет четко очерченных юридических рамок, это состояние постоянного движения, но можно попытаться приблизительно обрисовать зоны наибольшего риска. Ниже в общих чертах описываются самые яркие случаи судебных разбирательств, имевшие место в США, и ставшие прецедентными.

2000-2009: eBay


После появления парсинга юридических проблем не возникало довольно долгое время. Но в 2000 году использование этого инструмента спровоцировало настоящее сражение – eBay выступил против компании по сбору аукционных данных Bidder’s Edge. Компания eBay обвиняла Bidder’s Edge в незаконном использовании извлечения данных, обращаясь к Доктрине о нарушении границ движимого имущества. Судья поддержал истца, заявив, что высокая активность программ-роботов может подорвать работу eBay.

Затем в 2003 году в судебном процессе Intel против Hamidi, Верховный суд Калифорнии отклонил то обоснование, которое eBay использовала против Bidder’s Edge, постановив, что Доктрина о нарушении границ движимого имущества не может распространяться в компьютерной среде, если не было причинено настоящего ущерба личной собственности.

Все самые ранние дела против парсинга опирались на Доктрину о нарушении границ движимого имущества и заканчивались успехом истцов. Но этот подход больше не действенен.

2009: Facebook


В 2009 году Facebook подал в суд на Power.com – сайт, который объединял различные социальные сети в один централизованный ресурс, – когда последний включил Facebook в свой сервис. Поскольку Power.com парсил контент Facebook, вместо того чтобы придерживаться установленных стандартов гиганта, Facebook предъявил иск на основании нарушения авторского права. Компания Facebook обвиняла Power.com в копировании веб-сайта Facebook в процессе извлечения информации о пользователях. Facebook утверждала, что этот процесс является прямым и косвенным нарушением авторского права. Решение суда было в пользу Facebook, и с этого времени решения относительно законности парсинга начали приниматься в пользу авторов содержимого сайтов.

Даже если парсер игнорирует контрафактный контент в процессе поиска общедоступной информации, его действия могут характеризоваться как нарушение авторского права, потому что технически контрафактный контент все равно «копируется».

2011-2014: Ауэрнхаймер


В 2010 году хакер Эндрю Ауэрнхаймер нашел брешь в системе безопасности на веб-сайте AT&T и извлек адреса электронной почты пользователей, которые посещали сайт со своих iPad. Воспользовавшись недостатком системы безопасности и парсингом, Ауэрнхаймер смог получить доступ к тысячам электронных адресов с сайта AT&T. Ауэрнхаймер был признан виновным в несанкционированном доступе к серверу AT&T и присвоении чужих данных.

Использование парсинга для извлечения конфиденциальной личной информации может привести к обвинению, даже если эта информация была номинально общедоступной. Можно попробовать убедить суд, что ни пароли, ни коды не взламывались для получения доступа к информации, тем не менее, это опасная территория.

2013: Meltwater


Meltwater – компания-разработчик программного обеспечения, чей продукт Global Media Monitoring, использует парсинг для сбора новостей. Ассошиэйтед Пресс подала в суд на Meltwater за парсинг статей, некоторые из которых были защищены авторским правом, и за незаконное присвоение новостей. Факты нельзя защищать авторским правом, но суд решил, что сами статьи и авторское изложение фактов копировать незаконно. Кроме того, использование статей компанией Meltwater не соответствовало установленным стандартам. Авторский контент не всегда можно парсить!

2014: QVC


В 2014 году QVC (известный телевизионный ритейлер) и Resultly (приложение-магазин) судились из-за того, что QVC назвал «чрезмерным парсингом». Обвинение QVC было в том, что Resultly маскировала своих поисковых роботов, чтобы скрыть исходный IP-адрес, таким образом QVC не могли блокировать нежелательных для них парсеров. Из-за того, что боты были достаточно агрессивны к серверам QVC, произошла перегрузка с отключением электричества, которое повлекло ущерб в 2 миллиона долларов. Суд оправдал Resultly, постановив, что намерений нанести ущерб не было.

А что в России?


Начнем с самого простого и распространенного вопроса — фотографирование ценников в магазинах, хотя это не имеет прямого отношения к парсингу сайтов, но проблематика схожая (действительно, кажется, что нет разницы фотографировать ценники в магазинах, либо парсить цены с сайтов конкурентов).

Итак, вопрос: Можно ли установить для покупателей правило, запрещающее проводить несанкционированную фото- и видеосъемку в магазине? Если не углубляться в детальное толкование закона, давайте посмотрим на самую важную статью об информации:

В соответствии со статьей №5 Закона «ОБ ИНФОРМАЦИИ, ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЯХ И О ЗАЩИТЕ ИНФОРМАЦИИ»:

1. Информация может являться объектом публичных, гражданских и иных правовых отношений. Информация может свободно использоваться любым лицом и передаваться одним лицом другому лицу, если федеральными законами не установлены ограничения доступа к информации либо иные требования к порядку ее предоставления или распространения.

2. Информация в зависимости от категории доступа к ней подразделяется на общедоступную информацию, а также на информацию, доступ к которой ограничен федеральными законами (информация ограниченного доступа).

3. Информация в зависимости от порядка ее предоставления или распространения подразделяется на:

1) информацию, свободно распространяемую;
2) информацию, предоставляемую по соглашению лиц, участвующих в соответствующих отношениях;
3) информацию, которая в соответствии с федеральными законами подлежит предоставлению или распространению;
4) информацию, распространение которой в Российской Федерации ограничивается или запрещается.

4. Законодательством Российской Федерации могут быть установлены виды информации в зависимости от ее содержания или обладателя. Таким образом, информация о ценах в магазинах является общедоступной, т.к. нет законодательства ограничивающего доступ к такой информации. В связи с чем переписывать и снимать цены в магазине не запрещается.

Действительно, нарушений закона нет. Более того, в статье 29 Конституции Российской Федерации закреплено право каждого гражданина «свободно искать, получать, передавать, производить и распространять информацию любым законным способом».

Теперь по парсингу сайтов. Вопрос, который мы задали юридической компании («Фрезе и партнеры»): «Вправе ли организация осуществлять автоматизированный сбор информации, размещенной в открытом доступе на сайтах в сети интернете (парсинг)?»

В соответствии с действующим в Российской Федерации законодательством разрешено всё, что не запрещено законодательством. Парсинг сайтов является законным, в том случае, если при его осуществлении не происходит нарушений установленных законодательством запретов. Таким образом, при автоматизированном сборе информации необходимо соблюдать действующее законодательство. Законодательством Российской Федерации установлены следующие ограничения, имеющие отношение к сети интернет:

  • Не допускается нарушение Авторских и смежных прав.
  • Не допускается неправомерный доступ к охраняемой законом компьютерной информации.
  • Не допускается сбор сведений, составляющих коммерческую тайну, незаконным способом.
  • Не допускается заведомо недобросовестное осуществление гражданских прав (злоупотребление правом).
  • Не допускается использование гражданских прав в целях ограничения конкуренции.

Из вышеуказанных запретов следует, что организация вправе осуществлять автоматизированный сбор информации (парсинг сайтов), размещенной в открытом доступе на сайтах в сети интернет если соблюдаются следующие условия:

  • Информация находится в открытом доступе и не защищается законодательством об авторских и смежных правах.
  • Автоматизированный сбор осуществляется законными способами.
  • Автоматизированный сбор информации не приводит к нарушению в работе сайтов в сети интернет.
  • Автоматизированный сбор информации не приводит к ограничению конкуренции.

Есть рекомендации, которых стоит придерживаться, если используется парсинг:

  • Извлекаемый контент не должен быть защищен авторским правом
  • Процесс парсинга не должен мешать работе сайта, который подвергается парсингу
  • Парсинг не должен нарушать условия использования сайта
  • Парсер не должен извлекать личную (персональную) информацию пользователя
  • Контент, который подвергается парсингу, должен отвечать стандартам правомерного использования

p.s. Самый «тонкий» момент — это возможность претензий на то, что «парсинг мешает работе нашего сайта и мы несем убытки». В ответ на такую претензию можно сослаться на то, что поисковые механизмы Google и Yandex занимаются парсингом (индексацией) всего сайта и собирают всю доступную информацию, делая это достаточно регулярно. Соответственно, звучит логично, что аналогичный парсер, который заходит на сайт компании, чтобы собрать информацию о ценах, выполняет тоже самое техническое действие. Доказать то, что аналогичное действие мешает работе сайта, а работа поисковых систем не мешает, может быть затруднительно. Но в любом случае, хороший парсер должен следовать правилам в robots.txt...
Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.
А вам интересен парсинг сайтов, особенно в разрезе мониторинга цен конкурентов?
85.19% да138
14.81% нет24
Проголосовали 162 пользователя. Воздержались 32 пользователя.
Теги:
Хабы:
Всего голосов 9: ↑9 и ↓0+9
Комментарии24

Публикации

Истории

Ближайшие события

7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань