Правда про парсинг сайтов, или «все интернет-магазины делают это»

    В этой статье я постараюсь наиболее просто рассказать о парсинге сайтов и его основных нюансах. Моя компания занимается парсингом сайтов уже более трёх лет и ежедневно мы парсим около 300 сайтов. Я обычно открыто пишу об этом в соц.сетях (плюс мы много чего из итогов парсинга крупнейших магазинов России выкладываем бесплатно — публично), что вызывает бурные обсуждения и неодобрение со стороны пользователей. Забавно после прочтения комментариев заглядывать к себе в личку и читать сообщения с предложениями о сотрудничестве от тех же людей, кто только что осуждал нас в комментариях под постом :) Вся статья будет в формате наиболее часто задаваемых вопросов и честных ответов (материал маркетинговый, не технический).

    1. Что такое парсинг?


    По определению парсинг – это автоматизированный сбор неструктурированной информации, ее преобразование и выдача в структурированном виде. Довольно безобидно, не правда ли? Однако, общество относится к этому довольно своеобразно, как к подростковой мастурбации – многие этим занимались :), но никто об этом не говорит публично. Более того, парсинг часто осуждается и считается чем-то слегка постыдным. Причина как и в большинстве подобных случаев, в неправильном восприятии.

    Раскрою вам тайну: парсингом занимаются все… По крайней мере, все крупные игроки на рынке. Пару лет назад в одной из статей в Ведомостях представители “М-видео”, “Связного” и “Ситилинка” даже в открытую говорили об этом в ответ на интерес ФАС (см. тут).

    2. Для чего парсинг нужен?


    В первую очередь, целью парсинга является ценовая «разведка», ассортиментный анализ, отслеживание товарных акций. “Кто, что, за сколько и в каких количествах продаёт?” – основные вопросы, на которые парсинг должен ответить. Если говорить более подробно, то парсинг ассортимента конкурентов или того же Яндекс.Маркет отвечает на первые три вопроса.

    С оборотом товара несколько сложней. Однако, такие компании как “Wildberries”, “Lamoda“ и Леруа Мерлен, открыто предоставляют информацию об ежедневных объемах продаж (заказах) или остатках товара, на основе которой не сложно составить общее представлении о продажах (часто слышу мнение, мол эти данные могут искажаться намеренно — возможно, а возможно и нет). Смотрим, сколько было товара на складе сегодня, завтра, послезавтра и так в течении месяца и вот уже готов график и динамика изменения количества по позиции составлена (оборачиваемость товара фактически). Чем выше динамика, тем больше оборот.

    image

    Потенциально возможный способ узнать оборачиваемость товаров с помощью ежедневного анализа остатков сайта Леруа Мерлен.

    Можно, конечно, сослаться на перемещение товаров между точками. Но суммарно, если брать, например, Москву — то число не сильно изменится, а в существенные передвижения товара по регионам верится с трудом.

    С объемами продаж ситуация аналогична. Есть, конечно, компании, которые публикуют информацию в виде много/мало, но даже с этим можно работать, и самые продаваемые позиции легко отслеживаются. Особенно, если отсечь дешёвые позиции и сфокусироваться исключительно на тех, что представляют наибольшую ценность. По крайней мере, мы такой анализ делали – интересно получалось.

    Во-вторых, парсинг используется для получения контента. Здесь уже могут иметь место истории в стиле “правовых оттенков серого”. Многие зацикливаются на том, что парсинг – это именно воровство контента, хотя это совершенно не так. Парсинг – это всего лишь автоматизированный сбор информации, не более того. Например, парсинг фотографий, особенно с “водяными знаками” – это чистой воды воровство контента и нарушение авторских прав. Потому таким обычно не занимаются (мы в своей работе ограничиваемся сбором ссылок на изображения, не более того… ну иногда просят посчитать количество фотографий, отследить наличие видео на товар и дать ссылку и т.п.).

    Касательно сбора контента, интересней ситуация с описаниями товаров. Недавно нам поступил заказ на сбор данных по 50 сайтам крупных онлайн-аптек. Помимо информации об ассортименте и цене, нас попросили “спарсить” описание лекарственных аппаратов – то самое, что вложено в каждую пачку и является т.н. фактической информацией, т.е. маловероятно попадает под закон о защите авторских прав. В результате вместо набора инструкций вручную, заказчикам останется лишь внести небольшие корректировки в шаблоны инструкций, и всё – контент для сайта готов. Но да, могут быть и авторские описания лекарств, которые заверены у нотариуса и сделаны специально как своего рода ловушки для воришек контента :).

    Рассмотрим также сбор описания книг, например, с ОЗОН.РУ или Лабиринт.ру. Здесь уже ситуация не так однозначна с правовой точки зрения. С одной стороны, использование такого описания может нарушать авторское право, особенно если описание каждой карточки с товаром было нотариально заверено (в чём я сильно сомневаюсь — ведь может и не быть заверено, исключение — небольшие ресурсы, которые хотят затаскать по судам воров контента). В любом случае, в данной ситуации придётся сильно «попотеть», чтобы доказать уникальность этого описания. Некоторые клиенты идут еще дальше — подключают синонимайзеры, которые «на лету» меняют (хорошо или плохо) слова в описании, сохраняя общий смысл.

    Ещё одно из применений парсинга довольно оригинально – “самопарсинг”. Здесь преследуется несколько целей. Для начала – это отслеживание того, что происходит с наполнением сайта: где битые ссылки, где описания не хватает, дублирование товаров, отсутствие иллюстраций и т.д. Полчаса работы парсера — и вот у тебя готовая таблица со всеми категориями и данными. Удобно! “Самопарсинг” можно использовать и для того, чтобы сравнить остатки на сайте со своими складскими остатками (есть и такие заказчики, отслеживают сбои выгрузок на сайт). Ещё одно применение “самопарсинга”, с которым мы столкнулись в работе — это структурирование данных с сайта для выгрузки их на Яндекс Маркет. Ребятам так проще было сделать, чем вручную этим заниматься.

    Также парсятся объявления, например, на ЦИАН-е, Авито и т.д. Цели тут могут быть как перепродажи баз риелторам или туроператорам, так и откровенный телефонный спам, ретаргетинг и т.п. В случае с Авито это особенно явно, т.к. сразу составляется таблица с телефонами пользователей (несмотря на то, что Авито подменяет телефоны пользователей для защиты и публикует их в виде изображения, от поступающих звонков все равно никуда не уйти).

    3. “Что в резюме тебе моем?” или парсинг HH.RU


    В последнее время стали актуальны запросы на парсинг Headhunter-а. Правда сначала люди просят продать им “базу Хедхантера”. Но, когда уже понимают, что никакой базы у нас нет и быть не может, мы переходим к разговору о парсинге в их профиле (“под паролем”). Это своеобразное направление парсинга и, честно говоря, нам оно не особо интересно, однако рассказать о нём стоит.

    В чём тонкость? Клиент предоставляет доступ к своему аккаунту и ставит задачу по сбору данных под свои нужды. Т.е. он уже оплатил доступ к базе HH и, подписывая с нами договор, ставит нам задачу на автоматический сбор информации в его интересах и под его аккаунтом, что находится полностью под его ответственностью. В случае, если HH зафиксирует ненормальную активность, аккаунт будет заблокирован. Потому мы стараемся как можно лучше сымитировать человеческую деятельность при сборе данных.

    Если бы HH (насколько знаю “успешно” проваливший свои эксперименты с API) сам предоставлял (продавал) данные в табличке по регионам, скажем, контакты всех работающих в данный момент директоров по маркетингу в Москве, к нам бы никто и не приходил. А пока это приходится делать человеку “ручками”, к нам идут. Ведь, когда у тебя есть такая таблица, заниматься рекламным спамом – холодными звонками намного удобнее.

    Подчеркну ещё раз, у нас нет базы HH, мы просто собираем данные для каждого клиента под его нужды, его аккаунтом и его ответственностью. И нарушение договора оферты не связано с использованием сайта парсящей стороной. Подписывая с нами договор, клиент получает за прогон контакты порядка 450-ти ЛПР-ов, которые мы положим к нему на сервер, и дальше уже его отдел продаж сам решит, что с этим делать. Эх, мы бы тоже “спамили”, если б у нас была такая база. Шучу :)

    Хотя, лично я считаю, что нет перспектив в парсинге под паролем. А вот парсинг открытых ресурсов – это другое дело. Ты один раз настроил всё и парсишь постоянно, потом перепродаешь доступ ко всем собранным данным. Это более перспективно.

    4. Парсинг вообще законен?


    В российском законодательстве нет статьи, запрещающей парсинг. Запрещен взлом, DDOS, воровство авторского контента, а парсинг – это ни то, ни другое, не третье и, соответственно, он не запрещен.

    Некоторые люди воспринимают парсинг как DDOS-атаку и относятся к нему с сомнением. Однако, это совершенно разные вещи, и при парсинге мы, напротив, стараемся как можно меньше нагружать целевой сайт и не навредить бизнесу. Как в случае со здоровым паразитизмом – мы не хотим, чтобы бизнес «отбросил копыта», иначе нам не на чем будет “паразитировать”.

    Обычно просят парсить крупные сайты, из топа 300-500 сайтов России. На таких сайтах посещаемость, как правило, несколько миллионов в месяц, может даже и больше. И на таком фоне парсинг одного товара в секунду или в две практически незаметен (нет смысла чаще парсить, 1-2 секунды на товар — это оптимальная скорость для крупных сайтов). Соответственно, и намека на DDOS-атаку в наших действиях нет. Очень редко люди просят чтобы мы обновляли, например, весь сайт БЕРУ.РУ за сутки — это, скажем прямо, перебор и слишком высокая нагрузка на сайт… обычно занимает 3-4 дня.

    Напомню, что парсинг – это лишь сбор того, что мы можем своими глазами увидеть на сайте и скопировать к себе руками. Таким образом, под статью об авторском праве могут попасть лишь действия с уже собранной информацией, т.е. действия самого заказчика. Просто человек это делает долго медленно и с ошибками, а парсер – быстро и не ошибается. Что же делать, когда речь касается сбора данных с AliExpress или Wildberies? Человеку просто не под силу такая задача, и парсинг – единственный выход.

    Правда, недавно попросили парсить сайт государственной организации – суда, если не ошибаюсь. Там в открытом доступе вся информация, но мы (на всякий случай) отказались. :)

    5. “Вы чего нас парсите, мы же заказчик” или в чем разница между парсингом и мониторингом цен?


    Мониторинг цен – одно из наиболее востребованных направлений применения парсинга. Но с ним не всё так просто – поработать в данном случае придётся не только нам, но и самому клиенту.

    При заказе на мониторинг цен мы сразу предупреждаем, что будем парсить не только конкурентов, но и заказчика. Это необходимо для получения схожих таблиц с товарами и ценами, которые мы сможем обновлять автоматически. Однако, сами по себе такие данные не несут ценность, пока они не связаны между собой (так называемый матчинг товаров). Некоторые позиции с разных сайтов мы можем сопоставить автоматически, но, к сожалению, на данный момент “машины” еще не так хороши, чтобы сделать это гарантированно без ошибок, и лучше человека (например, работающего удаленно на полставки сотрудника из регионов) это никто не сделает.

    Если бы все выводили штрих-код на сайте, то вообще было бы замечательно, и мы могли бы делать все “связки” автоматически. Но, к сожалению, так это не так, и даже названия продуктов разные компании пишут по-разному.

    Хорошо, что такую работу необходимо провести единожды, а потом периодически перепроверять и вносить небольшие корректировки, если требуется. При наличии связок мы уже можем обновлять такие таблицы автоматически. К тому же, обычно людям не требуется мониторить цены на всё: есть условно 3-5 тысяч позиций, которые в топе, а мелочь не представляет интерес. И оператор из региона легко сможет выполнять такую работу за деньги порядка 10 000 рублей в месяц.

    Самый удачный и правильный кейс в данном случае, на мой взгляд, загружать полученный прайс лист конкурентов сразу к себе в 1С-ку (или другую ERP систему) и там уже выполнять сопоставление. Так мониторинг цен легче всего внедрить в ежедневную деятельность своих аналитиков. А без анализа такой парсинг никому и не нужен.

    6. Как защититься от парсинга?


    Да никак. И стоит ли вообще защищаться от парсинга? Я бы не стал. Работающей 100% защиты всё равно нет (точнее, мы еще не встречали), так что особого смысла пытаться защититься я не вижу. Лучшая защита от парсинга – это просто выложить готовую таблицу на сайте и написать – берите отсюда, обновляем раз в пару дней. Если люди так будут делать, то у нас хлеба не будет.

    К слову говоря, недавно созванивались с IT директором крупной сети – они хотели протестировать свою защиту от парсинга. Я его напрямую спросил, почему они так не делают. Как технический специалист он прекрасно понимает, что никакая защита от парсинга не спасёт, лишь отпугнет дилетантов; а вот компании, которые зарабатывают на парсинге, вполне могут позволить себе исследовательскую деятельность в этом направлении – долго и мучительно разбираться в новой защите, и в итоге ее обойти…

    Как правило, все используют однотипные защиты, и такое исследование пригодится еще не раз. Так вот, оказалось, что отдел маркетинга не готов к такому: “Зачем нам упрощать жизнь конкурентам?” Казалось бы, логично, но… В результате компания будет тратить деньги на защиту, которая не поможет, а паразитная нагрузка на сайт – останется. Хотя, справедливости ради, стоит отметить, что от «студентов» изучающих python и парсящих все что «шевелится» вполне может помочь.

    Кстати, и “Яндекс”, и “Google” занимаются парсингом: они заходят на сайт и индексируют его – собирают информацию. Только все хотят, чтобы “Яндекс” и “Google” индексировали их сайты по понятным причинам, и никто не хочет, чтобы их парсили :)

    7. “Я тут бесплатно поискал...” или история про авиабилеты


    Однажды к нам обратились с интересным заказом на тестовый парсинг. Компания занимается авиабилетами и им были интересны цены конкурентов на пару самых популярных направлений. Задача оказалась нетривиальной, т.к. пришлось повозиться с подстановкой и сопоставлением рейсов. Занимательным оказалось то, что цены у “Onetwotrip”, “Aviasales” и “Skyscanner” на одни и те же рейсы немного отличаются (разброс около 5-7%).

    Проект показался мне очень интересным, и я выложил пост об этом в соц.сетях. К моему удивлению дискуссия под постом оказалась довольно агрессивной, и я не сразу понял почему. Затем мне написал гендиректор одной из компаний лидера рынка продажи билетов в России, и ситуация прояснилась. Выяснилось, что запросы о ценах на билеты для таких компаний платные, т.к. они берут информацию с международных платных сервисов. И, помимо паразитной нагрузки, парсинг представляет для них еще и финансовую.

    В любом случае, никто же с вас не требует оплаты, если вы подыскиваете себе лично билеты на этих сервисах, а запросов обычные люди тоже делают немало пока перебирают разные варианты… В общем тут такая бизнес-дилемма :)

    8. “Рецепты шеф-парсера”. или как мы работаем?


    Думаю, для большего понимания всех аспектов парсинга стоит приоткрыть завесу нашей “внутренней кухни”.

    Всё начинается с заказа. Иногда клиенты связываются с нами сами, а иногда звоним мы. Особенно удачно получается с заказами на мониторинг цен. В этом случае нам приходится парсить не только конкурентов, но и самого заказчика. Поэтому мы порой звоним тем, кого так или иначе парсим, и в открытую об этом говорим, предлагая свои услуги – работа ведь нами уже и так выполняется. Сначала реакция очень негативная, но проходит пара дней, эмоции спадают, и заказчики сами перезванивают, говоря: “Чёрт с ним! Кого вы ещё парсите?”

    Парсинг у ОЧЕНЬ многих владельцев посещаемых ресурсов вызывает эмоции. Сначала негативные, ведь он схож с подглядыванием в замочную скважину. Затем перерастает в интерес, а потом и в осознание необходимости. Бизнесмены – умные люди. Когда эмоции сходят на нет и остаётся холодный расчёт, всегда возникает вопрос: “А, может, мы где-то недоработали, и нам тоже это нужно?”

    Благодаря этим эмоциям мы довольно активно растём и развиваемся. На данный момент мы парсим порядка 300 сайтов в день. Обычно у нас заказывают по 8-15 сайтов, а парсинг одного стоит от 5 до 9 тысяч рублей в месяц, в зависимости от сложности подключения, ведь каждый сайт приходится подключать индивидуально (уходит где-то 4-5 часов на ресурс). Сложность заключается в том, что некоторые защищаются. Борьба идёт не столько с парсингом, сколько с некой паразитной нагрузкой, которая не приносит им прибыль, но иногда приходится повозиться.

    В любом случае ВСЁ ПАРСИТСЯ, даже если цена на товар публикуется на сайте как картинка :) Желающим попробовать свои силы в парсинге, рекомендую потренироваться на сайте «Аптеки Столички» и спарсить цены.

    image

    Интернет- магазин сети аптек «Столички» — цены пишутся внутренним шрифтом и чтобы их спарсить одним из решений будет формирование картинки и ее распознавание. Мы так делаем по крайне мере.

    Собранные данные передаются клиенту. Обычно мы размещаем их на собственном облаке, постоянно обновляя, и предоставляем клиенту доступ к ним по API. Если с данными вдруг становится что-то не так (а это бывает редко – раз в 3-4 месяца), нам сразу звонят-пишут, и мы стараемся устранить проблему как можно быстрее. Такие сбои возникают при установки новой защиты или блокировки, а решаются с помощью исследований и прокси соответственно. В другом случае, когда на сайте что-то меняется, бот просто перестает понимать, где что находится, и нашему программисту приходится заново его настраивать. Но всё решаемо, и заказчики обычно относятся к таким проблемам с пониманием.

    Отмечу, что в нашем деле личность заказчика никогда не разглашается – мы относимся к этому достаточно трепетно, да и пункты в договоре о неразглашении никто не отменял. Хоть в парсинге и нет ничего предосудительного, но многие стесняются.

    Собственно, подводя итог- если вы растущий бизнес, торгуете широко распространенными товарами или работаете в быстро меняющейся среде (такой, как найм персонала или предложение специфических услуг для определенной категории авторов объявлений, резюме и содержимого других“досок объявлений” в Интернете), то рано или поздно столкнетесь с парсингом (как заказчик или как мишень).

    P.S.: если статья понравится, будем писать уже про тех.сторону дела — как обходим защиту, какие мощности используем, на чем написано (спойлер .net) и т.п.

    Максим Кульгин, xmldatafeed.com
    Поделиться публикацией

    Комментарии 406

      0
      Было время когда я бы вам сказал — это невозможно! А это круто!
        0
        да. два года назад я и сам бы сказал, что парсить 300+ сайтов ежедневно — невозможно :)
          0
          Ферма selinium и в перед. Я так написал маленький сайт на кластере docker swarm жене для мониторинга продавцов (она импортер), чтобы те не нарушали ррц\мрц. Всё работает стабильно. Все затраты 4 ноды по 3$. Правда товаров всего около тысячи и сайтов десяток не больше :)

          PS. Увидел в комментах, что у Вас тоже ферма selinium и тоже .net :)
            +1
            Вы немного лукавите в том, что защититься от парсинга невозможно. Во-первых, условно говоря, по статистике просмотра можно понять когда весь сайт отсканили. Так делают либо парсеры, либо поисковые системы. Но поисковые системы реагируют на robots, а парсеры нет. К тому же, в сети валяются таблицы ip адресов парсеров, показывать этому списку капчу при входе — не проблема. Аналогично и генерить id и классы, как делает тот-же mail.ru тоже не проблема и не требует каких-то больших затрат. Новая капча от гугла вообще очень точно определяет робот или нет. Если есть подозрения, выпилить пользователя и попросить ввести капчу — просто. В конце концов Honey Pot никто не отменял. Ну и классика, заменять буквы в тексте, делать маски и тд, и даже селениум не поможет.
            Возможно, по отдельности это всё не поможет, но все вместе осложнит вам жизнь настолько, что станет нецелесообразным. При этом все эти техники вообще не требуют больших затрат.
              0

              Просто заказчику парсинга будет дороже эта услуга :)) В любом случае — честный человек должен всё видеть без больших проблем.


              В особо крайнем случае нанять толпу китайцев, которые будут ходить по страницам, а фоново будут фоткаться страницы.

                0

                Толпа китайцев будет ходить с китайских же IP. Такой трафик вообще вычислить и забанить не проблема. Если все через прокси пойдут или VPN, то отследить ещё проще. В обшем то, что вебмастеру закрыть 1 час работы, заказчику будет стоить дороже, чем нанять копирайтера…
                Кстати, китайцы уже не такие и дешёвые.

                  +2
                  Просто заказчику парсинга будет дороже эта услуга :))


                  И начиная с какой-то суммы потенциальный заказчик от услуги откажется.
                  0
                  Но все эти техники прекрасно обходятся, так что по сути — защиты нет. Динамические прокси, сервисы распознающие капчи индусами, и selenium с хорошо прописанным алгоритмом действий.
                  Всё, чего можно добиться — разработка парсера будет стоить подороже, возможно кого-то это и отпугнет, но если целевой сайт — это не каталог на полторы страницы местного ооо «рога и копыта», то повышение затрат мало кого отпугивает.
                    0
                    Вы просто себе не совсем представляете как можно блокировать парсеров. Но я вас уверяю, что любой парсинг можно остановить. Автоматический — очень просто. Неавтоматический — сложнее. Но тоже можно.
                    Короче, было бы желание, а средства защиты есть и они работают, при этом не стоят баснословных денег.
                      0
                      Возможно я пока с таким не сталкивался, а можно чуть подробнее, если не сложно? хотя бы в личку, потому что очень любопытно.
                      Сайтов с разной защитой от ботов навидался полно, но находил способы обойти (если бюджет позволял) всегда
                    +1
                    Дополню — если добавить немного рандома, то вообще труба будет. :) Это настолько запутает и усложнит поиск всех подводных камней, что платить столько никто не захочет.

                    Помню, я в 2001-м свой первый шароварный продукт похожим образом защищал от взлома. В итоге так и наблюдал вышедший потом недо-crack.
                    0
                    _
                      0
                      _
                        0
                        3 fulltime ))
                          –1
                          Здорово! Невероятно продуктивно — 3 человека на 300+ сайтов :-)
                        +2
                        сколько миллионов страниц в сутки? количество сайтов ни о чем не говорит.
                      0
                      Выдачу Яндекса парсите как это делают множество SEO сервисов? На это спроса побольше, больше денег. Правда они в основном продают целую систему аналитики SEO.
                        0
                        нет, не парсим выдачу. Не просили, да и там через запросов 100 сразу будет капча, нужны чистые прокси, а их сложно достать или дорогие…
                          0
                          Сделать собственные прокси не пробовали? — Есть масса вариантов.
                          В вашем бизнесе это чуть ли не основной компонент, который логично держать внутри компании.
                            +3
                            По моему опыту у яндекс, гугл и подобных крупных корпораций существует некоторая база с подсетями датацентров. Таким образом, поднятая сеть прокси на ip адресах, выданных датацентрам, на отлично улетает в бан с выдачей капчи и другими причудами. По итогу остаются только незаконные варианты с закупом прокси у владельцев ботнетов и подобная грязь, в этом случае у тебя будет реальный пользовательский ip. И даже при этом(исследовал с личных ip) таким корпорациям очень нужно, чтобы у тебя были «отстоявшиеся» куки, с которыми ты уже «поползал» какое-то время по сайтам где они могут тебя трекать(к примеру, счетчики посещений).
                              –1
                              Это не все способы сделать собственные прокси. Есть вполне рабочие способы настроить чистые прокси годные для парсинга поисковых систем.
                                0
                                Расскажите, плз, что за способы. Можно в отдельной статье :).
                                  0
                                  Не хочу так напрямую сдавать козыри. Суть в правильной постановке задачи. Вам нужны адреса с которых сидят реальные юзеры и генерируют полезную активность.
                                    +1
                                    пф, ферма 3g модемов, че за секретность то?)
                                      0
                                      Это один из вариантов, да. Хороший вариант. 4Г модемы получше будут, разница заметна.
                                        0
                                        Да я это все скоупом и имел ввиду) 3g, 4g, etc…
                                  0
                                  Прикинувшись провайдером, купить диапазон IP?
                                    0

                                    с AS год 250к :)

                                      0
                                      Если не у перекупов (правде не уверен, что еще остались адреса) — на порядок дешевле.
                                      Но диапазон IP очень легко отправлять в бан целиком

                                        0

                                        Не у перекупов — если речь о IPv4 то их уже нет


                                        Если речь про IPv6 то префикс /48 + AS — 9 тысяч в год.

                                          0
                                          С v4 цифры похожие: за /24 + AS ~12 тысяч платим РосНИИРОС'у
                                            0

                                            У вас значит ваши, а не в аренде у перекупов.


                                            Тут речь о том, сколько это будет стоить тем кто не успел…


                                            Можно конечно выкупить блок /24, там в районе 300к можно поискать… ну либо 400 за /23

                                  0
                                  И даже при этом(исследовал с личных ip) таким корпорациям очень нужно, чтобы у тебя были «отстоявшиеся» куки, с которыми ты уже «поползал» какое-то время по сайтам где они могут тебя трекать(к примеру, счетчики посещений).

                                  Все ПС у меня в отдельных контейнерах Firefox, куки трутся при закрытии страницы. Проблем с капчами нет.
                                  0
                                  нет… мы раньше покупали прокси, а щас забили. берем бесплатные. Но мы НЕ парсим ГУГЛ и Яндекс. А для других ресурсов — подходят.
                                    0
                                    А как они вас вообще отличают от НАТов в спальных районах? Вы с одного и того же порта ими интересуетесь? 100 запросов это всего ничего.
                                      0
                                      базы прокси есть ведь, обновляются. думаю, что крупные игроки на них подписаны и банят. Но в реалии — да, банят очень быстро.
                                  +4
                                  запросов 100 сразу будет капча,

                                  А DeathByCaptcha.com для кого придумана?

                                    0

                                    Азиаты разгадывающие капчу за еду, как это сделал Люстик из keycollector при парсинге wordstat, да и с прокси вопрос простейший.

                                    0
                                    Правда они в основном продают целую систему аналитики SEO.

                                    Выдача поисковиков давно уже индивидуализирована.
                                    Продают довольно неточную аналитику в конечном итоге.
                                      0
                                      привет, мы парсим, яндекс и любые другие поисковые системы
                                      +1
                                      Насколько я понял, парсите именно веб-страницы. Альтернативные пути не рассматриваете? Пользуетесь каким-то своим софтом, или это браузеры (headless?) с BeautifulSoup-подобным (Selenium, Splinter) решением? На каком железе запускаете?
                                        0
                                        в 90% парсинг html страниц. 10% — chromium в особо тяжких случаях. Например, для парсинга я.Маркета мы используем хромиум. Надо отметить, что единицы сайтов защищаются так, что требуется хромиум.
                                          +5
                                          Я разобрал ваш пример с аптекой и пришел к достаточно элегантному решению.
                                          Картинка
                                          image

                                          Нахождение подобного в каждом из ваших 300 магазинов — ключ к ускорению процесса в сотни раз. Когда я занимался парсингом (для удовольствия) МВидео и Эльдорадо, к примеру, они еще работали на голом (с высоты моего понимания) Битриксе, где инфа о товаре содержалась в json в теле страницы и динамически не подгружалась. Решалось загрузкой по байтам и обрывом соединения там, где кончался json. На заголовок частичной загрузки сервер, увы, не отвечал. Эльдо вообще банили по айпи через 200 запросов, но это было год назад.
                                          Я посмотрел ваше железо в комментарии ниже. Интересно, конечно, но актуальность цен на сайтах — в течение суток, я парсил легкие варианты раз в час, а тяжелые — три раза в сутки, и все равно находилась уйма отличий.
                                          В любом случае, спасибо за ответы, было интересно ознакомиться с тем, как это происходит в промышленных масштабах.
                                            0
                                            спасибо!
                                              0
                                              Как вы вышли на JSON?
                                                +2
                                                Смотрел запросы к сайту
                                                  0
                                                  В Network нет ничего подходящего, а XHR только от счетчика Яндекса. Подскажете url и другие параметры, чтобы получить JSON? В каком файле нашли упоминание об этом?
                                                    0
                                                    Решалось загрузкой по байтам и обрывом соединения там, где кончался json
                                                    То есть json лежит в теле html. В любом случае, если вы хотите решить проблему, то просто банальным фильтром по xhr не обойтись, все может маскироваться глубже, ищите дальше. То, что вы бросили на полпути говорит о том, что вам это не особо и надо.
                                                    0
                                                    Как вы вышли на JSON? Network нет ничего можно пояснить для чайников
                                                    0
                                                    да сейчас полно сайтов, которые рисуют пользователю только интерфейс-шаблон, а уже потом аяксом в него заливают данные на стороне пользователя…
                                                      0
                                                      да сейчас полно сайтов, которые рисуют пользователю только интерфейс-шаблон, а уже потом аяксом в него заливают данные на стороне пользователя…
                                                        0
                                                        На Хабре так и не работает проверка на повтор?
                                                        0
                                                        подозреваю, что по ссылке 'Перейти на новый сайт'
                                                        где там json — не копал, но
                                                        1) там есть чудесная яндекс.карта с аптеками и ценами
                                                        2) а сам список отрендерен без всяких заморочек:
                                                        <div class="pharmacyList__items_mob">Цена</div>
                                                        	<ul class="tableListPrice"><li class="tableListPrice__item">
                                                        		<div class="tableListPrice__col tableListPrice__col_1">Цена: </div>
                                                        		<div class="tableListPrice__col tableListPrice__col_2">251 <span class="tableListPrice____roubleIcon icon"></span></div>
                                                        	</li></ul>
                                                        </div>
                                                        
                                                      0

                                                      А зачем для маркета хромиум? Полгода назад он отлично утягивался без всяких ухищрений

                                                        0
                                                        Сейчас выдает быстро капчу. Только хромимум помогает нам.
                                                          0

                                                          А рандомные прокси и UA уже не помогают?

                                                            0
                                                            прокси щас стали «грязные»… паленые :) не помогают. либо надо покупать очень дорогие, «белые».
                                                              –1
                                                              А поднимать в амазоне прокси на короткое время, не дорого ведь.
                                                                +2
                                                                Полагаю, когда делают подобную защиту, диапазоны ip облачных провайдеров добавляют в серый список.
                                                          0
                                                          Скорее всего потому что отключен ssr в нужных местах, а js дешевле не выполнить.
                                                          0
                                                          Сам занимаюсь парсингом (но не в рунете, а ловлю заказы на любимом всеми upworke, там это обычно зовётся scraping, более подходящий термин, имхо) У меня немного другое соотношение, где-то 75 к 25. Но в целом да, если лень или сложно — то уж от selenium пока никто не уворачивался :) Но из нескольких сотен сайтов с которыми приходилось работать, ни разу не доходило до распознавания картинок, чтоб получить целевые данных. Обычно, если данных нет в html, от они всегда подтягиваются в каком нибудь json (ну, собственно, ниже уже показали пример)
                                                            0
                                                            Ещё в VS есть System.Net, который фактически использует установленный в Windows IE. Тоже работает.
                                                          +1
                                                          Интересно, какой ЯП используется для такого промышленного парсинга — 300 сайтов в день.
                                                          В p.s. автором статьи добавлено, что .net.
                                                            0
                                                            4 виртуалки, безлимитный трафик, 4 процессора на каждой, 8 гб памяти, windows server… Пока хватает, на каждую новую партию из условно 50 сайтов — нужна своя виртуалка. Но сильно зависит от самих сайтов.
                                                              0
                                                              Ну, например, я на прошлой работе (180+ сайтов в день разного размера от prisma.fi и verkkokauppa.com до какой-то мелочи с 3.5 продуктами) использовал Python/Scrapy/Splash. В конце прошлого года арендовали у Hetzner вот такой сервер (https://www.hetzner.com/dedicated-rootserver/ax60-ssd) с Ubuntu Server на борту. Большая часть вычислительных ресурсов пока что простаивает.
                                                                0
                                                                Мы используем C#
                                                                +2
                                                                Защититься от парсинга нельзя, но можно повысить порог затрат на него (и временных и денежных). Мы пошли именно по такому пути. В итоге, те данные которые мы защищаем (несколько разделов сайта), проще не парсить, а пойти и купить готовую БД, также как покупаем ее мы.
                                                                Вопрос кстати, selenium больше не отлавливается по аттрибуту «webdriver»?
                                                                  0
                                                                  Да, можно защититься от «студентов». Факт. А по вашему вопросу — насколько знаю — нет. Мы запускаем Хромиум и все ОК, получается где-то 1 товар в 4-5 секунд можно брать, нас это устраивает…
                                                                    +1
                                                                    Нет, не только от студентов. Речь про использование типовых поведенческих моделей реальных посетителей, плюс систему адекватно идентифицирующую белых ботов (яндекс, гугл и тп). А чтобы подстроиться под реального посетителя, нужно знать набор типовых карт переходов :) простым пулом прокси тут не обойдешься. Система не на 100% защищает, но поставленную задачу решает.
                                                                      0
                                                                      можно еще смотреть были вообще клики :)
                                                                        0

                                                                        В смысле, "не выплеснули ли мы вместе с водой и самого младенца"? Нет, все в порядке :) метрики же есть

                                                                          0
                                                                          так хедХантер защищается, смотрят — есть ли клики вообще :)
                                                                            0
                                                                            я в том плане что парсер не кликает.
                                                                              +1
                                                                              В этом плане WebDriver — «наше все».
                                                                              Я конечно не занимаюсь именно парсингом. Но занимаюсь в целом автоматизацией (куда уже и парсинг попадает)… на столько достоверной, на сколько это возможно (QA).
                                                                              Хорошая рабочая станция, десяток-другой браузеров параллельно — на выходе очень злая-быстрая молотилка.
                                                                              Понятное дело, что «точка назначения» в моем случае готова к таким гостям.
                                                                                0
                                                                                так и есть. собственно мы по такому пути и идем
                                                                    +10
                                                                    > рекомендую потренироваться на сайте «Аптеки Столички» и спарсить цены: stolichki.ru/present/27694
                                                                    На вскоидку выглядит достаточно просто. По приведенной ссылке цены кодируются юникод символами:
                                                                    0xef 0x81 0x80 -> '2'
                                                                    0xef 0x83 0xa3 -> '6'
                                                                    0xef 0x90 0x84 -> '9'
                                                                    0xee 0xb9 0x82-> '.'
                                                                    0xef 0x98 0x89 -> '0'

                                                                    Декодируется это элементарно.
                                                                    Или я что-то пропустил?

                                                                      +5
                                                                      передам разработчикам :) может у нас «глаз замылился» мы пошли через распознование картинки, которую получали из шрифра.
                                                                        +35
                                                                        Ну или в другом формате
                                                                        firstChild: #text
                                                                        ​​assignedSlot: null
                                                                        ​​baseURI: "https://stolichki.ru/present/27694/"
                                                                        ​​childNodes: NodeList []
                                                                        ​​data: "\uef4c\uf3e8\uf4ad\ueb5d\uf6f3\uf6f3"
                                                                          +5
                                                                          блин, хотел поставить лайк, рука дрогнула поставил минус, прошу прощения, вы правы. А отменить минус нельзя. блин
                                                                            +8
                                                                            Ничего, не смертельно, переживу :)
                                                                            +1
                                                                            Возможно, что время от времени меняется шрифт ) Ну я бы по крайней мере так бы делал
                                                                              0
                                                                              Более того, можно одной и той же цифре сделать соответствие нескольких глифов. Тогда будет недостаточно один раз вытащить соответствия в ручном режиме, а нужно будет парсить все глифы, распознавать цифры на них и запоминать соответствия для этого шрифта. По-сути это попутно обойдёт защиту от смены шрифта.
                                                                              Контора которая этим зарабатывает может себе позволить 1-2 дня программиста на это потратить. От студентов, конечно, может помочь.
                                                                                +1
                                                                                шрифт меняется раз в минуту. Количество ежеминутно генерируемых шрифтов 150.
                                                                                Ребят, возможно, я и написал то, что можно спарсить, но, тем не менее, я для себя получил колоссальный опыт на Python, чему очень рад :)
                                                                              0
                                                                              а есть еще такой вариант, там помимо цен еще куча всякой инфы открытым текстом
                                                                              image
                                                                              0
                                                                              Декодируется это элементарно.
                                                                              А можно поподробнее? Символы меняются при каждом обновлении страницы.
                                                                                0
                                                                                Там используется кастомный шрифт, в которм символы с такими хитрыми кодами отображаются как цифры.
                                                                                Конечно, все может меняться, но на это есть тестироваине, которое никто не отменял :)
                                                                                0
                                                                                Один и тот же символ при каждом обновлении страницы дает разный код (хотя, иногда они повторяются)
                                                                                Видать, еще в сессии какой-то рандом хранят. Так что, для такого подхода нужно набрать статистику, и он может незаметно начать выдавать не совсем верные значения когда разработчики чуть-чуть поменяют формулку.
                                                                                Распознавание картинки надежней.
                                                                                  0
                                                                                  Так что, для такого подхода нужно набрать статистику, и он может незаметно начать выдавать не совсем верные значения когда разработчики чуть-чуть поменяют формулку.

                                                                                  Я бы заодно скачивал шрифт и считал его хеш, при его изменении выдавал алерт.
                                                                                  0
                                                                                  со своими шрифтами можно классный трюк делать — когда текст выглядит одним образом, а при копировании из PDF/сайта в нем кое-что меняется, например, числа.
                                                                                  0
                                                                                  Забавно, «нечто постыдное». Оказывается, парсить — стыдно. Стыдно, товарищи, стыдно.
                                                                                    0
                                                                                    ну говорить про это точно не принято всуе
                                                                                      +1
                                                                                      был у меня опыт парсинга инфы с сайта МосБиржи, чтобы не покупать у них за деньги инфу по фьючам. Инфа специфичная, скачать бесплатно откуда-то типа yahoo.finance её нельзя, а биржи и брокеры предлагают её экспорт через свои API за деньги. Хорошая штука — парсинг.
                                                                                    0
                                                                                    когда-то работал в таком проекте как webcollage, лет 10 назад. парсились сайты венторов(hp, sony и т.п.) собирлась инфа про товары и встраивалась потом на амазоны и бестбаи. Стэк был java + js + xslt. Так вот довольно быстро вендоры тупо стали предоставлять огромные xml файлы с описанием и ссылками на картинки, т.к. поняли что это им же нужно )
                                                                                      0
                                                                                      все верно. это самое правильное, но тогда у нас отнимут хлеб :)
                                                                                        0
                                                                                        Ой вей. Если бы все люди всё делали по уму… Я думаю безработных было бы в 10 раз больше.

                                                                                        На ваш век хватит.
                                                                                      +2
                                                                                      С этической точки зрения — сплошные подмены понятий и попытки «отбелить» свою деятельность.
                                                                                      Многие зацикливаются на том, что парсинг – это именно воровство контента, хотя это совершенно не так. Парсинг – это всего лишь автоматизированный сбор информации, не более того.

                                                                                      Недавно нам поступил заказ на сбор данных по 50 сайтам крупных онлайн-аптек.… В результате вместо набора инструкций вручную, заказчикам останется лишь внести небольшие корректировки в шаблоны инструкций, и всё – контент для сайта готов.

                                                                                      Подглядывать в замочную скважину как минимум не красиво, а если клиент потом ещё и выдаёт спарсеное за своё — то это уже прямое воровство. Конечно понятно, что в сфере бизнеса все так делают. Но в приличном обществе всё же принято об этом молчать.
                                                                                        +2
                                                                                        Вы путаете мягкое и холодное. Мы действительно оказываем услугу по парсингу. Но ровно так же можно обвинять производителей, например, оружия в том, что с его помощью убивают. Мы делаем бизнес, а в бизнесе есть одно правило — законно это или нет. Моя точка зрения… Если к нам приходят клиенты и готовы платить много, что бы получить данные — это разве плохо… я вам примеров могу привести массу — производители сигарет например.
                                                                                          0
                                                                                          Производство оружия, сигарет, алкоголя и других наркотиков, веществ, лекарств — регулируется законом. Когда производители начинают сбывать контрафакт или работать в обход правил — к ним предъявляют обоснованные претензии. А клиенты готовы платить много в первую очередь за то, что не всегда законно.
                                                                                          Вы сами пишите, что часто находитесь на грани закона, когда часть информации может быть защищена авторским правом.

                                                                                          Возможно, вы лучшие в своём деле, этим можно гордиться, рассказывать, привлекать клиентов. Но не нужно при этом делать вид, что вы белые и пушистые.
                                                                                            +5
                                                                                            Давайте без лишних аналогий:
                                                                                            Некто создал базу товаров. Потратил кучу ресурсов на поиск информации, систематизацию этой информации, вынесение данных в базу.
                                                                                            Вы, по просьбе конкурента эту базу спарсиваете и за деньги отдаете тому самому конкуренту.
                                                                                            Вы считаете, что здесь нет этических проблем?

                                                                                            Касательно законности — не знаю как в РФ, но в Украине БД может быть объектом авторского права.
                                                                                              0
                                                                                              Поддержу вас.
                                                                                              В свое время решил сделать приложение для сайта forbes.
                                                                                              Чтобы получать статьи с сайта — сделал парсинг страниц.
                                                                                              Настроил всё в автоматическом режиме и сделал приложение для Андроид.
                                                                                              Выложил приложение в маркет.
                                                                                              Через год со мной связался юрист и потребовал удалить приложение, потому что я нарушаю авторские права.
                                                                                              Спорить не стал. Обидно, что у самого forbes нет приложения по их же статьям с сайта.
                                                                                              Есть только сайт. А сайт у них тормозной, долго грузится и увешан рекламой.
                                                                                              Вот такая вот история.
                                                                                                +2

                                                                                                Как можно сравнивать статьи с сайта и, например, цены или инструкции к лекартсвам?

                                                                                                  0
                                                                                                  Контент — он и есть контент.
                                                                                                  Я лишь хотел поддержать автора комментария в том, что любой контент — это некий труд. И не все хотят, чтобы этот труд забирался и использовался массово.
                                                                                                  Это мое личное мнение.
                                                                                                    +3
                                                                                                    90% заказов — мониторинг цен, ассортимента. Если вы думаете, что все только и ждут чтобы украсть контент — это не так…
                                                                                                +1
                                                                                                в России тоже. Мы оказываем услугу по сбору данных. И за эту услугу просим деньги. Мы не продаем сами данные. Я, к слову, всех клиентов предупреждаю, что они могут нарушить закон если будут использовать например описания.

                                                                                                Но опять же из опыта — 90% заказчиков ваши описания не интересуют вообще. Цены, ассортимент, акции. Все.
                                                                                                  +1
                                                                                                  Не вынося личных оценочных суждений предмету обсуждения, всё же спрошу: чем это технически отличается от ситуации, когда конкурент нанял бы дюжину усидчивых индусов, которые просто перепечатали бы всё необходимое? В какой момент начинается неэтичное? Это может казаться софизмом, но мне действительно интересно, где на промежутке от «взять единственную ценю с одностраничного лендинга» до «спарсить Амазон целиком», по вашему мнению, заканчивается этичность происходящего?
                                                                                                    +1
                                                                                                    Как правило способ реализации не имеет значения, а имеет значение само деяние. Т.е. нет разницы убьёте вы человека ножом или роботом — ответственность одинаковая. Так же и здесь — нет разницы парсите вы индусами или роботами.
                                                                                                    Это безотносительно этичности, — грань этичности будет стоять в одном месте и для индусов, и для роботов.
                                                                                                      0
                                                                                                      А вторая часть? Вот работаете вы в сфере продаж каких-нибудь ошейников для пчёл. Всё мировое Р'н'Д потянуло пока сделать всего одну модель, да и конкурентов у вас всего трое. Вы заходите к каждому на сайт, смотрите, сколько они хотят за один ошейник, делаете выводы. Этично? Вполне.
                                                                                                      Пример с другого края спектра я привести не могу, просто потому, что сам всё же считаю данную тему inherently этичной, но, судя по всему, вы где-то там начинаете видеть отсутствие этичности. Но мониторинг рынка был неотъемлемой частью экономики ещё со времён, когда пойманную рыбу меняли на шкуры мамонтов, просто потому, что, если ты вдруг запросишь десять шкур за одну рыбу, то и будешь, как дурак, с этой рыбой сидеть и мёрзнуть, потому что сосед отдаст за одну шкуру полсотни рыб и все будут довольны.
                                                                                                        0
                                                                                                        Как я и сказал «безотносительно этичности». Я лишь хотел отметить то, что нет смысла делить на индусов и роботов.
                                                                                                        Касаемо этичности — я просто не задумывался. Мне нужно значительно больше времени, чтобы сформировать позицию по этому вопросу.
                                                                                                          0
                                                                                                          Согласен, что нет смысла делить на индусов и роботов, в этом и посыл. Но как раз тут у нас встаёт вопрос этичности заказчика. А сами датафидовцы, в общем-то, действительно ничего не нарушают, более того, насколько я понял, они уведомляют заказчиков о том, какие конкретно в каком случае могут возникать спорные вопросы. Я свечку не держал, но, как минимум по описанию, они выглядят, как наиболее этичные по возможности представители ниши, которую бы кто-то занял в любом случае.
                                                                                                        0
                                                                                                        Способ определённо имеет значение.
                                                                                                        По крайней мере в УК РФ есть просто убийство и убийство общественно опасным способом :)
                                                                                                        0
                                                                                                        все верно. сидят операторы, собирают данные. Кстати, на те же авиа-билеты люди руками собирают данные, знаю 100%. Хотя можно и парсить.
                                                                                                          0
                                                                                                          чем это технически отличается от ситуации, когда конкурент нанял бы дюжину усидчивых индусов

                                                                                                          с точки зрения «этичности» — ничем не отличаются, как уже заметили в комментариях выше

                                                                                                          по вашему мнению, заканчивается этичность происходящего

                                                                                                          Я не знаю. Но я знаю, как однозначно решить вопрос этичности в каждом конкретном случае – просто спорить разрешения у владельца ресурса (мы хотим спарсить вашу базу для таких-то целей). Возможно, и парсить не придется.
                                                                                                          Как пример – владелец lamptest.ru провел огромную работу, составил уникальную базу и, при этом, выложил базу в открытый доступ.
                                                                                                          0
                                                                                                          Некто создал базу товаров. Потратил кучу ресурсов на поиск информации, систематизацию этой информации, вынесение данных в базу
                                                                                                          И выложил, по сути, в общий доступ.
                                                                                                            +1
                                                                                                            Общий доступ != общественное достояние.

                                                                                                            То, что блоггеры, например, бесплатно выкладывают статьи собственного сочинения на всеобщее обозрение совершенно не означает, что статьи эти не защищены авторским правом.

                                                                                                            1) Вы не можете присвоить их авторство себе.
                                                                                                            2) Вы не можете публиковать их где-то еще, если такого разрешения вам не было дано. Обычно такое разрешение звучит как нечто вроде «разрешено к распространению с обязательной ссылкой на первоисточник».

                                                                                                            То же касается и интеллектуальной собственности: если вы на гитхабе нашли нужный вам модуль «в общем доступе», это еще не дает вам права безвозмездно использовать его код (частично или полностью) в своем проекте.
                                                                                                              0
                                                                                                              А если я найдя интересный мне модуль реализовал самостоятельно заложенные в нём идеи/алгоритмы?
                                                                                                                0
                                                                                                                Все зависит от некоей степени похожести, которую определит судебная экспертиза. Мне достоверно неизвестно, как именно или кто именно эту степень будет определять.
                                                                                                                В общем случае то, что вы описали незаконно, однако в программировании все достаточно неоднозначно, т.к. некоторые задачи имеют ограниченное количество способов, которыми их можно решить.
                                                                                                          +2
                                                                                                          Как я уже намекал в другой ветке, всё просто:
                                                                                                          • Ваша деятельность как «водителя бота» этична ровно настолько, насколько Ваш бот соблюдает robots.txt посещаемого сайта. Не исходя из допущений вида «страницы товара не закрывают», а буквально накладывая маски allow и disallow на запрашиваемые URL. Отсутствует robots.txt — трактуйте в Вашу пользу, присутствует, но вы его нарушаете — однозначно Вы абьюзите сайт.
                                                                                                          • Что делают с контентом Ваши заказчики — уже на их совести


                                                                                                          Конечно robots.txt не имеет силы закона, но если действительно припечет, не факт что точно пройдет мимо юристов.
                                                                                                            +3
                                                                                                            В магазинах вешают таблички «фото запрещено», и это незаконно. И неэтично. Просто традиция такая.

                                                                                                            robots.txt — это технический прием. Он не про этику.

                                                                                                            Если вы хотите обозначить, что не желаете парсинга — делаете раздел, вроде такого: account.habr.com/info/agreement
                                                                                                            Не знаю будет ли такое ограничение законным, но, как минимум, свои пожелания можете там изложить человеческим языком (или упомянуть robots.txt), потом можно про этику
                                                                                                              +4
                                                                                                              Странно, но почему тогда бот гугла ограничение на краулинг в этом agreement проигнорирует, мало того — цинично спарсит и в поиске покажет, а robots.txt еще как приймет во внимание??? Наверно потому что он бот, и что-бы с ним договориться о границах этичного ( очертить пожелания хозяина сайта о поведении на его территории ) и придумали этот «технический прием».

                                                                                                              Попробуйте глянуть на ботов чуть «шире» чем боты топикстартера, которые работают по заданному списку УРЛ — боты могут бродить где попало, находя УРЛы для парсинга in the wild.
                                                                                                                +1
                                                                                                                Потому, что бот гугла не руководствуется этикой вообще. А вот пусть Вы хотите поделиться, но не хотите нагрузку на сайт — запрещаете robots.txt, и разрешаете разово спарсить. Этично брать базу, даже против robots.txt? Этично.

                                                                                                                Обсуждать этику применения абстрактных ботов в вакууме я не буду, у топикстартера индивидуальный подход к сайту, и метод «а если бы он вез патроны» к нему применять неэтично )
                                                                                                                  +2
                                                                                                                  Странно, но почему тогда бот гугла ограничение на краулинг в этом agreement проигнорирует, мало того — цинично спарсит и в поиске покажет, а robots.txt еще как приймет во внимание???
                                                                                                                  Потому что только соблюдение описаний в robots.txt позволяет Гуглу заявлять о том, что у него есть Implied license (и да, судебные процессы, где эта теория проверялась на прочность, отгремели много лет назад… и во многих юрисдикциях). Именно существование robots.txt и соответствующего описания позволяет сделать вывод, что данные с сайта предназначены не только для людей — но и для ботов… Если бы авторы сайта хотели бы иного, то запретить ботам сканировать сайт они могли бы создав файл с парой строк, а если они этого не делают — то, соответственно, приходим к выводу, что они хотят, чтобы их парсили.
                                                                                                                    0
                                                                                                                    Когда очень надо, чихать хотел и Google, и Яндекс, и все прочие на robots.txt. Не только зайдут, но ещё и анонимно, маскируясь под пользователя. Просто потому, что иначе не сделать хоть сколько-нибудь работающий SafeBrowsing и не проконтролировать адекватность страниц, на которые ведут рекламные объявления. Если не ходить под robots.txt и не маскироваться, то первый же школьник догадается спрятать очередной «Internet speed booster» с трояном под robots.txt или отдавать заготовленный «хороший» landing только *bot'у, а всем остальным — какое-то говно, которое нарушает все правила рекламного сервиса.

                                                                                                                    Есть и другие легитимные активности, которые намеренно и в открытую игнорируют robots.txt для выполнения своей функции.
                                                                                                                      0
                                                                                                                      Там не всё так просто. Все описанные вами вещи действительно имеют место быть… вот только делают это не Гугл-боты автономно, а исключительно люди… ну с и некоторой помощью со стороны Гугла, не без этого. Которые используют Хром или, когда Хрома не было, Google Toolbar.

                                                                                                                      Или вы думаете зря Гугл так усиленно продвигал Google Toolbal пока Хрома не было, а как Хром появился — вдруг перестал? Вот теперь вы знаете ответ на вопрос «почему?»…
                                                                                                                        0

                                                                                                                        Я не понял, о какой именно городской легенде идёт речь:


                                                                                                                        1. Гугл сделал из Хромов ботнет, через который «исключительно люди» посещают и вручную мониторят все бинарники и лендинги?
                                                                                                                        2. Хром каждого пользователя отсылает в Гугл всё, что скачивает для «исключительно людей»?
                                                                                                                        3. В Хроме есть какая-то доп. функциональность для «исключительно людей» в стиле «прокликай 1000 ссылок, которые мы предложим, и получи $1»?

                                                                                                                        Во-первых, это всё чушь (с вероятностью 99.9%). Во-вторых, это не опровержение, не подтверждение, и вообще никаким боком не связано с моим постом: куча вполне легитимных ботов в Сети вполне легитимно и открыто кладут с прибором на robots.txt.

                                                                                                                          0
                                                                                                                          Хром отсылает в Гугл ссылки на помещённые страницы, которые тот проверяет на безопасность. Так посещает страницу обычный человек, то robots.txt его не касается.

                                                                                                                          А рассказы про то, что вы можете парсить что угодно и когда угодно невзирая на robots.txt — приберегите для суда. Они вам там понадобятся.
                                                                                                                        0
                                                                                                                        Просто потому, что иначе не сделать хоть сколько-нибудь работающий SafeBrowsing и не проконтролировать адекватность страниц, на которые ведут рекламные объявления


                                                                                                                        Проверки в интересах рекламного бизнеса, который платит сайтам — это другое.

                                                                                                                        Парзить контент, созданный чужим трудно, чтобы выложить его на своем сайта — совсем другое дело.
                                                                                                                          0
                                                                                                                          Выборочные проверки попадают под пункт о «незначительном объёме» статьи 1335.1, ко всему прочему.
                                                                                                                      +2
                                                                                                                      никоем образом такое ограничение не будет законным. Это не я сказал — наши юристы.
                                                                                                                      0
                                                                                                                      Конечно robots.txt не имеет силы закона, но если действительно припечет, не факт что точно пройдет мимо юристов.
                                                                                                                      А ему и не нужно. Закон уже есть — это закон об авторском праве. Он запрещает парсинг и вообще любое копирование без разрешения правообладателя. И даже детский лепет про «фактические данные» вас не спасёт — специально для вас в ГК есть статья 1334, почитайте на досуге.

                                                                                                                      А вот robots.txt — спасти как раз может. Потому что он, фактически, является лицензий. Но для того, чтобы его можно было в таком качестве использовать — его таки надо соблюдать. Использовать уникальные и легко идентифицирующиеся названия для ботов, не пытаться выдавать себя за браузер и т.д. и т.п.

                                                                                                                      В противном случае — это уголовка и вопрос только в том, когда и кто первым сподобится потратить время и силы на то, чтобы отправить вас в «места не столь отдалённые»…
                                                                                                                        0

                                                                                                                        Каким образом парсинг стал равен нарушению авторских прав?

                                                                                                                          0
                                                                                                                          никоем. нарушение — это заказать у нас парсинг, а потом вывалить контент на свой сайт.
                                                                                                                            –1
                                                                                                                            Нарушение — парсить контент, владельцы которого сделали хотя бы самые минимальные телодвижения к тому, чтобы он был закрыт. Скажем robots.txt создали, где разрешили ходить только Гуглу и Яндексу.
                                                                                                                              0
                                                                                                                              Скажем robots.txt создали

                                                                                                                              robots.txt это протокол рекомендаций, ни один суд не примит причину «закрыт в robots.txt», который многие легальные веб-сканеры (например веб архив) не соблюдают. Данные публичны пока они открыты для пользователей.
                                                                                                                                +3
                                                                                                                                дивный маня мир.
                                                                                                                                люди Открыто выкладывают информацию в инторнеты,
                                                                                                                                заявляют что эту информацию можно читать Только Человеческими Глазами,
                                                                                                                                а иначе ай «воровство контента».

                                                                                                                                  +3
                                                                                                                                  ну собственно так и есть. Руками собирать можно, а парсить роботом нельзя.
                                                                                                                              0
                                                                                                                              Статью 1334 ГК РФ, я так понимаю, не читали? «Никто не вправе извлекать из базы данных материалы и осуществлять их последующее использование без разрешения правообладателя», однако.

                                                                                                                              И копирование этой статьи к вам на компьютер и парсинг сайта — нарушают «исключительные права» правообладателя… однако скачивание статьи к вам на компьютер — предполагается техническими средствами Web'а (см. Implied License), а парсинг — строго говоря, нет.
                                                                                                                                +5
                                                                                                                                А вы статью 1335.1 ГК РФ.? Где оказывается, что в личных, научных, образовательных или в небольшими частями из публичной базы внезапно извлекать можно. А так же можно получать информацию, которая уже есть в других источниках.

                                                                                                                                Более того, анализировать цены в публичной базе это вполне нормальное использование этой базы, а значит ни один суд не может мне, как пользователю, использовать любые технические средства для такого анализа (ну вот не хочу я вручную искать где дешевле продают айфон). Так же ни одна лицензия не может запретить конкуренту зайти на ваш сайт и посмотреть там цены. Опять-таки, есть пункт про научные интересы (а анализ цен вполне научен).

                                                                                                                                Ну и до кучи, наказание определяется иском от реального убытка, а скачивание публичной базы без ее использование, очень сложно подвести под реальный убыток правообладатели.
                                                                                                                                  +2
                                                                                                                                  >у вот не хочу я вручную искать где дешевле продают айфон
                                                                                                                                  Это личное использование. Вот когда вы за это начнете брать деньги, наступает уже другая история.
                                                                                                                                    0
                                                                                                                                    Где оказывается, что в личных, научных, образовательных или в небольшими частями из публичной базы внезапно извлекать можно.

                                                                                                                                    Вся статья о парзинге для целей коммерции.

                                                                                                                                    Ни научных, ни личных, ни образовательных целей.
                                                                                                                                    Ни небольших частей — иначе бы и бизнеса этого не было, те кто сейчас заказывают вручную бы просмотрели небольшие объемы.

                                                                                                                                    Опять-таки, есть пункт про научные интересы (а анализ цен вполне научен).

                                                                                                                                    Если вы пишете диссертацию про колебания цен — да, конечно.

                                                                                                                                    Но что-то мне подсказывает, что заказчики автора статьи заказывают мониторинг ради использования в коммерческих целях, а не для диссертаций.
                                                                                                                                      0
                                                                                                                                      конечно. цены, ассортимент. изменение и т.п.
                                                                                                                                +3
                                                                                                                                Парсинг != Нарушение авторских прав
                                                                                                                                Нарушение авторских прав == Незаконное Копирование и Использование
                                                                                                                                  0
                                                                                                                                  Ну и каким же образом ваше копирование становится законным, в данном случае?
                                                                                                                                    0
                                                                                                                                    Я не силен в юр.терминологии.
                                                                                                                                    Возможно отдельно слово «копирование» и отдельно «использование» НЕ запрещено.
                                                                                                                                    А вот с предлогом «И» — запрещено. Как-то так.
                                                                                                                                    0
                                                                                                                                    К чему тогда ведет парсинг, кроме как не к незаконному копированию и использованию? Я думаю, здесь аналогия может быть с покрыванием преступников. Да, я не совершал преступление, но содействовал преступникам и, следовательно, тоже виновен (если, конечно, было преступление, но оно скорее будет)
                                                                                                                                      0
                                                                                                                                      Может для личного пользования я могу использовать без разрешения и запретов? (мое предположение).
                                                                                                                                      Вот пример. Персонажи Marvel (либо Angry Birds) — это защищенные торговые марки, которые нельзя без разрешения использовать и распространять.
                                                                                                                                      Но никто не запрещает мне сделать дома фигурку Marvel и поставить на полку. Всё для личного пользования.
                                                                                                                                      Возможно с парсингом «другая тема». И здесь вы упираете на то, что автор статьи не совсем для себя парсит данные, более того еще и зарабатывает на этом.
                                                                                                                                        0
                                                                                                                                        Там внизу цитату приводили. «В личных, научных, образовательных целях в объеме, оправданном указанными целями» — можно и без разрешения.
                                                                                                                                          +1
                                                                                                                                          Точно, прям с языка сняли )))
                                                                                                                                        0
                                                                                                                                        если, конечно, было преступление, но оно скорее будет

                                                                                                                                        Есть много причин, когда парсинг полностью легален. Например, marketing research это целая наука, которая включает анализ ценообразования конкурентов, она легальна во всех (вроде бы) странах.

                                                                                                                                        Я занимался давным давно парсингом, но всегда просили делать вполне легально и морально правильный парсинг.

                                                                                                                                        — Несколько раз посредники просили сделать парсинг оптовика (для продажи его же товаров), сам оптовик был не против, но вкладываться в разработку API совершенно не собирался (или не мог по тех.причинам),
                                                                                                                                        — один раз посредник одного китайского магазина просил сделать интеграцию, но там api китайского магазина был настолько долбанутый и ограниченный, что частично приходилось получать инфу парсингом,
                                                                                                                                        — Один раз автор и владелец сайта и форума хотел мигрировать с бесплатного сайта, который зажимал базу данных,
                                                                                                                                        — Так же делал интеграцию сайта литературного конкурса и его же форума, чтобы при добавлении нового рассказа автоматически появлалась тема на форуме (по тех.причинам это невозможно было сделать иначе)
                                                                                                                                          0
                                                                                                                                          > здесь аналогия может быть с покрыванием преступников

                                                                                                                                          Вы про УК РФ Статья 316. Укрывательство преступлений? А вы её читали?

                                                                                                                                          Если бы там ваша логика была применима, то надо было бы таксистов сажать, они скорее всего уголовников возили.
                                                                                                                                            0
                                                                                                                                            Ну знаете, если бы мне в машину странный тип, на чей счет были бы подозрения, то следовало бы обратиться в полицию. Когда заказывают парсинг, не предоставляя при этом какие-л. права на ресурс, то как минимум есть лишний повод усомниться в законности. Остается либо закрывать на это глаза, либо «ввести себя порядочно». Ничего не имею против ситуаций, описанных vedenin1980 выше. PS я сам пару раз делал не совсем чистые приложения и счастья это не принесло, только негатив остался
                                                                                                                                              0
                                                                                                                                              > Ну знаете, если бы мне в машину странный тип, на чей счет были бы подозрения, то следовало бы обратиться в полицию.

                                                                                                                                              Ну и вам там ответят «когда убьют — тогда и приходите».

                                                                                                                                              > не предоставляя при этом какие-л. права на ресурс

                                                                                                                                              Права, техпаспорт, справку в бассейн.
                                                                                                                                              Попробуйте, для начала, хотя бы медкнижки у официантов проверять. Если этого мало покажется — приходите, расскажу про перестикеровку. Опасных преступников ловить будете, потенциальных убийц.
                                                                                                                                                0
                                                                                                                                                Это все примеры халатности. К сожалению, она везде, но если бы каждый хоть немного старался что-то исправить, то мир был бы куда лучше, чем сейчас. Никто никого не заставит, дело каждого решать, как ему поступать. Опять же, это только моральная точка зрения, по поводу закона — это головная боль уже соотв. органов власти
                                                                                                                                                  0
                                                                                                                                                  Ну вот не будьте халатны. Каждый раз проходя мимо нарезки в универсаме Вы наблюдаете (и покрываете) нарушение. Там отсутствует дата производства и срок годности (есть только дата упаковки) — сообщайте в полицию, Роспотребнадзор и спортлото.

                                                                                                                                                  Если магазин круглосуточный и время упаковки около часа ночи — это просто гарантия того, что вчерашнюю нарезку переупаковали с новой датой, а свежую нарезку делают по утрам. В остальных — или парез закрытием, или после открытия. Процесс «пачками забирают старую нарезку и несут к весам и она появляется посвежевшей» особо не скрывают, достаточно в нужное время придти и посмотреть.

                                                                                                                                                  В отличии от «я таксист, я вам подозрительного человека привез, в чем виноват не знаю» это точно незаконно и доказуемо.
                                                                                                                                        0
                                                                                                                                        Уголовка — в УК, а не в ГК
                                                                                                                                          0
                                                                                                                                          Формально вы правы. Но в УК (статья 146я) описываются только масштабы нарушений, которые позволяют классифицировать нарушение авторских прав как уголовку. Сами по себе права описаны в ГК — а на масштабы, позволяющие классифицировать деяние как уголовку, регулярный парсинг, такой, что возникает вопрос «а не ляжет ли сайт», без проблем вытягиваются.
                                                                                                                                            +2
                                                                                                                                            Там «крупный размер» — это не в количестве спарсенных страниц, а в деньгах. Как вы вообще оцените парсинг (и его регулярность), как нарушение авторских прав (!), в деньгах?

                                                                                                                                            Положить сайт — это другая статья.
                                                                                                                                              0
                                                                                                                                              Там «крупный размер» — это не в количестве спарсенных страниц, а в деньгах. Как вы вообще оцените парсинг (и его регулярность), как нарушение авторских прав (!), в деньгах?
                                                                                                                                              А как обычно в таких случаях делают и откуда может штраф в сотни тысяч долларов за одну копию фильма взяться?

                                                                                                                                              Высчитывается «упущенная прибыль» с соответствующим коэффициентом. Можно с каких-нибудь договоров просчитать — сколько будет стоит купить у вас ту же информацию легально и отсюда плясать.
                                                                                                                                                0
                                                                                                                                                > откуда может штраф в сотни тысяч долларов за одну копию фильма взяться?

                                                                                                                                                Точно не из уголовного дела.
                                                                                                                                                (и Вы не путайте штраф и ущерб. Вот вы по хулиганке разбили бутылку пива: Ущерб — 30 рублей, штраф — до 1000р, а по гражданскому иску потом хоть триллион отсуживайте за «упущенную выгоду», но это уже не штраф)

                                                                                                                                                > сколько будет стоит купить у вас ту же информацию легально и отсюда плясать.

                                                                                                                                                Ну, для начала, вы должны её изначально продавать (а не выкладывать в публичный доступ), выдумывать цифру задним числом не прокатит
                                                                                                                                                  0
                                                                                                                                                  Ну, для начала, вы должны её изначально продавать (а не выкладывать в публичный доступ), выдумывать цифру задним числом не прокатит
                                                                                                                                                  Серьёзно? Не прокатит? Поинтересуйтесь вначале сколько стоит коммерческая лицензия на Консультат-Плюс какой-нибудь. Притом что та же инфрмация у них и на сайте лежит.

                                                                                                                                                  Всё, разумеется, будет зависеть от того, каких экспертов вы привлечёте, но вытянуть «ущерба» на уголовку для крупного магазина — не проблема. А у мелких и денег-то на приличного юриста не найдётся, так что там непринципиально.
                                                                                                                                                    0
                                                                                                                                                    нет, не лежит. Как только Вы полезете дальше десятка основных законов, вы быстро наткнетесь на предложение купить ту самую коммерческую версию.

                                                                                                                                                    Вы же прайс не продаете вообще, что эксперт то сочинять будет? Конкретно, а не «хороший юрист натянет без проблем»
                                                                                                                                          0
                                                                                                                                          специально для вас в ГК есть статья 1334, почитайте на досуге.

                                                                                                                                          А статью «Статью 1335.1» вы читали?

                                                                                                                                          1. Лицо, правомерно пользующееся обнародованной базой данных, вправе без разрешения обладателя исключительного права — изготовителя базы данных и в той мере, в которой такие действия не нарушают авторские права изготовителя базы данных и других лиц, извлекать из базы данных материалы и осуществлять их последующее использование:
                                                                                                                                          — в целях, для которых база данных ему предоставлена, в любом объеме, если иное не предусмотрено договором;
                                                                                                                                          — в личных, научных, образовательных целях в объеме, оправданном указанными целями;
                                                                                                                                          — в иных целях в объеме, составляющем несущественную часть базы данных.

                                                                                                                                          4. Изготовитель базы данных не может запрещать использование отдельных материалов, хотя и содержащихся в базе данных, но правомерно полученных использующим их лицом из иных, чем эта база данных, источников.

                                                                                                                                          Для открытых баз в инете это практически означает, что всякие мониторинги цен и т.п. действия парсинга вполне легальны, криминалом будет лишь публикация уникальных описаний товаров на сайте конкуренте. Более того тот кто выполняет парсинг не может знать нужна ли база заказчику для личных, научных, образовательных или других целей.

                                                                                                                                          В противном случае — это уголовка и вопрос только в том, когда и кто первым сподобится потратить время и силы на то, чтобы отправить вас в «места не столь отдалённые»…

                                                                                                                                          У вас смешались люди, кони… Ну какая уголовка и «места не столь отдалённые» в гражданском кодексе? Там вообще преступлений нет, только нарушения, штраф и иски. Если вы посмотрите, чем вам грозит нарушение интеллектуальных прав, то это… компенсация реально понесенного вреда правообладателем и прекращения использование интеллектуальных прав. Если вы только спарсили публичные данные с сайта и ничего с этим не делали, то реально понесенные потери правообладателя близки нулю и очень сложно будет убедить суд в обратном.
                                                                                                                                            0
                                                                                                                                            Вы бы хотя бы прочитали свою собственную цитату, а? Мониторинг цен скачивает существенную часть базы, так что под «иные цели в незначительных объёмах» явно не попадает. Личные, научные, образовательные цели? Мимо — мы ведём речь явно не о публикации научной статьи. Речь идёт о конкурентах, в основном. В целях, для которых база была предоставлена? Дык она для того, чтобы была возможность выбора у покупателя сделана! Сколько там товара закупил топикстартер?

                                                                                                                                            Я видел случаи, когда люди дают ссылки на статьи, которые из слова опровергают… Но чтобы прямо их процитировать — это в первый раз…

                                                                                                                                            Более того тот кто выполняет парсинг не может знать нужна ли база заказчику для личных, научных, образовательных или других целей.
                                                                                                                                            А если не знает — то не имеет права парсить — прочитайте же, блин, то, что вы нацитировали ещё раз!

                                                                                                                                            Если вы посмотрите, чем вам грозит нарушение интеллектуальных прав, то это… компенсация реально понесенного вреда правообладателем и прекращения использование интеллектуальных прав.
                                                                                                                                            принудительные работы на срок до пяти лет либо лишение свободы на срок до шести лет со штрафом… Откройте УК и почитайте же статью 146, блин!

                                                                                                                                            Да, это всё только в случае «особо крупного размера», натянуть на него запуск wget'а вам не удастся, а вот «промышленный» парсинг с арендованным серверами и прочим… вполне.
                                                                                                                                              +1
                                                                                                                                              В целях, для которых база была предоставлена? Дык она для того, чтобы была возможность выбора у покупателя сделана!
                                                                                                                                              Это где-то указано? Если нет, то это всего лишь предположение, на него опираться нельзя.
                                                                                                                                              А если не знает — то не имеет права парсить
                                                                                                                                              А можно цитату где это написано?
                                                                                                                                                +1
                                                                                                                                                Мониторинг цен скачивает существенную часть базы, так что под «иные цели в незначительных объёмах» явно не попадает.

                                                                                                                                                Нее, это надо доказывать в суде. Цена лишь незначительный процент среди остальной информации (фото, описаний), скачивание 1% от базы это незначительный объем. Нет, можете доказывать в суде, но тут у кого адвокаты лучше.

                                                                                                                                                Личные, научные, образовательные цели? Мимо — мы ведём речь явно не о публикации научной статьи.

                                                                                                                                                Кто сказал? Как вы докажите, что я во время скачивания не планировал публикацию научной статьи? Как мы можете доказать, что заказчик не хотел получить данные ради личных данных. Исполнитель не обязан узнавать цели по которым его просил скачать заказчик. Все претензии к заказчику.

                                                                                                                                                Дык она для того, чтобы была возможность выбора у покупателя сделана! Сколько там товара закупил топикстарт. Речь идёт о конкурентах, в основном.

                                                                                                                                                База это публичные данные, а цены это оферта. Вы не можете запретить конкуренту зайти на ваш сайт или в ваш магазин, он такой же пользователь сайта, как и остальные и может для своих личных целей бизнеса анализировать ваши цены. Ни один суд не согласится, что вы имеете право прятать цены от вашего конкурента, но показывать остальным покупателям.

                                                                                                                                                Более того тот кто выполняет парсинг не может знать нужна ли база заказчику для личных, научных, образовательных или других целей.
                                                                                                                                                А если не знает — то не имеет права парсить — прочитайте же, блин, то, что вы нацитировали ещё раз!

                                                                                                                                                Докажите, заказчик сказал, что ему данные нужны для научной статьи, докажите, что исполнитель обязан требовать какие-то подтверждения (какие?).

                                                                                                                                                Внимательно посмотрите пункт:
                                                                                                                                                4. Изготовитель базы данных не может запрещать использование отдельных материалов, хотя и содержащихся в базе данных, но правомерно полученных использующим их лицом из иных, чем эта база данных, источников.

                                                                                                                                                Раз вы выложили цены на сайт это публичные данные/оферта, которые так же можно получить позвонив в фирму или зайдя в магазин. Их нельзя по закону скрывать, более того они не могу являться защитой интеллектуальной собественности. В конце концов, моя соседка Люся могла зайти на ваш сайт и потом сказать мне, что у вас айфон дешевле чем у меня.

                                                                                                                                                Да, это всё только в случае «особо крупного размера», натянуть на него запуск wget'а вам не удастся, а вот «промышленный» парсинг с арендованным серверами и прочим… вполне.

                                                                                                                                                Нее, нужно показать именно реально понесенный ущерб, мало ли зачем арендованный сервер работает, а вот с этим сложно, судья спросит, а что секретарь конкурента не могла вручную зайти на сайт и получить все эти цены (ну ладно десяток офис менеджеров)? Могла, тогда где ущерб?

                                                                                                                                                Вообще, цена на сайте это публичный договор, ее нельзя делать тайной и более того нельзя делать разной для разных потребителей. В том числе владелец фирмы конкурента должен иметь равное право узнать цену на ваш товар и купить товар по этой цене, иначе вы нарушаете ГК РФ Статья 426.
                                                                                                                                                  0
                                                                                                                                                  Ни один суд не согласится, что вы имеете право прятать цены от вашего конкурента, но показывать остальным покупателям.
                                                                                                                                                  Ага, конечно. А тысячи фирм, высылающих цены «по запросу» (некоторые имеют даже блоги на Хабре) — они все, конечно, «нарушители закона».

                                                                                                                                                  Внимательно посмотрите пункт:
                                                                                                                                                  4. Изготовитель базы данных не может запрещать использование отдельных материалов, хотя и содержащихся в базе данных, но правомерно полученных использующим их лицом из иных, чем эта база данных, источников.
                                                                                                                                                  А сами своему совету не пробовали последовать? Читаем внимательно: правомерно полученных использующим их лицом из иных, чем эта база данных, источников.

                                                                                                                                                  То есть использовать сведения — да ради бога. Докажите, что они появились у вас не в результате парсинга сайта, убедите в этом суд — и пользуйтесь на здоровье.

                                                                                                                                                  Да, если магазин — ваш конкурент сможет доказать, что пользовался не результатами парсинга сайтов, а «рассказами бабы Люси», то он — cможет соскочить с крючка. Вы — нет.

                                                                                                                                                  Докажите, заказчик сказал, что ему данные нужны для научной статьи, докажите, что исполнитель обязан требовать какие-то подтверждения.
                                                                                                                                                  Серьёзно? Ваш заказчик, представитель торговой сети, заказал вам получение данных под научное исследование, а том, что он будет их использовать в комменрческих целях вы даже не догадывались? Тут скорее психологическая экспертиза о вменяемости требуется.

                                                                                                                                                  (какие?)
                                                                                                                                                  Любые — но такие, которые смогли бы суд и присяжных (если они будут иметься) убедить в том, что коммерческая организация заказывает данные для проведения научного исследования, а не для коммерческой деятельности. С учётом того, что люди, странным образом, склонны предполагать, что коммерческая организация интересуется, в общем-то, в первую очередь коммерцией — это сделать непросто. Не «невозможно», но… непросто.

                                                                                                                                                  Цена лишь незначительный процент среди остальной информации (фото, описаний), скачивание 1% от базы это незначительный объем.
                                                                                                                                                  Ещё раз: не нужно считать судей идиотами. Они — не механиченский парсер текстов законов. И 1% и даже 0.01% могут оказаться значительными объёмами, если удастся показать, что они ощутимо уменьшают ценность самой базы. В случае с каталогом цен — это достаточно очевидно.

                                                                                                                                                  Нее, нужно показать именно реально понесенный ущерб, мало ли зачем арендованный сервер работает, а вот с этим сложно, судья спросит, а что секретарь конкурента не могла вручную зайти на сайт и получить все эти цены (ну ладно десяток офис менеджеров)?
                                                                                                                                                  И любая экспертиза вам покажет, что нет — не могла. Зайти на сайт — могла, собирать данные ежедневно по каталогу в полмиллиона наименований — не могла. Да и какая, собственно, разница? В законе нет исключений на тему: «с помощью компьютера базу данных копировать нельзя, а переписав на листочк бумажки — можно».

                                                                                                                                                  В том числе владелец фирмы конкурента должен иметь равное право узнать цену на ваш товар и купить товар по этой цене, иначе вы нарушаете ГК РФ Статья 426.
                                                                                                                                                  Если он его хочет купить — тогда да, разумеется. Но вам, опять-таки, придётся доказывать, что вы, владея конкурирующей фирмой, хотели-таки именно купить товар… это будет непросто, уверяю ваc.

                                                                                                                                                  P.S. Всё это, разумеется, касается только всяких хитрых штук типа «положите товар в корзину, чтобы узнать цену» (как на Amazon иногда бывает). Если вы парсите просто странички соблюдая robots.txt — то тут, как я уже писал выше, вы можете ссылаться на Implied License — и оспприть это будет непросто…
                                                                                                                                                    0
                                                                                                                                                    Как вы докажите, что я во время скачивания не планировал публикацию научной статьи? Как мы можете доказать, что заказчик не хотел получить данные ради личных данных.

                                                                                                                                                    Вот тут очень интересный вопрос. Так как это не УК, то доказывать придется вам свою невиновность, а не прокурору вашу виновность. Такая вот штука…

                                                                                                                                                      0
                                                                                                                                                      О, с этой разницей вообще есть очень красивая пьесня. Когда вначале на вас заводят уголовное дело (что можно сделать, вообще говоря, и без правообладателя и его заявления), а потом, «после выяснения обстоятельств дела» — сумма ущерба уменьшается, дело переходит в разряд административных правонарушений… зато и бремя доказательства переходит от обвинителей к обвиняемым…
                                                                                                                                                    +1
                                                                                                                                                    УК РФ Статья 146. Нарушение авторских и смежных прав

                                                                                                                                                    1. Присвоение авторства (плагиат), если это деяние причинило крупный ущерб автору или иному правообладателю,

                                                                                                                                                    2. Незаконное использование объектов авторского права или смежных прав, а равно приобретение, хранение, перевозка контрафактных экземпляров произведений или фонограмм в целях сбыта, совершенные в крупном размере,

                                                                                                                                                    3. Деяния, предусмотренные частью второй настоящей статьи, если они совершены:


                                                                                                                                                    А каталог товаров на сайте каким боком относится к авторским и смежным правам? (исключая фото и авторские описания(которые не так часто встречаются) )
                                                                                                                                                      0
                                                                                                                                                      А каталог товаров на сайте каким боком относится к авторским и смежным правам?
                                                                                                                                                      База данных, однако. На них, удивительным образом, тоже авторские права распространяются.

                                                                                                                                                      Хороший примерг — это «Гарант». Там нет ничего, что отсутствует в «публичных источниках». Тем не менее если вы свою подписку на неё (а она весьма недёшева) «расширите» — получите хороший такой штраф. Именно за нарушение авторских прав.
                                                                                                                                                        0
                                                                                                                                                        Да, почитал побольше, не всё так просто, но и не всё предельно ясно тоже
                                                                                                                                                        Написание скрипта для сбора данных само по себе легально при любом раскладе, получается?
                                                                                                                                                          0
                                                                                                                                                          Написание скрипта для сбора данных само по себе легально при любом раскладе, получается?
                                                                                                                                                          Написание — да. Более того — использование «в личных, научных, образовательных» целях — тоже да.

                                                                                                                                                          И, как тут уже замечали: многие вполне не против того, чтобы их парсили. Ибо ну не могут они выдать информацию в более удобочитаемом виде.

                                                                                                                                                          Но если люди активно не хотят, чтобы их парсили и с вами борются — то тут уже повод задуматься. Причём о многих разных философских вопросах.

                                                                                                                                                          Потому что если компания большая — то может быть всякое. Например местный филиал скажет «да качайте что хотите — нам пофиг». А потом головной — подаст на вас в суд. На этот случай разрешение лучше иметь в каком-нибудь подаваемом в сут виде, а не просто «Вася по телефону разрешил».
                                                                                                                                                          0
                                                                                                                                                          Вообще, называть сам сайт базой данных — это довольно свободное толкование. Судебная практика такая вообще есть?

                                                                                                                                                          > Там нет ничего, что отсутствует в «публичных источниках».

                                                                                                                                                          Ой, да ведь ОНИ ЖЕ ПАРСЯТ И ПЕРЕПРОДАЮТ!
                                                                                                                                                            0
                                                                                                                                                            Ой, да ведь ОНИ ЖЕ ПАРСЯТ И ПЕРЕПРОДАЮТ!

                                                                                                                                                            Они-то парзят бесплатное.

                                                                                                                                                            Вы путаете техническую возможность сделать это и юридический запрет этого не делать.

                                                                                                                                                            Так-то грабить в тихом переулке слабых девушек/стариков технически тоже несложно.
                                                                                                                                                            Вообще, называть сам сайт базой данных — это довольно свободное толкование. Судебная практика такая вообще есть?

                                                                                                                                                            Да, на этом рынке все очень жестко. Работал с дилером одной из подобных систем.

                                                                                                                                                            Сейчас не знаю, а раньше было 3 крупнейших игрока — в масштабах страны это огромные финансовые возможности у каждого и большие усилия на удержание доли рынка. В т.ч. и судебные разборки на взлом их систем, в которых «всего лишь общедоступная информация».
                                                                                                                                                              0
                                                                                                                                                              > Они-то парзят бесплатное.

                                                                                                                                                              Ну хоть согласились, что бесплатно выложенное в сеть парсить можно.

                                                                                                                                                              > в масштабах страны это огромные финансовые возможности у каждого и большие усилия на удержание доли рынка.

                                                                                                                                                              космические корабли бороздят… Вопрос был в том, можно ли сайт базой данных называть, а не про взлом.
                                                                                                                                                                0
                                                                                                                                                                Ну хоть согласились, что бесплатно выложенное в сеть парсить можно.


                                                                                                                                                                Вы путаете техническую возможность и юридическую.

                                                                                                                                                                В принципе, велосипед, если хозяин от него отошел, тоже угнать можно. Технически. Но не юридически.

                                                                                                                                                                Кстати, фактически, его и искать полиция не будет.

                                                                                                                                                                Но это не делает угон велосипеда законным.

                                                                                                                                                                  0
                                                                                                                                                                  то есть роботам Консультанта угнать велосипед законно, а у них — нет? Ну… А почему?
                                                                                                                                                                    0
                                                                                                                                                                    то есть роботам Консультанта угнать велосипед законно, а у них — нет? Ну… А почему?

                                                                                                                                                                    Они не парзят, там не только роботы, но много и человеческой работы.

                                                                                                                                                                    Берут из бесплатных источников.
                                                                                                                                                                    'Российская газета' официальный источник принятых законов
                                                                                                                                                                    После публикации в этом издании вступают в силу государственные документы: федеральные конституционные законы, федеральные законы (в том числе кодексы), указы Президента России, постановления и распоряжения Правительства России, нормативные акты министерств и ведомств


                                                                                                                                                                    И обрабатывают для более удобного поиска.
                                                                                                                                                                    Перелапачивают, индексируют, выставляют перекрестные ссылки и т.п.

                                                                                                                                                                    И получается готовый продукт. Уже коммерческий.
                                                                                                                                                                    Продают не тексты законов, а удобный доступ к текстам законов.

                                                                                                                                                                    Парзите Российскую газету на здоровье.
                                                                                                                                                                      0
                                                                                                                                                                      а что, а законе какие-то исключения о «парсинге бесплатных источников»? Авторские права российской газеты отличаются?

                                                                                                                                                                      Или добавление индекса и матчинга распарсенный сайт авторство меняет?
                                                                                                                                                                        0
                                                                                                                                                                        а что, а законе какие-то исключения о «парсинге бесплатных источников»? Авторские права российской газеты отличаются?


                                                                                                                                                                        Никто не говорит про авторские права на сами тексты законов.

                                                                                                                                                                        Речь об индексированных/подготовленных/обработанных данных из Консультанта.

                                                                                                                                                                        И о сырых данных, простых текстах из Российской газеты.

                                                                                                                                                                        Или добавление индекса и матчинга распарсенный сайт авторство меняет?

                                                                                                                                                                        Авторства исходных данных — нет.
                                                                                                                                                                        А вот права на обработанный материал — да.

                                                                                                                                                                        Пример про аранжировку музыкальный произведений:

                                                                                                                                                                        Аранжировка = переделка музыкального произведения, при которой основная музыкальная тема первоначального произведения остается узнаваемой.

                                                                                                                                                                        Считается, что создатель вариации (аранжировщик), меняя ритм и такт, изменяя манеру и тональность, осуществляет творческое воздействие на гармонию и мелодический строй произведения, что приводит к созданию хотя и несамостоятельного, но охраняемого авторским правом произведения.
                                                                                                                                                                          0
                                                                                                                                                                          > И о сырых данных, простых текстах из Российской газеты.

                                                                                                                                                                          Эк вас… Значит там «простые данные» и законом не охраняются, а в консультанте — «база данных». И при этом то и другое — сайт на html.

                                                                                                                                                                          > Пример про аранжировку музыкальный произведений:

                                                                                                                                                                          Нет уж, давайте про базы данных. Индексация права на безвозмездное использование базы распарсенного сайта даёт или нет?
                                                                                                                                                                            0
                                                                                                                                                                            И о сырых данных, простых текстах из Российской газеты.
                                                                                                                                                                            Эк вас… Значит там «простые данные» и законом не охраняются


                                                                                                                                                                            Мы говорим о вполне конкретной ситуации.

                                                                                                                                                                            «Российская газета» — официальный источник законов (которые, напоминаю, вступают в силу после публикации в «Российской газете»). Сами по себе законы и пр. нормативные акты общедоступны и бесплатны (какие-то секретные постановления/указы могут быть, но это опять-таки ограничения на распространение в силу секретности, а не ограничения на распространение на основании авторских прав).

                                                                                                                                                                            Непосредственно эти нормативные акты как раз можно свободно использовать.

                                                                                                                                                                            А, скажем, книжка «Уголовный кодекс» вполне законно продается за деньги. Никто вам не обязан её бесплатно давать. Это плата за бумагу, а не за авторство.

                                                                                                                                                                            А вот книжка «Уголовный кодекс с комментариями» — уже хоть не самостоятельное, но охраняемое произведение.
                                                                                                                                                                              0
                                                                                                                                                                              > Мы говорим о вполне конкретной ситуации.

                                                                                                                                                                              Да. В этой ситуации боты консультанта цинично выкачивают базу данных Российской газеты с её сайта.

                                                                                                                                                                              Права на использование каких-то отдельных актов из базы к этому отношения не имеют никакого.
                                                                                                                                                                                +1
                                                                                                                                                                                Да. В этой ситуации боты консультанта цинично выкачивают базу данных Российской газеты с её сайта.


                                                                                                                                                                                Еще раз:

                                                                                                                                                                                «Российская газета» — не простая газета.

                                                                                                                                                                                Законы вступают в силу после публикации в «Российской газете».

                                                                                                                                                                                Это официальный источник с вполне свободным доступом к законам.

                                                                                                                                                                                Понятие «охрана авторских прав» применим к «Российской газете» только в отношении публикуемых в ней статей. Но не публикуемых в ней нормативных актов.

                                                                                                                                                                                Поэтому термин «цинично выкачивают» с сайта «Российской газеты» к данной ситуации не применим.

                                                                                                                                                                                Её сайт как раз для того и существует, чтобы все имели доступ к текстам законов/нормативных актов.

                                                                                                                                                                                  0
                                                                                                                                                                                  ФГБУ «Редакция «Российской газеты» также принадлежат исключительные права на подбор, расположение, систематизацию и преобразование данных, содержащихся на Сайте RG.RU. Сервисы Сайта RG.RU и контент «РГ» охраняются российским авторским правом и международным законодательством о защите авторских и смежных прав.

                                                                                                                                                                                  Никто не имеет права публиковать, передавать третьим лицам, участвовать в продаже или уступке, создавать производные продукты или иным образом использовать, частично или полностью, содержание Сайта RG.RU.

                                                                                                                                                                                  Использование (скачивание, загрузка, копирование, сохранение на диск, перепечатка в соцсетях) материалов «РГ» без получения разрешения правообладателя допускается только гражданами для личного использования. Иное использование, за исключением случаев свободного использования, предусмотренных статьями 1273-1279 Гражданского кодекса Российской Федерации, разрешается в порядке и на условиях, определенных ниже.
                                                                                                                                                                                    0
                                                                                                                                                                                    ФГБУ «Редакция «Российской газеты» также принадлежат исключительные права на подбор, расположение, систематизацию и преобразование данных, содержащихся на Сайте RG.RU

                                                                                                                                                                                    Но не на сами «исходники» законов, да?
                                                                                                                                                                                    Все так же как и в ситуации с Консультантом — тоже «систематизация» их, но исходники нет.

                                                                                                                                                                                    без получения разрешения правообладателя

                                                                                                                                                                                    Думаете, устойчивый бизнес, существующий не один десяток лет — не удосужился еще получить разрешения?

                                                                                                                                                                                    pravo.ru/review/view/37061
                                                                                                                                                                                    Основной способ пополнения СПС новыми документами — это договоры о предоставлении информации с государственными органами. Еще один источник — это различные издания, признанные официальными публикаторами соответствующих актов. Большинство органов власти имеют свои ведомственные издания, в которых публикуются принятые акты. В то же время, получение их текстов из соответствующего органа напрямую позволяет включать в базу тексты, которые не подлежат опубликованию (как правило, это различные информационные письма и прочие ненормативные документы).
                                                                                                                                                                                      0
                                                                                                                                                                                      > Думаете, устойчивый бизнес, существующий не один десяток лет — не удосужился еще получить разрешения?

                                                                                                                                                                                      То есть оно таки нужно?

                                                                                                                                                                                      Думаю, нет. Там RSS, там и так удобно.

                                                                                                                                                                                      Вы бы не стали получать разрешение скачать прайс в .xls, хотя это явно чужая база данных.
                                                                                                                                                                                        0
                                                                                                                                                                                        То есть оно таки нужно?


                                                                                                                                                                                        Когда у вас устойчивый бизнес, вы принимаете меры, чтобы он продолжал оставаться устойчивым. Даже те меры, которые избыточны.

                                                                                                                                                                                        А пока вы мелкий и бедный — не делаете некоторые даже необходимые вещи. И полагаетесь в ряде случаев на авось. Ибо свободных ресурсов все равно нет.

                                                                                                                                                                                        Вы бы не стали получать разрешение скачать прайс в .xls, хотя это явно чужая база данных.


                                                                                                                                                                                        А как иначе его посмотреть, не скачивая?

                                                                                                                                                                                        Думаю, нет.


                                                                                                                                                                                        Зачем думать? Явно же видно:

                                                                                                                                                                                        Основной способ пополнения СПС новыми документами — это договоры о предоставлении информации с государственными органами

                                                                                                                                                                                        pravo.ru/review/view/37061

                                                                                                                                                                                        Это внесайтовый/безпарзинговый способ получения информации, не имеющий отношения к теме статьи.

                                                                                                                                                                                          0
                                                                                                                                                                                          > А как иначе его посмотреть, не скачивая?

                                                                                                                                                                                          Получить разрешение, потом смотреть.

                                                                                                                                                                                          > Зачем думать? Явно же видно:

                                                                                                                                                                                          На левом сейте непонятными людьми на заборе написано? Ну, источник так себе.
                                                                                                                                                                                          Нет, договора с некоторым госорганами то как раз есть, конечно. Но мониторинг РГ это не отменяет.
                                                                                                                                                                                            0
                                                                                                                                                                                            На левом сейте непонятными людьми на заборе написано? Ну, источник так себе.


                                                                                                                                                                                            Ну ваши-то домыслы ничуть не более обоснованы.

                                                                                                                                                                                            А в той статье журналист, чувствуется, или имел доступ к реальным материалам или погуглил потщательнее нас с вами — исходя из мелких деталей про историю создания ПО — даты, названия фирм, этапы и пр…

                                                                                                                                                                                            Впрочем, вы можете написать туда и спросить откуда он это узнал.

                                                                                                                                                                                              0