Comments 53
Google bot всё?
Так мы не из «базы» будем извлекать, а из кэша браузера, например…
Не очень понятно, что имеется ввиду. Что за соцсеть, которая позволяет из своей БД данные извлекать?Такие вообще есть?
Через API?
Разве веб-краулер, собирая данные, не подходит под такое описание?
Ну у ВК, например, есть свой API, который позволяет вытаскивать разные данные - состав групп, данные на него, сообщения со стен и т.д. Но надо авторизоваться, плюс есть ограничения на количество запросов. Так что ничего сверх того, что можно самому через браузер получить, через API не надыбать. Разве что это быстрее.
В чатик призываются переводчики с чиновьечьего на русский
Выскажу непопулярное мнение, но
Закон норм, парсинг плохо.
На создание и наполнение БД явно потратили некоторые деньги. И отдавать это нахаляву конкурентам, например, совсем не хочется. Оттуда и защитные меры. По сути тоже самое пиратство. Ты нанял копирайтера написать описание товара, а кто-то его забрал.
Данные для анализа слабых мест тоже отдавать не хочется.
Самое главное. Ничего ХОРОШЕГО тебе с парсинга явно не будет. Гарантируется тебе только слегка повышенная нагрузка серверов, а остальное для будет или нейтрально или в минус.
Поэтому парсинг - зло.
Какой из этих парсингов зло?
- краулеры
- сервисы отложенного чтения
- альтернативные клиенты, когда api недоступен, а gui убогое
- исследовательские работы
- статистика изменения цен
- поддержание актуальности каталога поставщика, когда поставщик по какой-то причине не может сделать выгрузку
Вы как-то совершенно случайно указали только априори "добрые и позитивные" случаи добросоветсного парсинга который никому не вредит, да еще и производится зачастую в небольших объёмах.
Как насчет:
- поддержание актуальности каталога конкурента для мгновенного демпинга или поднятия своих цен
- скрапинг соцсетей, данные из которого отправляются во всевозможные сервисы для "пробива"
- парсинг номеров с Авито, по которым вам потом звонят сотрудники "службы безопасности Сбербанка"
Нет, я конечно за открытость данных, но ваши аргументы слишком черно-белые.
А разве для опровержения строгого обобщения "парсинг - зло" не достаточно привести примеры обратного? Вижу в этом не случайность, а совершенно логичный аргумент.
Есть сайты контент которых ценен и наполнение стоит денег. Даже качественный каталог товаров сделать дорого - описания, характеристики, фото. А тут приходит Вася не вложившись в контент и тырит на свой сайт конкурент вашего, при этом в онлайн режиме. Запрет скрайпинга вполне себе мера защиты.
Правильно ли я понял, что вы по одному примеру предлагаете превентивно осудить всех, в том числе и тех, кто занимается безобидным скрапингом из второго комментария этой ветки?
Скрайпинг в 99% случаев нарушает цель с которой создан сайт и для чего там контент. Сайт соцсети - для того чтобы люди нашли друг друга (не для пробива по фото, не для сбора седений), сайт магазина чтобы клиенты покупали товары (не для конкурентов). Хотите использовать не по назначению - договаривайтесь с владельцами. Для поисковиков есть файл robots.
+ обслуживание нецелевых запросов тратит деньги владельцев и может ухудшить опыт для целевых клиентов, т.е. не разрешенный скрайпинг приносит даже прямой финансовый ущерб
Ок, кажется я понял вашу позицию. "Caedite eos. Novit enim Dominus qui sunt eius". Сам я придерживаюсь другой, вам её не навязываю. Спасибо за беседу.
Стоит глянуть, что нынче в соцсетях творится, и сразу понимаешь: нет, это не для "чтобы люди нашли друг друга". Это главным образом чтобы люди заплатили за услуги соцсети. На втором месте, чтобы люди купили товары и услуги.
А найдут они кого-то или не найдут, дело двадцатое.
Если Вася тырит на свой сайт, тогда Вася нарушает 1270 статью Гражданского кодекса и будет платить по гражданскому иску. Чем плох такой вариант?
поддержание актуальности каталога конкурента
Работает в обе стороны. Следовательно, преимущества никому не дает.
> скрапинг соцсетей, данные из которого...
Может быть не стоит заниматься публичным стриптизом самому и приучать людей к этому в целом?
Если кто-то решил заняться публичным стриптизом - достаточная ли это причина, чтобы всем остальным делать неудобно?
парсинг номеров с Авито
Может быть не стоит заниматься публичным стриптизом самому и не стоит продвигать бизнесы, которые поощряют его? Авито мог бы предоставить виртуальные номера для переговоров, например, или голосовые разговоры через их сайт.
На самом деле, все вами описанное, становится возможным только из-за существования интернета. Запретить интернет - и проблема исчезнет.
Если плагины отслеживающие цены в маркетплейсах окажутся под запретом, то это плохо
Особенно мне понравилось выступление начальника транспортного цеха директора департамента HeadHunter
Из их БД "воруют" контент, который создали их художники и писатели? Или оттуда "воруют" наш с вами контент, который мы с вами создали и в их БД положили для распространения? О каком именно контенте он беспокоится? Мне кажется, что их авторские статьи составляют меньшую долю в их БД, может быть я ошибаюсь. А большая часть - это НАШ контент, и им не пришлось даже его собирать - МЫ его им приносили и конвертировали под удобный им формат.
Как-то мне это логику Литреса напоминает. Разработали стандарты для опирачивания бумажных книг, разработали программы и идеологию для этого, подняли движуху опирачивания, собрали со всех бесплатные результаты - и тут же перекрасились: теперь мы чебурашки копирасты, и результат вашего бесплатного труда будем продавать (не вычитывая и даже не убирая личные метки, кто именно опирачивал), а с вами гадкими пиратами - бороться.
Ну или аналогичная американская история с созданной всем миром базой CDDB и GraceNote.
Обсуждая вопрос, ЧЬИ это материалы в базе данных, hh.ru говорит очень аккуратные слова:
9.1. Каждый пользователь Сайта, Соискатель или представитель Клиента Сайта, отвечает за информацию, размещаемую от его имени и за последствия этого размещения.
9.2. Сайт является лишь средством для передачи информации и ни в коем случае не несет ответственности за ее достоверность и актуальность.
9.9. Поскольку идентификация пользователей Сайтов затруднена по техническим причинам, Исполнитель не отвечает за то, что зарегистрированные пользователи являются действительно теми людьми, за кого себя выдают, и не несет ответственности за возможный ущерб, причиненный Соискателям или другим лицам по этой причине.
9.14. Исполнитель не несет ответственности за содержание размещенных на Сайте вакансий. За содержание размещенных на Сайте вакансий несут ответственность Клиенты Сайта, публикующие соответствующие вакансии.
Однако при этом запрещает собирать сведения при помощи роботов, и запрещает использовать описания (резюме, описания компаний, описания вакансий) для других задач, кроме поиска работы.
ИТОГО: контент не мой, я не виноват, а всё запрещаю, потому что могу запретить.
Обслуживание контента и сайта стоит денег, владельцы зарабатывают на его продаже и сайт только по этому существует. Так что логично - статьи не их, но доступ к ним за их счет и на их условиях, это не благотворительная организация работающая бесплатно.
Скрайпинг буквально наносит ущерб их бизнесу - они торгуют этой бд сами.
Владельцы прямо написали, что контент не их, а чужой. Что за содержание сайта они нисколько не отвечают. И что виноват всегда клиент сайта.
А теперь вдруг оказывается, что за такую туфту владельцы сайта ещё и деньги получают.
наносит ущерб их бизнесу
Злые менты мешают мне продавать героин и детское порно, наносят ущерб моему бизнесу мечты. Является ли этот ущерб достаточной и универсальной причиной запретить ментов?
Существование Хабра, кстати, наносит ущерб бизнесу бумажных книго- и журнало-издателей.
Существование видеомагнитофонов наносит ущерб бизнесу ТВ-каналов.
Существование Линукса и ЛибреОфиса наносит ущерб бизнесу Майкрософта.
Кстати, в Австралии спамер таскал по судам "черные списки" именно за "нанесение ущерба его бизнесу". Это точно тот "реальный мир" который надо защищать?
Еще раз - бизнес легальный, стороны (работодатели и работники) с которыми он работает согласны с условиями - никто не гарантирует что работники внесли достоверные данные условно, но в целом всех устраивает.
Скрайперы чаще наносят вред всем участникам - не принося пользу площадке, просто пользуясь чужим трудом в своих интересах в условиях когда помешать им сложно. У них нет никаких прав на данные и им никто ничего не обещал и не должен.
В вашем случае аналогия скорее - был сервис расклейки объявлений на столбах, их не ловили потому что руки не доходят, теперь ловят. Бизнес изначально серый - лепить бумагу везде нельзя, просто штрафов формально не ввели.
Ваши шутки не в тему.
У площадки тоже нету прав на данные, вот что важно.
Задача площадки - позволить встретиться работодателю и кандидату, да гарантий дать не могут, но с задачей так или иначе справляется, взамен получает вознаграждение. Что не так? Утверждение что у площадки нет прав - абсолютно бессмысленно, данные собрали на основании договора со сторонами. Что вы подразумеваете под "нет прав"?
Выше процитирован договор со сторонами. О передаче прав на произведения в этом договоре ни слова не сказано. Более того, площадка указала, что не несёт ответственности за опубликованные произведения.
Еще раз - бизнес легальный,
В данном случае это не важно, потому что вы хотите СДЕЛАТЬ его нелегальным.
Давайте уж тогда, если мы претендуем на объективность, рассматривать и зеркальное вашему предложение: сделать нелегальным с аналогичной тяжести наказанием и противодействие скачиванию.
Скрайперы чаще наносят вред всем участникам - не принося пользу площадк
Площадке - да. Ну и что? все конкуренты наносят вредл своим конкурентам. Mac Donalds наносит вред Burger Kingу, а тот наносит вред площадке KFC. И что же тепеь, запретить из все, на основнаии того, что Мак Дональдс был первым еще с советских лет?
Вред "всем" - нет. Даже косвенный вред - и тот не доказан: существование "площадки" вовсе не приносит "благо всем", а особенно её существование в близком к монопольному режиму.
Конечно же, уберизация рынка такси приносит выгоду многим пассажирам, во всяком случае сиюминутную, но при этом подрывает общественный транспорт и дорогие качественные такси (не только их, конечно).
Уберизация рынка вакансий делает то же самое. Для обладателей относительно дефицитных профессий все становится лучше - можно искать работу не отрывая Ж от Д. Зато обладатели "перепроизведённых" профессий улетают под плинтус.
А так-то до HH были и другие биржи, были Работа на mail.ru, Работа на Агаве (или это была Агама?), были тематические разделы на форумах (rsdn.ru, sql.ru и даже FIDO). Даже если конкретно HH разорится (с чего бы вдруг? пока всё наоборот) - хуже "всем" от этого будет не больше, чем если завтра разорится "М-Видео".
HR-юшам до уберизации рынка вакансий было хуже конечно, надо было минимально разбираться в профессии, которую они ищут, на уровне хотя бы "нагуглить тусовки этих пролов" и формулирования запросов в их среде общения и под их формат данных. Зато было хорошо пролам и, внезапно, кадровикам с серьёзными намерениями, которые получали бесплатную экспертизу не только своих вакансий, но и соискателей.
Ну и наконец - проект закона не только же о wannabe-монополистах из HH, но и вообще о ВСЕХ скачивающих данные. Мне как покупателю интересно, реальная скидка на товар на Озоне/ЯМе/Али или фейковая - а вы ради уберизации рынка вакансий хотите это запретить, да ещё уверяя, что "так всем будет лучше". Ага, "у вас не будет ничего и вы будете счастливы" Мне как читателю интересно прочитать развлекательную повестушку или комикс не в перегруженном браузере с пользовательским интерфейсом сумрачно гениального веб-рекламо-дизайнера, а в удобной программе-читалке с удобным мне интерфейсом.
У них нет никаких прав на данные и им никто ничего не обещал и не должен.
Вы пытаетесь сдвинуть точку отсчета. Это им СЕЙЧАС "никто ничего не обещал", а вы хотите им "пообещать турма" за общественный счет. Вы хотите увеличить прибыли квази-монополиста HH за счет налогов, то есть в том числе за счет моих денег. А я хочу, чтобы мои налоги тратились на что-то другое. Пусть лучше милиция за общественные деньги гоняется за полукриминальными уберизованными таксистами, чем за конкурентами уберизующего рынок вакансий HH.
Никто - пока - не запрещает HH бороться со скачивальщиками. Но если вы требуете начала широкой общественной дискуссии, то обсуждать надо изменение в обе стороны, в том числе и в противоположную, в сторону запрета противодействия скачиванию и наказанию нарушителям запрета.
был сервис расклейки объявлений на столбах
Это не так. Расклейщики портят чужое имущество (столбы) и чужую "красоту" (внешний вид двора/улицы с "заляпанными" столбами). В этом вашем примере аналогом "расклейщика" будет баннерная реклама HH на чужих сайтах. Иду я по WWW-улице, а там на каждом шагу яркая мешающая (даже чисто материально - тратящая мой траффик, мой процессор и мою оперативку) реклама всего подряд, в том числе HH.
Хотите честно боросться с "расклейщиками" ? Запрещайте рекламу HH на интернет-страничках не относящихся к поиску работы.
А аналогами "скрайперов" в вашей терминологии будут те, кто фотографируют - с разными целями - самовольно расклеенные объявления. Вовсе не расклейку объявлений вы пытаетесь запретить, а фотографирование их.
Речь не про монополию иже с ними - это другая тема.
Речь не про рекламу в виде банеров на сайтах - это другая тема.
Про отслеживания уровня цен и фейковых скидок - тоже не скрайпингом это должно решаться, в моем понимании фейковые скидки это вполне себе мошенничество и ложная реклама значит должно решаться другим образом. Опять же может быть требования к таким площадкам полноценно раскрывать исторические данные.
Конкуренты наносящие вред конкурентам - если речь о просто своей деятельности, то это нормально, а вот промышленный шпионаж - нет, кража чужих данных - нет, ддос конкурента - нет, подкуп тоже, кража результатов чужого труда и продажа у себя - тоже.
Скрайпинг - помесь шпионажа и ддоса, если речь про компании типа hh. Скрайпинг соцсетей - вообще сбор персональных данных без разрешения.
Про СЕЙЧАС "никто ничего не обещал" - скрайпинг думаю противоречит правилам пользования сайтом - значит не только не обещал, но и прямо запрещали. Да закон могут принять любой, но сейчас он не на стороне скрайпера, просто ранее наказать было невозможно толком.
Скрайпинг соцсетей — вообще сбор персональных данных без разрешения.
Закон о персональных данных указывает несколько способов использования персональных данных, которые не требуют никакого разрешения.
Статья 6. Условия обработки персональных данных.… Обработка персональных данных допускается в следующих случаях:… обработка персональных данных необходима для осуществления профессиональной деятельности журналиста и (или) законной деятельности средства массовой информации либо научной, литературной или иной творческой деятельности при условии, что при этом не нарушаются права и законные интересы субъекта персональных данных.
Таким образом, персональные данные — это недостаточная причина для запрета скрепинга.
Скрайпинг - помесь шпионажа и ддоса
"Избегайте красивых сравнений. Красивое, но неточное сравнение подобно бриллиантовому колье на груди бородавчатой жабы, которую из серебристого тумана выносит гнусная макака." (с) Константин Мелихан.
Если это шпионаж - подавайте в суд на шпионаж. Если это DDoS - подавайте в суд на DDoS. Если это ни то, ни другое - не путайте свою шерсть с государственной.
Если мое резюме с HH скопируют другие биржи - "компании типа hh" - всем в обществе будет только лучше - и мне, и работодателям, и самим "компаниям типа hh".
скрайпинг думаю противоречит правилам пользования сайтом
Ну значит не пускайте их на свой сайт. Правила сайта действуют на сайте, а не вообще по всему миру.
Если вы нарушаете правила поведения в моей квартире - это повод вывести вас вон из моей квартиры, но не повод требовать от государства оплачивать полицейского, который будет за вами круглосуточно ходить и следить, чтобы вы выполняли мои правила.
Вот вы и пришли к теме статьи.
"Если это шпионаж - подавайте в суд" - теперь подадут, раньше сложно было без явных формулировок в законах.
"Если вы нарушаете правила поведения в моей квартире - это повод вывести вас вон" - а если нарушитель не захочет уйти? Полицию таки вызовете? Скрайперы по хорошему не уйдут.
а если нарушитель не захочет уйти? Полицию таки вызовете?
Это уже взлом сайта. На это уже есть статья.
Скрайперы по хорошему не уйдут.
Уйдут, конечно. Отвечайте на любой их запрос HTTP 403 (закрытой дверью) - и пусть они под дверью плачут.
Если же они будут бесконечно трезвонить под дверью - то это уже обычный DDoS и на него статья уже есть.
теперь подадут, раньше сложно было без явных формулировок в законах.
Подадут на то, что не является ни шпионажем ни DDoS'ом.
Это плохой закон.
Хороший закон должен запрещать противодействие сохранению информации (кроме закрытого списка исключительных слукчаев), чтобы общество могло подавать в суд на нарушителей.
Тут проблема в кривости законодательного регулирования прав на БД в целом.
Как задумывалось право на БД? Это право именно на структуру данных, которая создана творческим трудом, не зависящее от того, есть какие-то права на сами данные или нет. Ну т.е. взяли общедоступные данные, разложили по полочкам, теги, ссылки расставили, вот это всё - вроде бы надо охранять, логично. Когда данные в базе сами по себе объект авторского права её создателя - отдельное право на БД избыточно, оно именно для случаев, когда это не так, придумано.
Но защищать это право ограничивая парсинг - нелогично. Потому что если я, скажем, с маркетплейса тяну только цены, а не карточки и каталоги целиком, или со справочно-правовой системы - только тексты вообще не охраняемых авторским правом нормативных актов, и т.п. - я никак результаты творческого труда создателей базы не использую. А подобный запрет ударит и по мне тоже.
IMHO, в этом случае хватило бы норм о недобросовестной конкуренции (в тех случаях, когда она есть), но у нас их применять не умеют и не любят (в т.ч. из-за особенностей судебной системы), вот и изобретают странное.
Пусть запиещают. С экрана в блокнот карандашиком запишем. Фотки зарисуем. Передадим ChatGPT, он нам уже нашу базу сделает и как надо.
Отчего то вспомнил недавнюю историю с тыканьем Вайлдберриз носом во враньё о количестве селлеров и их доходности. Закон всю эту бизнес аналитику от третьих фирм успешно прихлопнет, вполне верю, что ВБ обиделись на то, что их так макают во что попало и подключили свой лобби ресурс.
Кто и как будет определять откуда дровишки в какой БД и чьи данные заимствованы? И с чьей подачи?
В России предлагается ограничить скачивание информации из баз данных соцсетей и маркетплейсов