Pull to refresh

Comments 142

Статья немного выглядит нытьем на тему того, что парсить сайты становится сложнее и сложнее)) Насчет вычленения данных из DOM и запросов - это не так просто, если DOM динамический и имеет случайные названия и структуру элементов. Из универсальных методов - только распознавание скриншота сайта. Я для своих целей пишу иногда небольшие скрапперы и user scripts, и вот сложнее всего это оказалось делать для лк билайна. Там явно очень заморочились, что внутренности были максимально запутанные.

запросов на парсинг много, но да - парсить стало сложнее. компенсируется тем, что запросы разнообразнее.

Защита от скликивания рекламы

Зачем? Какая разница, кто кликает, это всего лишь бизнес :)

вы не понимаете, это ДРУГОЕ!!!

Да. Вы правы - я знаю владельцев тысячи сайтов , которые у себя на сайтах тихонько скликивают блоки рся. Сами у себя. И для них это бизнес. Не хороший но бизнес

Ну яндекс сам не чурается скликивать. Например в своём приложении Я.Погода для андроид. Там при открытие изначально нет блока под рекламу, но через пару секунда она подгружается и помещается в то место, где находились блоки погода на сегодня и завтра, сдвигая их вниз. Я по первой, желая посмотреть подробный прогноз на завтра, не редко случайно кликал на такую рекламу. Вот так "правильная" вёрстка и небольшая задержка в отображении рекламы могут приносить хорошие деньги

предоставление ресурсом api может выйти дешевле чем отъедать ресурсы требуемые для сайта.
плюс можно этот api так же монетизировать.
в некоторых случаях парсинг api мобильных приложений может оказаться дешевле и проще чем сайтов.

Было бы кстати круто. Мы бы платили вместо того чтобы парсить.

Хе, а это не будет концом вашего бизнеса? Зачем покупателю перекупщик?

концом не будет, но снижение число клиентов вполне возможно.
api не всегда может покрыть потребности.

Если парсищие не наглеют, пусть себе парсят, да и не заметны они особо при таком небольшом трафике. А вот если наглеют и сильно грузят систему, сомнительная выгода бизнесу (распознаются и получают левые данные). Списки IP всяких поисковых систем доступны, и по желанию SEO добавляются в белый лист.

Самые кривые парсеры пишут те, кто только прочитал книгу о том как парсить на питоне . Они создают паразитную большую нагрузку.

А какая разница серверу, кривой парсер на питоне или замечательный на go? Надо сделать 1000 GET'ов, любому парсеру это придется сделать. Кривой парсер тут даже скорее всего медленнее сделает, что лучше серверу.

Если парсищие не наглеют, пусть себе парсят

А зачем? Не проще ли публичный открытый API сделать — тогда не будет небходимости сырые данные в презентабельный вид оборачивать, на скрейперах можно машинное время сэкономить.

Вы когда занимаетесь демагогией, используя ложные аналогии с луддитами, не думаете, что вас на этом легко поймать? Потому что в случае парсинга, речь вовсе не о "новой технологии, которую незаслуженно не любят". А о том, что люди не хотят, чтобы собранные ими данные (что стоило им денег и времени) кто-то просто "взял". А вы их пытаетесь повально дурачками выставить и стыдить.

Да, некоторые из них тоже эти данные сначала где-то стырили, а потом обижаются, что тырят у них. Но вы же не просто не предлагаете это различать, а делаете вид, что это различие - несущественно.

Так что верная аналогия тут - не с луддизмом, а с тем, что кто-нибудь начал бы воровать в магазине самообслуживания, говоря при этом, что охрана и видеонаблюдение - плохо для бизнеса.

Люди не просто собрали данные, а осознанно выложили их на всеобщее обозрение в интернет - сеть публичного доступа. И каждый может их "взять". Как можно украсть то, что раздается бесплатно всем желающим?

Это как некоторые дамы выкладывают свои неодетые фото в интернет, а потом возмущаются, что на них юноши маструбируют. "Ах, я же выложила их для красоты". Выложила - терпи.

Вы занимаетесь абсолютно той же демагогией, утверждая, что если возможность нежелательного использования существует, "правильным" поведением в этом случае будет ничего не делать, а смириться. Это не так.

Да, некоторые ответные действия неародуктивны или бесполезны. Например, в упомянутой мной иллюстрации с магазином самообслуживания, бесполезно вешать объявления "не воровать!" Но попытаться, в том числе - на пользу остальных покупателей, внедрить противокражную систему для дорогих или особенно привлекательных для воров товаров - совершенно нормально.

Ну да, это я занимаюсь демагогией. Это же я сравниваю то, что бесплатно раздают с магазином, где за всё надо платить.

Я многократно писал в комментариях на Хабре, что аналогии не могут служить доказательством, они - иллюстрация, чтобы проще было представить ситуацию. Так что поймать на демагогии меня - не удастся, т.к. я не пытаюсь этим ничего доказать, я помогаю вам представить то, что до этого описываю в общих терминах, абстрактно.

Содержимое сайта (фото товаров интернет-магазина, например) никто не "раздает бесплатно", ближайший (но не полный) аналог с оффлайновым магазином - оборудование торгового зала. Вы подменяете понятия, это снова демагогия.

Фото не парсят. Цены наличие

Кто не парсит фото? Конкретно вы? Или вы хотите сказать, что никто так не делает (множественное число в "не парсят" на это указывает)?

Да ладно, фото как раз таки частенько и парсят.

Одна компания вложилась и сделала съемку продукции, вторая не хочет вкладываться и ворует снимки и описание - это типичная ситуация.

Да, но за это одной компании может поступить приглашение, от которого не стоит отказываться: в лучшем случае - посетить суд, в худшем - следователя.

Это вы просто с сайтами комиксов не имели дел. Там тоже миллион конкурентов и парсят картинки друг друга со страшной силой. Но да, не фотографии. Можно ещё вспомнить всяких датасаентистов, которые себе корпуса изображений качают.

Вы подменяете понятия: парсинг подменяете на неправомерное использование материалов сайта (эти два понятия несвязаны). Приводите некорректные аналогии, а затем говорите, что ваши же аналогии не могут служить доказательством.

Я не пытаюсь вам поймать на демагогии, я просто констатирую факт. Для тех кто в танке, еще раз: на сайте есть условия использования информации. Парсинг нарушением этих условий не является, до тех пор пока это не прописано в условиях. Как эта информация в дальнейшем используется не имеет отношения к парсингу. Если нарушает условия, то именно это использование и является нарушением.

Есть законы рф. Причём здесь условия? Вы можете написать на сайте, что каждый посетитель должен вам деньги :) - но это будет просто набор букв

У вас аргументация уровня "нет ты демагог потому что я сказал и точка!1", прекрасно дополненное фирменным "я в домике и не могу быть демагогом".

Ресурс предоставляет веб-страничку с информацией которую простой смертный может посмотреть бесплатно и без смс.
Пользователь может с этой информацией делать всё что ему заблагорассудится.
Миллион пользователей могут посмотреть информацию и делать с ней всё что захотят.
Один пользователь может посмотреть миллион страниц и делать информацией с этих страниц всё что хочет.
Но как только этот миллион страниц смотрит скраппер - ПАМИГИТЕ, ХУЛИГАНЫ ЗРЕНИЯ ПРИБЫЛИ ЛИШАЮТ!

Давайте, расскажите каким образом замена человека на машину вдруг делает процесс аморальным и чем такой подход отличается от обыкновенного лицемерия обыкновенных копирастов.

Имхо, по-моему, и скрапинг, и защита на итак доступную публичную информацию - одного поля ягодки. Говорю как человек, который и материал делает и публикует, и скрапер использует для себя. И в плане собирания и коллекционирования общедоступной информации, тут в основном только один урон - нагрузка на сервер. Права на материалы - это уже другой разговор и тут нет разницы в средствах. Но в конечном счете, скраппер может как обычный клиент получить цены, а может сделать это скриптом - вполне себе имеет право. Продавец может как выдавать цены всем подряд, так и ограничить их получение, если считает нужным. Можно ныть в любую сторону, но по факту оба делают вполне себе легальное действие с душком.

Пользователь может с этой информацией делать всё что ему заблагорассудится.

пользователь с этой информацией может делать всё, что не запрещено пользовательским соглашением ресурса или иными соглашениями.

Но как только этот миллион страниц смотрит скраппер

Да и вы путаете тёплое с мягким. Пользователь смотрит информацию с сайта для своих каких-либо личных нужд (в большинстве своём конечно же), а вот скрапперы преследуют собой иную цель, зачастую коммерческую (например продажа инфы о ваших товарах конкурентам/etc), а это всё-таки разные вещи.

лицемерия обыкновенных копирастов

Ох уж эти лживие лицемерные копирасты, всего лишь хотят защитить своё право на владение своей информацией, ууух!

Ох уж эти лживие лицемерные копирасты, всего лишь хотят защитить своё право на владение своей информацией

Так информацией-то они и не владеют как раз, интеллектуальная собственность на неё не распространяется.

На базы данных - да, распространяется. На тексты, описания, картинки - тоже.

Так что в общем-то да, лживые, т.к. подменяют понятия и пытаются владеть тем, чем не владеют.

Просто так никто ничего не выкладывает. Есть лицензия, соглашение об использовании сайта или сервиса. Есть множество лицензий вроде GPL, где содержимое доступно бесплатно, но и только. Это не говоря уже об авторском праве.

При чем тут парсинг? Что мешает браузером зайти на сайт и потом использовать не в соответствии с соглашением об использовании?

Ничто не мешает. Просто Парсинг вызывает эмоции. Негативные.

Цены парсят в 90% запросов. Лицензия не применима

Взять кусочек данных для личного использования в адекватном количестве - пожалуйста, оно для этого и создано (например сослаться на данные в блоге или сделать какой-нибудь график, и т.д)

Но когда парсится весь сайт со всеми данными на коммерческой основе, это уже не нормально, потому что чаще чем нет эти данные используются совсем не добросовестно (например конкурентами)

Это может быть законно или нет. А другой трактовки то не может быть…

И, скорее всего (насколько я понимаю), ваша деятельность незаконна. Потому что есть статья 1260 ГК РФ, которая защищает авторское право владельца интернет-сайта на подбор и расстановку материала, аналогично праву на сборник:

2. Составителю сборника и автору иного составного произведения (антологии, энциклопедии, базы данных, интернет-сайта, атласа или другого подобного произведения) принадлежат авторские права на осуществленные ими подбор или расположение материалов (составительство).

Но что там на самом деле с законом - это пусть пострадавшие от вашей деятельности с вами разбираются. Для этого суд есть.

Мы парсим фактические данные. Они не защищаются законом. Цена? Наличие ?

Законом защищается деятельность по подбору и расстановке. Впрочем, мне это не интересно,я не юрист и сайта у меня нет, так что дальше обсуждать не буду.

Похоже настало время разделить сам парсинг на "создание нагрузки на сервера", что может граничить с DDoS-ом при слишком агрессивном парсинге, и "использование результатов", где уже можно говорить о мотивах и целях.

Дайте мне API — и я не буду "создавать нагрузку на сервера"! Но ведь не дают...

Не, я о том, что многие волнуются по поводу возможной криминальной составляющей парсинга. Мол, если то парсишь, то 100% или интеллектуальную собственность воруешь, либо чужие данные перепродаешь, либо еще чего. А до использования результатов в противоправных целях вообще может не дойти! Для себя много кто так делает, очень удобно.

криминальной составляющей

  1. Положить нечто там, где любой проходящий может это нечто взять — именно с целью, чтобы проходящие это брали;

  2. Удивляться, что некоторые берут это в бОльших количествах, чем прочие;

  3. Требовать криминализовать этих некоторых!!!111адынадын

:) можно аналогию ? Концерн Калашников - он что делает? Думаю вы поняли мою мысль. А остальное - демагогия. Деятельность может быть законнлй или нет. Остальное не важно. Понимаю что звучит чуть грубо, но я так думаю. Простите

Нет, не понял вашу мысль, можете развить?

Демагогия - где именно? Укажите конкретные демагогические приемы, которые я использовал, или места их использования. Иначе, ваш аргумент - не более чем детсадовское "сам такой".

UFO just landed and posted this here

люди не хотят, чтобы собранные ими данные (что стоило им денег и времени) кто-то просто "взял".

Почему-то мне кажется, что если бы "люди не хотели, чтобы собранные ими данные кто-то просто взял", они не выкладывали бы их на открытый сервер в интернете, где (сюрпрайз) любой прохожий может их "просто взять".

Если бы люди не хотели, чтобы их одежду кто-то себе забрал, когда они ушли купаться, то купались бы не раздеваясь, прямо в штанах. А не оставляли на берегу, где любой прохожий может её "просто взять".

не оставляли на берегу, где любой прохожий может её "просто взять".

Эммммм... ну как бы да? А Вы что, как-то по-другому купаетесь???

Когда мы на пляж ходили — я с мамкой в воде, папка на берегу вещи сторожит. Я с папкой в воде — мамка на берегу вещи сторожит. Они в воде — я на берегу вещи сторожу. В чём проблема-то?

Мда…
Вот так живёшь себе в обычном современном мире, а потом заходишь на Хабр — как бы ойти ресурс всея рунета — и проваливаешься в какую-то пещеру доисторическую.

живёшь себе в обычном современном мире

А что, в Вашем "обычном современном мире" уже всех воров и мошенников пересажали, никто ни у кого ничего не ворует, не обманывает, забудешь на лавочке 10000 буказойдов, утром хватишься — а они там и лежат, и т.д. и т.п.? Хочу к Вам на планету!

А у нас на планете говорят — "сам о себе не позаботишься — никто о тебе не позаботится".

Забавно, вы сейчас себя, заодно с автором статьи, приравняли к ворам и мошенникам :)

Не, это Вы сейчас всех посетителей своего сайта приравняли к ворам и мошенникам.

Повторяю: у Вас торчит наружу порт 80, что означает "заходи кто хочет, бери что хочешь". Вот "мы с автором статьи" заходим и берём. Ровно так же, как и все остальные. Таблички "только по пять штук в одни руки" там не висит.

Вы уверены?

Что если там отдается "только по пять в одни руки" http-заголовком? да может даже в тексте странице, даже видимом.

Ее ж не читают :)

С информацией всё не так! В данной аналогии будет звучать так. Если бы люди не хотели, чтобы их одежду кто-то пристально рассматривал, когда они ушли купаться, то купались бы не раздеваясь, прямо в штанах. А не оставляли на берегу, где любой прохожий может её "просто изучать вблизи".

Полностью согласен с автором статьи. Вообще, с философской точки зрения, есть две концепции - "сайт как приложение" и "сайт как база данных". Первое видимо очень нравится бизнесу, такой закрытый сайт с кучей скриптов, где хозяин единолично устанавливает правила, шаг шаг вправо влево - расстрел, пользователи только любуются на картинки замечательных товаров и неистово жмут кнопку "КУПИТЬ". Такая вот телевизация интернета, превращение Сети в очередной зомбоящик.
А второе - это то, каким интернет должен быть с точки зрения его создателей. Семантический веб, единая децентрализованная база данных, состоящая из множества унифицированных веб-ресурсов. Здесь хозяин - пользователь, он мог бы к примеру дать компьютеру команду "найти мне все товары с такими-то подробными характеристиками, с положительными отзывами от людей, коэффициент моего доверия к которым выше 0.7". И лечь спать. А компьютер просканирует сеть, соберет все записи, проранжирует их и выдаст результат. А торгаши ничего не смогут сделать, никакие SEO не помогут - потому что стоит только один раз обмануть, как Сообщество (именно Сообщество, а не Гугл с Яндексом) опустит рейтинг конторы в каком нибудь децентрализованном блокчейне ниже плинтуса, и проще будет просто закрыть бизнес.
Такое вот утопическое будущее... мир инженеров, а не маркетологов. Увы, сейчас, несмотря на все усилия, интернет скорее ближе к первой концепции чем ко второй.

Но вообще вы бы лучше рассказали о технических аспектах парсинга. Какие технологии применяете, на каких языках пишете парсеры. Вот это реально интересно. Я бы сам для себя (не для денег, а просто для интереса) хотел бы к примеру сделать парсер и локальную БД например соцсети "Вконтакте", с тем чтобы находить скрытые связи в определенном подмножестве людей и групп.

угу, так и представляю...
Есть, например, сайт на котором автор выкладывает отсканированные им исторические фото, после существенной постобработки, причем в хорошем разрешении. Источником доходов на который всё это делается - это демонстрация рекламы и продажа отпечатков.

А теперь благодаря концепции "распределённой БД", я получаю всю подборку картинок у себя локально, не тратя время на просмотр рекламы. А товарищ закрывает сайт и уходит собирать апельсины, так как деньги у него внезапно закончились...

Так что надо бы в вашу прекрасную картинку "коммунистического завтра" добавить какую-то монетизацию, типа - каждая строка выдачи из такой БД обходится в 0,00(0)1 цента, и тогда собрав в таком "автоматическом режиме" всю подборку - я буду избавлен от необходимости просматривать рекламу, а владелец сайта получит честно заслуженные им деньги.

Так а монетизация разве плохо? Но нужен какой то стандартный способ ее прикрутить в том числе к API
Есть конечно https://webmonetization.org/ (+ https://interledger.org/rfcs/0028-web-monetization/ ) — но его мало кто использует (из хоть как то известных — techdirt) и это "JavaScript browser API". Надо что-то стандартное на базе блокчейна (и без огромных комиссий — а значит биткоин и эфир — пролетают?)


Вообще вспоминается


И все — таки оставалась надежда, что информация, необходимая доктору Крюгеру, таится где — то в недрах необъятной сокровищницы уже накопленных научных знаний. Медленно, не спеша, он разработал программу автоматического поиска, в задачу которого входило найти одно из тех вероятных объяснений, которое соответствовало бы всем условиям поставленной задачи. Программа должна была исключить объяснения, основанные на земных факторах, — их количество исчислялось, несомненно, миллионами — и сконцентрировать внимание лишь на внеземных. Выдающиеся научные заслуги доктора Крюгера влекли за собой определенные преимущества, одним из которых было неограниченное компьютерное время — это составляло часть гонорара, которую он всегда требовал от организаций, прибегавших к его помощи. Поэтому, хотя поиск мог оказаться очень дорогостоящим, ему не приходилось думать о плате.
Но все обернулось на удивление просто. Доктору Крюгеру повезло: поиск завершился уже через два часа тридцать семь минут после начала, когда компьютер наткнулся на ссылку номер 21456. Заглавия оказалось достаточно. Пауль так разволновался, что его собственный робот — секретарь не узнал голос хозяина, и тому пришлось еще раз повторить команду о полной распечатке.
Выпуск журнала «Нейчур» был опубликован в 1981 году — за пять лет до рождения доктора Крюгера! — и когда глаза ученого пробежали по его странице, он понял не только то, что его племянник совершенно прав, но и — что не менее важно — как могло произойти подобное чудо. Должно быть, у редактора журнала, изданного восемьдесят лет назад, было врожденное чувство юмора. Статья, посвященная составу ядер отдаленных планет, вряд ли могла привлечь внимание непосвященного читателя, но у этой статьи был поразительный заголовок. Робот — секретарь мог бы объяснить Крюгеру, что когда — то эти слова составляли часть знаменитой песни — впрочем, прямого отношения к делу это не имело. К тому же Пауль Крюгер никогда не слышал про «Битлзов» и их психоделические фантазии.

Написано в 1987

Опять блокчейн? Вы это серьезно? Он хуже любого другого способа оплаты.

И это не сработает. Пейволлы вообще плохо работают. И людям очень не нравятся.

Еще точнее они работают, но ваш клиент это бизнес. Ту же Статисту бизнес покупает с удовольствием. А б2с рынка по сути нет.

Существует например kagi.com которые берут деньги за то что конкуренты (а их хватает, очень крупных) выдают бесплатно (обычно с рекламой иногда просто так). Пока живы.

Существует например kagi.com которые берут деньги за то что конкуренты (а их хватает, очень крупных) выдают бесплатно

Ну дык очередное подтверждение того, что лох — не мамонт?

ну видимо вы редкий представитель тех, кто готов платить ;)

Большинство предпочитает получать всё и бесплатно. Плюс к тому, необходимость платить практически полностью исключает анонимность в вебе, так как появляется возможность отслеживать, кто куда и зачем именно заходил.

И в итоге лекарство может получиться хуже самой болезни.

Вот как раз блокчейн в том числе и позволяет и оплачивать без выдачи всех личных данных.

Хотя можно и без этого если пользователь все же не против данными поделится.

Насколько я понял из этой статьи, речь идет о парсинге товарной номенклатуры с ценой, а не выкачке самих товаров. А что касается автора сайта с историческими фотографиями, то непонятно, как он продает эти фотографии, если они лежат в открытом доступе. Это выглядит, как если бы официальный магазин по продаже лицензионных ключей от ПО выложил бы их в описании этого ПО.

автора сайта с историческими фотографиями, то непонятно, как он продает эти фотографии, если оне лежат в открытом доступе.

Он продаёт отпечатки, т.е. физические копии для того, чтобы украсить квартиру или офис.

речь идет о парсинге товарной номенклатуры с ценой, а не выкачке самих товаров

Я отвечал на комментарий, где автор мечтал о "каждому по потребностям" без рекламы и смс.

Что же касается основной статьи, там как уже отметили есть немало передёргиваний и натяжек. Подозреваю, что основные заказы на парсинг - это спереть спарсить цены и описания, а потом использовать в своём бизнесе, использовав чужой труд задаром.

Возможно это и не незаконно, но думаю, что точно неэтично.

Что же касается основной статьи, там как уже отметили есть немало передёргиваний и натяжек. Подозреваю, что основные заказы на парсинг - это спереть спарсить цены и описания, а потом использовать в своём бизнесе, использовав чужой труд задаром.

Немного не понимаю. Есть фирмы, которые просто выкладывают .xls-файлы с прейскурантом. Например, тут и тут (не реклама - первые в выдаче ya по запросу "стройматериалы .xls"). Т.е. их владельцы впрямую заинтересованы в увеличении продаж своего товара.

ну опять же, есть разница "сами выкладывают" и у "них берут не спрашивая". Причем судя по отдельным замечаниям парсинг чаще заказывают не клиенты, а конкуренты.

Возможно, что каких-то видов бизнеса возможность конкурентам загрузить прайсы на весь ассортимент не является серьезной проблемой, зато позволяет привлечь дополнительных клиентов. Для каких-то регионов / видов бизнеса - ситуация обратная. И тут вопрос, насколько законно / этично уважать хотелки бизнеса.

Ну так есть вроде самый очевидный способ: заплатил - смотри. Не заплатил (парсер или кто там еще) - не смотри. Или товар всё же не такой ценный что б за него платили? Или хочется и хайп от (типа) сообщества собрать и ничего этому сообществу не дать?

Ничего, что то смотришь является бесплатной информацией по закону, или опять "по понятиям"?

Не заплатил (парсер или кто там еще) - не смотри. Или товар всё же не такой ценный что б за него платили?

Ещё раз, возникают вопросы в цене и проведении оплаты - например, установит человек цену в 0,05 цента за картинку, как брать деньги с тех кто посмотрел меньше чем на цент? Как проводить транзакции на такие маленькие суммы? итп.

Понятно, что можно сделать платный доступ за 5$ в месяц, но тогда надо решать вопросы с SLA, чтобы не больше определенного количества запросов в минуту. И опять же, те кто захотел глянуть одну-две картинки - уйдут сразу, без подписки и без картинок.

Чуть выше была ссылка на WebMonetization :). Да - не взлетела толком. Но идея то понятна - надо встраивать в протоколы и поддержку как минимум на уровне расширения браузера для начала.

парсеры ломают сложившуюся модель монетизации за бесплатный доступ к информации через показ рекламы. Парсер покупку не сделает и денежку не принесет ни рекламодателю, ни автору сайта.

Но объективно, эра когда все больше и больше действий будет генерироваться в сети не людьми, а оботами уже настала. следюущий виток - AI, который будет читать сайты, отсеивать весь маркетинговый булшит и предоставлять нормальный доступ к информации в виде диалога с chatGPT. Это уже в воздухе и полагаю очень скоро увидим реализации. К тому же недавно Микрософт заявил об интграции chatgpt в свой поисковый движок. И это только лишь начало.

Боюсь, что модель монетизации через рекламные показы в том виде как она сейчас есть сильно поменяется, а значит поменяется и веб.

ломают сложившуюся модель монетизации за бесплатный доступ к информации

По закону, информация о товаре и ценах должна быть бесплатной.

А потому что нефиг рекламу показывать. Пусть пишут на сайтах типа Хабра умные технические статьи, где на хорошем техническом уровне рассказывают о реальных преимуществах своих товаров. С цифрами, выкладками, схемами и прочим. А Сообщество будет решать, достойная это статья или фигня. Реклама же - это абсолютно тупая манипуляция, даже не представляю кто на нее ведется.

Умные технические статьи про мыло. Или про полотенце. Или еще лучше про кастрюлю.

Сегмент массмаркет. У вас все обычное как у всех по технологиям которым 50+ лет. Менять в товаре ничего нельзя, цена возрастет и из сегмента вылетите. Упаковку можно сменить. Напишите умную техническую статью?

Так ради мыла или кастрюли я и рекламу смотреть не буду) Куплю просто по параметрам. Мыло - чтобы нужного типа (банное, туалетное, хозяйственное) и чтобы в мыльницу влезало. Зачем мне реклама?

Вам продать нужно, а не купить. Рекламу ставит продавец.

Да, но я не хочу вставать в этом вопросе на сторону продавца. Реклама (в особенности нетехническая) это манипуляция. Допустим, ставят красивую картинку, с красивой девушкой с этим мылом, может какой-то там доле процента потенциальных покупателей что-то западет в подсознание и человек купит именно то мыло которое ему прорекламировали. А другой покупатель случайно увидит рекламу другого мыла и купит его. Но кому от этого станет лучше? Деньги на рекламу потрачены, куча людей, вместо того чтобы заниматься квантовой физикой и биотехом, сидят в фотошопе рисуют всякую фигню, сочиняют слоганы и клепают баннеры. В сумме результат тот же, как если бы никакой рекламы никакого мыла не было вообще. Но да, я понимаю что если один производитель мыла откажется от рекламы, то он потеряет часть рынка. Т.е. это просто вынужденная эксплуатация уязвимостей человеческого подсознания, которая по сути не нужна никому, но все вынуждены ей заниматься чтобы остаться на рынке.
В общем, если удастся выгнать часть рекламы хотя-бы из интернета, не вижу в этом ничего плохого.

Ваш бизнес разорен. Вы с семьей живете под мостом. Ваши бывшие рабочие сидят на пособии. Клиенты ушли к тем кто купил рекламу.

Я даже не знаю почему бизнес не хочет себе такой участи?

А всего-то надо было прорекламировать свое мыло и кастрюлю умной технической статьей. Чтобы победить тех кто купил обычную рекламу.

Хотя и тут я бы спросил как бы собираетесь привлечь хотя бы миллион женщин в возрасте 30-50 к своей статье? А через неделю-две что делать будете? Вторую статью писать и снова привлекать трафик? Но вы сдались раньше.

Я смотрю со стороны пользователя и со стороны интернета в целом. Появилась технология (пусть тот же AdBlock) которая уменьшает количество рекламы в интернете. Что существенно, для всех одинаково. Бизнес может упокупаться, но рекламы не видно. Люди покупают первое попавшееся мыло. Бизнес вместо рекламы начинает платить за "правильную" раскладку мыла в магазинах:))

Допустим, появилась другая супертехнология, которая изменяет интернет так, что рекламы там вообще нет. И все товары заказывают онлайн, никаких магазинов. Что делать бизнесу? А тут вариантов не остается, кроме самого противного для бизнеса, но самого полезного для потребителя: улучшать таки реальные потребительские свойства товаров и рассказывать об этом в нормальных умных технических статьях.

Люди покупают первое попавшееся мыло

Именно. А нравится то о котором они когда-то что-то слышали. При этом они могут не помнить и вероятно не понят когда и что.

. Появилась технология (пусть тот же AdBlock) которая уменьшает количество рекламы в интернете.

Вы сильно преувеличиваете процент блокировщиков рекламы у типичных людей. И переоцениваете их эффективность. В среднем владельцы сайтов смотрят на этот процент блокировщиков и сегменты у которых он и прощают им его.

Бизнес вместо рекламы начинает платить за "правильную" раскладку мыла в магазинах:))

Уже платит. Но если продажи меньше определенных для вот этого места в магазине, то вас с него просто уберут. А то и вообще с полки уберут. Магазину нужны продажи. Место на полке стоит очень дорого.

А нравится то о котором они когда-то что-то слышали.

Нравится то, что уже понравилось ранее.

Вы делаете предположение что очередной ширпотреб из категории "Сегмент массмаркет. У вас все обычное как у всех по технологиям которым 50+ лет." должен существовать, а следовательно жизненно нуждается в накачке буллшит-рекламой о том какой этот товар модный, хайповый и нужный. За эту рекламу, кстати, должен в конечном итоге заплатить сам покупатель.

А я вот делаю предположение что товар который не может продвигаться за счет своих характеристик существовать не должен, а любая реклама воздействующая на человеческие эмоции глубоко аморальна и омерзительна.

Единственная приемлемая релама это уведомление о том что "Существует товар Х. У него вот такие характеристики. Сами сравните с конкурентами и выберите подходящее вам".

А я вот делаю предположение что товар который не может продвигаться за счет своих характеристик существовать не должен

Вы только что уничтожили процентов 80-90 типичных товаров. Вы точно готовы жить без мыла и без кастрюли? И без примерно всего остального не хайтек что вас окружает.

Единственная приемлемая релама это уведомление о том что "Существует товар Х. У него вот такие характеристики. Сами сравните с конкурентами и выберите подходящее вам".

Он весь плюс-минус одинаковый. На рынке 100500 производителей и новый легко может появится. Там ничего сложного. Но вам почему-то хочется кушать и кормить своих детей, и для этого вам надо ваш товар продать.

Потребитель быстро сбежит к тем у кого есть реклама. Проверяли уже и не раз. На год примерно памяти людей еще хватает, дальше все. Если не очень раскрученная марка, то и меньше.

Допустим появляется новый закон о рекламе, в котором четко запрещается любая реклама кроме уведомлений "Существует товар Х. У него вот такие характеристики. Сами сравните с конкурентами и выберите подходящее вам". Все остаются в равном положении, но вынуждены играть по другим правилам. Да, придется таки делать более качественные кастрюли. Потому что отзывы, потому что если у одного производителя из тысячи кастрюль некачественной оказалась одна, а у другого 5, то в концепции "интернет как универсальная база данных" эта информация элементарно всплывет.
Ну а в концепции "интернет как куча суверенных сайтов-приложений" конечно у каждого производителя свой сайт - свой закрытый мирок, и кто больше на подсознание покупателя накапает, того и бабки.

Да, придется таки делать более качественные кастрюли.

Нет преимуществ. Нет процента отказов. Нет качества. Они просто одинаковые. И вероятно даже на одном заводе сделаны. Массмаркет он такой.

Допустим появляется новый закон о рекламе, в котором четко запрещается любая реклама кроме уведомлений "Существует товар Х. У него вот такие характеристики.

И вашу экономику съедают китайцы которым пофиг на ваши законы и которые у себя на Алишке прорекламируют своих производителей. И вообще любые иностранцы которым на вас тоже пофиг и которые на Фейсбуке c Гуглом себе рекламы купят.

Ваши производители опять идут жить под мост, а их рабочие опять идут на биржу труда.

В смещение торговых марок чтобы не попасть под запреты все умеют. Безалкогольное пиво, кристально чистая вода Белый орел (или как там) это все уже было.

PS: Еще у вас паблишеры умрут. И вместо них опять иностранцы будут. Но ведь вы даже не знаете про их существование?

к сожалению, реклама просто переместится в отзывы.

У вас какая-то проблема с головой, надо лечиться у психиатора.
Все рекламщики для вас враги, а вы один такой нео-дартаньян, не клюющий на рекламу, и ненавидящий всё вокруг.
Ага ага, сам пользуешься всем тем, что когда-то видел в рекламе, даже не задумываясь что это была реклама, и это отложилось в подсознании.

Абсолютное дурацкие рассуждения про качественные кастрюли. Да никому все примерно одинаковые. Но купишь ты ту, которая рекламируется. Стоит в магазине, потому что магазину заплатили бонус за выкладку. Или находится в пределах 3х экранов на маркетплейсе, потому что дальше ты зае*шься крутить страницу. Или купишь по рекомендации друзей, которые купил благодаря рекламе.

Запомни, всё в этом мире благодаря рекламе. Даже если тебе это не нравится и ты не хочешь этого признавать.

А характеристики товаров и базы данных - это всё обман и манипуляции, там нет истины, это выбор среди сортов говна. В любом сегменте. И как покупатель, ты никогда не будешь обладать информацией о недостатках, а по характеристикам у тебя всё будет шоколадно.

И мыло ты всё равно купишь Dove, не потому что там голая девка намыливается, а потому что оно тупо реально самое лучшее, самое мылящееся и самое щадящее для кожи, поэтому и стоит сейчас 200р за штуку. Возможно тебе будет противна даже сама мысль о нём, ведь, о боже, его же "рекламируют"! Но это к психологу.

Если мы живем в условиях рыночной экономики и капитализма, то бесплатно ничего не бывает. Не представляю, как можно думать, что что-то где-то сделанное другими людьми может быть бесплатно. Если это бесплатно для тебя, то за это кто-то заплатит. Все мы платим отчисления из которых платятся пенсии неспособным работать, а за контент на сайте, железо, работу спецов платят те, кто в итоге смотрит рекламу, и мало того, покупает товары. А то не было бы у нас ни Яндекса, ни Гугла, ни Телеграма, ни собственно 99% того, что окружает нас в Интернете.

Блин, отличная идея на самом деле.

AI должен отсеивать - копии статей, тупые переводы, компиляцию из разных статей итд итп.

Стараться найти авторский контент или первоисточники.

Да это обломит бизнес многим, ну и ладно;)

Если данные парсят для ускорения своей работы, например, вэд-коды или таблицы брадиса - тут уместно владельцам базы кодов продать доступ к апи или подписку на файл. И нагрузку снизят и денежку получат они, а не автор статьи.

Но, если мой сайт парсится для того, чтобы конкуренты получили преимущество, например делая цены на рубль меньше или копируя к себе отзывы на товар - я буду бороться.

Я боюсь что прозвучит не очень приятно - но да, вас парсят чтобы получить преимущество. И многие наши клиенты знают что их парсят, тоже Приходят к нам за этим. Я же пишу как есть…

Да я без особых расстройств. Пока что воевать против парсера гораздо легче, чем за него.

А уж если еще и фиктивные данные подсовывать рандомно - парсинг будет штукой не только дорогой и бесполезной, а даже вредной.

Я это много раз слышал. Но скажите честно - вы не будете этим заниматься. Будет просто лень.

Я как-то ради прикола поставил на ctrl+c обработчик, заменяющий кириллицу на латинницу при копировании описания товаров. Описания на многие товары отсутствовали и их дополнительно заводил из головы человек. Ну вот потом много где всплыли описания с переменными кириллическими и латинскими буквами. Было не лень) Но это была скорее шутка, можно было также вставлять url в середину текста, например.

А если ваш сайт парсится для сравнения с конкурентами? Я — клиент — хочу узнать, где мне выгоднее что-то купить. Побыстрее сравнить характеристики, отзывы, обзоры, не продираясь через дебри вашего невероятно удобного user-friendly интерфейса. С этим что делать будем?

Второй вопрос: допустим используется предобученная естественная нейросеть (сын), тщательно записывающая все данные с нужных сайтов в табличку. С этим как бороться?

Вы описали агрегатор, который зарабатывает денежку. Если агрегатор парсит без спросу - он преобразует мои деньги в свои, что не хорошо для меня. Пусть договаривается. В итоге за плюшки или небольшую денежку агрегатор получает xml, а я пониженную нагрузку и какие-то преференции

Я описал себя — пользователя, клиента. Естественно, я хочу сэкономить, чтобы мои деньги не стали вашими. Зарабатываю я в другом месте.

Про парсинг без спроса: я же и написал, что информацию с сайта переписывает тоже пользователь. Со мной бороться надо?

Вы готовы писать парсер для того чтобы купить "кофеварку"? У вас много свободного времени.

И непонятно, почему моя потенциальная борьба с парсерами отталкивает вас от покупки моих товаров?

Покупок много, товаров много, магазинов много, подбор хочу автоматизировать или хотя бы упростить. Если этому активно мешают ритейлеры, то это минус. Речь именно о магазинах, ценах, характеристиках, т. е. информации, которая и так доступна свободно.

И непонятно, почему моя потенциальная борьба с парсерами отталкивает вас от покупки моих товаров?

Смею предположить, потому что у Ваших конкурентов цена будет ниже, вследствие повышенных затрат у Вас на поддержку антипарсинга;

Возможно. Но скорее - парсят меня из-за доп. контента, а дороже - из-за того, что я этот контент каким-то образом оплатил и пытаюсь отбить. По моему опыту это обходится дороже, чем подкинуть задачу на 2-8 часов разработчику.

(Сам я за то, что низкая цена бьет любые другие фишечки)

Кстати, довольно часто маленькие интернет-магазины наоборот, сами платят агрегатору, чтобы попасть в его выдачу и получить возможность редиректа на себя. Потому, что SEO «вес» у агрегатора намного выше и он в поиске будет первым, а местечковый ИМ — на пятой странице.

Тут уже компании платят пользователям за легальный ботнет для парсинга в том числе для улавливания различий в геораздаче, а вы говорите.

Эффективность всего этого примерно как если запустить робоавтомобили, которые бы проверяли стоят ли еще дома и есть ли дороги... oh wai...

Ох уже эти парсеры. В свое время особо рьяным роботам в ответе на HTTP запрос возвращали предложение обратиться с официальным запросом на email@company.com и получить регулярно обновляющийся полный товарный фид в формате XML. Но нет, гораздо интереснее ломиться с нагрузкой в 10х от пиковой пользовательской и вычитывать все из большой HTML портянки...
Вот уж действительно, не ищем легких путей.

Это кстати очень прагматично!

+

[/лукаво]Может проще сразу ссылку на этот XML-файл выложить на сайте? [/лукаво]

UFO just landed and posted this here

Интересно что сделал iHerb, что не смотря ни на что не получилось выполнить ТЗ.

100% защиты от парсинга конечно нет, но какой смысл оплачивать лишние серверы или давать конкурентам преимущество? Удовлетворять бесплатно потребности каждого школьника с парсером нет никакого смысла. Тот же Cloudflare и подобные сервисы даже в бесплатном варианте немного ограничат аппетиты парсеров, а ограничение запросов на 1 IP до вменяемых для ПС значений отсечет любителей без проксей.

Мне кажется многие недооценивают масштабы проблемы. Писатели парсеров по большей части не заморачиваются, а клиент может выставить обновление страницы 5 раз в секунду. За годы работы сайта нагрузка от парсеров может на порядки превысить нагрузку от пользователей и ПС.

Просто надо было много и быстро. А у нас не получилось

Не знаю, iherb на ура парсится многопотоком, там только по странам разное наличие товара. Отдает json в теле страницы. Параметры товаров там через одно место сделаны, дозировка, вес и т.п., 90% берут регулярки, остальное причесывается. Не пойму откуда возникли сложности.

Hапример Cloudflare Bot Management, reCAPTCHA.

Это ж общая проблема, а не конкретно iherb. Автор же сделал акцент на конкретном сайте.

Парсинг тут явно не на острие вопросов совести и честности. Навскидку, чего только стоит производство оружия, сигарет, вино-водочной продукции. Работа юристов и адвокатов.

Ну да кража гораздо менее опасна чем убийство и разбой. Но это не означает, что кна кражи надо закрыть глаза.

Хм. А подскажите - есть сайт журнала где лежат рассортированные pdf-ки. Всё это разрешено скачивать. Надо зайти (логин/парооь), выбрать, нажать кнопочку, скачать, (потом хорошо бы посмотреть название документа и переименовать его), ручками это всё очень долго. Можно ли такое как-то автоматизировать? Стандартные штуки типа reget не могут.

можно.
даже есть сайты и программы где весь этот алгоритм можно "накликать мышкой".

Так а что гуглить-то? Как называется?

из программ zennoposter, bas.
веб не интересуюсь, но они есть.

А обычный user scripts для этого не подходит? Tampermonkey позволяет вызывать GM_download для скачивания файлов. А обход по url можно с помощью storage или GM_storage сделать.

Может и подходят, просто эти слова мне мало чего говорят ))).

Посмотрите TamperMonkey. Это плагин на хром и фф, который позволяет запустить скрипт, например, при загрузке страницы. Все пишется на javascript, выполняется прямо на той же странице, то есть имеет полный доступ к данным страницы. При этом помимо всех функций js, также имеет дополнительные функции для работы с файлами и т.д.
В самом простом варианте его использование аналогично написанию скрипта в консоли браузера. Ну а дальше аппетит приходит во время еды.

После определения, что пришел бот (особенно с мобильной фермы ха ха) для него втихую начинается подмешивание некорректных данных. Так как автор "парсера" обычно нифига не смыслит в предметной области того, что он пытается спарсить, ему можно скормить что угодно. Факт эпик-фейла выясняется как я понимаю, только спустя какое то время после сдачи работы заказчику.

Раз такие статьи регулярно появляются, значит противодействие эффективно)))

Думаю можно периодически страницы дергать 2 раза с разных пулов, а дальше, если информация разнится, менять адреса, прокладки, ребутить модемы и т.п. Ну и посмотреть что парсили с этого адреса для нового прохода.

как вы определите что пришёл именно бот?
крупные игроки такие как Cloudflare выкатывают всё новые способы определения, но и те кто занимаются средствами парсинга и тп. с небольшой задержкой обычно так же обновляются что бы это обходить.


и почему "особенно с мобильной фермы ха ха"?
их особенность только в том что они используют ip с пула мобильного оператора.

Я бы отдал это на аутсорс бигтеху. И у Гугла и у Яндекса (может и еще у кого не знаю) уже есть апишки для этого.

Самостоятельно некрупный сайт такое сделать не сможет.

при нужде заморачиваются созданием высококачественного уникального профиля браузера и набором истории сёрфинга.
в промышленных масштабах тоже возможно это.
без использования профилей с историей Cloudflare, гугл, яндекс реагируют часто как на бота, но качественный профиль более доверенный.
растёт стоимость(время/деньги) определения ботов так и обход этого определения по мере качества/количества.

при нужде заморачиваются созданием высококачественного уникального профиля браузера и набором истории сёрфинга

Да, так тоже делают. И это тоже ловится. Паттерн поведения другой же. Все это не 100%, но в целом ловится.

Надо поймать каждый профиль один раз. Потом можно спокойно всем говорить что он бот. С некоторой вероятностью говорить, что бы затруднить для мошенника вычисление того что его поймали.

растёт стоимость(время/деньги) определения ботов так и обход этого определения по мере качества/количества.

Для владельца сайта это все еще бесплатно.

У Cloudflare же задача сделать универсальное решение, для любых веб-приложений. А если мы защищаем свой конкретный ресурс, то у нас гораздо больше способов.

Насчет ферм. Эти самые пулы операторов настолько большие, а бот из фермы приходит из одной и той же подсети много много раз. При этом реальные посетители могут месяцами ни разу не придти из этой подсетки. И айпи реальных посетителей равномерно распределены по всей сетке адресов, с учетом географии конечно же. И они обычно запрашивают 5... ну 10% самых посещаемых адресов ресурса, в отличии от бота, который всегда шерстит все подряд. Некоторые прямо по sitemap-у шпарят. Вам же никто не мешает добавить в sitemap пару "горшочков с медом".

Отделить же белого бота от черного, вам поможет reverse lookup, по опыту это порядка 99,99% попаданий. А если ограничиться списком из 2..3 поисковых систем, то и все 100%

что мешает боту менять мобильные ip как перчатки?
так же при работе с ресурсом можно заранее предусмотреть ограничение на повторного использования ip.

Они меняют, но в пределах типа xxx.xxx.xxx.0/24 Более широкий диапазон им не дает сотовый оператор. В итоге на ферме много девайсов, а кол-во айпи ограничено 10... ну 20 адресами.

И не нужно никаких нейронных сетей, чтобы на начальной стадии парсинга выявить новые подсети.

Но повторюсь, это кастомные решения под конкретные проекты. По ним понятна типовая карта посещений реальных юзеров, все что выбивается из этой картины, все попадает с suspect лист и чекается с помощью дополнительных правил.

Таким образом, выполняется задача довести стоимость парсинга до неразумной величины или заставить бота умерить пыл и тем самым обесценить получаемые данные.

Самое простое - подмешивать мусор в те записи, которые пользователю не видны. Авторы ботов же парсят всё подряд и следуют по пути наименьшего сопротивления. Поэтому они вряд ли будут разбираться, видны ли пользователю такие записи, если они внешне ничем не отличаются от остальных, парсятся той же регуляркой и содержат информацию, внешне похожую на валидную.
И только когда выяснится, что в этих "скрытых" записях полно мусора, только тогда будут копать дальше. Но немало неприятных минут это им доставит, и доверие со стороны клиента может подорвать изрядно.

Автор, рассказали бы еще про мобильную ферму: что за черная коробка, как оно управляется, что умеет и тд...

Возможно, просто следует как-либо ограничить юридически парсинг, чтобы эта технология не работало во зло. А то спарсят 50 000 номеров телефонов каки-либо людей, а потом прозвон по ним устроят. И ведь ничего не сделаешь, а названивать будут.

А то спарсят 50 000 номеров телефонов каки-либо людей,

Во-первых, я Вам сейчас могу прямо сейчас дать "50000 номеров телефонов каких-либо людей": (095)123-45-11, (095)123-45-12...

Сам по себе номер телефона ничего не означает — гораздо важнее знать, что это номер телефона Иванова Петра Иваныча.

Во-вторых — мы тут говорим не про доступ к секретным данным, а про скрейпинг данных, которые лежат на вебсайте. Тогда вопрос — а какого Цоя номера телефонов людей вместе с ФИО (как мы установили, без ФИО номер бесполезен) лежат на вебсайте в открытом доступе? Если по чьему-то рас?байству — то тут как бы должн возбудиться какое-то там ведомство и тактично объяснить выложившему, что так делать не надо.

Тогда вопрос — а какого Цоя номера телефонов людей вместе с ФИО (как мы установили, без ФИО номер бесполезен) лежат на вебсайте в открытом доступе? Если по чьему-то рас?байству — то тут как бы должн возбудиться какое-то там ведомство и тактично объяснить выложившему, что так делать не надо.

Очень правильный вопрос, кстати... Лучший способ защиты информации - не просьба роботам не парсить её, а непредоставление доступа к ней.

Вот только как бы возбудить "какое-то там ведомство" не на коммерса, а не другое госведомство, например?.. Понятно, что им проще еще чего-нибудь запретить в интернете, чем навести порядок у самих себя.

UFO just landed and posted this here
UFO just landed and posted this here
Sign up to leave a comment.