Комментарии 411
PS. Увидел в комментах, что у Вас тоже ферма selinium и тоже .net :)
Возможно, по отдельности это всё не поможет, но все вместе осложнит вам жизнь настолько, что станет нецелесообразным. При этом все эти техники вообще не требуют больших затрат.
Просто заказчику парсинга будет дороже эта услуга :)) В любом случае — честный человек должен всё видеть без больших проблем.
В особо крайнем случае нанять толпу китайцев, которые будут ходить по страницам, а фоново будут фоткаться страницы.
Толпа китайцев будет ходить с китайских же IP. Такой трафик вообще вычислить и забанить не проблема. Если все через прокси пойдут или VPN, то отследить ещё проще. В обшем то, что вебмастеру закрыть 1 час работы, заказчику будет стоить дороже, чем нанять копирайтера…
Кстати, китайцы уже не такие и дешёвые.
Просто заказчику парсинга будет дороже эта услуга :))
И начиная с какой-то суммы потенциальный заказчик от услуги откажется.
Всё, чего можно добиться — разработка парсера будет стоить подороже, возможно кого-то это и отпугнет, но если целевой сайт — это не каталог на полторы страницы местного ооо «рога и копыта», то повышение затрат мало кого отпугивает.
Короче, было бы желание, а средства защиты есть и они работают, при этом не стоят баснословных денег.
Сайтов с разной защитой от ботов навидался полно, но находил способы обойти (если бюджет позволял) всегда
напишите статью(-и) по защите от парсинга
Против особо упоротых защитников есть своё слово — Amazon Mechanical Turk.
Помню, я в 2001-м свой первый шароварный продукт похожим образом защищал от взлома. В итоге так и наблюдал вышедший потом недо-crack.
В вашем бизнесе это чуть ли не основной компонент, который логично держать внутри компании.
запросов 100 сразу будет капча,
А DeathByCaptcha.com для кого придумана?
Азиаты разгадывающие капчу за еду, как это сделал Люстик из keycollector при парсинге wordstat, да и с прокси вопрос простейший.
Правда они в основном продают целую систему аналитики SEO.
Выдача поисковиков давно уже индивидуализирована.
Продают довольно неточную аналитику в конечном итоге.

Нахождение подобного в каждом из ваших 300 магазинов — ключ к ускорению процесса в сотни раз. Когда я занимался парсингом (для удовольствия) МВидео и Эльдорадо, к примеру, они еще работали на голом (с высоты моего понимания) Битриксе, где инфа о товаре содержалась в json в теле страницы и динамически не подгружалась. Решалось загрузкой по байтам и обрывом соединения там, где кончался json. На заголовок частичной загрузки сервер, увы, не отвечал. Эльдо вообще банили по айпи через 200 запросов, но это было год назад.
Я посмотрел ваше железо в комментарии ниже. Интересно, конечно, но актуальность цен на сайтах — в течение суток, я парсил легкие варианты раз в час, а тяжелые — три раза в сутки, и все равно находилась уйма отличий.
В любом случае, спасибо за ответы, было интересно ознакомиться с тем, как это происходит в промышленных масштабах.
Решалось загрузкой по байтам и обрывом соединения там, где кончался jsonТо есть json лежит в теле html. В любом случае, если вы хотите решить проблему, то просто банальным фильтром по xhr не обойтись, все может маскироваться глубже, ищите дальше. То, что вы бросили на полпути говорит о том, что вам это не особо и надо.
где там json — не копал, но
1) там есть чудесная яндекс.карта с аптеками и ценами
2) а сам список отрендерен без всяких заморочек:
<div class="pharmacyList__items_mob">Цена</div>
<ul class="tableListPrice"><li class="tableListPrice__item">
<div class="tableListPrice__col tableListPrice__col_1">Цена: </div>
<div class="tableListPrice__col tableListPrice__col_2">251 <span class="tableListPrice____roubleIcon icon"></span></div>
</li></ul>
</div>
А зачем для маркета хромиум? Полгода назад он отлично утягивался без всяких ухищрений
В p.s. автором статьи добавлено, что .net.
Вопрос кстати, selenium больше не отлавливается по аттрибуту «webdriver»?
В смысле, "не выплеснули ли мы вместе с водой и самого младенца"? Нет, все в порядке :) метрики же есть
Я конечно не занимаюсь именно парсингом. Но занимаюсь в целом автоматизацией (куда уже и парсинг попадает)… на столько достоверной, на сколько это возможно (QA).
Хорошая рабочая станция, десяток-другой браузеров параллельно — на выходе очень злая-быстрая молотилка.
Понятное дело, что «точка назначения» в моем случае готова к таким гостям.
На вскоидку выглядит достаточно просто. По приведенной ссылке цены кодируются юникод символами:
0xef 0x81 0x80 -> '2'
0xef 0x83 0xa3 -> '6'
0xef 0x90 0x84 -> '9'
0xee 0xb9 0x82-> '.'
0xef 0x98 0x89 -> '0'
Декодируется это элементарно.
Или я что-то пропустил?
firstChild: #text
assignedSlot: null
baseURI: "https://stolichki.ru/present/27694/"
childNodes: NodeList []
data: "\uef4c\uf3e8\uf4ad\ueb5d\uf6f3\uf6f3"
Контора которая этим зарабатывает может себе позволить 1-2 дня программиста на это потратить. От студентов, конечно, может помочь.
Ребят, возможно, я и написал то, что можно спарсить, но, тем не менее, я для себя получил колоссальный опыт на Python, чему очень рад :)

Декодируется это элементарно.А можно поподробнее? Символы меняются при каждом обновлении страницы.
Видать, еще в сессии какой-то рандом хранят. Так что, для такого подхода нужно набрать статистику, и он может незаметно начать выдавать не совсем верные значения когда разработчики чуть-чуть поменяют формулку.
Распознавание картинки надежней.
Многие зацикливаются на том, что парсинг – это именно воровство контента, хотя это совершенно не так. Парсинг – это всего лишь автоматизированный сбор информации, не более того.
Недавно нам поступил заказ на сбор данных по 50 сайтам крупных онлайн-аптек.… В результате вместо набора инструкций вручную, заказчикам останется лишь внести небольшие корректировки в шаблоны инструкций, и всё – контент для сайта готов.
Подглядывать в замочную скважину как минимум не красиво, а если клиент потом ещё и выдаёт спарсеное за своё — то это уже прямое воровство. Конечно понятно, что в сфере бизнеса все так делают. Но в приличном обществе всё же принято об этом молчать.
Вы сами пишите, что часто находитесь на грани закона, когда часть информации может быть защищена авторским правом.
Возможно, вы лучшие в своём деле, этим можно гордиться, рассказывать, привлекать клиентов. Но не нужно при этом делать вид, что вы белые и пушистые.
Некто создал базу товаров. Потратил кучу ресурсов на поиск информации, систематизацию этой информации, вынесение данных в базу.
Вы, по просьбе конкурента эту базу спарсиваете и за деньги отдаете тому самому конкуренту.
Вы считаете, что здесь нет этических проблем?
Касательно законности — не знаю как в РФ, но в Украине БД может быть объектом авторского права.
В свое время решил сделать приложение для сайта forbes.
Чтобы получать статьи с сайта — сделал парсинг страниц.
Настроил всё в автоматическом режиме и сделал приложение для Андроид.
Выложил приложение в маркет.
Через год со мной связался юрист и потребовал удалить приложение, потому что я нарушаю авторские права.
Спорить не стал. Обидно, что у самого forbes нет приложения по их же статьям с сайта.
Есть только сайт. А сайт у них тормозной, долго грузится и увешан рекламой.
Вот такая вот история.
Как можно сравнивать статьи с сайта и, например, цены или инструкции к лекартсвам?
Я лишь хотел поддержать автора комментария в том, что любой контент — это некий труд. И не все хотят, чтобы этот труд забирался и использовался массово.
Это мое личное мнение.
Но опять же из опыта — 90% заказчиков ваши описания не интересуют вообще. Цены, ассортимент, акции. Все.
Это безотносительно этичности, — грань этичности будет стоять в одном месте и для индусов, и для роботов.
Пример с другого края спектра я привести не могу, просто потому, что сам всё же считаю данную тему inherently этичной, но, судя по всему, вы где-то там начинаете видеть отсутствие этичности. Но мониторинг рынка был неотъемлемой частью экономики ещё со времён, когда пойманную рыбу меняли на шкуры мамонтов, просто потому, что, если ты вдруг запросишь десять шкур за одну рыбу, то и будешь, как дурак, с этой рыбой сидеть и мёрзнуть, потому что сосед отдаст за одну шкуру полсотни рыб и все будут довольны.
Касаемо этичности — я просто не задумывался. Мне нужно значительно больше времени, чтобы сформировать позицию по этому вопросу.
По крайней мере в УК РФ есть просто убийство и убийство общественно опасным способом :)
чем это технически отличается от ситуации, когда конкурент нанял бы дюжину усидчивых индусов
с точки зрения «этичности» — ничем не отличаются, как уже заметили в комментариях выше
по вашему мнению, заканчивается этичность происходящего
Я не знаю. Но я знаю, как однозначно решить вопрос этичности в каждом конкретном случае – просто спорить разрешения у владельца ресурса (мы хотим спарсить вашу базу для таких-то целей). Возможно, и парсить не придется.
Как пример – владелец lamptest.ru провел огромную работу, составил уникальную базу и, при этом, выложил базу в открытый доступ.
Некто создал базу товаров. Потратил кучу ресурсов на поиск информации, систематизацию этой информации, вынесение данных в базуИ выложил, по сути, в общий доступ.
То, что блоггеры, например, бесплатно выкладывают статьи собственного сочинения на всеобщее обозрение совершенно не означает, что статьи эти не защищены авторским правом.
1) Вы не можете присвоить их авторство себе.
2) Вы не можете публиковать их где-то еще, если такого разрешения вам не было дано. Обычно такое разрешение звучит как нечто вроде «разрешено к распространению с обязательной ссылкой на первоисточник».
То же касается и интеллектуальной собственности: если вы на гитхабе нашли нужный вам модуль «в общем доступе», это еще не дает вам права безвозмездно использовать его код (частично или полностью) в своем проекте.
В общем случае то, что вы описали незаконно, однако в программировании все достаточно неоднозначно, т.к. некоторые задачи имеют ограниченное количество способов, которыми их можно решить.
- Ваша деятельность как «водителя бота» этична ровно настолько, насколько Ваш бот соблюдает robots.txt посещаемого сайта. Не исходя из допущений вида «страницы товара не закрывают», а буквально накладывая маски allow и disallow на запрашиваемые URL. Отсутствует robots.txt — трактуйте в Вашу пользу, присутствует, но вы его нарушаете — однозначно Вы абьюзите сайт.
- Что делают с контентом Ваши заказчики — уже на их совести
Конечно robots.txt не имеет силы закона, но если действительно припечет, не факт что точно пройдет мимо юристов.
robots.txt — это технический прием. Он не про этику.
Если вы хотите обозначить, что не желаете парсинга — делаете раздел, вроде такого: account.habr.com/info/agreement
Не знаю будет ли такое ограничение законным, но, как минимум, свои пожелания можете там изложить человеческим языком (или упомянуть robots.txt), потом можно про этику
Попробуйте глянуть на ботов чуть «шире» чем боты топикстартера, которые работают по заданному списку УРЛ — боты могут бродить где попало, находя УРЛы для парсинга in the wild.
Обсуждать этику применения абстрактных ботов в вакууме я не буду, у топикстартера индивидуальный подход к сайту, и метод «а если бы он вез патроны» к нему применять неэтично )
Странно, но почему тогда бот гугла ограничение на краулинг в этом agreement проигнорирует, мало того — цинично спарсит и в поиске покажет, а robots.txt еще как приймет во внимание???Потому что только соблюдение описаний в robots.txt позволяет Гуглу заявлять о том, что у него есть Implied license (и да, судебные процессы, где эта теория проверялась на прочность, отгремели много лет назад… и во многих юрисдикциях). Именно существование robots.txt и соответствующего описания позволяет сделать вывод, что данные с сайта предназначены не только для людей — но и для ботов… Если бы авторы сайта хотели бы иного, то запретить ботам сканировать сайт они могли бы создав файл с парой строк, а если они этого не делают — то, соответственно, приходим к выводу, что они хотят, чтобы их парсили.
Есть и другие легитимные активности, которые намеренно и в открытую игнорируют robots.txt для выполнения своей функции.
Или вы думаете зря Гугл так усиленно продвигал Google Toolbal пока Хрома не было, а как Хром появился — вдруг перестал? Вот теперь вы знаете ответ на вопрос «почему?»…
Я не понял, о какой именно городской легенде идёт речь:
- Гугл сделал из Хромов ботнет, через который «исключительно люди» посещают и вручную мониторят все бинарники и лендинги?
- Хром каждого пользователя отсылает в Гугл всё, что скачивает для «исключительно людей»?
- В Хроме есть какая-то доп. функциональность для «исключительно людей» в стиле «прокликай 1000 ссылок, которые мы предложим, и получи $1»?
Во-первых, это всё чушь (с вероятностью 99.9%). Во-вторых, это не опровержение, не подтверждение, и вообще никаким боком не связано с моим постом: куча вполне легитимных ботов в Сети вполне легитимно и открыто кладут с прибором на robots.txt.
Просто потому, что иначе не сделать хоть сколько-нибудь работающий SafeBrowsing и не проконтролировать адекватность страниц, на которые ведут рекламные объявления
Проверки в интересах рекламного бизнеса, который платит сайтам — это другое.
Парзить контент, созданный чужим трудно, чтобы выложить его на своем сайта — совсем другое дело.
Конечно robots.txt не имеет силы закона, но если действительно припечет, не факт что точно пройдет мимо юристов.А ему и не нужно. Закон уже есть — это закон об авторском праве. Он запрещает парсинг и вообще любое копирование без разрешения правообладателя. И даже детский лепет про «фактические данные» вас не спасёт — специально для вас в ГК есть статья 1334, почитайте на досуге.
А вот robots.txt — спасти как раз может. Потому что он, фактически, является лицензий. Но для того, чтобы его можно было в таком качестве использовать — его таки надо соблюдать. Использовать уникальные и легко идентифицирующиеся названия для ботов, не пытаться выдавать себя за браузер и т.д. и т.п.
В противном случае — это уголовка и вопрос только в том, когда и кто первым сподобится потратить время и силы на то, чтобы отправить вас в «места не столь отдалённые»…
Каким образом парсинг стал равен нарушению авторских прав?
Скажем robots.txt создали
robots.txt это протокол рекомендаций, ни один суд не примит причину «закрыт в robots.txt», который многие легальные веб-сканеры (например веб архив) не соблюдают. Данные публичны пока они открыты для пользователей.
люди Открыто выкладывают информацию в инторнеты,
заявляют что эту информацию можно читать Только Человеческими Глазами,
а иначе ай «воровство контента».
И копирование этой статьи к вам на компьютер и парсинг сайта — нарушают «исключительные права» правообладателя… однако скачивание статьи к вам на компьютер — предполагается техническими средствами Web'а (см. Implied License), а парсинг — строго говоря, нет.
Более того, анализировать цены в публичной базе это вполне нормальное использование этой базы, а значит ни один суд не может мне, как пользователю, использовать любые технические средства для такого анализа (ну вот не хочу я вручную искать где дешевле продают айфон). Так же ни одна лицензия не может запретить конкуренту зайти на ваш сайт и посмотреть там цены. Опять-таки, есть пункт про научные интересы (а анализ цен вполне научен).
Ну и до кучи, наказание определяется иском от реального убытка, а скачивание публичной базы без ее использование, очень сложно подвести под реальный убыток правообладатели.
Это личное использование. Вот когда вы за это начнете брать деньги, наступает уже другая история.
Где оказывается, что в личных, научных, образовательных или в небольшими частями из публичной базы внезапно извлекать можно.
Вся статья о парзинге для целей коммерции.
Ни научных, ни личных, ни образовательных целей.
Ни небольших частей — иначе бы и бизнеса этого не было, те кто сейчас заказывают вручную бы просмотрели небольшие объемы.
Опять-таки, есть пункт про научные интересы (а анализ цен вполне научен).
Если вы пишете диссертацию про колебания цен — да, конечно.
Но что-то мне подсказывает, что заказчики автора статьи заказывают мониторинг ради использования в коммерческих целях, а не для диссертаций.
Нарушение авторских прав == Незаконное Копирование и Использование
Вот пример. Персонажи Marvel (либо Angry Birds) — это защищенные торговые марки, которые нельзя без разрешения использовать и распространять.
Но никто не запрещает мне сделать дома фигурку Marvel и поставить на полку. Всё для личного пользования.
Возможно с парсингом «другая тема». И здесь вы упираете на то, что автор статьи не совсем для себя парсит данные, более того еще и зарабатывает на этом.
если, конечно, было преступление, но оно скорее будет
Есть много причин, когда парсинг полностью легален. Например, marketing research это целая наука, которая включает анализ ценообразования конкурентов, она легальна во всех (вроде бы) странах.
Я занимался давным давно парсингом, но всегда просили делать вполне легально и морально правильный парсинг.
— Несколько раз посредники просили сделать парсинг оптовика (для продажи его же товаров), сам оптовик был не против, но вкладываться в разработку API совершенно не собирался (или не мог по тех.причинам),
— один раз посредник одного китайского магазина просил сделать интеграцию, но там api китайского магазина был настолько долбанутый и ограниченный, что частично приходилось получать инфу парсингом,
— Один раз автор и владелец сайта и форума хотел мигрировать с бесплатного сайта, который зажимал базу данных,
— Так же делал интеграцию сайта литературного конкурса и его же форума, чтобы при добавлении нового рассказа автоматически появлалась тема на форуме (по тех.причинам это невозможно было сделать иначе)
Вы про УК РФ Статья 316. Укрывательство преступлений? А вы её читали?
Если бы там ваша логика была применима, то надо было бы таксистов сажать, они скорее всего уголовников возили.
Ну и вам там ответят «когда убьют — тогда и приходите».
> не предоставляя при этом какие-л. права на ресурс
Права, техпаспорт, справку в бассейн.
Попробуйте, для начала, хотя бы медкнижки у официантов проверять. Если этого мало покажется — приходите, расскажу про перестикеровку. Опасных преступников ловить будете, потенциальных убийц.
Если магазин круглосуточный и время упаковки около часа ночи — это просто гарантия того, что вчерашнюю нарезку переупаковали с новой датой, а свежую нарезку делают по утрам. В остальных — или парез закрытием, или после открытия. Процесс «пачками забирают старую нарезку и несут к весам и она появляется посвежевшей» особо не скрывают, достаточно в нужное время придти и посмотреть.
В отличии от «я таксист, я вам подозрительного человека привез, в чем виноват не знаю» это точно незаконно и доказуемо.
Положить сайт — это другая статья.
Там «крупный размер» — это не в количестве спарсенных страниц, а в деньгах. Как вы вообще оцените парсинг (и его регулярность), как нарушение авторских прав (!), в деньгах?А как обычно в таких случаях делают и откуда может штраф в сотни тысяч долларов за одну копию фильма взяться?
Высчитывается «упущенная прибыль» с соответствующим коэффициентом. Можно с каких-нибудь договоров просчитать — сколько будет стоит купить у вас ту же информацию легально и отсюда плясать.
Точно не из уголовного дела.
(и Вы не путайте штраф и ущерб. Вот вы по хулиганке разбили бутылку пива: Ущерб — 30 рублей, штраф — до 1000р, а по гражданскому иску потом хоть триллион отсуживайте за «упущенную выгоду», но это уже не штраф)
> сколько будет стоит купить у вас ту же информацию легально и отсюда плясать.
Ну, для начала, вы должны её изначально продавать (а не выкладывать в публичный доступ), выдумывать цифру задним числом не прокатит
Ну, для начала, вы должны её изначально продавать (а не выкладывать в публичный доступ), выдумывать цифру задним числом не прокатитСерьёзно? Не прокатит? Поинтересуйтесь вначале сколько стоит коммерческая лицензия на Консультат-Плюс какой-нибудь. Притом что та же инфрмация у них и на сайте лежит.
Всё, разумеется, будет зависеть от того, каких экспертов вы привлечёте, но вытянуть «ущерба» на уголовку для крупного магазина — не проблема. А у мелких и денег-то на приличного юриста не найдётся, так что там непринципиально.
специально для вас в ГК есть статья 1334, почитайте на досуге.
А статью «Статью 1335.1» вы читали?
1. Лицо, правомерно пользующееся обнародованной базой данных, вправе без разрешения обладателя исключительного права — изготовителя базы данных и в той мере, в которой такие действия не нарушают авторские права изготовителя базы данных и других лиц, извлекать из базы данных материалы и осуществлять их последующее использование:
— в целях, для которых база данных ему предоставлена, в любом объеме, если иное не предусмотрено договором;
— в личных, научных, образовательных целях в объеме, оправданном указанными целями;
— в иных целях в объеме, составляющем несущественную часть базы данных.
…
4. Изготовитель базы данных не может запрещать использование отдельных материалов, хотя и содержащихся в базе данных, но правомерно полученных использующим их лицом из иных, чем эта база данных, источников.
Для открытых баз в инете это практически означает, что всякие мониторинги цен и т.п. действия парсинга вполне легальны, криминалом будет лишь публикация уникальных описаний товаров на сайте конкуренте. Более того тот кто выполняет парсинг не может знать нужна ли база заказчику для личных, научных, образовательных или других целей.
В противном случае — это уголовка и вопрос только в том, когда и кто первым сподобится потратить время и силы на то, чтобы отправить вас в «места не столь отдалённые»…
У вас смешались люди, кони… Ну какая уголовка и «места не столь отдалённые» в гражданском кодексе? Там вообще преступлений нет, только нарушения, штраф и иски. Если вы посмотрите, чем вам грозит нарушение интеллектуальных прав, то это… компенсация реально понесенного вреда правообладателем и прекращения использование интеллектуальных прав. Если вы только спарсили публичные данные с сайта и ничего с этим не делали, то реально понесенные потери правообладателя близки нулю и очень сложно будет убедить суд в обратном.
Я видел случаи, когда люди дают ссылки на статьи, которые из слова опровергают… Но чтобы прямо их процитировать — это в первый раз…
Более того тот кто выполняет парсинг не может знать нужна ли база заказчику для личных, научных, образовательных или других целей.А если не знает — то не имеет права парсить — прочитайте же, блин, то, что вы нацитировали ещё раз!
Если вы посмотрите, чем вам грозит нарушение интеллектуальных прав, то это…принудительные работы на срок до пяти лет либо лишение свободы на срок до шести лет со штрафом… Откройте УК и почитайте же статью 146, блин!компенсация реально понесенного вреда правообладателем и прекращения использование интеллектуальных прав.
Да, это всё только в случае «особо крупного размера», натянуть на него запуск wget'а вам не удастся, а вот «промышленный» парсинг с арендованным серверами и прочим… вполне.
В целях, для которых база была предоставлена? Дык она для того, чтобы была возможность выбора у покупателя сделана!Это где-то указано? Если нет, то это всего лишь предположение, на него опираться нельзя.
А если не знает — то не имеет права парситьА можно цитату где это написано?
Мониторинг цен скачивает существенную часть базы, так что под «иные цели в незначительных объёмах» явно не попадает.
Нее, это надо доказывать в суде. Цена лишь незначительный процент среди остальной информации (фото, описаний), скачивание 1% от базы это незначительный объем. Нет, можете доказывать в суде, но тут у кого адвокаты лучше.
Личные, научные, образовательные цели? Мимо — мы ведём речь явно не о публикации научной статьи.
Кто сказал? Как вы докажите, что я во время скачивания не планировал публикацию научной статьи? Как мы можете доказать, что заказчик не хотел получить данные ради личных данных. Исполнитель не обязан узнавать цели по которым его просил скачать заказчик. Все претензии к заказчику.
Дык она для того, чтобы была возможность выбора у покупателя сделана! Сколько там товара закупил топикстарт. Речь идёт о конкурентах, в основном.
База это публичные данные, а цены это оферта. Вы не можете запретить конкуренту зайти на ваш сайт или в ваш магазин, он такой же пользователь сайта, как и остальные и может для своих личных целей бизнеса анализировать ваши цены. Ни один суд не согласится, что вы имеете право прятать цены от вашего конкурента, но показывать остальным покупателям.
Более того тот кто выполняет парсинг не может знать нужна ли база заказчику для личных, научных, образовательных или других целей.
А если не знает — то не имеет права парсить — прочитайте же, блин, то, что вы нацитировали ещё раз!
Докажите, заказчик сказал, что ему данные нужны для научной статьи, докажите, что исполнитель обязан требовать какие-то подтверждения (какие?).
Внимательно посмотрите пункт:
4. Изготовитель базы данных не может запрещать использование отдельных материалов, хотя и содержащихся в базе данных, но правомерно полученных использующим их лицом из иных, чем эта база данных, источников.
Раз вы выложили цены на сайт это публичные данные/оферта, которые так же можно получить позвонив в фирму или зайдя в магазин. Их нельзя по закону скрывать, более того они не могу являться защитой интеллектуальной собественности. В конце концов, моя соседка Люся могла зайти на ваш сайт и потом сказать мне, что у вас айфон дешевле чем у меня.
Да, это всё только в случае «особо крупного размера», натянуть на него запуск wget'а вам не удастся, а вот «промышленный» парсинг с арендованным серверами и прочим… вполне.
Нее, нужно показать именно реально понесенный ущерб, мало ли зачем арендованный сервер работает, а вот с этим сложно, судья спросит, а что секретарь конкурента не могла вручную зайти на сайт и получить все эти цены (ну ладно десяток офис менеджеров)? Могла, тогда где ущерб?
Вообще, цена на сайте это публичный договор, ее нельзя делать тайной и более того нельзя делать разной для разных потребителей. В том числе владелец фирмы конкурента должен иметь равное право узнать цену на ваш товар и купить товар по этой цене, иначе вы нарушаете ГК РФ Статья 426.
Ни один суд не согласится, что вы имеете право прятать цены от вашего конкурента, но показывать остальным покупателям.Ага, конечно. А тысячи фирм, высылающих цены «по запросу» (некоторые имеют даже блоги на Хабре) — они все, конечно, «нарушители закона».
Внимательно посмотрите пункт:А сами своему совету не пробовали последовать? Читаем внимательно: правомерно полученных использующим их лицом из иных, чем эта база данных, источников.
4. Изготовитель базы данных не может запрещать использование отдельных материалов, хотя и содержащихся в базе данных, но правомерно полученных использующим их лицом из иных, чем эта база данных, источников.
То есть использовать сведения — да ради бога. Докажите, что они появились у вас не в результате парсинга сайта, убедите в этом суд — и пользуйтесь на здоровье.
Да, если магазин — ваш конкурент сможет доказать, что пользовался не результатами парсинга сайтов, а «рассказами бабы Люси», то он — cможет соскочить с крючка. Вы — нет.
Докажите, заказчик сказал, что ему данные нужны для научной статьи, докажите, что исполнитель обязан требовать какие-то подтверждения.Серьёзно? Ваш заказчик, представитель торговой сети, заказал вам получение данных под научное исследование, а том, что он будет их использовать в комменрческих целях вы даже не догадывались? Тут скорее психологическая экспертиза о вменяемости требуется.
(какие?)Любые — но такие, которые смогли бы суд и присяжных (если они будут иметься) убедить в том, что коммерческая организация заказывает данные для проведения научного исследования, а не для коммерческой деятельности. С учётом того, что люди, странным образом, склонны предполагать, что коммерческая организация интересуется, в общем-то, в первую очередь коммерцией — это сделать непросто. Не «невозможно», но… непросто.
Цена лишь незначительный процент среди остальной информации (фото, описаний), скачивание 1% от базы это незначительный объем.Ещё раз: не нужно считать судей идиотами. Они — не механиченский парсер текстов законов. И 1% и даже 0.01% могут оказаться значительными объёмами, если удастся показать, что они ощутимо уменьшают ценность самой базы. В случае с каталогом цен — это достаточно очевидно.
Нее, нужно показать именно реально понесенный ущерб, мало ли зачем арендованный сервер работает, а вот с этим сложно, судья спросит, а что секретарь конкурента не могла вручную зайти на сайт и получить все эти цены (ну ладно десяток офис менеджеров)?И любая экспертиза вам покажет, что нет — не могла. Зайти на сайт — могла, собирать данные ежедневно по каталогу в полмиллиона наименований — не могла. Да и какая, собственно, разница? В законе нет исключений на тему: «с помощью компьютера базу данных копировать нельзя, а переписав на листочк бумажки — можно».
В том числе владелец фирмы конкурента должен иметь равное право узнать цену на ваш товар и купить товар по этой цене, иначе вы нарушаете ГК РФ Статья 426.Если он его хочет купить — тогда да, разумеется. Но вам, опять-таки, придётся доказывать, что вы, владея конкурирующей фирмой, хотели-таки именно купить товар… это будет непросто, уверяю ваc.
P.S. Всё это, разумеется, касается только всяких хитрых штук типа «положите товар в корзину, чтобы узнать цену» (как на Amazon иногда бывает). Если вы парсите просто странички соблюдая robots.txt — то тут, как я уже писал выше, вы можете ссылаться на Implied License — и оспприть это будет непросто…
УК РФ Статья 146. Нарушение авторских и смежных прав
1. Присвоение авторства (плагиат), если это деяние причинило крупный ущерб автору или иному правообладателю,
…
2. Незаконное использование объектов авторского права или смежных прав, а равно приобретение, хранение, перевозка контрафактных экземпляров произведений или фонограмм в целях сбыта, совершенные в крупном размере,
…
3. Деяния, предусмотренные частью второй настоящей статьи, если они совершены:
А каталог товаров на сайте каким боком относится к авторским и смежным правам? (исключая фото и авторские описания(которые не так часто встречаются) )
А каталог товаров на сайте каким боком относится к авторским и смежным правам?База данных, однако. На них, удивительным образом, тоже авторские права распространяются.
Хороший примерг — это «Гарант». Там нет ничего, что отсутствует в «публичных источниках». Тем не менее если вы свою подписку на неё (а она весьма недёшева) «расширите» — получите хороший такой штраф. Именно за нарушение авторских прав.
Написание скрипта для сбора данных само по себе легально при любом раскладе, получается?
Написание скрипта для сбора данных само по себе легально при любом раскладе, получается?Написание — да. Более того — использование «в личных, научных, образовательных» целях — тоже да.
И, как тут уже замечали: многие вполне не против того, чтобы их парсили. Ибо ну не могут они выдать информацию в более удобочитаемом виде.
Но если люди активно не хотят, чтобы их парсили и с вами борются — то тут уже повод задуматься. Причём о многих разных философских вопросах.
Потому что если компания большая — то может быть всякое. Например местный филиал скажет «да качайте что хотите — нам пофиг». А потом головной — подаст на вас в суд. На этот случай разрешение лучше иметь в каком-нибудь подаваемом в сут виде, а не просто «Вася по телефону разрешил».
> Там нет ничего, что отсутствует в «публичных источниках».
Ой, да ведь ОНИ ЖЕ ПАРСЯТ И ПЕРЕПРОДАЮТ!
Ой, да ведь ОНИ ЖЕ ПАРСЯТ И ПЕРЕПРОДАЮТ!
Они-то парзят бесплатное.
Вы путаете техническую возможность сделать это и юридический запрет этого не делать.
Так-то грабить в тихом переулке слабых девушек/стариков технически тоже несложно.
Вообще, называть сам сайт базой данных — это довольно свободное толкование. Судебная практика такая вообще есть?
Да, на этом рынке все очень жестко. Работал с дилером одной из подобных систем.
Сейчас не знаю, а раньше было 3 крупнейших игрока — в масштабах страны это огромные финансовые возможности у каждого и большие усилия на удержание доли рынка. В т.ч. и судебные разборки на взлом их систем, в которых «всего лишь общедоступная информация».
Ну хоть согласились, что бесплатно выложенное в сеть парсить можно.
> в масштабах страны это огромные финансовые возможности у каждого и большие усилия на удержание доли рынка.
космические корабли бороздят… Вопрос был в том, можно ли сайт базой данных называть, а не про взлом.
Ну хоть согласились, что бесплатно выложенное в сеть парсить можно.
Вы путаете техническую возможность и юридическую.
В принципе, велосипед, если хозяин от него отошел, тоже угнать можно. Технически. Но не юридически.
Кстати, фактически, его и искать полиция не будет.
Но это не делает угон велосипеда законным.
то есть роботам Консультанта угнать велосипед законно, а у них — нет? Ну… А почему?
Они не парзят, там не только роботы, но много и человеческой работы.
Берут из бесплатных источников.
И обрабатывают для более удобного поиска.
Перелапачивают, индексируют, выставляют перекрестные ссылки и т.п.
И получается готовый продукт. Уже коммерческий.
Продают не тексты законов, а удобный доступ к текстам законов.
Парзите Российскую газету на здоровье.
Или добавление индекса и матчинга распарсенный сайт авторство меняет?
а что, а законе какие-то исключения о «парсинге бесплатных источников»? Авторские права российской газеты отличаются?
Никто не говорит про авторские права на сами тексты законов.
Речь об индексированных/подготовленных/обработанных данных из Консультанта.
И о сырых данных, простых текстах из Российской газеты.
Или добавление индекса и матчинга распарсенный сайт авторство меняет?
Авторства исходных данных — нет.
А вот права на обработанный материал — да.
Пример про аранжировку музыкальный произведений:
Аранжировка = переделка музыкального произведения, при которой основная музыкальная тема первоначального произведения остается узнаваемой.
Считается, что создатель вариации (аранжировщик), меняя ритм и такт, изменяя манеру и тональность, осуществляет творческое воздействие на гармонию и мелодический строй произведения, что приводит к созданию хотя и несамостоятельного, но охраняемого авторским правом произведения.
Эк вас… Значит там «простые данные» и законом не охраняются, а в консультанте — «база данных». И при этом то и другое — сайт на html.
> Пример про аранжировку музыкальный произведений:
Нет уж, давайте про базы данных. Индексация права на безвозмездное использование базы распарсенного сайта даёт или нет?
И о сырых данных, простых текстах из Российской газеты.Эк вас… Значит там «простые данные» и законом не охраняются
Мы говорим о вполне конкретной ситуации.
«Российская газета» — официальный источник законов (которые, напоминаю, вступают в силу после публикации в «Российской газете»). Сами по себе законы и пр. нормативные акты общедоступны и бесплатны (какие-то секретные постановления/указы могут быть, но это опять-таки ограничения на распространение в силу секретности, а не ограничения на распространение на основании авторских прав).
Непосредственно эти нормативные акты как раз можно свободно использовать.
А, скажем, книжка «Уголовный кодекс» вполне законно продается за деньги. Никто вам не обязан её бесплатно давать. Это плата за бумагу, а не за авторство.
А вот книжка «Уголовный кодекс с комментариями» — уже хоть не самостоятельное, но охраняемое произведение.
Да. В этой ситуации боты консультанта цинично выкачивают базу данных Российской газеты с её сайта.
Права на использование каких-то отдельных актов из базы к этому отношения не имеют никакого.
Да. В этой ситуации боты консультанта цинично выкачивают базу данных Российской газеты с её сайта.
Еще раз:
«Российская газета» — не простая газета.
Законы вступают в силу после публикации в «Российской газете».
Это официальный источник с вполне свободным доступом к законам.
Понятие «охрана авторских прав» применим к «Российской газете» только в отношении публикуемых в ней статей. Но не публикуемых в ней нормативных актов.
Поэтому термин «цинично выкачивают» с сайта «Российской газеты» к данной ситуации не применим.
Её сайт как раз для того и существует, чтобы все имели доступ к текстам законов/нормативных актов.
Никто не имеет права публиковать, передавать третьим лицам, участвовать в продаже или уступке, создавать производные продукты или иным образом использовать, частично или полностью, содержание Сайта RG.RU.
Использование (скачивание, загрузка, копирование, сохранение на диск, перепечатка в соцсетях) материалов «РГ» без получения разрешения правообладателя допускается только гражданами для личного использования. Иное использование, за исключением случаев свободного использования, предусмотренных статьями 1273-1279 Гражданского кодекса Российской Федерации, разрешается в порядке и на условиях, определенных ниже.
ФГБУ «Редакция «Российской газеты» также принадлежат исключительные права на подбор, расположение, систематизацию и преобразование данных, содержащихся на Сайте RG.RU
Но не на сами «исходники» законов, да?
Все так же как и в ситуации с Консультантом — тоже «систематизация» их, но исходники нет.
без получения разрешения правообладателя
Думаете, устойчивый бизнес, существующий не один десяток лет — не удосужился еще получить разрешения?
pravo.ru/review/view/37061
Основной способ пополнения СПС новыми документами — это договоры о предоставлении информации с государственными органами. Еще один источник — это различные издания, признанные официальными публикаторами соответствующих актов. Большинство органов власти имеют свои ведомственные издания, в которых публикуются принятые акты. В то же время, получение их текстов из соответствующего органа напрямую позволяет включать в базу тексты, которые не подлежат опубликованию (как правило, это различные информационные письма и прочие ненормативные документы).
То есть оно таки нужно?
Думаю, нет. Там RSS, там и так удобно.
Вы бы не стали получать разрешение скачать прайс в .xls, хотя это явно чужая база данных.
То есть оно таки нужно?
Когда у вас устойчивый бизнес, вы принимаете меры, чтобы он продолжал оставаться устойчивым. Даже те меры, которые избыточны.
А пока вы мелкий и бедный — не делаете некоторые даже необходимые вещи. И полагаетесь в ряде случаев на авось. Ибо свободных ресурсов все равно нет.
Вы бы не стали получать разрешение скачать прайс в .xls, хотя это явно чужая база данных.
А как иначе его посмотреть, не скачивая?
Думаю, нет.
Зачем думать? Явно же видно:
Основной способ пополнения СПС новыми документами — это договоры о предоставлении информации с государственными органами
pravo.ru/review/view/37061
Это внесайтовый/безпарзинговый способ получения информации, не имеющий отношения к теме статьи.
Получить разрешение, потом смотреть.
> Зачем думать? Явно же видно:
На левом сейте непонятными людьми на заборе написано? Ну, источник так себе.
Нет, договора с некоторым госорганами то как раз есть, конечно. Но мониторинг РГ это не отменяет.
На левом сейте непонятными людьми на заборе написано? Ну, источник так себе.
Ну ваши-то домыслы ничуть не более обоснованы.
А в той статье журналист, чувствуется, или имел доступ к реальным материалам или погуглил потщательнее нас с вами — исходя из мелких деталей про историю создания ПО — даты, названия фирм, этапы и пр…
Впрочем, вы можете написать туда и спросить откуда он это узнал.
Так вот, — насчёт утверждения что от парсинга никак не защититься — я не соглашусь. Но вот цена защиты, скорее всего, — неподъёмная.
Желающие могут попробовать зарегистрировать пару тысяч аккаунтов в гугле (задача немного иная, но суть та же, — просто именно там стоит хорошая защита).
Там стоит botguard (его видно сразу в html-коде, его никто не прячет). На каждый запрос он собирает какие-то свойства из браузера, засекает разные таймеры (+ скорее всего таймеры на сервере), собирает события типа нажатий кнопок и движения мышки, скорее всего использует вариации canvas fingerprint (где-то натыкался на исследование, лет 5 назад, сейчас должно было всё стать намного хуже). Вы можете его разобрать (шифрование, обфускация, виртуальная машина, рандом всего — если не пугает, можете заглянуть), но даже это может не помочь.
А дальше, поскольку это гугл — он спокойно анализирует на сервере эти данные. Ваш хром вычисляется на раз, смена юзер-агента не поможет. Более того, вычисляется ваша виртуалка, может не помочь даже смена браузера…
И работает эта защита хорошо только потому, что у гугла огромная аудитория, — ему есть с чем сравнивать данные, чтобы отличать добро от зла.
Люди конечно как-то регистрируют там аккаунты, но насколько мне известно, это либо ручной процесс в малых количествах, либо регистрация со смартфонов.
скорее всего использует вариации canvas fingerprint (где-то натыкался на исследование, лет 5 назад, сейчас должно было всё стать намного хуже)Browser Fingerprint – анонимная идентификация браузеров
На самом деле стало хуже для фингерпринта и лучше для тех, кто по другую сторону баррикад. Посмотрите например последние фишки в последних версиях фаерфокса.
засекает разные таймеры (+ скорее всего таймеры на сервере),Вот только не надо палить неявные методы защиты публично :)
Хуже для фингерпринта — не критично, есть и другие фингерпринты, а гугл анализирует полученные данные комплексно и в сравнении с общей массой, — за счёт этого он действительно блокирует конечное оборудование, а не браузер (и это действительно работает, но там есть разные степени заблокированности, т.к. очевидно есть разные степени точности определения оборудования).
Честно говоря я не знаю как оно устроено полностью и у меня нет задачи разобраться в этом.
Я не говорю про запрет индексации страницы с товарами. Это совершенно другое. Я говорю о том чтобы подгружать цену аяксом или картинкой из директории, которая запрещена в robots.txt. Т.е. товары будут индексироваться, а цены — нет.
В этом смысле юридическая значимость robots.txt эквивалентна тому, что я у себя в ленте в соцсеточке напишу и закреплю пост «Все посты здесь являются объектом авторского права и не могут быть скопированы и процитированы никуда/нигде без моего письменного согласия». Пару раз такое видел, очень смешно.
От того, что сущность Х, ставшая, скажем так, техническим рекомендательным обычаем — в данном случае robots.txt — есть и работает именно в этом качестве, никак не следует то, что она может приводить к legally enforcible последствиям.Почитайте про Implied license ещё раз.
В этом смысле юридическая значимость robots.txt эквивалентна тому, что я у себя в ленте в соцсеточке напишу и закреплю пост «Все посты здесь являются объектом авторского права и не могут быть скопированы и процитированы никуда/нигде без моего письменного согласия». Пару раз такое видел, очень смешно.Смешно это ровно потому что это обычно вывешивают люди не имеющие юристов и не готовые защищать свои права в суде. Ещё и пишут неграмотно: запретить копировать они как раз могут, а цитировать — нет, это отдельно оговорено в законе.
С постами всё куда тривиальнее: есть пользовательское соглашение соцсети, которое вас подобных прав, зачастую, в явном виде либо лишает, либо сильно ограничивает. Так что писать вы там можете хоть то, что публикацией этого сообщения объявляете себя CEO Фэйсбука, но в свете предыдущих соглашений+законодательства это так же бессмысленно, как попытки поместить зарплату под NDA в российском правовом поле.
Вот только robots.txt не работает, как implied license, ибо в руководствах того же Гугла явно написано, что пытаться «спрятать» от чего-либо (ну т.е. написано от Гугла, но про остальные веб-порталы это примерно в той же мере применимо) страницу с его помощью не стоит.Где именно это написано и нельзя ли привести пример? Ибо внизу там уже приводили цитату, в которой всё перепутали.
Прочитать внимательно что написано по приведённой вами же ссылке — пробовали? Гугл ведь даже перевод сделал. И картинкой показал что бывает, если
robots.txt
доступ закрывает.Гугл при этом на ваш сайт заходить не будет — ибо таки нету на это у него Implied License — а вот про адреса страничек — может узнать из других источников. И показать их — тоже может.
В этом файле ограничиваются доступ к определенным маршрутам для роботов и не только потому что там могут быть данные, которые нельзя парсить. Например, там могут быть очень «тяжелые» страницы, массовые запросы к которым нежелательны.
То есть, если вы соблюдаете директивы robots.txt, то вы не сможете получить цену с закрытой в нём странице, вы в этом случае на такую страницу вообще не будете слать запрос.
почему — т.к. там нет ЦЕН, а они нам нужны.
в 99.9% никто не закрывает в роботс цены и товары.
robots.txt — это не столько про парсинг, сколько про дальнейшую публикацию (например, в поисковой выдаче). Если вы хотите, чтобы данные не были кем-либо получены, то вам следует ограничивать круг лиц, которые смогут их увидеть.
Если у вас не занавешены шторы на окнах, то не стоит ходить голым. Может быть специально смотреть в окна и не красиво, но без занавесок какие претензии?
Этичность парсинга — нейтральна. Не этичным может быть способ использования полученной информацией. В целом, чисто с точки зрения этики, каждый человек имеет право получить публичную информацию, которая не носит частный или специальный характер и не охраняется законом. Цены точно являются публичной информацией. Описания — тоже. Описания могут быть объектом авторского права и тогда их нельзя размещать без разрешения. Но никакая этика не нарушается, даже если я буду парсить сайты и делать свой публичный сайт, на котором будет отражаться динамика цен и сравнение конкурентов. Это даже этично, так как предоставляет общественно-полезную информацию.
От добавления слова «рекомендация» в формулировку — смысл не меняется совершенно.
Ну т.е. «файл рекомендации ограничения доступа роботам к содержимому», т.е. речь не про дальнейшую публикацию, а про доступ в принципе.
Вы можете на это всё «забить» — но от этого вы не перестанете быть уголовником. Robots.txt действует точно так же как простейший замок, который ножом открыть можно, собственно: его задача не предотвратить нарушение — сделать так, чтобы нарушитель не мог на своё «незнание» ссылаться.
Тут где-то в комментариях были утверждения, что гугл посещает страницы запрещённые к индексации. И это подтверждает официальная документация гугла.
Соответственно по вашему определению гугл уже уголовник. Ваша формулировка мне импонирует, но похоже она неверна.
И это подтверждает официальная документация гугла.Цитату не приведёте? Там могут быть фразы про случаи, когда
robots.txt
может быть случайно проигнорирован (например если ваш web-сайт на запрос про robots.txt
ответ 500 Error, то Гугл посчитает, что robots.txt
на сайте отсуствует… это техническое ограничение — про него как раз всё понятно).Также могут быть случаи, когда
robots.txt
и не должен соблюдаться, потому что у вас есть другая Implied License. Например Safe Browsing может смотреть на странички, которые люди скачивают — даже если туда GoogleBot смотреть не может.Здесь же речь идёт не о случайном, а намеренном игнорировании
robots.txt
и без всяких забот от Implied License — это таки большая разница.Файл robots.txt не предназначен для блокировки показа веб-страниц в результатах поиска Google. Если на других сайтах есть ссылки на вашу страницу, содержащие ее описание, то она все равно может быть проиндексирована, даже если роботу Googlebot запрещено ее посещать. Чтобы исключить страницу из результатов поиска, следует использовать другой метод, например защиту паролем или директиву noindex.
Так что иногда можно такое увидеть: «о сепульках — secretsite/secretpage.html»… и всё… не сниппета, ни кеша. Вот это отсюда. Нарушений robots.txt тут нет…
robots.txt
распознает. Использовать — не должен. Всё на той же страничке, которую вы всё никак не удосужителсь прочесть до конца написано: Googlebot не будет напрямую индексировать контент, указанный в файле robots.txt, однако сможет найти страницы с ним по ссылкам с других сайтов. Таким образом, URL, а также другие общедоступные сведения, например текст ссылок на страницу, могут появиться в результатах поиска Google.Написано там много чего, но на практике гуглбот заходит на эти страницы.И они потом появляются в результатах поиска с содержимым страницы?
Кстати, вы уж, пожалуйста, определитесь, либо
Нарушение — парсить контент, владельцы которого сделали хотя бы самые минимальные телодвижения к тому, чтобы он был закрыт. Скажем robots.txt создали, где разрешили ходить только Гуглу и Яндексу.
Либо
Запрет на парсинг прописан в законе об авторском праве. И потому файлик robots.txt — это не запрет на парсинг, а разрешение на него.
Хмммм...
Почитал тут в Консультант Плюсе следующее дело "от 24 июля 2018 г. N А40-18827/2017" с требованием "о признании действий ответчиков по извлечению и последующему использованию информационных элементов из базы данных пользователей социальной сети "ВКонтакте" нарушением исключительного права истца как изготовителя базы данных пользователей социальной сети "ВКонтакте", обязании ответчиков прекратить нарушение исключительных прав истца, прекратить извлечение информационных материалов из базы данных пользователей социальной сети "ВКонтакте", прекратить неоднократное использование информационных материалов из базы данных пользователей социальной сети "ВКонтакте", уничтожить со всех информационных носителей информационные элементы, ранее извлеченные из базы данных пользователей социальной сети "ВКонтакте", взыскании компенсации за нарушение исключительного права в размере 1 руб.".
С одной стороны выглядит так, как вы говорите. Парсить нельзя, потому что сайты - это базы данных, и мы извлекаем существенную их часть (это, собственно, позиция ВК). Но конкретно это дело, например, отправили на "доработку" в суд первой инстанции по причине отсутствия исследования механизма работы алгоритма извлечения данных из базы данных ВК ответчиком. Не было точно определено существенным ли было извлечение данных; непонятно, был ли факт "неправильного" использования базы даннных ВК для случая несущественного извлечения данных; непонятно, как именно использовались данные. Читать судебные постановления на этом моменте я потерял способность, которая восстановится непонятно когда, так что буду рад комментариям со ссылками на правоприменительную практику, где судом разрешены эти вопросы.
Вообще дело, кажется, интересное, потому что суд первой инстанции принял сторону ответчика, аппеляционный - ВК, а кассационный - послал всех н****.
Что мне делать с этими прекрасными implied license в случае, когда есть два взаимоисключающих контракта на один объект. Например, я открыл поисковик Parser.search, который парсит всё, кроме того, где файл robots.txt строго несоответствует определению гугла.
У вас есть примеры реальной судебной практики по делам о парсинге сайтов в открытом доступе?
Нет, не желаю. Спорить с википедией — это как спорить с шизофреником.
Фраза «файл ограничения доступа роботам к содержимому на http-сервере» вообще похожа не перевод чего-то сверхмозгом и смысла в себе не несёт, поэтому вам её трактовать (как вам хочется) приходится.
Некоторые люди воспринимают парсинг как DDOS-атаку и относятся к нему с сомнением
Парсинг может действительно положить сайт даже запрашивая 1 запрос в две секунды.
Все дело в том что обычные клиенты (не боты) посещают преимущественно популярные страницы, которые при втором обращении берутся из кэша. Парсер перебирает все страницы подряд, поэтому все запросы непопулярных страниц идут на бэк приложения, который может быть тяжелым.
Во-вторых, парсинг используется для получения контента.
Я рассматриваю эту ситуацию чисто со стороны бизнеса. Описание товаров подробное, с характеристиками — это хорошее конкурентное преимущество сайта. Кто-то получает это затратив десятки тысяч человеко-часов, а кто-то просто покупает путем парсинга чужого контента. Путь это и трижды законно.
Да никак. И стоит ли вообще защищаться от парсинга? Я бы не стал
Я никогда не защищал сайты от парсинга, но от атак 7-го уровня — устанавливал защиту. Как правило, парсеры также отсекаются такой защитой как боты. Если, конечно, это не парсинг при помощи headless chrome — что встречается не так уж часто т.к. это очень затратно по ресурсам. Я не утверждаю, что Вы такую защиту не преодолеете. Но скорее всего ресурсов на это уйдет больше, чем на парсинг незащищенного сайта.
У меня безголовый хром кушает примерно 0% ресурсов в режиме ожидания. Непонятно что вам понадобилось подкручивать.
Я рассматриваю эту ситуацию чисто со стороны бизнеса. Описание товаров подробное, с характеристиками — это хорошее конкурентное преимущество сайта. Кто-то получает это затратив десятки тысяч человеко-часов, а кто-то просто покупает путем парсинга чужого контента. Путь это и трижды законно.Не совсем так. Просто иметь где-то в своей внутренней базе кучу подробных описаний никакого преимущества не дает, они полезны только если их использовать. Но использование — как раз незаконно. Поэтому да, кто-то заплатил много денег и получил себе крутые описания, а кто-то заплатил меньше и смог прочитать их все разом. Но вот выложить их себе на сайт и таки получить равное преимущество второй бизнес уже не сможет (при условии что первый описания защитил, я не уверен что оно по умолчанию работает как тут некоторые утверждают).
Мониторинг цен конкурентов особого напряжения ни у кого не вызывает. Самое обидное для владельца сайта, когда собирают его информацию именно для того, чтобы потом этим контентом наполнить чужой сайт.
Чтобы это пресечь в 95% случаев, обычно достаточно просто поставить свои водяные знаки на фотографии товаров. Причём, не где-то в уголочке изображения (в этом случае можно шлёпнуть поверх другой ватермарк), а в районе центра, чтобы не было возможности вывести без ухудшения качества всей картинки.
В подавляющем большинстве случаев текстовая составляющая (описание, характеристики, мета-теги) резко теряет ценность без прилагающихся к тексту изображений. Поставьте свои ватермарки на изображения продукции — и в плане парсинга к Вашему интернет-магазину будет потерян интерес.
Делая два варианта картинок (для публичного просмотра на страницах сайта и для маркетплейсов) стоит только позаботиться, чтобы по ссылке на публичную картинку с ватермарком нельзя было просто получить ссылку на изображение без ватермарка.
То есть, если файл с публичным изображением в галерее на странице товара называется example-800-800.jpg, а на оригинальную картинку без ватермарков example.jpg, то понятное дело, картинки без нашлёпок будут без проблем сграблены :)
чтобы по ссылке на публичную картинку с ватермарком нельзя было просто получить ссылку на изображение без ватермарка.А я.маркет делает копии к себе на сервер, и иногда их потом использует в своих карточках товара.
Помимо контента, есть справочная информация, которую парсят охотно, так как она стоит реальных денег. Там картинки не всегда критичны
Да, картинки не всегда нужны, но в подавляющем большинстве случае, прежде всего если речь о парсинге интернет-магазинов интересует именно текст вкупе с изображениями.
100% защиты от парсинга не существует, как нельзя свою квартиру уберечь на 100% от домушников экстра-класса. Но, по крайней мере, простыми и дешёвыми средствами существенно минимизировать риск парсинга своего сайта вполне возможно.
100% защиты от парсинга не существует
Да собственно говоря тоже такого же мнения. Я занимаюсь темой противодействия около 3-х лет, поддерживаю такой проект внутри другого большого веб-проекта. За это время я понял, что универсальной методики не существует, так как противодействие парсингу заключается в реализации набора различных решений, от простых, до сложных, которые существенно увеличивают стоимость парсинга как в материальном выражении, так и во временном. Причем большую часть этих кирпичиков придется делать и сопровождать самому, так как всякие TTFB никто не отменяет в угоду защите.
Эм-м-м-м… или это неэтично?
P.S. Вы еще не указали специфический рынок парсинга — БК и лив-трансляции со статистикой. Для энтузиастов.
Простая житейская аналогия — если вы заявитесь в библиотеку, когда библиотекарь вышла и там никого нет и считаете оттуда дюжину-другую книг, то именно вы будете нарушителем — хотя вроде как доступ и был свободным.
А вот если вы приедете с машиной для перевозки тех же самых книг и вышедшая из квартиры жена попросит вас вынести из квартиры содержимое пары книжных шкафов — то вы особо раздумывать не будет и муж вас в «соучастники преступления» записать никак не сможет. Ибо само наличие у жены ключа обозначает, что она имеет право это делать.
То же самое с паролями: если вас просят о том, чтобы спарсить что-то люди, легально владеющие паролем для доступа — то все претензии к ним.
Ваша логика хороша, но не гарантирует отсутствия последствий.
Хотя, у топикстартера сервис немного по-другому организован, они на своём железе всё запускают, там так не прокатит
Ваша логика хороша, но не гарантирует отсутствия последствий.Для отстуствия последствий нужно явно упомянуть в договоре, что передача ключей вам происходит законно и т.д.
От суда это, впрочем, не защитит… потому что подать в суд можно всегда. Даже если закон 100 раз на вашей стороне. Вот выиграть его — может быть непросто…

Никаких технических подробностей, одно бахвальство.
Посмотрю я на вас, как вы будете парсить тот же Фейсбук, или какой-нибудь авто.ру (который целыми подсетями блочит прокси при минимальной активности). Накупить белых проксей за оверпрайс и парсить ими аптеки — это любой дурак справится.
В крайнем случае можно расковырять приложение (если оно есть) сервиса и достать оттуда «закрытый» API. Я так в реальном времени собирал курсы валют практически со всех современных онлайн обменников. Одним http-запросом.
достать оттуда «закрытый» APIВот это уже больше похоже на нарушение закона, чем обычный парсинг доступных всем страниц
Если его смогли достать — значит он уже был открытым.
0. подтверждаю тезис про «всё можно спарсить», просто вопрос борьбы брони и меча. И чтобы
1. Многие (>70%) парсеры берут партнёрские фиды полученные из адмитада(и прочих cpa) или по коммерческому api я.маркета и аналогов и с умным видом выдают за свои.
Проверялось так: завышаем в этих фидах цену на 10-20 товаров на 1-50 рублей и смотрим где всплывёт. Ответ: почти везде
2. В большом % случаев возможно точно определить бота и отдавать конкретно этому боту «немного кривые» цены.
Входные данные: условный конкурент закупается в том же месте, и пытается бороться за трафик маркета ценой, для чего мониторит цену на ресурсе А и автоматически управляет своей ценой.
Вычисляем боты этого конкурента и начинаем им и только им системно занижать. Результат: конкурент торугет в убыток и понимает это не сразу. Один раз меня встретили у промозоны и обещали в случае повторения подобного занижения сломать челюсть так как «это нечестно и нам надо кормить семьи». Даже без обещаний по IP вычислить. Ох уж эти маленькие локальные розничные конторки.
Угрозы на мыло за tarpit/delude в направлении чьей-то инфры парсинга на этом фоне кажутся мелочами.
3. Некоторые вполне отдают свои цены любому заинтересованному лицу. В HTML-коде сайта даже ссылку ставили куда писать чтобы получить фид с актуальными ценами, но таки нет, всё равно парсеры будут парсить, а получать фид официально никто не захочет, проще же по прекрасному упороться.
4. а ещё можно просто перестать конкурировать по цене и я уверен что мы это увидим в ближайшее время (сошлюсь на GFK: миграция массового покупателя от цены к ценности).
5. от ботов есть и польза: они делают искусственный прогрев кешей излишним и греют его для и вместо реальных посетителей. жму им их мужественный сетевой интерфейс за это.
немного аккуратных усилий по «борьбе» с ботами дают 80% результата. не точно так, но близко к истине. Если принято решение бороться, достаточно просто чуть поднять стоимость массового парсинга что в принципе должно полностью устраивать автора этого поста так и владельцев необходимой информации.
Предположим бота зовут Джо. Все помнят почему «неуловимый Джо такой неуловимый»?
Притворится ботом и покупать по заниженным ценам — профит
Всё несколько сложнее.
притворится краулером гугла
В доках гугла и яндекса очень подробно написано что делать и как проверять user-agent их ботов. Быстро, просто, а если еще и кеширование результата проверки сделать…
парсить не сам сайт, а кэш с гугл поиска
… и разгадывать рекапчу ради цен N-месячной давности
Их бы дополнительно проверять по ip-адресу но к сожалению у googlebot нет определенного постоянного диапазона адресов. Зато есть в документации оговорка что запросов они не будут давать больше одного в 10 секунд (или что-то вроде этого).
Так что по количеству запросов модно выявить поддельного бота. Парсить же сайт 1 запрос в 10 секунд просто долго и невыгодно.
надо хотя бы сначала reverse lookup делать
.........
2018-11-09 00:05:06 66.249.70.15 crawl-66-249-70-15.googlebot.com
2018-11-09 00:06:42 66.249.70.17 crawl-66-249-70-17.googlebot.com
2018-11-09 00:37:00 66.249.70.19 crawl-66-249-70-19.googlebot.com
2018-11-09 01:27:16 66.249.69.207 crawl-66-249-69-207.googlebot.com
2018-11-10 01:36:34 66.249.65.77 crawl-66-249-65-77.googlebot.com
2018-11-10 05:20:19 66.249.76.122 crawl-66-249-76-122.googlebot.com
2018-11-10 11:16:12 66.249.79.177 crawl-66-249-79-177.googlebot.com
2018-11-13 16:28:29 66.249.70.13 crawl-66-249-70-13.googlebot.com
2018-11-13 16:30:26 66.249.70.25 crawl-66-249-70-25.googlebot.com
2018-11-15 03:29:54 66.249.66.207 crawl-66-249-66-207.googlebot.com
.........
2019-01-09 09:03:41 66.249.66.217 crawl-66-249-66-217.googlebot.com
2019-01-09 09:16:55 66.249.66.219 crawl-66-249-66-219.googlebot.com
2019-01-09 09:26:30 66.249.66.221 crawl-66-249-66-221.googlebot.com
.........
Их бы дополнительно проверять по ip-адресу но к сожалению у googlebot нет определенного постоянного диапазона адресов.Зато есть доменное имя. Если очень нужно — можно настроить кеширование, чтобы работало надёжно… Но вообще — для суда будет достаточно логов, скорее всего.
Зато есть доменное имя.Да, но есть пара неприятных вещей. Например, анонимный чекинг поисковыми машинами. Это когда делается запрос от бота, который можно пробить по dns и владельцу подсети, и второй запрос, который при lookup-е и dns записям не дает никакой внятной информации «кто это к нам пришел». Ответы сравниваются и поисковой машиной делается вывод по теме «не подсовывают ли нам другой контент в отличии от простого юзера». Частично, это решаемо, плюс, такой чекинг не носит массового характера. Но проблема имеет место быть
А тем кто пишет ботов, притворится краулером гугла и приходить с google app engine, все любят когда их гугл индексирует.Рекомендую только не забывать, что подобные действия — это уголовка… Впрочем пока вроде никого показательно не выпороли (в смысле не посадили), так что какое-то время для развлечений у вас есть…
подобные действия — это уголовка… Впрочем пока вроде никого показательно не выпороли (в смысле не посадили)
Ссылку на закон в уголовном кодексе. Если вы про гражданский кодекс, то там вообще нет уголовных наказаний, только иски и штраф.
Напомнаю что юридичеки базой данных является представленная в объективной форме совокупность самостоятельных материалов (статей, расчетов, нормативных актов, судебных решений и иных подобных материалов), систематизированных таким образом, чтобы эти материалы могли быть найдены и обработаны с помощью электронной вычислительной машины (ЭВМ)
P.S. Вообще беда очень многих людей, пытающихся разобраться в законах — в том, что они не читают определений. И пытаются интерпретировать их интуитивно. А в законе — часто вещи определены не так, как у них в профессиональном сленге. Пример с базой данных вы уже видели. Другой пример — это «воспроизведение музыкальной записи». Очень многие «журнализды», обнаружив, что воспроизведение требует письменной лицензии офигевают и начинают писать статьи про то, что CD теперь нужно слушать только тайно… не удосужившись прочитать определения и выяснить, что «воспроизведение» — это создание копии. А то, о чём они подумали — это «исполнение». Там тоже есть ограничения… но другие.
И обращение «в целях, для которых база данных ему предоставлена» и «в личных целях » и даже в «в объеме, составляющем несущественную часть базы данных»! Всё подходит.
А вот парсинг — «пролетает» мимо всех этих пунктов.
Или в данном случае под парсингом понимается матчинг с остальными прайсами?
Вы не ответили по сути. Извините за настойчивость, но у меня профессиональное любопытство, так как я связан с DNS-ом.
Вам не удобен опубликованный XLS-файл? Вы не знали о такой возможности? Какая-то иная причина?
Отлично, тогда я иду к вам! На сайте была форма первичного логина. И вот там, в качестве логина указывался Email.
Так вот, символы после знака @ принимает только в нижнем регистре. И как быть тем, у кого есть символ в верхнем? Правильно, по Email не зайти.
Я писал в саппорт году кажется в 2016-ом — починили. Однако на следущий год кто-то сделал откат фикса. И потом, на сколько мне известно, этот косяк так и остался. Ув. «сотрудник DNS» — если эта ошибка до сих пор в наличии, стукните кого-то уже а? Спасибо.
Проверил, баг действительно присутствует. Передал разработчикам.
Так вот, символы после знака @ принимает только в нижнем регистре. И как быть тем, у кого есть символ в верхнем?
Курить RFC, в котором написано, что всё, что после знака @ — это имя домена, а оно регистронезависимо, то есть "тех, у кого есть символ в верхнем" просто не существует. (Вернее, строго говоря, можно писать и в верхнем, и в нижнем, и в вЕрБлЮжЬеМ, и это будет один и тот же домен, так что программеры вообще имеют право принудительно переводить домен в lowercase и так и хранить и сравнивать).
так что программеры вообще имеют право принудительно переводить домен в lowercase и так и хранить и сравниватьЕдинственный разумный вариант же, разве нет? Ну не считая совершенно аналогичного «приводить в uppercase». Но раз символы в верхнем регистре у автора комментария не проходили, значит кто-то что-то сделал не так среди программистов.
Нет-нет, я не спорю, что кто-то из программистов явно что-то там нафакапил; я наехал на высказывание
как быть тем, у кого есть символ в верхнем?
Для них решение очень простое: не выделывайтесь и слушайте вашу любимую песню "Валенки" пишите домен строчными буквами — проблема пропадёт.
Можно расковырять Android-версию и достать оттуда необходимые запросы/ответы. В ответах есть все товары с ценами.
Правда, недавно попросили парсить сайт государственной организации – суда, если не ошибаюсь. Там в открытом доступе вся информация, но мы (на всякий случай) отказались. :)
Это довольно похоже на «Мы можем придумать аргументы, почему мы считаем себя правыми, но на самом деле не уверены в этом, поэтому лучше не будем злить того, кто может навалять».
Однако что касается сайтов госорганов — из (почти) личного опыта не рекомендую делать ничего, что может им хоть отдаленно показаться противозаконным. Даже если вы на 100% уверены, что ни один закон не нарушаете.
Чисто теоретически в этой организации может оказаться человек, который, услышав от админа «О, нас бот какой-то парсит… Нафига ему это?» может решить, что это неплохая возможность показать свою инициативность и натянуть
headless браузер в режиме без headless, то есть полностью рисуется, с чистого ip на первый же запрос срабатывает защита.
Встречал ещё сайты, в которых обязательно надо сначала зайти на главную, получить куки, а потом уже заходить на страницы ценами.
Встречал ещё сайты, в которых обязательно надо сначала зайти на главную, получить куки, а потом уже заходить на страницы ценами.
Вот им прикольно с аудиторией из поисковых систем… Хотя наверное у них было какое-то решение для этого.
Нашёл у них онлайн-демо. Там явно не один запрос. Штука в том, что headless браузер отличается от полноценного.
Но подделать запросы на самом деле не сложно, для этого просто берется живой работающий веб проект, делается зеркалирование запросов, и из этого потока берутся хидеры, которые уже транслируются парсеру, который парсит нужный сайт.
Варианты:
1. Запускать хром с головой (для мультипоточности использовать chroot, т.к. с головой он не даёт изолированные сессии). У меня это сработало, подключенный devtools-клиент они не заметили.
2. Анализировать алгоритм, смотреть какие поля проверяют, сравнивать значения полей в безголовом и головном режиме, подменять для безголового режима значения полей. Либо хитрее, — сгенерировать все значения всех атрибутов в двух режимах, сравнить и пофиксить.
3. Искать уязвимость с защите в комплексе. Мне кажется перспективным будет что-то из серии один раз взять рабочую куку и на все инстансы раскопировать (скорее всего не все куки одинаково полезны).
Собственно говоря, — совершенно ничего удивительного и сложного. Максимум неделя одному специалисту, если заниматься таким каждый день — то и дня хватит.
var el = document.createElement('div')
а потом итерировали объект el.style. В разных движках/браузерах там получался разный набор CSS свойств, и в разном порядке.На кворке парсят за тарелку супа )
скажу как заказчик.
цены на мониторинг цен ломят запредельные. Прикрываясь расчетом на каждый наблюдаемый сайт + кол-во товаров+ кол-во обращений в сутки. При этом часто берут нереальную цену за так называемую настройку — разбор источника для паркинга. А на самом деле настройка в 90% случаев 10 минут работы на типовой сайт мониторинга) и фактически никаких трат по количеству обращений в сутки. У вас ведь оплата не за нагрузку оборудования.
В итоге приходишь к тому, что дешевле сделать все через визуальный сервис парсинга, коих куча на западе.
для примера, потянуть анализ дилерских цен с аналитикой и уведомлениями на 50-100 сайтов вендор часто просто себе не может позволить, вылетает в сотку абонентки в мес. Не жирно ли?
Вот например товарная матрица, 50 первых сайтов из выдачи, цель — парсинг и мониторинг цен, по товарной группе в 100 наименований, периодичность снятия данных — 2 раза в сутки. Извещения о резкой смене цен, график и анализ по дням со сменой цен. Провалы, пики.
Вы заставляете собирать его каждый раз эти сайты снова и снова, а потом снимать деньги за добавление новых источников на настройку? Удобно…
Странная логика, то есть обработка парсинга все новых сайтов должна делатся бесплатно? А если там сложная и многоуровневая защита на несколько дней тоже?
Помоему все логично, заказчик договорился про 20 важных ему сайтов, оплатил и получил результат. Бесконечно парсить новые сайты вряд ли интересно бесплатно исполнителю, а платно вряд ли интересно заказчику.
не может удорожить услугу на столько, сколько за нее хотят. Может, я что-то не знаю
Услуга стоит столько сколько за нее платят, какой смысл спрашивать о себестоимости, если вам дешевле делать в другом сервисе — так делайте. Очевидно у компании автора хватает заказов, это равносильно спрашивать о ценообразовании айфонов, к примеру.
Вам Apple не будет отчитываться почему цена айфона именно такая, если есть китайские ноунеймы в десять раз дешевле с похожими характеристиками.
Смысл спрашивать про себестоимость как раз таков — потому что это рынок. Если с тебя за настройку 1 сайта берут от 5к, а там не то, что защиты, там просто xpath визуально подобрать в 2 клика надо — это не рыночные отношения:) просто потому, что клиент не знает, сколько это должно стоить.
Это сейчас все знают, что хостинг стоит столько, админ в месяц на удаленке — столько. А в этой нише просто клиент не понимает, за что он платит. Непрозрачное ценообразование не ведет к успеху, это доказано примерами. А уж «загибать» цены так вообще моветон. Хотя с точки зрения бизнеса хорошо:)
Странная логика, то есть обработка парсинга все новых сайтов должна делатся бесплатно? А если там сложная и многоуровневая защита на несколько дней тоже?
За сложную защиту всегда берут отдельные деньги:) они хитрые:)
По поводу бесплатно — так а почему нет? Я привел пример аналогии, только теперь со стороны клиента. Ведь берут деньги за каждую проверку, 2 раза в сутки проверка — фигак, сразу ценник в 2 раза больше, а между тем это бесплатно, себестоимость проверки 0р. Нагрузка на оборудование у нас, слаба богу, пока не тарифицируется.
Очевидно у компании автора хватает заказов, это равносильно спрашивать о ценообразовании айфонов, к примеру.
ну раз автор не побоялся пропиарить свой сайт и сервис тут, то почему бы и не спросить за ценообразование. Если бы он не пиар выложил, а чтонить полезное, кейс разбора детальный там, другое дело. А за пиар можно и на вопросы о цене ответить, я так считаю.
У вас на ногах ботинки — покажите их себестоимость?
Что бы рассуждать о себестоимости, надо быть не просто покупателем, а специалистом (товароведом). Что-то мне подсказывает, что вы и 1% своих денег не тратите как специалист, на хостинг.
> Непрозрачное ценообразование не ведет к успеху, это доказано примерами. А уж «загибать» цены так вообще моветон. Хотя с точки зрения бизнеса хорошо:)
предлагаете загибать цены прозрачно?
Что бы рассуждать о себестоимости, надо быть не просто покупателем, а специалистом (товароведом)
для этого надо просто быть обьективным человеком, владеющим информацией. Тем более в вещах или услугах, основная составляющая которых это час работы программиста-настройщика, цена которого есть в свободных данных HH и выкладках-срезах аналитических компаний
предлагаете загибать цены прозрачно?
тут все просто — не можешь обьяснить ценообразование — значит, есть чт0-то неудобное, что при раскрытии клиенту не понравится, есть что скрывать условно. Поэтому предлагаю просто рассказать, почему это стоит столько, а вот за это берутся деньги. Хотя бы логически, потому как в некоторых осмеченных вариантах я даже логически не понимаю, за что платить.
Что-то мне подсказывает, что вы и 1% своих денег не тратите как специалист, на хостинг.
я не знаю, что там вам и где подсказывает, но ценообразование хостинга довольно прозрачно и всем известно, если говорить об аренде стойки или физической машины.
Если вы про создание своего дата-центра, то это более сложный процесс и увы, сравнивать его по сложности с цепочкой действий и затрат на услуги парсинга попросту глупо, согласитесь. Тут сравнение ближе к услугам seo или таргетолога, но те прозрачны, а эти нет, потому как рынок(хотя язык не повернется называть это рынком, скорее ниша) дикий, полулегальный зачастую.
Поэтому предлагаю просто рассказать, почему это стоит столько, а вот за это берутся деньги.
Стоит столько — потому что за столько покупают.
Это всё.
Вопрос себестоимости — это о другом.
Это о том, какую минимальную цену можно будет выставить когда-нибудь потом, когда рынок (возросшая конкуренция и пр. факторы) заставит это сделать.
Но бежать впереди паровоза рынка в вопроса снижения цены — резона нет.
Впрочем, если вы считаете что это стоит копейки — просто наймите программиста напрямую.
тут все просто — не можешь обьяснить ценообразование — значит, есть чт0-то неудобное, что при раскрытии клиенту не понравится, есть что скрывать условно.
Это бизнес, это деньги. Зачем открывать вещи, связанные с внутренней кухней бизнеса?
Да еще и публично?
Для удобства конкурентов?
Это нормальный вопрос заказчика, могу переформулировать: «а что вы делайте за эти деньги, когда я вам их плачу?»
Это нормальный вопрос заказчика, могу переформулировать: «а что вы делайте за эти деньги, когда я вам их плачу?»
Нормальный вопрос заказчика звучит так: «что я получу за свои деньги»?
Результат интересует заказчика — и только.
А как именно процесс — интересует других. Например, тех, кто в этом бизнес собирается войти.
Те времена давно прошли, сейчас каждый хочет вникнуть в суть, пытается разобраться в процессах, чтобы не быть тем, на ком воду возят и эффективно потратить свои деньги. И поэтому именно «что вы делайте за эти деньги и как это происходит» — нормальный. А вот ваш вопрос странно задавать логически, приходя к исполнителю. Ведь вы приходите к нему уже с конкретной целью и задачей, вашей задачей, которую надо решить. И если вы спрашивайте его «что я получу», значит, вы не понимаете, чем он занимается и что он предлагает или продает.
вот вам пример более доступный и наглядный, по нтв передача чудо техники, в ней есть рубрика "за что такие деньги". Эфир строится на востребованности и рейтингах зрителей. Очевидно, людям все же ооочень интересно, за что и как платить
вот вам пример более доступный и наглядный, по нтв передача чудо техники, в ней есть рубрика «за что такие деньги». Эфир строится на востребованности и рейтингах зрителей. Очевидно, людям все же ооочень интересно, за что и как платить
Вы свой интерес ставите во главе угла, забывая про интересы других сторон. А жизнь — это компромисс.
Как НТВ на этом зарабатывает — это понятно.
А зачем это рассказывать автору статьи?
«что я получу за свои деньги»?
Результат интересует заказчика — и только.
А как именно процесс — интересует других
Зачем это рассказывать я уже сказал — если уж идет пиар, то почему не ответить на вопросы, тем более вполне обычные. Вы так интересно сформулировали:)
А зачем это рассказывать автору статьи?
Под это можно подвести и — а зачем вообще рассказывать, чего будет делаться и что будет в итоге? Зачем вообще вопросы задавать, поганый заказчик, мешок с деньгами. Просто плати бабло да и все… Звучит для меня именно так.
Вы свой интерес ставите во главе угла, забывая про интересы других сторон. А жизнь — это компромисс.
Да я ж цену не прогибаю, тут нет моего интереса прямого, я всего лишь спросил, как происходит ценообразование, почему при 0р себестоимости каждой следующей проверки с меня берут N каждый следующий раз.
И да, интерес для потребителя всегда во главе угла, вы не знали? Ну тогда в след раз, когда в узком проходе магазина Красное и белое вы разобьете бутылку коньяка за 3К к примеру, то заплатите им. И не ищите в законодательстве норм ширины прохода, который они нарушили.
А когда вас на переходе авто подкинет, встаньте и идите дальше, забудьте про ваш «интерес», ведь у него капот тоже помят, чего его мучить
Смысл спрашивать про себестоимость как раз таков — потому что это рынок. Если с тебя за настройку 1 сайта берут от 5к, а там не то, что защиты, там просто xpath визуально подобрать в 2 клика надо — это не рыночные отношения:) просто потому, что клиент не знает, сколько это должно стоить.
Это должно стоить ровно столько за сколько это купят. Вопросы себестоимости тут значения не имеют (ну разве что дешевле себестоимости вам не продадут, а дороже во сколько угодно раз — запросто).
Если вы считаете, что там работы на 3 копейки, то что вам мешает провести её самостоятельно (ну или нанять кого нибудь дешевого, кто сможет это сделать).
Что сий пример значит? Правильно, что адекватной то причины не было, была просто накрутка в отсутствие альтернатив. Поэтому объяснение про «рынок готов платить» попросту говорит о том, что дерут с три шкуры, пока могут:) Это конечно бизнес. Только чего же удивляться, когда кто-то на стройке века — космодрома или на Зенит арене стыбрил чуток или когда компы для военных в закупке по 250к с сертификацией фсб, хотя там железа на 30к в магазине. Это бизнес, детка:) Так и тут.
Я всего лишь чего спросил — обьясните, почему это столько стоит и за что вы хотите эти деньги. Так спрашивает каждый наш клиент и это нормально. А тем более, если человек пиарится.
Я всего лишь чего спросил — обьясните, почему это столько стоит и за что вы хотите эти деньги.
Вам уже ответили:
Это стоит столько — потому что на это есть покупатель.
Именно на эту цену, именно сейчас.
Цена — это баланс спроса и предложения.
Никакой справедливой или честной цены не бывает.
А любые расчеты, это только себестоимость.
Которая к цене продажи отношения не имеет (ну кроме того факта, что себестоимость всегда ниже цены продажи, а иначе и смысла в бизнесе нет).
Ровно так же и в вашей собственной сфере деятельности происходит.
В моей сфере деятельности действительно раньше было очень непрозрачное ценообразование. Дикий рынок. Но все давно изменилось, теперь такое не проканает. Изменился и рынок и, главное, заказчик-потребитель. Тут просто еще «доят коров», видимо.
Откуда такие цены?
Как и везде: потому что могут и заказчики согласны.
Зачем брать денег меньше, чем можешь в данных условиях сегодняшнего рынка?
У нас цена на 1 ресурс 5 000 р
Это первоначальная настройка парзера или стоимость месячной услуги настроенного парзера?
кто ленивый — идет к топикстартеру и платит по 5к за ресурс
кто хочет сэкономить — выбирает альтернативный сервис или заказывает утилиту под себя у фрилансера, благо дело это не особо сложное и предложений полно
При этом часто берут нереальную цену за так называемую настройку — разбор источника для паркинга. А на самом деле настройка в 90% случаев 10 минут работы на типовой сайт мониторинга) и фактически никаких трат по количеству обращений в сутки.
Нет никаких «справедливых» или «честных» или «реальных» цен.
Есть только цена как баланс спроса и предложения.
А парсить нас всё равно продолжают все кому не лень. Защищаться не стали, только по кол-ву запросов в минуту с одного IP ограничили без фанатизма — ну чтоб не перегружать ресурсы. Защищаться особо нет смысла, кто надо тот всё равно доберётся, да и информация собственно не секретная :)
А парсить нас всё равно продолжают все кому не лень.
Разработчики тех парзеров наловчились, а через API — нужно переучиваться.
К автору статьи, судя по технологиями, сие не относится, но основная масса — это джуны с еще пока скудным набором навыков. Им проще по накатанной дороге. Тем, чем уже умеют.
P.S.:
Впрочем, и автору статьи проще именно что привычными ему технологиями (хотя он и знает и больше, чем простой джун).
habr.com/ru/post/446488/#comment_19985144
То же все тупо парсилось, причем регулярками. На сайте чуток поменяли верстку — все, надо опять заново регулярку править и выкатывать обновления.
Проект показался мне очень интересным, и я выложил пост об этом в соц.сетях.
где найти ссылку?
я не знаю как давать ссылку на пост в ФБ
Кликайте по времени и/или дате публикации поста — это прямая ссылка на него.
пожалуйста.
Кстати, сегодня пришла одна авиа-компания, тоже с подобной задачей — парсить цены на направления.
Спасибо! Ожидал, что там гораздо больше инфы — какие сайты умеете парсить, исходники ;), может, скачанные данные.
Интересно, а зачем это авиакомпании? У нее доступ к сирене и прочим ведь есть. Или хотят контролировать, что их же билеты без комиссии продаются?
Интересно, а зачем это авиакомпании? У нее доступ к сирене и прочим ведь есть.
В Сирене же не цена конечного покупателя.
Продавцов одного и того же рейса много. И розницы цены у них не едины.
На этих плясках с ценами можно подзаработать побольше — скажем, подняв цену. Но насколько допустимо поднять? Или же дав скидку — но сколько дать?
Для этого нужно знать ситуацию по всему рынку.
открыто предоставляют информацию об ежедневных объемах продаж (заказах) или остатках товара, на основе которой не сложно составить общее представлении о продажах (часто слышу мнение, мол эти данные могут искажаться намеренно — возможно, а возможно и нет)
Искажают. Не все, не часто. Но были у меня такие заказы — система должна была публиковать цифры остатков по хитрому нелинейному алгоритму пересчитывая.
Отслеживанием остатков в современном мире с отлаженной логистикой, где все стремятся сократить замороженные в товаре деньги, — когда подвозят товар понемногу, а иногда даже и ежедневно поштучно — вы не сможете вычислить продажи/обороты.
Если продавец заказывает товар очень издалека и товар поступает большими партиями изредка, что сразу в один какой то день влияет на остатки значительно — другое дело.
то самое, что вложено в каждую пачку и является т.н. фактической информацией, т.е. маловероятно попадает под закон о защите авторских прав. В результате вместо набора инструкций вручную, заказчикам останется лишь внести небольшие корректировки в шаблоны инструкций, и всё – контент для сайта готов. Но да, могут быть и авторские описания лекарств, которые заверены у нотариуса и сделаны специально как своего рода ловушки
В этом случае чужой труд по наполнению контентом вы однозначно уворовали. Как минимум с моральной точки зрения это плохо.
Насчет авторского права — у нотариуса заверять не нужно, это облегчает дальнейшее судебное разбирательство, но обязательным требованием не является.
Уж извините — но это не «разрешение», а прямой запрет. И предназначен он не для людей, пытающися спарсить TuTu.Ru, а, наоборот, к самим TuTu.Ru: если кто-то возьмёт брошюрку с расписанием электричек и выложит её на сайте — то TuTu.Ru аж никак не смогут ему это запретить (хотя там будет та же информация, что и на сайте!)… а вот создатели брошюрки — могут.
При заказе на мониторинг цен мы сразу предупреждаем, что будем парсить не только конкурентов, но и заказчика. Это необходимо для получения схожих таблиц с товарами и ценами, которые мы сможем обновлять автоматически
Почему бы не попросить у заказчика выгрузку нужных вам данных, непосредственно сделанную из его базы данных?
Каждый запрос отдавать случайным стилем и форматированием, с различным расположением данных. Идеальный вариант. Ибо нефиг… Нужны данные? Придите и попросите. Купите. Не продают — значит не нужны :)
А пользователи вам не нужны?
Если каждый раз очередная страница или перезагрузка страницы идёт с новым стилем — пользователи скажут «адьёс, амиго» и помашут ручкой.
Еще как идея — аналогично вебвизору анализировать движение мышки или прикосновения тача.
Анализировать движения мышки и прикоснования тача — в первую очередь, да. Так же анализировать нажатия на клавиши, там на самом деле довольно много полезной информации.
несколько лет назад понадобилось спарсить некий корейский сайт. возникла у меня тогда проблема с разбором их кодировки. не осилил. ибо у них была англоязычная "глобальная" версия (хоть и не такая полная, как родная корейская), которой для выполнения задачи хватило.
Вопрос: приходилось ли вам сталкиваться с парсингом сайтов с "нестандартными" кодировками (типа японской, корейской, китайской) и как вы решали такую задачу, если да?
учшая защита от парсинга – это просто выложить готовую таблицу на сайте и написать – берите отсюда, обновляем раз в пару дней.
В принципе, когда обслуживал одну сеть занимающуюся продажей «шин/дисков» для авто, то они не парились и на сайте в шапке было две ссылки «xls/csv» где был полный прайс и остатки на складах :)
Правда про парсинг сайтов, или «все интернет-магазины делают это»