Комментарии 69
Узнатьбабло
Давно я не видел так отвратительно оформленных сайтов.
мой канал на Вашем сайте заработал 500$, на деле 200$
Раньше это называли парсингом, а ботов — парсерами
p.s.: Мы в свое время писали грабберы для онлайн-веб-игрух, с веб-интерфейсом для поиска по данным, ну и немного ботами. Карта допустим изначально в тумане войны, сканируешь допустим карту, потом позволяешь искать по ней нужные данные, автомазитировать какие-то действия ботом можно быол. Было достаточно популярно, но потом в веб-игры пришла активная монетизация, парсеры ограничили, а аналогичную инфу стали за реал продавать прямо в игре. Сейчас эта тема почти везде заглохла. А жаль, было интересно.
p.p.s.: Tihon_V CloudFlare не особо мешает. Бот поумнее с эмуляцией браузера, несколько хороших ИПшников, работа через tor и т.д… Защита у клоудфайра, если она не параноидальная (при которой уже юзеры еще не страдают то есть), настроена в первую очередь на ддос, а не на ботов.
«Потому что парсинг не может дорого стоить, а веб-скрапинг может» :)
Кажется я понял, как можно поднять цену, чтобы заказчики не брыкались и выкладывали денежки.
Раньше это называли парсингом, а ботов — парсерами
А ещё раньше (в дремучих 90-х) — краулерами и даже пауками! :-)
Только у DNS видел прайс листы.
Кстати, в США суд вообще запретил препятствовать работе ботов, собирающих данные, выложенные в общий доступ: какая разница, тыкается ли человек в браузере сам или это делает от его имени программа?
Кстати, в США суд вообще запретил препятствовать работе ботов, собирающих данные, выложенные в общий доступ: какая разница, тыкается ли человек в браузере сам или это делает от его имени программа?
на это.
Точно вам говорю, а если данные через js ещё подгружать то 90% пойдёт selenium расчехлять. )
Для тех кто умеет в 100 запросов в секунду js endpoint сильно упростит жизнь и вам и им.
Можно поставить CloudFlare или найти аналогичное решение, но пользователь будет "наслаждаться" капчей...
Все что может быть прочитано — будет прочитано. Относительно недавно пришлось писать парсер для тематического ресурса про киберспорт. С администраций ресурса связывались, но увы, они не имеют реализованного API (только очень старый бекенд закрытый вышеупомянутым). Пришлось использовать lxml и много прокси-серверов для своевременной актуализации данных.
P.S.: Мне кажется что в 2020 было бы хорошей практикой владельцам ресурсов оставлять контакты в футере, или специальной странице, а людям что парсят данные — читать их.
Сервисы по решению капчи в помощь.
если хотите обойтись текстом без прогрузки js или изображений — будет сложнее.
Я обхожусь прокси с авторотацией. Иногда приходится использовать ещё и puppeteer. Пока проблем с капчей от CloudFlare не возникло, но на некоторых сайтах — важно пробрасывать куки в запрос.
Выгодно перепродавать товары, купленные со скидкой в Hudson's Bay… Долго смеялся.
В Hudson's Bay без скидок затариваются только дурики, которым совсем денег некуда девать. Скидками они привлекают нормальных людей, так как только после скидки цена товаров становится приемлемой
Мне интересно, а как потом эти рубашки перепродают? На каких-нибудь типа авито?
Здесь есть интернет-площадки, где можно продать ненужные тебе вещи (и попробовать навариться). Я сталкивался с такими: из бесплатных это Craigslist (уже скорее мёртв, чем жив), Kijiji, Facebook Marketplace, из платных это eBay и Amazon (правда Amazon всё более пренебрежительно относится к «одноразовым» продавцам).
Есть ещё «flea market» — блошиные рынки. Но это место скорее для малого бизнеса — там торгуют только лоточники, так как место стоит денег. Весной обычно устраивают домашние распродажи — garage sale, но это скорее, чтобы купить что-то задёшево, чем продать задорого. Есть ещё сезонные фермерские базары (farmers market). Но это тоже, в основном, оптовики от сельского хозяйства. Хотя есть и фермеры, можно купить сельскохозяйственную продукцию напрямую от производителя. Ценник, правда, дороже и, бывает, в разы, чем в магазине. А качество может быть тем же.
Возвращаясь к перепродажам, я иногда пытался просчитать, сколько я могу наварить на той или иной скидке. Но всё упирается в то, что кому надо, это скидку тоже найдут. Остальным оно и со скидкой не надо. Плюс 13% налог, добавляемый магазином к цене. За $10-$15 долларов навара, пытаясь толкнуть в розницу, возиться совсем неохота.
Единственный вариант получить чуток денег почти нахаляву — это брать вещи, которые выставляют другие люди на обочину дороги или, если это многоквартирный дом, где-то в специально отведённом месте, может быть чуть-чуть их починить и почистить — и продать (или оставить себе :). Народу ненужно масса полезных и, частенько, достаточно дорогостоящих вещей, и лениво их продавать. Планшеты, телефоны, лаптопы, десктопы.
Некоторые вещи, например, детские игрушки и одежду, электронную мелочёвку, я забираю, чтобы отвезти и подарить на Кубе. Для них это, по-прежнему, очень существенно.
Напоследок, о Штатах. Там в магазинах на крупных распродажах бывают цены 0 долларов (правда, обычно, не через Интернет). Нужно только заплатить налог на продажу 8-10%, считающийся с цены до скидки. Или когда Amazon вдруг продаёт товары в 10 раз дешевле их нормальной цены. Вот такие моменты можно отлавливать и использовать…
Извлечь, сграбить, рипнуть, спарсить, скрапить — каждое поколение придумывало тому же действию свое название. Иногда вообще не зная истинного смысла выбранного слова.
Например, веб-скрапинг это вырезка понравившегося фрагмента html-страницы в собственную копилочку. Так сказать, с целью пополнить «гербарий» юного верстальщика очередным соскобленным div-ом. А то о чем пишет автор поста, это классический парсинг html, то есть разбор страницы сайта на разметочную шелуху и чистые данные.
Xpath подходит для большинства задач. И, если данные не лежат непосредственно в исходной страничке, а подгружаются скриптами, то делать такие же запросы и парсить json
BeautifulSoup умеет бегать по дереву как раз CSS-селекторами, а обёртка умеет удобно отдавать разобранное дерево сразу после загрузки без дополнительных телодвижений.
Когда цена на товар упадёт до определённого уровня,
программа автоматически покупает товар
После покупки товара покупателем магазин должен будет отправить товар покупателю по указанному им адресу.
Затем… перепродаёт его по более высокой цене
Где продаёт? Купленный товар едет к покупателю домой или приехал к нему уж.
Теперь с такими данными работать гораздо легче, чем на сайте. Можно, например, сравнить разные жилища и их особенности. Кроме того, эти данные удобно фильтровать. В моей семье 4 человека. Если мы соберёмся в Рим, то нам понадобится Airbnb-жильё с как минимум 2 кроватями, отличающееся адекватной ценой. Благодаря тому, что все данные собраны в удобном формате, в Excel, с ними можно весьма продуктивно работать. Как оказалось, моим нуждам удовлетворяют 7 результатов из 272.
Так себе пример, учитывая, что на Airbnb существуют удобные фильтры, в том числе и по количеству кроватей. Более того, можно смотреть фотографии
А еще можно смотреть жилье в определенной части города, используя зум карты, чего уже нельзя сделать в excel. Особенно, когда важно, где именно проживать (центр или черта города).
Пример скрапинга понятен, но пример с Airbnb, увы, неудачный.
Как заработать на веб-скрапинге