Комментарии 23
Для таких вещей очень подходит фреймворк Scrapy
+7
Хорошая статья… для школьника например. Потому что:
1) Сайт вас не каптчил
2) Сайт вас не банил
3) Инфа доступна без регистрации
4) Сайт не написан на реакте (а тем более с рендерингом на клиентской стороне)
(это наверняка не полный список, но конкретно то с чем я сталкивался)
1) Сайт вас не каптчил
2) Сайт вас не банил
3) Инфа доступна без регистрации
4) Сайт не написан на реакте (а тем более с рендерингом на клиентской стороне)
(это наверняка не полный список, но конкретно то с чем я сталкивался)
+4
У меня несколько недель 24/7 парсятся свежие Яндекс.Новости. Никто не банил, регистрации не надо, никакого реакта, каптча обходится таймаутом побольше. Что я делаю не так?
0
В дополнение из личного опыта парсинга:
5) сайт не запрещал скачивать более 1 страницы в 3 секунды
6) сайт не менял дизайн (и верстку соответственно) во время длительного парсинга
7) пагинатор сайта не врал относительно количества страниц (sic!)
8) сайт рандомно не возвращал 50* ошибки
9) сайт не возвращал внезапно вместо ожидаемого JSON страницу html с ошибкой
0
Для парсинга реакта (да и вообще любых не статических страниц) я недавно использовал связку selenium + phantomjs. Проблем не было. Разве что скорость парсинга оставляет желать лучшего…
0
Спарсил и молодец. Нет вводного слова, для чего это вообще затевалось, нет итогового проекта на github, куда могли бы отправить свои правки читатели, нет заключительного слова (о том, как после этого данный проект купил Facebook). Интриги нет и накала страстей, а так, подход типичный для задачи – получаем страницу и ходим по DOM.
+2
Я не гений питона — оно однопоточное? Если сайт и не банит и не блочит и рейты там аццкие, то надо делать многопоточку.
-2
Похоже на сниппет на stackoverflow, увы
+2
НЛО прилетело и опубликовало эту надпись здесь
Большое спасибо, вроде программирую на Питоне чуть не каждый день, а вот тема с async/await прошла мимо меня. Для увлекательных путешествий по DOMу кроме XPath могу посоветовать Beautiful Soup — чисто Питоновская библиотека для парсинга HTML (родные Питоновские библиотеки лично мне больше по душе, но дело вкуса). Также рекомендую, дабы не особо наглеть, добавлять задержку хотя бы 0.1 сек между запросами и все-таки не распараллеливать — на Метакритике сработало, а вот на более серьезных ресурсах обязательно нарветесь на капчу после 10 запросов.
-1
Если кто-то напишет как в 2017 году ботом делать высоконагруженный (1M запросов в месяц) поиск по гуглу или яндексу или бингу за адекватные деньги, то ему 100500 в карму.
0
Адекватные деньги это сколько? Есть AWS с его спот-микро-инстансами, есть пачки прокси. Я не спец именно по ботам для поисковых систем, но мне кажется подход то один.
0
Хотите свою ПС открыть? )
0
Это не высоногруженное ни разу. Мы снимали 100K каждые сутки.
Серебрянной пули нет. Надо не сильно насиловать IPшники, иметь много IPшников, решать гугловые каптчи. Плюс ходить на гугл залогиненным (надо покупать гугловые учетки)
Сейчас гугловые каптчи стали динамическими с картинками, как тут использовать такие сервисы как Anticapcha — хз.
Ну и да, дешево это не получится.
Серебрянной пули нет. Надо не сильно насиловать IPшники, иметь много IPшников, решать гугловые каптчи. Плюс ходить на гугл залогиненным (надо покупать гугловые учетки)
Сейчас гугловые каптчи стали динамическими с картинками, как тут использовать такие сервисы как Anticapcha — хз.
Ну и да, дешево это не получится.
0
скупать значительные лимиты яндекс xml?
0
Зачем это здесь?
0
В базе gamefaqs.com игр куда больше.
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Как я парсил всю базу данных игр Metacritic-а