JaktensTid 19 янв 2017 в 18:47

Как я парсил всю базу данных игр Metacritic-а

6 мин

20K

Python*

Из песочницы

Комментарии 23

sallyruthstruik 19 янв 2017 в 18:57

Для таких вещей очень подходит фреймворк Scrapy

roller 19 янв 2017 в 19:45

Хорошая статья… для школьника например. Потому что:
1) Сайт вас не каптчил
2) Сайт вас не банил
3) Инфа доступна без регистрации
4) Сайт не написан на реакте (а тем более с рендерингом на клиентской стороне)
(это наверняка не полный список, но конкретно то с чем я сталкивался)

sergio42 20 янв 2017 в 09:27

У меня несколько недель 24/7 парсятся свежие Яндекс.Новости. Никто не банил, регистрации не надо, никакого реакта, каптча обходится таймаутом побольше. Что я делаю не так?

jetexe 20 янв 2017 в 12:15

Ну вы и статью по этому поводу не пишите

roller 20 янв 2017 в 17:20

С яндексом все проще (было?)(по сравнению с гуглом), ему главное правильную куку подсунуть.
А вы попробуйте снимать 50-100К в сутки с обычного поиска и вордстата — вот тогда и хвастайтесь ;)

Rastishka 20 янв 2017 в 13:44

В дополнение из личного опыта парсинга:
5) сайт не запрещал скачивать более 1 страницы в 3 секунды
6) сайт не менял дизайн (и верстку соответственно) во время длительного парсинга
7) пагинатор сайта не врал относительно количества страниц (sic!)
8) сайт рандомно не возвращал 50* ошибки
9) сайт не возвращал внезапно вместо ожидаемого JSON страницу html с ошибкой

maxru 20 янв 2017 в 15:47

10) Не требовал шевеления мышкой :)

mmm201 21 янв 2017 в 15:37

Для парсинга реакта (да и вообще любых не статических страниц) я недавно использовал связку selenium + phantomjs. Проблем не было. Разве что скорость парсинга оставляет желать лучшего…

roller 21 янв 2017 в 18:42

Phantomjs немного 1) тормозной 2) палевный. Так что использую Chrome/Firefox с xvfb через Watir::Webdriver
Человек который научиться разбирать налету исходники реакта до этапа рендеринга для любых сайтов (и выдирать оттуда полезную инфу) — озолотиться

leoismyname 19 янв 2017 в 19:53

Спарсил и молодец. Нет вводного слова, для чего это вообще затевалось, нет итогового проекта на github, куда могли бы отправить свои правки читатели, нет заключительного слова (о том, как после этого данный проект купил Facebook). Интриги нет и накала страстей, а так, подход типичный для задачи – получаем страницу и ходим по DOM.

nikitasius 19 янв 2017 в 22:16

Я не гений питона — оно однопоточное? Если сайт и не банит и не блочит и рейты там аццкие, то надо делать многопоточку.

-2

JaktensTid 21 янв 2017 в 15:31

Однопоточное, но написано через корутины. Т.е ожидание ответа от сервера не блокирует поток

torrie 19 янв 2017 в 23:56

Похоже на сниппет на stackoverflow, увы

НЛО прилетело и опубликовало эту надпись здесь

sergio42 20 янв 2017 в 09:58

Большое спасибо, вроде программирую на Питоне чуть не каждый день, а вот тема с async/await прошла мимо меня. Для увлекательных путешествий по DOMу кроме XPath могу посоветовать Beautiful Soup — чисто Питоновская библиотека для парсинга HTML (родные Питоновские библиотеки лично мне больше по душе, но дело вкуса). Также рекомендую, дабы не особо наглеть, добавлять задержку хотя бы 0.1 сек между запросами и все-таки не распараллеливать — на Метакритике сработало, а вот на более серьезных ресурсах обязательно нарветесь на капчу после 10 запросов.

-1

Dr_Zoidberg 20 янв 2017 в 13:34

Если кто-то напишет как в 2017 году ботом делать высоконагруженный (1M запросов в месяц) поиск по гуглу или яндексу или бингу за адекватные деньги, то ему 100500 в карму.

RomanL 20 янв 2017 в 13:46

Адекватные деньги это сколько? Есть AWS с его спот-микро-инстансами, есть пачки прокси. Я не спец именно по ботам для поисковых систем, но мне кажется подход то один.

maxru 20 янв 2017 в 15:48

Хотите свою ПС открыть? )

roller 20 янв 2017 в 17:15

Это не высоногруженное ни разу. Мы снимали 100K каждые сутки.
Серебрянной пули нет. Надо не сильно насиловать IPшники, иметь много IPшников, решать гугловые каптчи. Плюс ходить на гугл залогиненным (надо покупать гугловые учетки)
Сейчас гугловые каптчи стали динамическими с картинками, как тут использовать такие сервисы как Anticapcha — хз.
Ну и да, дешево это не получится.