andrew_tch Apr 26 2010 at 17:19

Два года с кравлерами (web-mining)

4 min

3.9K

Lumber room

+30

Comments 31

Mel Apr 26 2010 at 17:58

Конечно интересно.

Было бы интересно вообще почитать о написании кравлеров простой или средней сложности на python (что-нибудь более сложное чем выкачивать и парсить определенную страницу раз в n часов)

andrew_tch Apr 26 2010 at 18:12

Тогда скорее всего придется делить на две статьи — анонимизация в Python + (Tor | Proxy) и кравлинг в Python.

Mel Apr 26 2010 at 18:36

Можно начать с кравлинга и продолжить с анонимизацией учебного кравлера, хотя вам вообще видней с чего начинать :)

andrew_tch Apr 26 2010 at 19:39

«Учебный кравлер» вряд ли будет, все же это своебразное know-how, но если будет цикл статей, то по кускам собрать получится.

esc Apr 28 2010 at 09:04

Капча ломается через антикапча.ру и аналоги. 1-20$ за 1000, вводят капчу «негры», работает довольно быстро.

andrew_tch Apr 28 2010 at 09:07

Тольо 80% ломается нейронками.

esc Apr 28 2010 at 09:28

Нейронками, которые на основе белков созданы (мозг), ломаются практически все. Если, конечно, разработчики в принципе хотят кого-то через капчу пропустить. Как я уже говорил, на сервисах, типа антикапчи, ломаются практически все и в больших объемах.

andrew_tch Apr 28 2010 at 09:31

Каждому свое.

esc Apr 28 2010 at 09:36

Ну тут недалеко, не поверили в то, что сломать можно любую капчу, я подсказал очень простой и дешевый (по сравнению с стоимостью разработки) способ, как это сделать. Конечно, ничего не мешает пытаться писать finereader, это полезно для мозгов, но с точки зрения заказчика, как правило, это очень нерентабельно.

trevel Apr 26 2010 at 18:01

Вообще интересно, особенно Python+Tor

binom248 Apr 26 2010 at 18:52

Неужели у вас все капчи взламываются «на раз»? Ой, сомневаюсь…

А если каждый юзер — «ручная работа», то проблематично делать по несколько тысяч юзеров, чтобы сделать нормальное, человекоподобное поведение!

Да и потом — на нормальных сайтах скрытые ловушки на javascript. Как их обходите?

andrew_tch Apr 26 2010 at 19:02

Хабровская и «посчитай кисок» — нет. А так-можно получить неплохой результат на матричном/нейронном анализе. Обычно в кравлинге спешить некуда.

Дык, для регистрации индусы есть, дешево довольно.

В основном — разбирая тот же javascript, в совсем страшных и дорогих случаях — headless firefox.

Imenem Apr 26 2010 at 20:21

Первый выход — использовать proxy. Минус — вам нужно поддерживать свою инфраструктуру, обновлять список proxy, передавать заказчику, и делать так чтобы это не завалилось в один момент.

А разве чекеров прокси уже не существует? Если заказчик заинтересован, то стоит только сойтись с ним в цене, и проблема с прокси отпадает.

andrew_tch Apr 26 2010 at 20:31

Чекеры обычно рубят доступ как только понимают что вы не порнушку лазаете через их листы смотреть, а индустриально выкачиваете инфу.

Поэтому, обычно приходится писать свою приблуду без ограничений которая понемногу выкусывает рабочие проксики из всяких публичных источников.

Imenem Apr 26 2010 at 20:38

А с какого кол-ва трафика / запросов начинается такой эффект, как отключение? Если пробегать по всему списку найденных прокси-серверов, а не тащить через один, пока не отключат? Таким образом кол-во обращений и трафика на еденицу времени будет падать. Или еще фильтры по контенту / url существуют?

andrew_tch Apr 26 2010 at 20:40

Ну допустим у меня один акк на проксихантер какой-нибудь. На нем сидят 3-4 клиента. В среднем прокси отваливаются с такой интенсивностью что раз в час запрашивается новый список и… приехали короче.

Проще один раз написать свой движок и спокойно его пользовать.

printf Apr 26 2010 at 21:00

Очень интересно.

Q2W Apr 26 2010 at 21:44

> обхода защиты по User-Agent, анализу выдачи серверов
Вот это интересно. При чём больше анализ выдачи.
Не та часть, что про преобразование данных из того, что есть, в что, что нужно заказчику, а та, где мы понимаем, например, не водит ли нас за нос сайт. Например, если он нас спалил и выдаёт фейковую инфу.

AotD Apr 27 2010 at 04:21

А мы его так раз и сдали Яндексу и Гугле за клоакинг :)

andrew_tch Apr 27 2010 at 08:44

Вы, кстати, неправильно поняли. Я как раз и говорю и возможностях борьбы с клоакингом.

andrew_tch Apr 27 2010 at 08:40

Ну, код я выдавать не буду, не надейтесь )
А вот вкратце описать технологию анализа немного меняюшихся данных — это без проблем. Байес там, все такое…

Q2W Apr 27 2010 at 09:33

Спасибо, очень интересно, жду.

Daedmen Apr 27 2010 at 09:55

Расскажи плз о проблемах с кодировками?

andrew_tch Apr 27 2010 at 17:18

Кривыми символам давятся: libxml, simplexml, dom, bSoap
Иногда встречаются монстры в кодировке utf-8 с кодами &1231; (типо со старой версии осталось).
Магазин в iso-чегототоам, товары попадают от поставщиков в utf-8 и расколупывай потом где там умляуты потерялись.
Про привычку iconv кричать «ойстрахбожий» и отвыливаться я цивильно промолчу.
Продолжать?

Daedmen Apr 27 2010 at 18:12

Как кодировки определяешь если в заголовках пусто/фигня всякая?

andrew_tch Apr 27 2010 at 18:17

Я обычно игнорю заголовки. Данные принудительно переводятся в utf-8, в них впиливается корректный заголовок и так уже скармливается парсеру DOM. Определение текущей кодировки — местами know/how, местами частотный / морфологический анализ.

NickMitin Apr 28 2010 at 09:55

Для питона есть отличная библиотека, которая на 100% угадывает кодировку — chardet.

mt_ Apr 28 2010 at 06:02

А мне бы было очень интересно прочитать про методики парсинга страницы. Наверняка должен быть какой-то универсальный подход, чтобы каждый раз для нового заказчика не изобретать велосипед.
Т.е. вот получили HTML-код. Есть, скорее всего, несколько (десятки?) основных типов страниц. Как наиболее правильно выцепить оттуда нужную информацию, как максимально упростить и автоматизировать процесс создания такого парсера.

andrew_tch Apr 28 2010 at 08:47

Что значит «основные типы страниц». Существуют готовые процедуры — вытаскивания картинок из style="", обработки стандартных галерей, обработки цены + валюты. Написаны специфичные парсеры, т.е. для магазинов, для социалок итп. Вытаскивается все XPath.

NickMitin Apr 28 2010 at 09:53

> PHP систем есть два больших минуса — жрут и отваливаются.

Не надо выдавать за недостаток PHP неумение программировать. Я на нём достаточно краулеров и демонов написал. Самый сложный занимал 13 мегабайт ОЗУ.

andrew_tch Apr 28 2010 at 11:13

Бога ради. На нем и генетический можно писать.