@estin3 мар 2016 в 09:22

Pomp — метафреймворк для парсинга сайтов

3 мин

16K

Python * Программирование *

Из песочницы

+13

Комментарии 15

@swpo 3 мар 2016 в 11:27

Очень интересная вещь, надо опробовать ее в бою и сообщить Вам, насколько все это удобно.

@estin 3 мар 2016 в 12:23

Мне как автору будет интересна конструктивная критика или даже предложения по улучшению.
Фреймворк всего-то несколько раз обкатывался на парочке не коммерческих хобби проектах, удовольствия ради.

@nordaux 25 авг 2016 в 18:32

Интересная альтернатива Scrapy, спасибо.
Пару вопросов:
1. У вас есть поддержка закачки больших файлов ~ 1-2Gb с сохранением сразу на диск с правильным именем из Content-Disposition? В Scrapy, к сожалению нет, все качает в память перед сохранением.
2. Есть ли обнаружение застрявших соединений и их рестарт? К примеру, было передано 0 байт в течении последних 60 секунд, в Scrapy тоже не реализовано.

@estin 2 сен 2016 в 07:59

У вас есть поддержка закачки больших файлов ~ 1-2Gb с сохранением сразу на диск с правильным именем из Content-Disposition? В Scrapy, к сожалению нет, все качает в память перед сохранением.

Нет, поддержки нет. Делать это придется самому — работать через "поток" и направлять его в файл.

А если есть возможность, то лучше добыть ссылку на файл используя тот же Scrapy или Pomp, а далее фоном качать содержимое через curl/wget/etc отдельно с возможностью "дозакачки".

Есть ли обнаружение застрявших соединений и их рестарт? К примеру, было передано 0 байт в течении последних 60 секунд, в Scrapy тоже не реализовано.

И этого то же нет. Так же это делать нужно самому — ввести таймауты и реализовать очередь задач с логикой рестарта если был таймаут.

@icoz 17 апр 2016 в 18:21

А какие-то тесты производительности делали?

@estin 18 апр 2016 в 20:05

Нет. Не с чем сравнить, так как работа с сетью может быть любая и разбор контента может быть любой, а как раз эти два компонента и отъедают больший кусок. Как вариант реализовать на Pomp подобие какого нибудь мейнстримного фреймворка и сравнить с ним, но идея сомнительная.

@otetz 27 апр 2016 в 21:37

Достойный фреймворк, проникся трудом.
Есть вопрос — как прикрутить socks-proxy?

@estin 28 апр 2016 в 13:34

использовать libcurl для работы с сетью или сразу асинхронную обвязку tornado.httpclient
использовать обертку типа delegate и переводить любую socks в http и работать уже только с http проксей

@otetz 30 апр 2016 в 09:50

О, гран мерси за наводку на tornado с libcurl!
До этого из более-менее нормальных решений встречал (и использовал) https://github.com/polymorphm/lib-socks-proxy. Но curl_httpclient в tornado выглядит гораздо более стройным вариантом.

@otetz 11 мая 2016 в 14:35

Пока я собирался, родился замечательный пакет: aiosocks — https://pypi.python.org/pypi/aiosocks | https://github.com/nibrag/aiosocks
К aiohttp прикручивается на ура.

@estin 11 мая 2016 в 14:49

Это просто прекрасно! Спасибо за новость!
У вас случаем нативной реализации http/2 для asyncio не завалялось?

@otetz 11 мая 2016 в 19:04

Не, пока не попадалось.
Быстрое гугление дает только aioh2 — https://aioh2.readthedocs.io/en/latest/readme.html Но думаю оно уже явно известно…

@warner 8 мая 2016 в 13:45

Классная штука, мне очень понравилось.
От начинающего программиста отдельное спасибо за рабочие примеры использования в разных вариантах. Очень помогло въехать что к чему и как пользоваться.

@estin 10 мая 2016 в 13:29

Спасибо. Работоспособность примеров и не только под контролем drone ci.

@nsuvorov 7 янв 2017 в 12:04

Спасибо огромное за статью! Очень интересная методология кластеризации сервисов.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий