Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
У вас есть поддержка закачки больших файлов ~ 1-2Gb с сохранением сразу на диск с правильным именем из Content-Disposition? В Scrapy, к сожалению нет, все качает в память перед сохранением.
Нет, поддержки нет. Делать это придется самому — работать через "поток" и направлять его в файл.
А если есть возможность, то лучше добыть ссылку на файл используя тот же Scrapy или Pomp, а далее фоном качать содержимое через curl/wget/etc отдельно с возможностью "дозакачки".
Есть ли обнаружение застрявших соединений и их рестарт? К примеру, было передано 0 байт в течении последних 60 секунд, в Scrapy тоже не реализовано.
И этого то же нет. Так же это делать нужно самому — ввести таймауты и реализовать очередь задач с логикой рестарта если был таймаут.
использовать libcurl для работы с сетью или сразу асинхронную обвязку tornado.httpclient
Pomp — метафреймворк для парсинга сайтов