Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
>>> g.go('youporn.com')
…
Мы сделали запрос к гуглу
ob_implicit_flush(true);
ob_end_flush();
set_time_limit(0);
ini_set('memory_limit', '2048M');
>>> import human_curl as requests
>>> r = requests.post('http://h.wrttn.me/post', files=(('file_1', '/tmp/testfile1.txt'),
... ('file2', open('/tmp/testfile2.txt'))), data={'var_name': 'var_value'})
...
>>> r.status_code
201
>>> import human_curl as hurl
>>> # unfortunately hulr.it keep this name :-)
>>> r = hurl.get('http://h.wrttn.me/basic-auth/test_username/test_password', auth=('test_username', 'test_password'))
>>> r.status_code
200
>>> r.content
'{"username": "test_username", "password": "test_password", "authenticated": true}'
Это библиотека для парсинга сайтов. Её основные функции:
1) Подготовка сетевого запроса (cookies, http-заголовки, POST/GET данные)
2) Запрос на сервер (возможно через HTTP/SOCKS прокси)
3) Получение ответа сервера и его первоначальная обработка (парсинг заголовков, парсинг cookies, определение кодировки документа, обработка редиректа (поддерживаются даже редирект в meta refresh тэге))
4) Работа с DOM-деревом ответа (если это HTML-документ)
5) Работа с формами (заполнение, автозаполнение)
6) Отладка: логирование процесса в консоль, сетевых запросов и ответов в файлы
>>> g = Grab()
>>> g.setup(post={'act': 'login', 'redirec_url': '', 'captcha': '', 'login': 'root', 'password': '123'})
>>> g.go('habrahabr.ru/ajax/auth/')
А есть ли что-то похожее, но уже современное?
Grab — python библиотека для парсинга сайтов