kuznetsovin21 апр 2014 в 05:39

Основы парсинга с помощью Python+lxml

6 мин

200K

Python *

+33

Комментарии 9

svfat 21 апр 2014 в 10:17

Спасибо за статью. Просто любопытно, какие вы сделали выводы из анализа данных, со спортивной точки зрения? Ну, как чаще побеждают? Коленки ломают или удушающим? :)

kuznetsovin 21 апр 2014 в 10:48

Я как раз сейчас пишу статью на эту тему. Пока могу сказать, что из сабмишенов чаще всего делают удушение сзади, рычаг руки, гильотну и треугольник. Среди нокаутов большее число от ударов руками. Если будет интересно могу прислать ссылку на статью. Т.к. на хабре, наверное нет смысла ее выкладывать, т.к. она не имеет отношения к IT.

karech 21 апр 2014 в 13:41

Для питона есть отличная либа — BeautifulSoup. Простой пример — есть магазин, в нем товары находятся в div'ах с классом «product». Внутри div'a таблица с img и td с классами «name» и «id» для названия товара и его ID. Чтобы пройтись по всем div'ам достаточно лишь:

soup = BeautifulSoup(page) # page - скачиваем страницу и отдаем ее
for item in soup.findAll("div", {"class": "product"}):
    img = item.find("img")["src"]
    name = soup.find("tr", {"class": "name"}) 
    id = soup.find("tr", {"class": "id"})

kuznetsovin 21 апр 2014 в 14:01

Тоже самое можно сделать и на lxml. Если страница хорошо сверстана и у элементов есть атрибуты типа, class, id и т.д. BeautifulSoup насколько я знаю используется в pandas для функции read_html(), которая тоже может парсить страницы.

seriyPS 21 апр 2014 в 16:58

tree = etree.HTML(html)
for block in tree.xpath("//div[@class='product']"):
    img = block.xpath("//img/@src")[0]
    name = block.xpath("//tr[@class='name']")[0].text
    id = block.xpath("//tr[@class='id']")[0].text

Sergery8205 15 мар 2018 в 09:16

Спасибо за пример. Очень помогло!

danSamara 21 апр 2014 в 16:50

Для парсинга сайтов лучше использовать специализированные библиотеки, например Grab. В ней, кроме собственно парсинга (xpath- и css-методы), есть много плюшек, заточенных под быстрый обход сайта и упрощение построение запросов: многопоточность, куки, асинхронность и т.д.

Nerock 26 мая 2016 в 05:37

Поработаю некропостером, и скажу, что я пришел на эту статью, чтобы разобраться с lxml, как и советует докуменатция Grab'а. Круг замкнулся.

danSamara 27 мая 2016 в 06:01

Спустя два года дам новый совет — попробуйте PySpider — очень мощный инструмент. Для работы с HTML там можно использовать несколько инструментов — по вкусу, по удобству.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий