• Использование morph.io для веб-парсинга

    • Translation
    • Tutorial
    Если вы читали предыдущие две статьи, Веб-парсинг на Ruby и Продвинутый парсинг веб-сайтов с Mechanize, то у вас есть базовые знания как написать парсер, который получает структурированные данные с веб-сайта.

    Следующим логичным шагом будет запускать парсер регулярно, чтобы всегда иметь свежие данные. Этим как раз и занимается morph.io от талантливых людей из OpenAustralia.

    Morph.io позиционирует себя как «Heroku для парсеров». Вы можете выбрать либо запускать парсеры вручную, или им работать автоматически каждый день. При этом вы можете использовать API для извлечения данных в JSON/CSV и использования их в своем приложении или скачать sqlite базу с данными.
    Morph.io заполняет пробел, оставленный Scraperwiki Classic. Парсеры в morph.io хостятся на GitHub, что означает что вы можете их «форкнуть» и исправить в дальнейшем, если они перестанут работать.

    image
    Читать дальше →
    • +13
    • 15.3k
    • 7
  • Продвинутый парсинг веб-сайтов с Mechanize

    • Translation
    • Tutorial
    В продолжение темы парсинга сайтов на Ruby, я решил перевести следующую статью этого же автора.

    В предыдущей записи я описал основы — введение в веб парсинг на Ruby. В конце поста, я упомянул инструмент Mechanize, который используется для продвинутого парсинга.

    Данная статья объясняет как делать продвинутый парсинг веб-сайтов с использованием Mechanize, который, в свою очередь, позволяет делать отличную обработку HTML, работая над Nokogiri.
    Читать дальше →
    • +3
    • 28.1k
    • 3
  • Веб-парсинг на Ruby

    image
    Это перевод статьи «Web Scraping with Ruby», которую я нашел полезной при изучении языка программирования Ruby. Парсинг меня интересует в личных целях. Мне кажется, это не только полезный навык, но и хороший способ изучить язык.
    Читать дальше →