Как стать автором
Обновить

Использование Grab:Spider для парсинга сайтов

Время на прочтение 4 мин
Количество просмотров 19K
Python *
Всем привет!

Я активный пользователь open-source фрэймворка Grab (itforge уже писал о нем здесь и здесь) и 1/2 проекта GrabLab (который занимается собственно коммерческой эксплуатацией фрэймворка). Т.к. парсим сайты мы часто, помногу и задания как правило совершенно не похожи друг на друга, хотелось бы поделится своим опытом в вопросе построения типичного парсинг проекта.

Немного про инструментарий который помогает мне в работе

В качестве рабочего браузера я использую FireFox с плагинами HttpFox (анализировать входящий/исходящий http трафик), XPather (позволяет проверять xpath выражения), SQLite Manager (просмотр sqlite таблиц), код набираю в emacs, где активно использую сниппеты (YASnippets) для часто встречающихся конструкций.

Из-за специфики фрэймворка, как правило, на первом этапе сайт полностью (или если данных много — то частично, для удобства последующей разработки) сохраняется в локальный кэш на базе mongodb, что очень экономит время, т.к. считывание страниц идет из кэша.

Читать дальше →
Всего голосов 37: ↑34 и ↓3 +31
Комментарии 17

Что такое Grab:Spider?

Время на прочтение 4 мин
Количество просмотров 15K
Python *
Никак не могу дописать документацию по Grab:Spider — это часть библиотеки Grab — для написания асинхронных пауков. Подумал выкладывать куски документации на хабрахабр. Думаю, с некоторым фидбэком дело быстрей пойдёт. На данный момент в документации есть лишь введение, описывающие в общих чертах, что за это за зверь такой Grab:Spider. Его и выкладываю.
Читать дальше →
Всего голосов 37: ↑32 и ↓5 +27
Комментарии 43

Grab — новый интерфейс для работы с DOM-деревом HTML-документа

Время на прочтение 5 мин
Количество просмотров 36K
Python *Data Mining *

Исторический экскурс


Ранее я уже писал на хабре о Grab — фреймворке для написания парсеров сайтов: раз, два, три, четыре. В двух словах, Grab это удобная оболочка поверх двух библиотек: pycurl для работы с сетью и lxml для разбора HTML-документов.
Читать дальше →
Всего голосов 24: ↑21 и ↓3 +18
Комментарии 26

Простой парсинг сайтов с помощью SlimerJS

Время на прочтение 2 мин
Количество просмотров 68K
JavaScript *
Из песочницы
В виду отсутствия хорошего материала по парсингу с помощью скриптового браузера SlimerJS и наличия свободного времени решил написать небольшую статью.


Читать дальше →
Всего голосов 47: ↑41 и ↓6 +35
Комментарии 15

Веб-парсинг на Ruby

Время на прочтение 6 мин
Количество просмотров 64K
Ruby *Программирование *
Туториал
Из песочницы
image
Это перевод статьи «Web Scraping with Ruby», которую я нашел полезной при изучении языка программирования Ruby. Парсинг меня интересует в личных целях. Мне кажется, это не только полезный навык, но и хороший способ изучить язык.
Читать дальше →
Всего голосов 13: ↑11 и ↓2 +9
Комментарии 33

Продвинутый парсинг веб-сайтов с Mechanize

Время на прочтение 5 мин
Количество просмотров 30K
Ruby *Программирование *
Туториал
Перевод
В продолжение темы парсинга сайтов на Ruby, я решил перевести следующую статью этого же автора.

В предыдущей записи я описал основы — введение в веб парсинг на Ruby. В конце поста, я упомянул инструмент Mechanize, который используется для продвинутого парсинга.

Данная статья объясняет как делать продвинутый парсинг веб-сайтов с использованием Mechanize, который, в свою очередь, позволяет делать отличную обработку HTML, работая над Nokogiri.
Читать дальше →
Всего голосов 7: ↑5 и ↓2 +3
Комментарии 3

Не так страшен черт, или сколько же реально используемых доменов

Время на прочтение 4 мин
Количество просмотров 5.7K
Администрирование доменных имен *
Из песочницы
Понадобилось мне собрать определенного рода статистику по вебу. Но поисковики даже приблизительно не захотели выдавать стату, какими только запросами я их ни кормил. В итоге, по исконно русской традиции, принялся писать свой «поисковик». Итак, начнем.

Первое, что нам необходимо — список всех зарегистрированных доменов.
Читать дальше →
Всего голосов 29: ↑23 и ↓6 +17
Комментарии 24

Пример использования Product API от Fetchee для парсинга товаров интернет-магазина

Время на прочтение 4 мин
Количество просмотров 18K
Блог компании Fetchee Data Mining *API *
Туториал
image

В этой инструкции мы расскажем о том, как с помощью Fetchee Product API получить данные о товаре по URL на примере интернет-магазина lamoda.

Для тех, кто не читал нашу прошлую заметку — Product API будет полезен разработчикам, которым требуется получать данные о товарах из любого магазина, но которые не хотят тратить время на создание собственной системы парсинга или уже осознали, что open-source библиотеки обладают существенными ограничениями и требуют много времени на поддержку. Наш автоматический и не требующий настройки API для парсинга eCommerce данных даёт возможность сосредоточится на разработке основных функций вашего приложения. К тому же попробовать его очень просто. Детали под катом.
Читать дальше →
Всего голосов 9: ↑9 и ↓0 +9
Комментарии 42

Парсим weblancer используя PROXY

Время на прочтение 9 мин
Количество просмотров 20K
Python *

Цель работы


  1. Парсим сайт, используя прокси-сервера.
  2. Сохраняем данные в формате CSV.
  3. Пишем поисковик по найденным данным.
  4. Строим интерфейс.




Использовать будем язык программирования Python. Сайт, с которого мы будем качать данные — www.weblancer.net (парсинг старой версии этого сайта был размещен здесь), в нем есть предложения работы по адресу www.weblancer.net/jobs. С него мы и будем получать данные — это название, цена, количество заявок, категория, краткое описание предлагаемой работы.

Вход с использованием прокси означает — вход на сайт под ненастоящим адресом. Пригодится для парсинга сайта с защитой бана по IP адресу (то есть, если вы слишком часто, за короткий отрезок времени, входите на сайт).
Читать дальше →
Всего голосов 28: ↑15 и ↓13 +2
Комментарии 8

10 инструментов, позволяющих парсить информацию с веб-сайтов, включая цены конкурентов + правовая оценка для России

Время на прочтение 8 мин
Количество просмотров 342K
Я пиарюсь
image

Инструменты web scraping (парсинг) разработаны для извлечения, сбора любой открытой информации с веб-сайтов. Эти ресурсы нужны тогда, когда необходимо быстро получить и сохранить в структурированном виде любые данные из интернета. Парсинг сайтов – это новый метод ввода данных, который не требует повторного ввода или копипастинга.

Такого рода программное обеспечение ищет информацию под контролем пользователя или автоматически, выбирая новые или обновленные данные и сохраняя их в таком виде, чтобы у пользователя был к ним быстрый доступ. Например, используя парсинг можно собрать информацию о продуктах и их стоимости на сайте Amazon. Ниже рассмотрим варианты использования веб-инструментов извлечения данных и десятку лучших сервисов, которые помогут собрать информацию, без необходимости написания специальных программных кодов. Инструменты парсинга могут применяться с разными целями и в различных сценариях, рассмотрим наиболее распространенные случаи использования, которые могут вам пригодиться. И дадим правовую оценку парсинга в России.
Читать дальше →
Всего голосов 21: ↑18 и ↓3 +15
Комментарии 45

Парсинг сайтов: как с точки зрения закона выглядит один из самых полезных ИТ- инструментов по миру (и в России)?

Время на прочтение 7 мин
Количество просмотров 46K
Я пиарюсь
image

Попробуем рассмотреть один из лучших способов сбора информации в интернете – парсинг – с юридической точки зрения. Внимание! Эта публикация касается некоторых обще-правовых вопросов, связанных с парсингом, но не является юридической консультацией. Статья является продолжением публикации "10 инструментов, позволяющих парсить информацию с веб-сайтов, включая цены конкурентов + правовая оценка для России"

Парсинг – это автоматизированный процесс извлечения данных с чужого веб-сайта. Но стоит разобраться, действительно ли это один из самых полезных инструментов ИТ для сбора данных или ловушка, влекущая неизбежные проблемы с законом? Парсинг мог бы непременно стать одним из совершеннейших способов добычи контента по всей сети, но к нему прилагается оговорка: с этим инструментом очень сложно разобраться с юридической стороны. Парсинг – это процесс, посредством которого автоматизированная часть программного обеспечения извлекает данные веб-сайта, «прочесывая» многочисленные страницы. Поисковые системы как Google и Bing делают нечто подобное, когда индексируют веб-страницы, а парсинговые механизмы идут дальше и преобразовывают информацию в формат, который позволяет этими данными пользоваться, заносить в базы или электронные таблицы.
Читать дальше →
Всего голосов 9: ↑9 и ↓0 +9
Комментарии 24

Как я парсил Хабр, часть 1: тренды

Время на прочтение 6 мин
Количество просмотров 22K
Python *Визуализация данных *Исследования и прогнозы в IT *Веб-аналитика *

Когда был доеден новогодний оливье, мне стало нечего делать, и я решил скачать себе на компьютер все статьи с Хабрахабра (и смежных платформ) и поисследовать.


Получилось несколько интересных сюжетов. Первый из них — это развитие формата и тематики статей за 12 лет существования сайта. Например, достаточно показательна динамика некоторых тем. Продолжение — под катом.


Читать дальше →
Всего голосов 62: ↑62 и ↓0 +62
Комментарии 45

Парсинг telegram каналов для агрегатора контента на PHP

Время на прочтение 5 мин
Количество просмотров 74K
PHP *Развитие стартапа
Туториал
Recovery mode
Из песочницы
Привет, Хабр!

Несколько лет назад я начал разрабатывать свой агрегатор контента, что бы упростить свой серфинг в сети. Изначально я парсил только rss, vk и facebook, но в прошлом году решил сделать полный рефакторинг проекта: отказаться от парсинга на клиенте, сделать нормальный back-end, использовать базу данных для хранения данных и расширить список поддерживаемых ресурсов.

Помимо стандартного набора из rss, fb, vk, twitter, instagram, youtube я добавил поддержку произвольных открытых каналов из telegram.

image

Под катом пошаговая инструкция, как парсить любые каналы в telegram без регистрации и смс.
Читать дальше →
Всего голосов 21: ↑14 и ↓7 +7
Комментарии 28

Правда про парсинг сайтов, или «все интернет-магазины делают это»

Время на прочтение 11 мин
Количество просмотров 109K
Веб-аналитика *Интернет-маркетинг *Управление e-commerce *Контент-маркетинг *
В этой статье я постараюсь наиболее просто рассказать о парсинге сайтов и его основных нюансах. Моя компания занимается парсингом сайтов уже более трёх лет и ежедневно мы парсим около 300 сайтов. Я обычно открыто пишу об этом в соц.сетях (плюс мы много чего из итогов парсинга крупнейших магазинов России выкладываем бесплатно — публично), что вызывает бурные обсуждения и неодобрение со стороны пользователей. Забавно после прочтения комментариев заглядывать к себе в личку и читать сообщения с предложениями о сотрудничестве от тех же людей, кто только что осуждал нас в комментариях под постом :) Вся статья будет в формате наиболее часто задаваемых вопросов и честных ответов (материал маркетинговый, не технический).
Читать дальше →
Всего голосов 126: ↑110 и ↓16 +94
Комментарии 409

Парсинг сайтов — а это вообще легально в России?

Время на прочтение 11 мин
Количество просмотров 19K
Интернет-маркетинг *Управление e-commerce *Контент-маркетинг *Законодательство в IT
По одному из определений парсинг есть синтаксический анализ информации. Человеку, не вовлечённому в конкретные задачи сбора и обработки информации для Интернет-проектов, это не говорит ни о чём. Да и само определение лишь в общих чертах обозначает огромный объём работы, которую ежеминутно совершают сотни миллионов людей и десятки миллионов роботов (хоть и виртуальных, но от этого ничуть не менее настоящих) по всему миру. А ведь эта задачка обычное для человека дело — что в сравнении цен на билеты онлайн, что в выборе подходящей электроники на сайтах магазинов… Следя за ценами и акциями в удобном мобильном приложении ближайшего к дому гипермаркета, никто из нас и не подумает окрестить себя парсером.
image
Читать дальше →
Всего голосов 30: ↑23 и ↓7 +16
Комментарии 21

Gorp.NET – новая библиотека для создания реверсивных шаблонов с целью извлечения данных из структурированного текста

Время на прочтение 10 мин
Количество просмотров 2.9K
Java *.NET *Data Mining *Регулярные выражения *API *
Gorp.NET – новая библиотека для создания реверсивных шаблонов с целью извлечения данных из структурированного текста, основанная на имеющейся кодовой базе Salesforce Gorp.
Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 8

Большой туториал по обработке спортивных данных на python

Время на прочтение 76 мин
Количество просмотров 11K
Python *
Туториал
Из песочницы


Последние пару лет в свободное время занимаюсь триатлоном. Этот вид спорта очень популярен во многих странах мира, в особенности в США, Австралии и Европе. В настоящее время набирает стремительную популярность в России и странах СНГ. Речь идет о вовлечении любителей, не профессионалов. В отличие от просто плавания в бассейне, катания на велосипеде и пробежек по утрам, триатлон подразумевает участие в соревнованиях и системной подготовке к ним, даже не будучи профессионалом. Наверняка среди ваших знакомых уже есть по крайней мере один “железный человек” или тот, кто планирует им стать. Массовость, разнообразие дистанций и условий, три вида спорта в одном – все это располагает к образованию большого количества данных. Каждый год в мире проходит несколько сотен соревнований по триатлону, в которых участвует несколько сотен тысяч желающих. Соревнования проводятся силами нескольких организаторов. Каждый из них, естественно, публикует результаты у себя. Но для спортсменов из России и некоторых стран СНГ, команда tristats.ru собирает все результаты в одном месте – на своем одноименном сайте. Это делает очень удобным поиск результатов, как своих, так и своих друзей и соперников, или даже своих кумиров. Но для меня это дало еще и возможность сделать анализ большого количества результатов программно. Результаты опубликиваны на трилайфе: почитать.

Это был мой первый проект подобного рода, потому как лишь недавно я начал заниматься анализом данных в принципе, а также использовать python. Поэтому хочу рассказать вам о техническом исполнении этой работы, тем более что в процессе то и дело всплывали различные нюансы, требующие иногда особого подхода. Здесь будет про скраппинг, парсинг, приведение типов и форматов, восстановление неполных данных, формирование репрезентативной выборки, визуализацию, векторизацию и даже параллельные вычисления.
Читать дальше →
Всего голосов 9: ↑9 и ↓0 +9
Комментарии 6

Топ 10 лучших сервисов для мониторинга цен конкурентов

Время на прочтение 5 мин
Количество просмотров 3.7K
Разработка под e-commerce *Интернет-маркетинг *Облачные сервисы *
Из песочницы
За последнее время сервисы мониторинга цен стали особенно востребованы среди как малых, так и крупных торговых брендов, существующих на рынке. Парсинг цен играет важную роль в формировании ценовой стратегии бренда, с помощью которой фирмы стремятся увеличить свой доход. В данной статье я хочу сделать обзор наиболее популярных сервисов, которые помогают решать проблему мониторинга цен конкурентов.
Читать дальше →
Всего голосов 12: ↑8 и ↓4 +4
Комментарии 1

Что и кому должен продуктовый аналитик?

Время на прочтение 5 мин
Количество просмотров 5.3K
Учебный процесс в IT Карьера в IT-индустрии

Часть 1



Последние несколько месяцев я проходила квест под названием «уволиться с позиции маркетингового аналитика в FMCG и получить оффер на позицию продуктового аналитика в IT». Хочу поделиться опытом и систематизировать информацию, собранную за это время из разных источников. А для того, чтобы не быть голословной, рассказывая, о том, какими навыками должен обладать продуктовый аналитик, начну с обзора открытой информации о требованиях к соискателям в вакансиях hh.ru.
Читать дальше →
Всего голосов 8: ↑6 и ↓2 +4
Комментарии 4

Как я спарсил WebGL карту с Федерального сайта

Время на прочтение 3 мин
Количество просмотров 4.2K
Python *JavaScript *HTML *WebGL *
Из песочницы

Как я спарсил WebGL карту с Федерального сайта. Написал эту статью для тех, у кого похожая задача.

Читать далее
Всего голосов 7: ↑4 и ↓3 +1
Комментарии 5
1