Pull to refresh
67.4
Click.ru
Рекламная экосистема

30+ парсеров для сбора данных с любого сайта

Reading time10 min
Views416K
30+ парсеров для сбора данных с любого сайта

Десктопные/облачные, платные/бесплатные, для SEO, для совместных покупок, для наполнения сайтов, для сбора цен… В обилии парсеров можно утонуть.


Мы разложили все по полочкам и собрали самые толковые инструменты парсинга — чтобы вы могли быстро и просто собрать открытую информацию с любого сайта.



Зачем нужны парсеры


Парсер — это программа, сервис или скрипт, который собирает данные с указанных веб-ресурсов, анализирует их и выдает в нужном формате.


С помощью парсеров можно делать много полезных задач:


  • Цены. Актуальная задача для интернет-магазинов. Например, с помощью парсинга вы можете регулярно отслеживать цены конкурентов по тем товарам, которые продаются у вас. Или актуализировать цены на своем сайте в соответствии с ценами поставщика (если у него есть свой сайт).
  • Товарные позиции: названия, артикулы, описания, характеристики и фото. Например, если у вашего поставщика есть сайт с каталогом, но нет выгрузки для вашего магазина, вы можете спарсить все нужные позиции, а не добавлять их вручную. Это экономит время.
  • Метаданные: SEO-специалисты могут парсить содержимое тегов title, description и другие метаданные.
  • Анализ сайта. Так можно быстро находить страницы с ошибкой 404, редиректы, неработающие ссылки и т. д.

Для справки. Есть еще серый парсинг. Сюда относится скачивание контента конкурентов или сайтов целиком. Или сбор контактных данных с агрегаторов и сервисов по типу Яндекс.Карт или 2Гис (для спам-рассылок и звонков). Но мы будем говорить только о белом парсинге, из-за которого у вас не будет проблем.


Где взять парсер под свои задачи


Есть несколько вариантов:


  1. Оптимальный — если в штате есть программист (а еще лучше — несколько программистов). Поставьте задачу, опишите требования и получите готовый инструмент, заточенный конкретно под ваши задачи. Инструмент можно будет донастраивать и улучшать при необходимости.
  2. Воспользоваться готовыми облачными парсерами (есть как бесплатные, так и платные сервисы).
  3. Десктопные парсеры — как правило, программы с мощным функционалом и возможностью гибкой настройки. Но почти все — платные.
  4. Заказать разработку парсера «под себя» у компаний, специализирующихся на разработке (этот вариант явно не для желающих сэкономить).

Первый вариант подойдет далеко не всем, а последний вариант может оказаться слишком дорогим.


Что касается готовых решений, их достаточно много, и если вы раньше не сталкивались с парсингом, может быть сложно выбрать. Чтобы упростить выбор, мы сделали подборку самых популярных и удобных парсеров.


Законно ли парсить данные?


В законодательстве РФ нет запрета на сбор открытой информации в интернете. Право свободно искать и распространять информацию любым законным способом закреплено в четвертом пункте 29 статьи Конституции.


Допустим, вам нужно спарсить цены с сайта конкурента. Эта информация есть в открытом доступе, вы можете сами зайти на сайт, посмотреть и вручную записать цену каждого товара. А с помощью парсинга вы делаете фактически то же самое, только автоматизированно.


Но если вы хотите собрать персональные данные пользователей и использовать их для email-рассылок или таргетированной рекламы, это уже будет незаконно (эти данные защищены законом о персональных данных).


Десктопные и облачные парсеры


Облачные парсеры


Основное преимущество облачных парсеров — не нужно ничего скачивать и устанавливать на компьютер. Вся работа производится «в облаке», а вы только скачиваете результаты работы алгоритмов. У таких парсеров может быть веб-интерфейс и/или API (полезно, если вы хотите автоматизировать парсинг данных и делать его регулярно).


Например, вот англоязычные облачные парсеры:



Из русскоязычных облачных парсеров можно привести такие:



Любой из сервисов, приведенных выше, можно протестировать в бесплатной версии. Правда, этого достаточно только для того, чтобы оценить базовые возможности и познакомиться с функционалом. В бесплатной версии есть ограничения: либо по объему парсинга данных, либо по времени пользования сервисом.


Десктопные парсеры


Большинство десктопных парсеров разработаны под Windows — на macOS их необходимо запускать с виртуальных машин. Также некоторые парсеры имеют портативные версии — можно запускать с флешки или внешнего накопителя.


Популярные десктопные парсеры:


  • ParserOK,
  • Datacol,
  • Screaming Frog, ComparseR, Netpeak Spider — об этих инструментах чуть позже поговорим подробнее.

Виды парсеров по технологии


Браузерные расширения


Для парсинга данных есть много браузерных расширений, которые собирают нужные данные из исходного кода страниц и позволяют сохранять в удобном формате (например, в XML или XLSX).


Парсеры-расширения — хороший вариант, если вам нужно собирать небольшие объемы данных (с одной или парочки страниц). Вот популярные парсеры для Google Chrome:



Надстройки для Excel


Программное обеспечение в виде надстройки для Microsoft Excel. Например, ParserOK. В подобных парсерах используются макросы — результаты парсинга сразу выгружаются в XLS или CSV.


Google Таблицы


С помощью двух несложных формул и Google Таблицы можно собирать любые данные с сайтов бесплатно.


Эти формулы: IMPORTXML и IMPORTHTML.


IMPORTXML


Функция использует язык запросов XPath и позволяет парсить данные с XML-фидов, HTML-страниц и других источников.


Вот так выглядит функция:


IMPORTXML("https://site.com/catalog"; "//a/@href")

Функция принимает два значения:


  • ссылку на страницу или фид, из которого нужно получить данные;
  • второе значение — XPath-запрос (специальный запрос, который указывает, какой именно элемент с данными нужно спарсить).

Хорошая новость в том, что вам не обязательно изучать синтаксис XPath-запросов. Чтобы получить XPath-запрос для элемента с данными, нужно открыть инструменты разработчика в браузере, кликнуть правой кнопкой мыши по нужному элементу и выбрать: Копировать → Копировать XPath.


30+ парсеров для сбора данных с любого сайта

С помощью IMPORTXML можно собирать практически любые данные с html-страниц: заголовки, описания, мета-теги, цены и т.д.


IMPORTHTML


У этой функции меньше возможностей — с ее помощью можно собрать данные из таблиц или списков на странице. Вот пример функции IMPORTHTML:


IMPORTHTML("https://https://site.com/catalog/sweets"; "table"; 4)

Она принимает три значения:


  • Ссылку на страницу, с которой необходимо собрать данные.
  • Параметр элемента, который содержит нужные данные. Если хотите собрать информацию из таблицы, укажите «table». Для парсинга списков — параметр «list».
  • Число — порядковый номер элемента в коде страницы.

Об использовании 16 функций Google Таблиц для целей SEO читайте в нашей статье. Здесь все очень подробно расписано, с примерами по каждой функции.

Виды парсеров по сферам применения


Для организаторов СП (совместных покупок)


Есть специализированные парсеры для организаторов совместных покупок (СП). Их устанавливают на свои сайты производители товаров (например, одежды). И любой желающий может прямо на сайте воспользоваться парсером и выгрузить весь ассортимент.


Чем удобны эти парсеры:


  • интуитивно понятный интерфейс;
  • возможность выгружать отдельные товары, разделы или весь каталог;
  • можно выгружать данные в удобном формате. Например, в Облачном парсере доступно большое количество форматов выгрузки, кроме стандартных XLSX и CSV: адаптированный прайс для Tiu.ru, выгрузка для Яндекс.Маркета и т. д.

Популярные парсеры для СП:



Парсеры цен конкурентов


Инструменты для интернет-магазинов, которые хотят регулярно отслеживать цены конкурентов на аналогичные товары. С помощью таких парсеров вы можете указать ссылки на ресурсы конкурентов, сопоставлять их цены с вашими и корректировать при необходимости.


Вот три таких инструмента:



Парсеры для быстрого наполнения сайтов


Такие сервисы собирают названия товаров, описания, цены, изображения и другие данные с сайтов-доноров. Затем выгружают их в файл или сразу загружают на ваш сайт. Это существенно ускоряет работу по наполнению сайта и экономят массу времени, которое вы потратили бы на ручное наполнение.


В подобных парсерах можно автоматически добавлять свою наценку (например, если вы парсите данные с сайта поставщика с оптовыми ценами). Также можно настраивать автоматический сбор или обновление данных по расписания.


Примеры таких парсеров:



Парсеры для SEO-специалистов


Отдельная категория парсеров — узко- или многофункциональные программы, созданные специально под решение задач SEO-специалистов. Такие парсеры предназначены для упрощения комплексного анализа оптимизации сайта. С их помощью можно:


  • анализировать содержимое robots.txt и sitemap.xml;
  • проверять наличие title и description на страницах сайта, анализировать их длину, собирать заголовки всех уровней (h1-h6);
  • проверять коды ответа страниц;
  • собирать и визуализировать структуру сайта;
  • проверять наличие описаний изображений (атрибут alt);
  • анализировать внутреннюю перелинковку и внешние ссылки;
  • находить неработающие ссылки;
  • и многое другое.

Пройдемся по нескольким популярным парсерам и рассмотрим их основные возможности и функционал.


Парсер метатегов и заголовков PromoPult


Стоимость: первые 500 запросов — бесплатно. Стоимость последующих запросов зависит от количества: до 1000 — 0,04 руб./запрос; от 10000 — 0,01 руб.


Возможности


С помощью парсера метатегов и заголовков можно собирать заголовки h1-h6, а также содержимое тегов title, description и keywords со своего или чужих сайтов.


Инструмент пригодится при оптимизации своего сайта. С его помощью можно обнаружить:


  • страницы с пустыми метатегами;
  • неинформативные заголовки или заголовки с ошибками;
  • дубли метатегов и т.д.

Также парсер полезен при анализе SEO конкурентов. Вы можете проанализировать, под какие ключевые слова конкуренты оптимизируют страницы своих сайтов, что прописывают в title и description, как формируют заголовки.


30+ парсеров для сбора данных с любого сайта

Сервис работает «в облаке». Для начала работы необходимо добавить список URL и указать, какие данные нужно спарсить. URL можно добавить вручную, загрузить XLSX-таблицу со списком адресов страниц, или вставить ссылку на карту сайта (sitemap.xml).


Работа с инструментом подробно описана в статье «Как в один клик собрать мета-теги и заголовки с любого сайта?».

Парсер метатегов и заголовков — не единственный инструмент системы PromoPult для парсинга. В SEO-модуле системы можно бесплатно спарсить ключевые слова, по которым добавленный в систему сайт занимает ТОП-50 в Яндексе/Google.


30+ парсеров для сбора данных с любого сайта

Здесь же на вкладке “Слова ваших конкурентов” вы можете выгрузить ключевые слова конкурентов (до 10 URL за один раз).


30+ парсеров для сбора данных с любого сайта

Подробно о работе с парсингом ключей в SEO-модуле PromoPult читайте здесь.


Netpeak Spider


Стоимость: от 19$ в месяц, есть 14-дневный пробный период.


Парсер для комплексного анализа сайтов. С Netpeak Spider можно:


  • провести технический аудит сайта (обнаружить битые ссылки, проверить коды ответа страниц, найти дубли и т.д.). Парсер позволяет находить более 80 ключевых ошибок внутренней оптимизации;
  • проанализировать основные SEO-параметры (файл robots.txt, проанализировать структуру сайта, проверить редиректы);
  • парсить данные с сайтов с помощью регулярных выражений, XPath-запросов и других методов;
  • также Netpeak Spider может импортировать данные из Google Аналитики, Яндекс.Метрики и Google Search Console.

30+ парсеров для сбора данных с любого сайта

Screaming Frog SEO Spider


Стоимость: лицензия на год — 149 фунтов, есть бесплатная версия.


Многофункциональный инструмент для SEO-специалистов, подходит для решения практически любых SEO-задач:


  • поиск битых ссылок, ошибок и редиректов;
  • анализ мета-тегов страниц;
  • поиск дублей страниц;
  • генерация файлов sitemap.xml;
  • визуализация структуры сайта;
  • и многое другое.

30+ парсеров для сбора данных с любого сайта

В бесплатной версии доступен ограниченный функционал, а также есть лимиты на количество URL для парсинга (можно парсить всего 500 url). В платной версии таких лимитов нет, а также доступно больше возможностей. Например, можно парсить содержимое любых элементов страниц (цены, описания и т.д.).


Подробно том, как пользоваться Screaming Frog, мы писали в статье «Парсинг любого сайта «для чайников»: ни строчки программного кода».

ComparseR


Стоимость: 2000 рублей за 1 лицензию. Есть демо-версия с ограничениями.


Еще один десктопный парсер. С его помощью можно:


  • проанализировать технические ошибки на сайте (ошибки 404, дубли title, внутренние редиректы, закрытые от индексации страницы и т.д.);
  • узнать, какие страницы видит поисковой робот при сканировании сайта;
  • основная фишка ComparseR — парсинг выдачи Яндекса и Google, позволяет выяснить, какие страницы находятся в индексе, а какие в него не попали.

30+ парсеров для сбора данных с любого сайта

Анализ сайта от PR-CY


Стоимость: платный сервис, минимальный тариф — 990 рублей в месяц. Есть 7-дневная пробная версия с полным доступом к функционалу.


Онлайн-сервис для SEO-анализа сайтов. Сервис анализирует сайт по подробному списку параметров (70+ пунктов) и формирует отчет, в котором указаны:


  • обнаруженные ошибки;
  • варианты исправления ошибок;
  • SEO-чеклист и советы по улучшению оптимизации сайта.

30+ парсеров для сбора данных с любого сайта

Анализ сайта от SE Ranking


Стоимость: платный облачный сервис. Доступно две модели оплаты: ежемесячная подписка или оплата за проверку.


Стоимость минимального тарифа — 7$ в месяц (при оплате годовой подписки).


Возможности:


  • сканирование всех страниц сайта;
  • анализ технических ошибок (настройки редиректов, корректность тегов canonical и hreflang, проверка дублей и т.д.);
  • поиск страниц без мета-тегов title и description, определение страниц со слишком длинными тегами;
  • проверка скорости загрузки страниц;
  • анализ изображений (поиск неработающих картинок, проверка наличия заполненных атрибутов alt, поиск «тяжелых» изображений, которые замедляют загрузку страниц);
  • анализ внутренних ссылок.

30+ парсеров для сбора данных с любого сайта

Xenu’s Link Sleuth


Стоимость: бесплатно.


Десктопный парсер для Windows. Используется для парсинга все url, которые есть на сайте:


  • ссылки на внешние ресурсы;
  • внутренние ссылки (перелинковка);
  • ссылки на изображения, скрипты и другие внутренние ресурсы.

Часто применяется для поиска неработающих ссылок на сайте.


30+ парсеров для сбора данных с любого сайта

A-Parser


Стоимость: платная программа с пожизненной лицензией. Минимальный тарифный план — 119$, максимальный — 279$. Есть демо-версия.


Многофункциональный SEO-комбайн, объединяющий 70+ разных парсеров, заточенных под различные задачи:


  • парсинг ключевых слов;
  • парсинг данных с Яндекс и Google карт;
  • мониторинг позиций сайтов в поисковых системах;
  • парсинг контента (текст, изображения, видео) и т.д.

Кроме набора готовых инструментов, можно создать собственный парсер с помощью регулярных выражений, языка запросов XPath или Javascript. Есть доступ по API.


30+ парсеров для сбора данных с любого сайта

Чек-лист по выбору парсера


Краткий чек-лист, который поможет выбрать наиболее подходящий инструмент или сервис.


  1. Четко определите, для каких задач вам нужен парсер: анализ SEO конкурентов или мониторинг цен, сбор данных для наполнения каталога, съем позиций и т.д.
  2. Определите, какой объем данных и в каком виде нужно получать.
  3. Определите, как часто вам нужно собирать данные: единоразово или с определенной периодичностью (раз в день/неделю/месяц).
  4. Выберите несколько инструментов, которые подходят для решения ваших задач. Попробуйте демо-версии. Узнайте, предоставляется ли техническая поддержка (желательно даже протестировать ее — задать парочку вопросов и посмотреть, как быстро вы получите ответ и насколько он будет исчерпывающим).
  5. Выберите наиболее подходящий сервис по соотношению цена/качество.

Для крупных проектов, где требуется парсить большие объемы данных и производить сложную обработку, более выгодной может оказаться разработка собственного парсера под конкретные задачи.


Для большинства же проектов достаточно будет стандартных решений (возможно, вам может быть достаточно бесплатной версии любого из парсеров или пробного периода).

Tags:
Hubs:
+8
Comments10

Articles

Information

Website
click.ru
Registered
Founded
Employees
101–200 employees
Location
Россия
Representative
Александр Шипин