![](https://habrastorage.org/getpro/habr/upload_files/9e0/df1/927/9e0df1927511f2282361c5e6d51defa0.png)
Доброго времени суток, уважаемое Habr-сообщество!
Я не являюсь профессионалом в сфере парсинга данных, лишь учусь этому ремеслу в свободное время и посредством производства подобного рода инструкций, хотел бы оставлять для себя же подробные объяснения, что и как работает. Этот материал будет полезен, как мне, так и тем людям, которым также интерес парсинг.
Буду благодарен любой критике, ваша обратная связь поможет мне делать дальнейший материал лучше.
Парсинг – это автоматизированный сбор данных и их систематизация. Сбор данных осуществляется с помощью специальных программ, что называются парсерами. Парсеры нужны для ускорения рутинной работы. Парсить можно, как поисковые фразы, так и цены конкурентов. Всё что угодно можно парсить.
Первый урок будет посвящен парсингу простых заголовков объявлений с html-страницы агро-ресурса.
Подключение необходимых библиотек
Для этого, нам понадобится.
1. Язык программирования Python
2. Модули Python:
requests (для упрощенной работы с HTTP-запросами)
BeautifulSoup (анализирует HTML и XML, создает дерево разбора для проанализированных страниц, что далее позволяет извлекать данные из HTML)
пакет xml (модуль обработки xml)
Переходим к установке библиотек
Для удобного написания кода на Python, буду использовать IDE ( это программное приложение, которое помогает программистам эффективно разрабатывать программный код. Оно повышает производительность разработчиков, объединяя такие возможности, как редактирование, создание, тестирование и упаковка программного обеспечения в простом для использования приложении.) под названием PyCharm.
1. Открываю PyCharm и перехожу во вкладку “Terminal”. Устанавливаем библиотеку requests командой “pip install requests”
![Рис.1. Установка requests Рис.1. Установка requests](https://habrastorage.org/getpro/habr/upload_files/0f2/dfb/05e/0f2dfb05ed2b016128bede70ff684ec8.webp)
2. Устанавливаем библиотеку BeautifulSoup командой “pip install BeautifulSoup”
![Рис.2. Установка BeautifulSoup Рис.2. Установка BeautifulSoup](https://habrastorage.org/getpro/habr/upload_files/232/5d4/f0a/2325d4f0a838f1731923cffd7a0dc546.webp)
3. Устанавливаем пакет xml
![Рис.3. Установка xml Рис.3. Установка xml](https://habrastorage.org/getpro/habr/upload_files/231/3ed/172/2313ed1724717acdf4195453524bec8c.webp)
Отлично. Все необходимые библиотеки установлены, можем начинать.
Определяемся с целью парсинга
Моей сегодняшней целью является одно из названий объявлений на сайте АгроМер.
![Рис.4. Скриншот сайта АгроМер Рис.4. Скриншот сайта АгроМер](https://habrastorage.org/getpro/habr/upload_files/f01/242/492/f012424927de4d1b5e208323a21ec234.webp)
Пишем код
Далее прилагаю скриншот кода. Постарался к каждой строке кода дать соответствующий комментарий, чтобы было понятно, что делает каждая строка.
![Рис.5. Код Рис.5. Код](https://habrastorage.org/getpro/habr/upload_files/267/222/faf/267222faf052fd39139f893c09d7a0fb.webp)
Дополнительно разбираемся с кодом
Как видим, получилось вывести заголовок “Подсолнечный шрот”. Опять же, для понимания, прошу обратить внимание на строку № 8.Нужно понять, почему именно мы ведем обращение по тегу “div” и классу “product-card__name”.Открывем код страницы, наведя курсор мыши на заголовок “Подсолнечный шрот” и нажав “Inspect”, на русском это будет команда браузера “просмотреть код”
![Рис.6. Сайт АгроМер Рис.6. Сайт АгроМер](https://habrastorage.org/getpro/habr/upload_files/90a/6e0/a3c/90a6e0a3c8764bd10520319118d0f3ad.webp)
Как видим, искомому нами заголовку “Подсолнечный шрот” соответствует именно тег “div” и класс “product-card__name”, и именно метод “find” (строка кода №8) позволяет найти на странице необходимые нам элементы HTML-страницы.
![Рис.7. HTML-код сайта АгроМер Рис.7. HTML-код сайта АгроМер](https://habrastorage.org/getpro/habr/upload_files/835/370/2f2/8353702f2f1cbec0553c30911938b312.webp)
Надеюсь, разбор получился понятным. Думаю, эта инструкция поможет мне вспомнить основы при необходимости и вам, если вам также интересен парсинг.Далее, буду также изучать парсинг подробнее и писать новые инструкции. Уверен, моя первая инструкция возможно полна недочетов, но со временем буду стараться для своих читателей делать их лучше и понятнее.
Мой канал в телеграмм
Если мануал показался вам интересным, то буду благодарен за подписку на мой
канал IT-старт t.me/it_begin
где я также публикую обзоры технической литературы и полезную информацию как для действующих, так и для начинающих программистов
Также публикую обзоры книг и интервью на моём сайте https://russia-it.ru