Comments 5
Сильно простецкая статья. Базовые вещи бы рассмотреть - авторизацию, использование прокси
Не будут найдены даты типа 1.1.2026 или 1. Jan 2026 как тут: https://www.sozialministerium.gv.at/Services/Aktuelles/Archiv-2025/teilpension.html
А это значит, что для парсинга законодательных проектов советы в статье не сработают.
Советы из статьи в принципе не работают: парсинг не так делается. Я давно жду комментарии и статьи от людей, кто и правда что то такое делает. Со scrapy, желательно.
Не будут найдены даты типа 1.1.2026 или 1. Jan 2026 как тут: https://www.sozialministerium.gv.at/Services/Aktuelles/Archiv-2025/teilpension.html
А это значит, что для парсинга законодательных проектов советы в статье не сработают.
Считаю, что это не совсем корректная критика автора. Скрейпинг того или иного ресурса - всегда разный скрипт. Это нормально, что один прием может сработать на одном сайте, но на другом - нет
Советы из статьи в принципе не работают: парсинг не так делается. Я давно жду комментарии и статьи от людей, кто и правда что то такое делает. Со scrapy, желательно.
В принципе, подход автора сработает, если владелец сайта не против, чтобы его спарсили (нет JS, капчи и прочей защиты от ботов, авторизации, щедро раскиданы ARIA-атрибуты). А если владелец сайта против, то лично у меня уже на правовом моменте опускаются руки :D (натыкался на статью на эту тему https://habr.com/ru/articles/545818). Знаю, что через Selenium успешно обходят всё это дело (даже крутых антиботов от Cloudflare). Всякие прокси, сервисы для обхода капч и кастомные драйверы для Selenium сверху прилагаются само собой. Но всё равно сфера скрейпинга в правовом плане мутная. Для себя я решил в неё не соваться. Не уверен даже, что обсуждение инструментов для скрейпинга не попадет в будущем под цензуру по аналогии с VPN. Думаю, по той же причине на хабре и статей не густо

По моему в "Извлечём заголовок из простого HTML." и "Извлечём список ссылок из HTML с классом 'link'." код абсолютно одинаковый...
или это только мне так кажется? )
Парсинг данных в Python: от простых строк до датасетов