Как стать автором
Обновить

Комментарии 9

Я бы проверил, какую именно информацию он не может получить, и посмотрел исходный код карточек. Возможно, классы другие, и нужно сделать что если эти не получилось прочитать, то нужно другие, и т. д.

Надеюсь Вы дойдёте до уровня rainforestapi.com

О, прикольно, никогда не встречал такой сервис. Зашел почитать комментарии, называется))

Насколько помню, там вообще не нужен драйвер, хватит и одного requests(читай scrappy/aiohttp/httpx), разве что allow_redirects возможно выключить надо. Главное взять asin с поисков, а остальное собрать со страниц карточек(есть паттерн, есть asin, убираете query параметры и в путь, вроде там все нужное просто в аттрибутах лежит. Ну и естественно в асинхронку, только robots.txt не игнорируем:)))). Кстати небольшая хитрость для автора, на том же apify(или аналогах) есть возможность взять пробный пакет, а asin бывают списками в открытых доступах. Так вот если запустить и глянуть логи, то там частенько видно весь процесс сборки. просто повторив можно много времени выиграть и код там часто актуальный:)

Для эпизодических парсингов пользуюсь расширением браузера Instant Data Scraper - оно отлично справляется с разными расположениями карточек.

НЛО прилетело и опубликовало эту надпись здесь

Я бы пытался спарсить из запросов, которые фронт отправляет и получает, например, можно не имитировать скролл, а после загрузки и получения все куки/авторизации (может в запросе уходит ещё jwt), отправить сразу, запрос на загрузку карточек, которые отправляются при скролл и из ответов на эти запросы вытащить инфу о товарах

А для чего можно применять? Зачем парсить Амазон?

Товары собирать, например

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации