Комментарии 9
Я бы проверил, какую именно информацию он не может получить, и посмотрел исходный код карточек. Возможно, классы другие, и нужно сделать что если эти не получилось прочитать, то нужно другие, и т. д.
Надеюсь Вы дойдёте до уровня rainforestapi.com
Насколько помню, там вообще не нужен драйвер, хватит и одного requests(читай scrappy/aiohttp/httpx), разве что allow_redirects возможно выключить надо. Главное взять asin с поисков, а остальное собрать со страниц карточек(есть паттерн, есть asin, убираете query параметры и в путь, вроде там все нужное просто в аттрибутах лежит. Ну и естественно в асинхронку, только robots.txt не игнорируем:)))). Кстати небольшая хитрость для автора, на том же apify(или аналогах) есть возможность взять пробный пакет, а asin бывают списками в открытых доступах. Так вот если запустить и глянуть логи, то там частенько видно весь процесс сборки. просто повторив можно много времени выиграть и код там часто актуальный:)
Для эпизодических парсингов пользуюсь расширением браузера Instant Data Scraper - оно отлично справляется с разными расположениями карточек.
Я бы пытался спарсить из запросов, которые фронт отправляет и получает, например, можно не имитировать скролл, а после загрузки и получения все куки/авторизации (может в запросе уходит ещё jwt), отправить сразу, запрос на загрузку карточек, которые отправляются при скролл и из ответов на эти запросы вытащить инфу о товарах
А для чего можно применять? Зачем парсить Амазон?
Парсинг Амазона на easy без мам, пап и ипотек