Pull to refresh

Comments 32

Еще есть класс локальных решений без использования Node/Python, позволяющих реализовать headfull, который детектируется сложнее чем headless. Например, можно хостить парсер в Excel.
Защита от ботов строится не столько на детекции браузера, сколько на цифровом отпечатке. Обход этой защиты требует подмены отпечатка на реальный, что создало рынок отпечатков. Некоторые сервисы предлагают эту защиту малому и среднему бизнесу бесплатно - за сбор статистики ботов.

А некоторые продают за бешеные деньги))) Я помню когда столкнулся, купил прокси, купил распознавание капчи, хостинг купил - деньги закончились, а тут еще отпечатки понадобились(((

Этот текст полностью составлен на основе GPT-реферата или в нём есть личный опыт, а также рекомендации, основанные на этом опыте?

P.S. Возможно, мой вопрос прозвучал несколько резко, но я не хочу никого обидеть. Просто статья получилась очень объёмной, а тема мне интересна. 

Даже немного обидно стало. Естественно тут пользовательский опыт. Я не все продукты тестировал конечно прям по платным доступам, но как минимум тестовые бесплатные их решения пробовал. Со Скрапи теснее всего из платников работал, а вот с open source - да тут просто дофига всякого разного опыта при работе с ними

Не стои лишний раз обижаться.

Возможно, в статье что-то упущено или добавлено лишнее, раз возникает необходимость спрашивать, проводились ли личные тесты описанных продуктов. Также в тексте не я не вижу личного отношения автора к инструментам.

Если вы пишете справку-реферат для руководителя или курсовой проект, то личное отношение будет лишним. Однако, чтобы вызвать у читателей сопереживание, лучше поделиться своим личным мнением. 

Ах да. Всё написанное выше — мое ИМХО (но, возможно, в «фидошном» стиле). 

Каждый пишет так, как пишет)) Я пишу в таком вот стиле, в некоторых статьях выражаю свое мнение более активнее, в этой решил ограничится обзором, посчитал излишним

А что тут обидного? Меня лично хватило до “асинхронной сети Twisted”. Уж простите великодушно, но специалист в теме так не напишет и не опечатается. А это про любимый скрапи же, которым невозможно пользоваться в промышленных масштабах, не понимая деталей (не говоря уж о сути) Twisted.

А где указано что я прям специалист в теме? Прям специалист специалист? Я много чем интересуюсь и много куда лезу разбираться, но прям профи себя не считаю.

На заметку:

NetPeak Spider - Украинская, не работает в РФ
Screaming Frog - Английская, качается только через ВПН

Также для справки - то что она Украинская, не говорит ничего о ее качестве, если вы идете в сторону парсеров и подобного софта, ну что, нужно быть готовым к подобному (куча украинских разрабов отличные специалисты, они пилят хороший софт, так бывает).
К слову - Нетпик вполне неплохо работает с ВПН, оплата проходит с любой карты, с которой можно оплачивать зарубежные парсеры, У нетпика есть несколько фишек, которые можно заменить той же лягушкой, а есть и не заменяемые, так что тут каждый сам решает для себя.

Лягушка имеет русификатор, если совсем туго с английским языком, но!!! Если вы уже достигли точки, в которой читаете статью про топ парсеров, вас не должен пугать английский язык. Я пробовал Лягушку переведенную и непереведенную - так вот оригинал мне больше по душе, так как любой мануал в интернете, гайд по лягушке - они описывают англоязычную версию.

Так что - кто бы что ни говорил - учите английский, хотя бы на базовом уровне

При чем тут качество? И причем тут английский??

Речь о том, что для рядового пользователя обе не доступны.

Мало того.

У того же фрога ограничение в бесплатной версии на 500 URL.

А платить конские цены, что за одну, что за другую программу вряд ли кто будет, тем более есть российские альтернативы по вполне адекватным ценам.

Рядовой пользователь давно знаком с таким понятием как впн, лягушка ломаная на просторах интернета уже давно обитает. Вы откуда? Где еще так свято верят в непоколебимость лицензии?
Все мое окружение (а их немало), ни один не использует лицензию лягушки, я миллионами парсю страницы через лягушку, а надо всего лишь скачать....

Как говорится в любом оффере из 00х)))

Погуглите просто лягушка Кряк.

Есть в телеграм 20я ломаная версия.

Насчет более поздней не знаю, я юзаю именно 20ю

Т.е. предлагать официально юзать ломаный софт у вас в порядке вещей.

Видимо мозг уже настолько привык к крякам и кейгенам, что люди даже не в курсе, что лягушка никакая не бесплатная на самом деле, если есть необходимость работать без ограничений )

Я не призываю к покупке и тп, но как минимум нужно указывать все эти нюансы, иначе выглядит все это поверхностно - как и вся статья в общем то.

О, отлично. Я к вам по доброму, но вы зачем то решили просто обесценить труд автора - "поверхностная статья". Причина в этом какая? Ваш софт не попал в эту подборку или что? Призывать пользоваться ломаным софтом - даже звучит странно, на фоне того, что нам тупо запрещают использовать некоторый софт, по причине российского ip. Использование впн вас не смутило, а смутило наличие в моем комментарии упоминания крякнутых версий.
И да - это не гайд, как пользоваться, а обзор что есть (мое видение)

"Ваш софт не попал в эту подборку или что..." - и да и нет.
1. В статье не указаны подобные нюансы, озвученные выше. Как ни крути они важны.
2. Как минимум десктопных аналогов из РФ можно было бы указать 2-3 примера. Это на мой взгляд логичнее и не так странно, чем предлагать сходу зарубежный софт с кейгенами и ВПН.

Ну не попал он туда потому что я его пробовал и он не подошел под мои задачи, у нас с ним не срослось, как говорится. Закрыл все Лягушкой (либо просто привычнее уже лягушку юзать).

Куча гайдов по Лягушке. Куда ни глянь - все рекомендуют решать именно лягушкой. Я бы на вашем месте в этом направлении смотрел, в качестве продвижения продукта

Куча гайдов потому, что ее использует 90% сеошников в мире, не без этого, и с этим сложно поспорить.

В качестве продвижения смотрим на многое, в том числе и на качество нашего софта, который, конечно, не без огрехов, но мы над этим работаем, так что есть к чему стремиться.

Все, я понял кто вы)) Вы автор конкурента лягушки)) И все вы знаете насчет ломаной версии, все вы знаете)))

Периодически покупаю товары на алиэкспресс.
И это самый противный логике в моём понимании сайт. (Я имею в виду его русский вариант)
Поиск нужного товара, с минимальной суммой (цена + доставка) это просто непроходимый квест с супер боссом в виде автозамены.
Может быть кто-нибудь уже сделает отдельный сайт, который по ссылке на интересующий товар, будет находить подобные товары с более низкой ценой?

Работает только по цене того товара который я уже нашёл. Да он предупредит когда цена упадёт.
Но он не работает, когда продавец убрал товар из продажи.
И он не помогает найти такой-же товар у других продавцов.
Вот пример товара, который я периодически покупаю. (надёжный продавец, хорошее качество)
https://aliexpress.ru/item/1005006908795585.html?sku_id=12000039659440765
Вот только продавец зачислен в ненадёжные, не смотря на то, что он меня ни разу не обманывал. (даже когда его склад отправил мне меньшее число коробок он пообещал исправить ошибку со следующей отгрузкой и отправил недостающее даже без открытия спора)
И его товар в поиске не отобразился.
А те которые отобразились, при сортировке по цене, с платной доставкой но более дешёвой ценой попадают в верх списка, не смотря на то, что по итогу доставки их цена значительно выше.
В итоге сайт который должен быть удобен для покупателя подсовывает совершенно не то, что хотелось бы найти в текущий момент.
И такая-же фигня на всех остальных торговых площадках.
Приходится тратить уйму времени, в поисках того, что от покупателя умышленно прячут, в желании срубить как можно больше бабла с продавца платными услугами продвижения товара.
И как с этим бороться? Для каждого сайта писать свой парсер?

Гурман! Уважаю, тоже раньше любил потеребонькать али до потери пульса, но потом решил что мое время того не стоит, любое предложение на али уже само по себе чудо, если в пару кликов не нашлось ничего значительно лучше, то и ладно.

Странно, почему в обзоре не было FireCrawl

Ничего странного - не пробовал, не знаю, не обучен))) Я никогда его не использовал и никогда о нем не слышал

Очень ценно, когда мы обмениваемся знаниями, но было бы хорошим тоном указывать ссылки на оригинальные статьи, если используем информацию или материалы из них 😊

а нельзя было разграничить в статье по категория инструменты?
например с и без браузерной эмуляцией?

Разграничил по платности - бесплатности))

статья отличная, спасибо, добавляет граней в понимании востребованности и применимости, это дорогого стоит

Sign up to leave a comment.

Articles