Comments / Profile of Tur1st / Habr

Артем Чернов @Tur1st

Senior PHP developer

ProfileArticles2PostsNewsComments19

Попытка реализации универсального парсера интернет магазинов с помощью SlimerJS

Tur1st Oct 7 2015 at 18:43

docs.slimerjs.org/current/configuration.html

Look

Попытка реализации универсального парсера интернет магазинов с помощью SlimerJS

Tur1st Oct 7 2015 at 16:58

в SlimerJS прокси тоже можно использовать, если честно искать разницу между этими двумя система не вижу смысла, они практически идентичны

Look

Попытка реализации универсального парсера интернет магазинов с помощью SlimerJS

Tur1st Oct 7 2015 at 14:48

В SlimereJS все проще, перед какой то бизней логикой анализируется изначально известный html блок в котором появляется каптча. Далее. без перегрузки страницы автоматически делается скриншот каптчи, кодируеться в base64 и в том же окне генерируется запрос а API того же антигейта и через пару секунд уже получен результат.
Все это работает без перегрузки целевой страницы.
при таком подходе получается долго парсить ресурс без всяких лимитов, единственное соблюдая определенный таймаут

Look

Попытка реализации универсального парсера интернет магазинов с помощью SlimerJS

Tur1st Oct 7 2015 at 14:21

вопрос был в том как эту проблему решает dmx102 с помощью perl, так как насколько я понимаю он использует cURL или что то подобное для парсинга

Look

Попытка реализации универсального парсера интернет магазинов с помощью SlimerJS

Tur1st Oct 7 2015 at 13:29

)) вы видимо не внимательно прочитали мой ответ, я не говорил что с этим проблемы в SlimerJS. Все что касаеться работы с DOM он справляеться более чем отлично. PhantonJS я тоже использовал, но SlimerJs понравился больше тем что позволяет отображать окно браузера, это очень удобно при автоматизации определенных бизнес процессов.
API SlimerJS очень близко к PhantomJS и у разработчиков огромное желание к версии 1.0.0 полностью скопировать API PhantomJs

Look

Попытка реализации универсального парсера интернет магазинов с помощью SlimerJS

Tur1st Oct 7 2015 at 12:38

с этими сервисами я знаком, как раз один из них интегрирован в парсер яндекса, но и вопрос в том что как разгадывать каптчи клиент-серверными приложением? допусти каптча возвращается ни как страница, а возникает в процессе работы, т.е грубо говоря аяксом поверх основного контента

Look

Попытка реализации универсального парсера интернет магазинов с помощью SlimerJS

Tur1st Oct 6 2015 at 11:17

выдачу яндекса или гугла когда нибудь парсили, попробуйте ради интереса.

Look

Попытка реализации универсального парсера интернет магазинов с помощью SlimerJS

Tur1st Oct 6 2015 at 10:48

как вы реализовали проблему с каптчами?

Look

Попытка реализации универсального парсера интернет магазинов с помощью SlimerJS

Tur1st Oct 6 2015 at 10:31

Если бы все было так просто. Вам видимо не приходилось парсить сайты которые заботятся о своих данных и разными средствами пытаются их защитить. Для примера: запрос на получение данных может не сработать, если предположить что сайт ставит куки о посещенных страницах или вам требуется ввести каптчу без перегрузки страницы

Look

Попытка реализации универсального парсера интернет магазинов с помощью SlimerJS

Tur1st Oct 6 2015 at 06:59

про какой парсинг вообще можно говорить если вы работаете с API?

Look

Попытка реализации универсального парсера интернет магазинов с помощью SlimerJS

Tur1st Oct 5 2015 at 18:35

ответил ниже)

Look

Попытка реализации универсального парсера интернет магазинов с помощью SlimerJS

Tur1st Oct 5 2015 at 18:34

использование того или иного инструмента обусловлена в первую очередь тем какой сайт придется парсить, незнаю каким образом вы парсите динамически подгружаемый контент или ситуации когда во время загрузки сайта появиться каптча.

Look

Шпаргалка по mongodb: e-commerce, миграция, часто применяемые операции и немного о транзакциях

Tur1st Jun 2 2015 at 12:02

размер такой,

{
   "_id_": 4139540480,
   "word_1": 2916057088,
   "doc_id_1": 1290551296 
}

Look

Шпаргалка по mongodb: e-commerce, миграция, часто применяемые операции и немного о транзакциях

Tur1st Jun 2 2015 at 09:34

индекс большой из за большого количества записей, в документе 3 индекса, один стандартный "_id_" и два кастомных, int и string(40), количество записей было где около 500млн

Look

Шпаргалка по mongodb: e-commerce, миграция, часто применяемые операции и немного о транзакциях

Tur1st Jun 2 2015 at 08:50

ну причину я написал выше, нехватка объема оперативной памяти, даже после перехода на третью версию монги, которая значительно ужала объем данных, все равно процесс работы с большим объемом данных по отношению к моему серверу не представляется возможным. При работе монго занимает всю память и больше ее не освобождает. Сколько бы не писали что монго умная система и сама распределяем ресурсы, я этого не заметил и другие процессы на этом сервере просто не отвечали.

-1

Look

Шпаргалка по mongodb: e-commerce, миграция, часто применяемые операции и немного о транзакциях

Tur1st Jun 2 2015 at 07:39

не подскажите как поступить, при большом объеме данных в документе, когда размер индекса больше чем объем оперативной памяти, и при создание простого запроса, например

db.test.find().count()

съедаеться вся память и сервер начинает дико тормозить

Look

Простой парсинг сайтов с помощью SlimerJS

Tur1st Jan 15 2015 at 14:19

я так понимаю ты еще phantomJS накатил? по моему CasperJS без него не работает

Look

Простой парсинг сайтов с помощью SlimerJS

Tur1st Jan 15 2015 at 08:43

Для меня самым большим плюсом является именно наличие интерфейса у SlimerJS, и хоть какая документация по API в отличие от того же PhantomJS, хотелось бы узнать, делали ли вы связку с CasperJS?

Look

Простой парсинг сайтов с помощью SlimerJS

Tur1st Jan 14 2015 at 09:55

Все эти функции поддерживаются в полной мере, подробнее об этом здесь, опыт в парсинге закрытых страниц есть

Look