Pull to refresh
58
0
Roman Lugovkin @RomanL

Пользователь

Send message
Scrapy исполняет клиентский JS код?
Я решал подобную задачу (и продолжаю решать) следующим образом:

1. Скрипт для PhantomJS выкачивающий и сохраняющий нужные страницы + авторизация + обработка капчи. Можно на Selenium — у него вроде возможностей побольше.
2. Модуль парсинга на Perl
3. Обвязка на Perl для получения заданий из очереди, отправки событий мониторинга в специальный сервис, сохранение метаданных результатов парсинга в БД, отправка в очередь уведомлений о завершении заданий

Исходники полученных страниц хранятся в s3 чтобы можно было запустить процесс репарсинга.

Все это работает на aws и масштабируется на любое количество машин простым запуском дополнительных инстансов из базового образа.
«кол-во запросов и сообщений слишком велико чтобы Facebook не заметил подвоха. Это легко решается дополнительными аккаунтами и прокси серверами.»

Вы теоретик или пробовали сами это сделать? Какой поток был? А более чем на одном аккаунте?
Хм.
Весьма спорное утверждение, особенно учитывая соцдем. Ну да ладно.
Тогда где одноклассники!? :)
Зачем это здесь?
Сильные реализации используют альфа-бета отсечения, а у нас были самодельные алгоритмы :)
Но, надо сказать, довольно сильные.
Я курсе на втором в универе на Borland Pascal написал оболочку, которая позволяла соревноваться AI в виде подключаемых dll'ок с визуализацией. Ну и самому можно было играть с этими модулями мышкой. Под DOS. Даже соревнования среди одногруппников проводили у кого круче AI :)
А зачем им в интернет? Птичек на айпэдик поставили — можно спокойно «работать».
Я бы еще рекомендовал почитать Дэвида Майерса «Социальная психология». В ней более глубоко рассматриваются личностные и общественные предпосылки, позволяющие строить подобные манипуляции сознанием.
Иногда используется MAP как метрика точности в подобных системах: www.kaggle.com/wiki/MeanAveragePrecision
developers.google.com/chart/
Он, правда, depricated, но работает.
Я не понял сарказма статьи, извините :)
Дефолтные настройки Apache + MySQL сиииильно вас порадуют, ага.
Надо глянуть.
Хорошо что есть разделение на логические/физические имена таблиц и полей. Это редкость, а я к ним привык со времен ERWin'а.
А что за платформа? На Bada они забили?
РИА «Новости» пишут что ПВО ничего не увидели :)
Зато сколько нервов стоит эта экономия!
Хм, да, виноват.
Невнимательно читал.
Сам использую первую часть кода, но передавать ту же переменную в качестве второго параметра не пробовал.
Я так понимаю всем понятно зачем писать такой код, да?
Тогда объясните мне, пожалуйста, ЗАЧЕМ ПИСАТЬ ТАКОЙ КОД!?

Information

Rating
Does not participate
Location
Владимирская обл., Россия
Date of birth
Registered
Activity