Я решал подобную задачу (и продолжаю решать) следующим образом:
1. Скрипт для PhantomJS выкачивающий и сохраняющий нужные страницы + авторизация + обработка капчи. Можно на Selenium — у него вроде возможностей побольше.
2. Модуль парсинга на Perl
3. Обвязка на Perl для получения заданий из очереди, отправки событий мониторинга в специальный сервис, сохранение метаданных результатов парсинга в БД, отправка в очередь уведомлений о завершении заданий
Исходники полученных страниц хранятся в s3 чтобы можно было запустить процесс репарсинга.
Все это работает на aws и масштабируется на любое количество машин простым запуском дополнительных инстансов из базового образа.
Я курсе на втором в универе на Borland Pascal написал оболочку, которая позволяла соревноваться AI в виде подключаемых dll'ок с визуализацией. Ну и самому можно было играть с этими модулями мышкой. Под DOS. Даже соревнования среди одногруппников проводили у кого круче AI :)
Я бы еще рекомендовал почитать Дэвида Майерса «Социальная психология». В ней более глубоко рассматриваются личностные и общественные предпосылки, позволяющие строить подобные манипуляции сознанием.
1. Скрипт для PhantomJS выкачивающий и сохраняющий нужные страницы + авторизация + обработка капчи. Можно на Selenium — у него вроде возможностей побольше.
2. Модуль парсинга на Perl
3. Обвязка на Perl для получения заданий из очереди, отправки событий мониторинга в специальный сервис, сохранение метаданных результатов парсинга в БД, отправка в очередь уведомлений о завершении заданий
Исходники полученных страниц хранятся в s3 чтобы можно было запустить процесс репарсинга.
Все это работает на aws и масштабируется на любое количество машин простым запуском дополнительных инстансов из базового образа.
Вы теоретик или пробовали сами это сделать? Какой поток был? А более чем на одном аккаунте?
Весьма спорное утверждение, особенно учитывая соцдем. Ну да ладно.
Тогда где одноклассники!? :)
Но, надо сказать, довольно сильные.
Он, правда, depricated, но работает.
Хорошо что есть разделение на логические/физические имена таблиц и полей. Это редкость, а я к ним привык со времен ERWin'а.
Невнимательно читал.
Сам использую первую часть кода, но передавать ту же переменную в качестве второго параметра не пробовал.
Тогда объясните мне, пожалуйста, ЗАЧЕМ ПИСАТЬ ТАКОЙ КОД!?