Я в свое время тоже писал автоматическую качалку с rapidshare — там URL кодировался urlencode, кажется
А потом они поставили капчу — видимо таких умников было слишком много :)
На сколько я знаю, сейчас rapidshare.com опять без капчи. Давно уже качаю с нее все подряд простеньким скриптом, который перебирает 128 IP адресов моего сервера :)
Ссылки ничем не отличаются, все они записываются в разные , но только один из показывается пользователю остальные остаются display:none. Поэтому без знания, какой включили в display:block нельзя понять какая ссылка настоящая.
html_with_javascript.htm — это html файл с js кодом внутри, а
pure_html.htm — это обработанный файл, в котором все js вставки выполнены и преобразованы в Html.
Нашел вот такую штуку wxJavascript (http://www.wxjavascript.net/), даже работает из командной строки. Однако немного не то.
Она позволяет лишь выполнять js код, а у меня есть куча html файлов, с таблицами сформированными javascript-ом (при помощи функций и document.write), при чем код бывает разным.
Необходимо из них вытащить данные, сохранив целостность структуры. Теоретически конечно задача решаема, но хотелось бы 100% метод, чтобы без костылей.
Расшифровываем Javascript на примере файлового хостинга mediafire.com