All streams
Search
Write a publication
Pull to refresh
4
0
Александр @Weageoo

Пользователь

Send message
Апелляция к авторитету — поскольку некто знаменитый, влиятельный либо уважаемый убеждён в чём-то, то оно обязано быть верным.
С чего бы? В этом плане ничего не изменилось. Выбрав другую технологию, мы не подвержены уязвимостям в используемой ранее.
Что заладили-то — регулярки, не регулярки. В парсинге сайтов все методы хороши. Вот вам пример:

selector = HtmlXPathSelector(response)
selector.select(".//table[@class='pricetable']/tr[1]/td[2]/text()").re("(\d+)\s*([^0-9 ]+)")


или вот так я парсил e-mail, который генерился javascript'ом (в целях защиты от парсинга):

contact_email = safe_list_get(selector.select(".//table[@width='90']//script/text()").re('document.write\((.*)\)'), 0)
if contact_email:
    contact_email = re.match("<a.*>(.*)</a>", common.eval_js(contact_email.encode("utf-8"), common.js_context)).group(1)
if contact_email and common.re_patterns["email"].match(contact_email):
    contact["Email"] = contact_email


Да, код не самый красивый (как и сайт, который парсился), но идея, думаю, ясна — для поиска элемента в DOM используем селекторы (XPath или CSS-подобные); для более детального разбора (или когда селекторы слишком жёстко завязываются на структуру сайта) — используем регулярки и всё остальное, что только в голову взбредёт.
С каждым днём роботы становятся всё более угрожающими…
… а может инопланетяне всё же сущестуют…
«Решение MintEye CAPTCHA без кода, китайцами»
Вы правы, яйца Цезаря больше доставляют.
Да, только в случае геля вряд ли они уже приспособятся, учитывая принцип его действия.
IBM будет встраивать в гель свои процессоры. Как вариант.
Наконец-то это кто-то сказал.
Хм, а у нас в Windows есть hosts.
Сколько же настроек на этом вашем фэйсбуке…
Только с версионностью файлов не понятно, что делать. Хотелось бы отдельно для каждого, а не для всего образа…
Кстати, сейчас только подумал. Можно в дропбокс положить диск TrueCrypt и замонтировать его себе. Хм.
Я не хочу писать на С++, я хочу писать на C#, где строгой ОО-подход, сборка мусора, своя BCL, а потом бороться с этим ООП, глупым сборщиком мусора и неоптимальными для высокопроизводительных приложений стандартными инструментами.

Но за статью все же плюс — есть много интересного.
Это больше похоже на паттерны.

Information

Rating
Does not participate
Location
Минск, Минская обл., Беларусь
Date of birth
Registered
Activity