Как стать автором
Обновить

Комментарии 24

Спасибо, мне это будет полезно. Прошлым летом убил много времени на написание подобного функционала, только на .net 2.0
Очень интересный проект. Сейчас начинаю заниматься Web Data Mining, что-то мне подсказывает, что подобные классы могут весьма облегчить жизнь в будущем
недавно для разбора html в Java использовал стандартный HTMLEditorKit, но хочу переделать на nekohtml

upd: кажется нелогичным наследование ContentAnalyzer от HtmlProcessor, я бы сделал «использование» вместо «наследования» или вообще один класс
Вы хотели сказать «инкапсюляцию»?
Очень неплохо, только немного непонятно почему не использовать обычный WebRequest для получения контента, а затем уже вашу библиотеку для парсинга? Это немного отпугивает.
Странно, но нашел исходников на плексе.
Ни в SVN, ни в TFS. Исходники будут?
Исходники есть для WebScreenshotExtractor и методов-расширений. Также будут в скором времени будут выложены реальные примеры использования SDK (how to), но исходники самого SDK пока выкладываться не будут.
WebScreenshotExtractor не спасает от проблем создания скриншотов для некоторых сайтов типа Facebook, где базовый IE ActiveX не успевает нормально сделать DrawToBitmap() и показывает Blank image.
Можно и так делать :) Конструктор класса HtmlProcessor может принимать как Uri, так и готовый html. В первом случае скачивание контента осуществлено внутри класса, во втором — сразу парсинг.
Как я понимаю, используется движок IE и соответственно Javascript выполняется? Это кстати очень важно, иногда без Javascript невозможно получить нужный контент.
Судя по минусу и по тому что автор оставил мой вопрос без ответа — я в чем-то ошибся.
Как я понимаю для создания шотов используется IE и скорее всего будет использоваться Javascript при «рендеринге» картинки сайта. А вот как обстоят дела с «анализом DOM», выполняется ли Javascript код для страницы? Я не .net программист, немного использую для написания утилит «для себя», допускаю что мои вопросы могут быть не корректны.
Парсится только чистый html, Javascript не исполняется. Проблема в том, что в каждом конкретном случае поведения скриптов может быть разным, поэтому сделать универсальное решение очень трудно. SDK — набор средств для извлечения данных, но логика извлечения полностью лежит на пользователе.
js, чтобы тырить e-mail адреса для спама?)
А для других, «благих» целей это использовать никак нельзя? :)
Я использовал Data Extracting в Qt, там WebKit без проблем отдает содержимое страничек после выполнения Javascript. Было интересно реализовано ли подобное у автора.
Пожалуй, .net Framework я б выучил только за то, что есть в нем Data Extracting:)
а на Mac нет возможности с эти работать?
А по XPath можно данные выбирать?
Эта функциональность планируется в следующих версиях.
«поддержка GET и POST протоколов»
Может быть методов запросов протокола http? ;)
Очень занятная утилита! Но неужели в мире Java еще не нет аналогов? Может кто подскажет?
на шоте заметил знакомые интерфейсы — IHTMLDocumentx. Скажите, внутри каким-то образом используется mshtml?
Да, HtmlProcessor исспользует mshtml.
Думаю, вам будет интересно посмотреть на Microsoft Semantic Engine. ;)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации