Comments 24
Спасибо, мне это будет полезно. Прошлым летом убил много времени на написание подобного функционала, только на .net 2.0
Очень интересный проект. Сейчас начинаю заниматься Web Data Mining, что-то мне подсказывает, что подобные классы могут весьма облегчить жизнь в будущем
недавно для разбора html в Java использовал стандартный HTMLEditorKit, но хочу переделать на nekohtml
Очень неплохо, только немного непонятно почему не использовать обычный WebRequest для получения контента, а затем уже вашу библиотеку для парсинга? Это немного отпугивает.
Странно, но нашел исходников на плексе.
Ни в SVN, ни в TFS. Исходники будут?
Ни в SVN, ни в TFS. Исходники будут?
Исходники есть для WebScreenshotExtractor и методов-расширений. Также будут в скором времени будут выложены реальные примеры использования SDK (how to), но исходники самого SDK пока выкладываться не будут.
Можно и так делать :) Конструктор класса HtmlProcessor может принимать как Uri, так и готовый html. В первом случае скачивание контента осуществлено внутри класса, во втором — сразу парсинг.
Как я понимаю, используется движок IE и соответственно Javascript выполняется? Это кстати очень важно, иногда без Javascript невозможно получить нужный контент.
Судя по минусу и по тому что автор оставил мой вопрос без ответа — я в чем-то ошибся.
Как я понимаю для создания шотов используется IE и скорее всего будет использоваться Javascript при «рендеринге» картинки сайта. А вот как обстоят дела с «анализом DOM», выполняется ли Javascript код для страницы? Я не .net программист, немного использую для написания утилит «для себя», допускаю что мои вопросы могут быть не корректны.
Как я понимаю для создания шотов используется IE и скорее всего будет использоваться Javascript при «рендеринге» картинки сайта. А вот как обстоят дела с «анализом DOM», выполняется ли Javascript код для страницы? Я не .net программист, немного использую для написания утилит «для себя», допускаю что мои вопросы могут быть не корректны.
js, чтобы тырить e-mail адреса для спама?)
Пожалуй, .net Framework я б выучил только за то, что есть в нем Data Extracting:)
а на Mac нет возможности с эти работать?
А по XPath можно данные выбирать?
«поддержка GET и POST протоколов»
Может быть методов запросов протокола http? ;)
Может быть методов запросов протокола http? ;)
Очень занятная утилита! Но неужели в мире Java еще не нет аналогов? Может кто подскажет?
на шоте заметил знакомые интерфейсы — IHTMLDocumentx. Скажите, внутри каким-то образом используется mshtml?
Думаю, вам будет интересно посмотреть на Microsoft Semantic Engine. ;)
Sign up to leave a comment.
Data Extracting SDK: Часть 1