sashaeve 28 авг 2009 в 18:25

Data Extracting SDK: Часть 1

4 мин

1.6K

Я пиарюсь

+27

Комментарии 24

JonyRock 28 авг 2009 в 19:05

Спасибо, мне это будет полезно. Прошлым летом убил много времени на написание подобного функционала, только на .net 2.0

Pavel_Osipov 28 авг 2009 в 19:39

Очень интересный проект. Сейчас начинаю заниматься Web Data Mining, что-то мне подсказывает, что подобные классы могут весьма облегчить жизнь в будущем

edhell 28 авг 2009 в 21:22

недавно для разбора html в Java использовал стандартный HTMLEditorKit, но хочу переделать на nekohtml

edhell 28 авг 2009 в 21:27

upd: кажется нелогичным наследование ContentAnalyzer от HtmlProcessor, я бы сделал «использование» вместо «наследования» или вообще один класс

mdevils 25 дек 2009 в 21:56

Вы хотели сказать «инкапсюляцию»?

MgDuke 29 авг 2009 в 01:04

Очень неплохо, только немного непонятно почему не использовать обычный WebRequest для получения контента, а затем уже вашу библиотеку для парсинга? Это немного отпугивает.

MgDuke 29 авг 2009 в 01:14

Странно, но нашел исходников на плексе.
Ни в SVN, ни в TFS. Исходники будут?

sashaeve 29 авг 2009 в 01:24

Исходники есть для WebScreenshotExtractor и методов-расширений. Также будут в скором времени будут выложены реальные примеры использования SDK (how to), но исходники самого SDK пока выкладываться не будут.

-1

danielkornev 19 мар 2012 в 22:58

WebScreenshotExtractor не спасает от проблем создания скриншотов для некоторых сайтов типа Facebook, где базовый IE ActiveX не успевает нормально сделать DrawToBitmap() и показывает Blank image.

sashaeve 29 авг 2009 в 01:26

Можно и так делать :) Конструктор класса HtmlProcessor может принимать как Uri, так и готовый html. В первом случае скачивание контента осуществлено внутри класса, во втором — сразу парсинг.

ruzzz 29 авг 2009 в 01:12

Как я понимаю, используется движок IE и соответственно Javascript выполняется? Это кстати очень важно, иногда без Javascript невозможно получить нужный контент.

ruzzz 29 авг 2009 в 06:09

Судя по минусу и по тому что автор оставил мой вопрос без ответа — я в чем-то ошибся.
Как я понимаю для создания шотов используется IE и скорее всего будет использоваться Javascript при «рендеринге» картинки сайта. А вот как обстоят дела с «анализом DOM», выполняется ли Javascript код для страницы? Я не .net программист, немного использую для написания утилит «для себя», допускаю что мои вопросы могут быть не корректны.

sashaeve 29 авг 2009 в 12:37

Парсится только чистый html, Javascript не исполняется. Проблема в том, что в каждом конкретном случае поведения скриптов может быть разным, поэтому сделать универсальное решение очень трудно. SDK — набор средств для извлечения данных, но логика извлечения полностью лежит на пользователе.

edhell 29 авг 2009 в 07:15

js, чтобы тырить e-mail адреса для спама?)

ruzzz 29 авг 2009 в 07:24

А для других, «благих» целей это использовать никак нельзя? :)
Я использовал Data Extracting в Qt, там WebKit без проблем отдает содержимое страничек после выполнения Javascript. Было интересно реализовано ли подобное у автора.