sashaeve Oct 5 2010 at 12:10

Получение основного контента веб-страниц программно

3 min

1.5K

Self Promo

+34

Comments 42

xn__p2a Oct 5 2010 at 12:16

> Получение основного контента веб-страниц программно

Зачем там слово «программно»?
т.е. до этого всё делалось только аппаратно, а вы предложили программную реализацию?

> необходимо, чтобы все разработчики придерживались единых правил разметки веб-страниц

Собственно, дальше можно не читать. Это уже нереально.

sashaeve Oct 5 2010 at 12:37

>> Зачем там слово «программно»?
Оно необходимо.

>> Собственно, дальше можно не читать. Это уже нереально.
А вы почитайте, что перед этим написано: «Использование этого метода в данный момент сталкивается с такими проблемами...»

UFO landed and left these words here

sergeyzwezdin Oct 6 2010 at 04:32

наверное, лучше было бы употребить «автоматизированно»

tyomitch Oct 5 2010 at 12:19

Ожидаем новый виток гонки вооружений между SEO-мастерами и инструментами анализа веб-страниц?

Neutral Oct 6 2010 at 12:19

Дорвейщики снисходительно улыбаются читая этот пост.

niksite Oct 5 2010 at 13:15

> В данный момент есть проблемы с некоторыми сайтами, например, с хабром.

Удивительно. Вот уж кого сложно обвинить в некошерной (несемантической) верстке. Весь контент лежит в div class=«content» и любые алгоритмы автоматического извлечения данных (будь то tidy read что встраивается расширением к хрому, или feedex.net коий работает расширителем урезанных rss-лент до полнотекстового вида) прекрасно с ним справляются.

alexxxst Oct 5 2010 at 13:27

Неужели нельзя было картинки на нормальный хост залить?

youmee Oct 5 2010 at 13:33

блин, используйте habrastorage.org для хостинга картинок. всегда.

Kukunin Oct 5 2010 at 13:46

habreffect.ru

TheShock Oct 5 2010 at 16:01

там без флеша грузить нельзя, потому — не работает

Pilot34 Oct 5 2010 at 13:35

Можно посмотреть на алгоритмы в Сафари, там есть функциональность Reader. И все делается автоматом

lega Oct 5 2010 at 13:35

картинки под хабраэффектом?

david_mz Oct 5 2010 at 13:49

Блин, ну как грязи же нормальных картиночных хостингов! Что все изъебнуться-то норовят?!

sashaeve Oct 5 2010 at 14:48

Перезалил изображения. Прошу извинить — не ожидал такой нагрузки.

bimcom Oct 5 2010 at 15:12

System Requirements

1. OS: Windows XP SP3/2003/2003 R2/Vista/2008 32-bit only
2. .NET Framework 3.5
А я думаю че эт на 7 ке х64 не работает :(

Namelles_One Oct 6 2010 at 07:10

+1, тоже не работает.
Прям абыдно(

niksite Oct 6 2010 at 08:58

Он ниже пишет, что оно и не должно работать. «этой функциональности на сайте еще нет». Этот пост — просто SEO-реклама блога (ссылки с главной хабра любит яндекс), не более того.

yadaya Oct 5 2010 at 17:16

Для этой заметки тоже нужен извлекатель контента, не читабельно.

niksite Oct 5 2010 at 18:08

Описание использованных алгоритмов: нет (есть ссылка на redability — чего б было её не проанализировать да не развёрнуто описать? алгоритм у них весьма простой используется)
Реклама собственной разработки в после: есть (при этом, я описание данной программы уже где-то видел довольно давно, судя по статье — ничего с тех пор не изменилось)
Полезность разработки для пользователей: нет (разработка не способна даже с хабром справиться, с коим легко справляются все доступные альтернативы; разработка эта на нечеловеческом .NET под устаревшие операционки, тогда как альтернативы мне встречались и на php и на perl и на python и на javascript, то есть заведомо кросс-платформенные)

Dragonizer Oct 5 2010 at 18:41

Readability, ЕМНИП, на хабре тоже валится, когда наличествует комментарий, превышающий по объему статью.
Возможно, у разработки автора та же проблема.

А алгоритм, согласен, не мешало бы хоть чуть-чуть осветить, хотя бы в двух словах, в чем идея.

niksite Oct 5 2010 at 19:00

> Readability, ЕМНИП, на хабре тоже валится, когда наличествует комментарий, превышающий по объему статью.

Они, судя по коду, вполне умеют отфильтровывать комментарии и повышать вес контенту. А в хабре комментарии это содержимое блока div id=«comments», который Readability по идее сечет.

sashaeve Oct 5 2010 at 18:49

Странные люди на хабре попадаются…

Описание использованных алгоритмов — 4 статьи привел с развернутым описанием.
Readability использует простой алгоритм — отлично, я за них очень рад.
Реклама собственной разработки — да, так и есть. И что?
Описание видели и ничего не изменилось — да вы, слепой, глядишь.
Полезность не видите — см. выше.
Не может даже с хабром справиться — не хабром едины, главное, что на зарубежных сайтах отрабатывает. А немного подправим — и для любимого вами хабра заработает.
Доступные альтернативы — это какие?
Нечеловеческий .NET — да, вы, извините, просто больной на голову.
Устаревшие операционки — Win7 64bit на которой были сделаны все скриншоты — это устаревшая операционка? Читать внимательно надо, а не ушами хлопать.

Короче, еще один крикун детектед.

niksite Oct 5 2010 at 19:26

> Описание использованных алгоритмов — 4 статьи привел с развернутым описанием.

Глядя на пост, вижу 11 больших картинок и ни одного описания. Да, ещё 4 ссылки есть. По ссылкам реклама всё той же программы. По одной из сылок крайне общее описание работы программы.
Вы таки блогопосты свои рекламируете, или что-то новое на хабр принесли?

> Описание видели и ничего не изменилось — да вы, слепой, глядишь.

Именно эти ваши блогопосты от 2009 года я и видел. Вы ничего к ним в текущем посте не добавили, лишь тупо проставили ссылки.

> Нечеловеческий .NET — да, вы, извините, просто больной на голову.

Не извиню. Майкроссофт головного мозга лечению поддаётся плохо, и извинению не подлежит.

> Устаревшие операционки — Win7 64bit на которой были сделаны все скриншоты — это устаревшая операционка

По вашим же ссылкам везде проставлено:

System Requirements
OS: Windows XP SP3/2003/2003 R2/Vista/2008 32-bit only
.NET Framework 3.5

Слово «32-bit only» видите, зрячий вы наш?

> Короче, еще один крикун детектед.

«Слепой», «больной», «крикун»…
Вас, похоже, очень задевает объективная реакция на рекламный пост вне блога «я пиарюсь»? Привыкайте, если собираетесь и дальше продавать своё поделие.

sashaeve Oct 5 2010 at 19:46

>>Вся логика энкапсулирована в классе MainContentExtractor из разработанной библиотеки Data Extracting SDK (в данный момент этой функциональности на сайте еще нет
Читать научись, перед тем как что то писать «объективное».

>>Вы таки блогопосты свои рекламируете, или что-то новое на хабр принесли?
А вы зайдите в профиль и посмотрите. Или лишние телодвижения сейчас не в моде?

У вас самого с мозгом проблемы.

niksite Oct 5 2010 at 20:00

> >>Вся логика энкапсулирована в классе MainContentExtractor из разработанной библиотеки Data Extracting
> SDK (в данный момент этой функциональности на сайте еще нет
> Читать научись, перед тем как что то писать «объективное».

Ага. То есть вы в техническом блоге datamining (не в «я пиарюсь») рекламируете свою прошлогоднюю программу (и только её, SDK нет, толкового описания работы нет, есть общие слова о том, что такое datamining, но в этом блоге половина статей с этого начиналась). Приводите ссылки на свои же блогопосты от 2009 года. При этом описываемой функциональности на вашем сайте даже и нет, как вы только что верно подметили.

> А вы зайдите в профиль и посмотрите. Или лишние телодвижения сейчас не в моде?

Зашел, посмотрел. Постом ранее вы ратовали за то, чтобы на хабре было больше полезных технических постов. Набрали с этого благого желания +80. А потом пошли в технический блог и выложили рекламный пост. Да вы, тьфу, SEOшник!

sashaeve Oct 6 2010 at 07:31

Не виже смысла что-то объяснять дебилу.

niksite Oct 6 2010 at 08:55

Мальчик, тебе в школу не пора? Что переместил топик в «я пиарюсь» — хвалю, молодец. А то ж это было нарушением правил хабра, за что мог бы и ата-та словить. Осталось разговаривать научиться, а то ругаешься как впервые дорвавшийся до интернета старшеклассник — мозгов ещё нет, зато гормоны бурлят. Не то, что-бы это кого-либо волновало, просто мне больше по нраву чистый от глупости хабр.

sashaeve Oct 6 2010 at 11:46

Мальчиком будешь своего папу называть. Хочешь «чистый от глупостей хабр» — попроси администрацию удались свой аккаунт, глядишь, действительне, чище станет.

VasyaMobile Oct 5 2010 at 19:06

То же пишу программку, которая высовывает контент со страницы. Не подскажешь автор, как легче всего данные, похожие на формат xml, перевести в переменные?

vit1251 Oct 5 2010 at 19:42

Ну почему-то сразу в голову приходит eXpat. Это SAX XML парсер. Немного правда мудреный.

VasyaMobile Oct 5 2010 at 19:51

Спасибо. Но желательно стандартными средствами C# и библиотеки .NET.

vit1251 Oct 5 2010 at 19:59

По правде сказать C# это как VisualBasic если никто не напишет, то вся надежда что Microsoft включит в .NET Faramework %текущая версия% + 1

VasyaMobile Oct 5 2010 at 20:07

Ну я имею ввиду какой самый простой способ, используя стандартные средства. Я то могу сделать что надо. Но это такой г*мор будет.

sergeyzwezdin Oct 6 2010 at 04:33

Отличная работа.

crocodile2u Oct 6 2010 at 05:50

С приходом HTML5 проблема находжения основного контента должна исчезнуть

Эх, HTML5… Меня вот друг вчера позвал помочь. Ему в 1С приходят отчеты в HTML, сформированные каким-то Oracle Reports. Так это вынос мозга. Такое впечатление, что тот, кто делал HTML-шаблон, просто нарочно сделал его как можно более невалидным и запутанным, но при этом напоминающим HTML. Таблица в таблице и в таблицу завернуто, <TR> и <TD> не закрыты… в общем, весело.

А за статью спасибо!

charon Oct 6 2010 at 10:11

Readability использую несколько недель — результатами доволен. Правда, иногда он всё-же не совсем правильно вырезает статью, может и что-то лишнее схавать. Очевидно, полностью проблема не решена пока никем :)

niksite Oct 6 2010 at 12:05

Так и есть. Это ai-полная задача. Но добиться 99% успеха уже неплохо и вполне достижимо.

maxirk Oct 7 2010 at 07:19

Я вот для чтения текстов использую Ice Book Reader. Очень удобно.
Но в нем косяк сейчас, очень много нужно кликов что бы начать читать текст из браузера.
Сейчас в ветке обсуждается как сделать что бы можно было начинать читать в IBR в один клик.

www.ice-graphics.com/forumr/viewtopic.php?p=12274#12274
апайте тему, кто читает в IBR и кто бы начинать читать в нем текст из браузера можно было в один клик

cyberklin Oct 7 2010 at 10:58

разработка интересная, но нет описания алгоритма и принципов работы. поэтому ценность статьи нулевая.

sashaeve Oct 7 2010 at 11:32

>>Ряд моих предыдущих статей были посвящены исследованию этой проблемы, в частности, предлагаю ознакомиться с такими публикациями:

maxirk Oct 14 2010 at 02:12

Нужен плагин для Firefox который бы копировал в буфер основной контент.
Далее этот контент перехватывается программой читалкой Ice Book reader
www.ice-graphics.com/forumr/viewtopic.php?p=12274#12274
Может кто встречал?