Комментарии 42
> Получение основного контента веб-страниц программно
Зачем там слово «программно»?
т.е. до этого всё делалось только аппаратно, а вы предложили программную реализацию?
> необходимо, чтобы все разработчики придерживались единых правил разметки веб-страниц
Собственно, дальше можно не читать. Это уже нереально.
Зачем там слово «программно»?
т.е. до этого всё делалось только аппаратно, а вы предложили программную реализацию?
> необходимо, чтобы все разработчики придерживались единых правил разметки веб-страниц
Собственно, дальше можно не читать. Это уже нереально.
-10
>> Зачем там слово «программно»?
Оно необходимо.
>> Собственно, дальше можно не читать. Это уже нереально.
А вы почитайте, что перед этим написано: «Использование этого метода в данный момент сталкивается с такими проблемами...»
Оно необходимо.
>> Собственно, дальше можно не читать. Это уже нереально.
А вы почитайте, что перед этим написано: «Использование этого метода в данный момент сталкивается с такими проблемами...»
+2
НЛО прилетело и опубликовало эту надпись здесь
Ожидаем новый виток гонки вооружений между SEO-мастерами и инструментами анализа веб-страниц?
0
> В данный момент есть проблемы с некоторыми сайтами, например, с хабром.
Удивительно. Вот уж кого сложно обвинить в некошерной (несемантической) верстке. Весь контент лежит в div class=«content» и любые алгоритмы автоматического извлечения данных (будь то tidy read что встраивается расширением к хрому, или feedex.net коий работает расширителем урезанных rss-лент до полнотекстового вида) прекрасно с ним справляются.
Удивительно. Вот уж кого сложно обвинить в некошерной (несемантической) верстке. Весь контент лежит в div class=«content» и любые алгоритмы автоматического извлечения данных (будь то tidy read что встраивается расширением к хрому, или feedex.net коий работает расширителем урезанных rss-лент до полнотекстового вида) прекрасно с ним справляются.
+2
Неужели нельзя было картинки на нормальный хост залить?
+2
блин, используйте habrastorage.org для хостинга картинок. всегда.
+1
Можно посмотреть на алгоритмы в Сафари, там есть функциональность Reader. И все делается автоматом
+4
картинки под хабраэффектом?
0
Блин, ну как грязи же нормальных картиночных хостингов! Что все изъебнуться-то норовят?!
0
Перезалил изображения. Прошу извинить — не ожидал такой нагрузки.
-1
System Requirements
1. OS: Windows XP SP3/2003/2003 R2/Vista/2008 32-bit only
2. .NET Framework 3.5
А я думаю че эт на 7 ке х64 не работает :(
1. OS: Windows XP SP3/2003/2003 R2/Vista/2008 32-bit only
2. .NET Framework 3.5
А я думаю че эт на 7 ке х64 не работает :(
+1
Для этой заметки тоже нужен извлекатель контента, не читабельно.
+5
Описание использованных алгоритмов: нет (есть ссылка на redability — чего б было её не проанализировать да не развёрнуто описать? алгоритм у них весьма простой используется)
Реклама собственной разработки в после: есть (при этом, я описание данной программы уже где-то видел довольно давно, судя по статье — ничего с тех пор не изменилось)
Полезность разработки для пользователей: нет (разработка не способна даже с хабром справиться, с коим легко справляются все доступные альтернативы; разработка эта на нечеловеческом .NET под устаревшие операционки, тогда как альтернативы мне встречались и на php и на perl и на python и на javascript, то есть заведомо кросс-платформенные)
Реклама собственной разработки в после: есть (при этом, я описание данной программы уже где-то видел довольно давно, судя по статье — ничего с тех пор не изменилось)
Полезность разработки для пользователей: нет (разработка не способна даже с хабром справиться, с коим легко справляются все доступные альтернативы; разработка эта на нечеловеческом .NET под устаревшие операционки, тогда как альтернативы мне встречались и на php и на perl и на python и на javascript, то есть заведомо кросс-платформенные)
+6
Readability, ЕМНИП, на хабре тоже валится, когда наличествует комментарий, превышающий по объему статью.
Возможно, у разработки автора та же проблема.
А алгоритм, согласен, не мешало бы хоть чуть-чуть осветить, хотя бы в двух словах, в чем идея.
Возможно, у разработки автора та же проблема.
А алгоритм, согласен, не мешало бы хоть чуть-чуть осветить, хотя бы в двух словах, в чем идея.
+2
Странные люди на хабре попадаются…
Описание использованных алгоритмов — 4 статьи привел с развернутым описанием.
Readability использует простой алгоритм — отлично, я за них очень рад.
Реклама собственной разработки — да, так и есть. И что?
Описание видели и ничего не изменилось — да вы, слепой, глядишь.
Полезность не видите — см. выше.
Не может даже с хабром справиться — не хабром едины, главное, что на зарубежных сайтах отрабатывает. А немного подправим — и для любимого вами хабра заработает.
Доступные альтернативы — это какие?
Нечеловеческий .NET — да, вы, извините, просто больной на голову.
Устаревшие операционки — Win7 64bit на которой были сделаны все скриншоты — это устаревшая операционка? Читать внимательно надо, а не ушами хлопать.
Короче, еще один крикун детектед.
Описание использованных алгоритмов — 4 статьи привел с развернутым описанием.
Readability использует простой алгоритм — отлично, я за них очень рад.
Реклама собственной разработки — да, так и есть. И что?
Описание видели и ничего не изменилось — да вы, слепой, глядишь.
Полезность не видите — см. выше.
Не может даже с хабром справиться — не хабром едины, главное, что на зарубежных сайтах отрабатывает. А немного подправим — и для любимого вами хабра заработает.
Доступные альтернативы — это какие?
Нечеловеческий .NET — да, вы, извините, просто больной на голову.
Устаревшие операционки — Win7 64bit на которой были сделаны все скриншоты — это устаревшая операционка? Читать внимательно надо, а не ушами хлопать.
Короче, еще один крикун детектед.
-8
> Описание использованных алгоритмов — 4 статьи привел с развернутым описанием.
Глядя на пост, вижу 11 больших картинок и ни одного описания. Да, ещё 4 ссылки есть. По ссылкам реклама всё той же программы. По одной из сылок крайне общее описание работы программы.
Вы таки блогопосты свои рекламируете, или что-то новое на хабр принесли?
> Описание видели и ничего не изменилось — да вы, слепой, глядишь.
Именно эти ваши блогопосты от 2009 года я и видел. Вы ничего к ним в текущем посте не добавили, лишь тупо проставили ссылки.
> Нечеловеческий .NET — да, вы, извините, просто больной на голову.
Не извиню. Майкроссофт головного мозга лечению поддаётся плохо, и извинению не подлежит.
> Устаревшие операционки — Win7 64bit на которой были сделаны все скриншоты — это устаревшая операционка
По вашим же ссылкам везде проставлено:
System Requirements
OS: Windows XP SP3/2003/2003 R2/Vista/2008 32-bit only
.NET Framework 3.5
Слово «32-bit only» видите, зрячий вы наш?
> Короче, еще один крикун детектед.
«Слепой», «больной», «крикун»…
Вас, похоже, очень задевает объективная реакция на рекламный пост вне блога «я пиарюсь»? Привыкайте, если собираетесь и дальше продавать своё поделие.
Глядя на пост, вижу 11 больших картинок и ни одного описания. Да, ещё 4 ссылки есть. По ссылкам реклама всё той же программы. По одной из сылок крайне общее описание работы программы.
Вы таки блогопосты свои рекламируете, или что-то новое на хабр принесли?
> Описание видели и ничего не изменилось — да вы, слепой, глядишь.
Именно эти ваши блогопосты от 2009 года я и видел. Вы ничего к ним в текущем посте не добавили, лишь тупо проставили ссылки.
> Нечеловеческий .NET — да, вы, извините, просто больной на голову.
Не извиню. Майкроссофт головного мозга лечению поддаётся плохо, и извинению не подлежит.
> Устаревшие операционки — Win7 64bit на которой были сделаны все скриншоты — это устаревшая операционка
По вашим же ссылкам везде проставлено:
System Requirements
OS: Windows XP SP3/2003/2003 R2/Vista/2008 32-bit only
.NET Framework 3.5
Слово «32-bit only» видите, зрячий вы наш?
> Короче, еще один крикун детектед.
«Слепой», «больной», «крикун»…
Вас, похоже, очень задевает объективная реакция на рекламный пост вне блога «я пиарюсь»? Привыкайте, если собираетесь и дальше продавать своё поделие.
+5
>>Вся логика энкапсулирована в классе MainContentExtractor из разработанной библиотеки Data Extracting SDK (в данный момент этой функциональности на сайте еще нет
Читать научись, перед тем как что то писать «объективное».
>>Вы таки блогопосты свои рекламируете, или что-то новое на хабр принесли?
А вы зайдите в профиль и посмотрите. Или лишние телодвижения сейчас не в моде?
У вас самого с мозгом проблемы.
Читать научись, перед тем как что то писать «объективное».
>>Вы таки блогопосты свои рекламируете, или что-то новое на хабр принесли?
А вы зайдите в профиль и посмотрите. Или лишние телодвижения сейчас не в моде?
У вас самого с мозгом проблемы.
-5
> >>Вся логика энкапсулирована в классе MainContentExtractor из разработанной библиотеки Data Extracting
> SDK (в данный момент этой функциональности на сайте еще нет
> Читать научись, перед тем как что то писать «объективное».
Ага. То есть вы в техническом блоге datamining (не в «я пиарюсь») рекламируете свою прошлогоднюю программу (и только её, SDK нет, толкового описания работы нет, есть общие слова о том, что такое datamining, но в этом блоге половина статей с этого начиналась). Приводите ссылки на свои же блогопосты от 2009 года. При этом описываемой функциональности на вашем сайте даже и нет, как вы только что верно подметили.
> А вы зайдите в профиль и посмотрите. Или лишние телодвижения сейчас не в моде?
Зашел, посмотрел. Постом ранее вы ратовали за то, чтобы на хабре было больше полезных технических постов. Набрали с этого благого желания +80. А потом пошли в технический блог и выложили рекламный пост. Да вы, тьфу, SEOшник!
> SDK (в данный момент этой функциональности на сайте еще нет
> Читать научись, перед тем как что то писать «объективное».
Ага. То есть вы в техническом блоге datamining (не в «я пиарюсь») рекламируете свою прошлогоднюю программу (и только её, SDK нет, толкового описания работы нет, есть общие слова о том, что такое datamining, но в этом блоге половина статей с этого начиналась). Приводите ссылки на свои же блогопосты от 2009 года. При этом описываемой функциональности на вашем сайте даже и нет, как вы только что верно подметили.
> А вы зайдите в профиль и посмотрите. Или лишние телодвижения сейчас не в моде?
Зашел, посмотрел. Постом ранее вы ратовали за то, чтобы на хабре было больше полезных технических постов. Набрали с этого благого желания +80. А потом пошли в технический блог и выложили рекламный пост. Да вы, тьфу, SEOшник!
+3
Не виже смысла что-то объяснять дебилу.
-4
Мальчик, тебе в школу не пора? Что переместил топик в «я пиарюсь» — хвалю, молодец. А то ж это было нарушением правил хабра, за что мог бы и ата-та словить. Осталось разговаривать научиться, а то ругаешься как впервые дорвавшийся до интернета старшеклассник — мозгов ещё нет, зато гормоны бурлят. Не то, что-бы это кого-либо волновало, просто мне больше по нраву чистый от глупости хабр.
-3
То же пишу программку, которая высовывает контент со страницы. Не подскажешь автор, как легче всего данные, похожие на формат xml, перевести в переменные?
+1
Ну почему-то сразу в голову приходит eXpat. Это SAX XML парсер. Немного правда мудреный.
+1
Спасибо. Но желательно стандартными средствами C# и библиотеки .NET.
0
Отличная работа.
0
С приходом HTML5 проблема находжения основного контента должна исчезнуть
Эх, HTML5… Меня вот друг вчера позвал помочь. Ему в 1С приходят отчеты в HTML, сформированные каким-то Oracle Reports. Так это вынос мозга. Такое впечатление, что тот, кто делал HTML-шаблон, просто нарочно сделал его как можно более невалидным и запутанным, но при этом напоминающим HTML. Таблица в таблице и в таблицу завернуто, <TR> и <TD> не закрыты… в общем, весело.
А за статью спасибо!
0
Readability использую несколько недель — результатами доволен. Правда, иногда он всё-же не совсем правильно вырезает статью, может и что-то лишнее схавать. Очевидно, полностью проблема не решена пока никем :)
+1
Я вот для чтения текстов использую Ice Book Reader. Очень удобно.
Но в нем косяк сейчас, очень много нужно кликов что бы начать читать текст из браузера.
Сейчас в ветке обсуждается как сделать что бы можно было начинать читать в IBR в один клик.
www.ice-graphics.com/forumr/viewtopic.php?p=12274#12274
апайте тему, кто читает в IBR и кто бы начинать читать в нем текст из браузера можно было в один клик
Но в нем косяк сейчас, очень много нужно кликов что бы начать читать текст из браузера.
Сейчас в ветке обсуждается как сделать что бы можно было начинать читать в IBR в один клик.
www.ice-graphics.com/forumr/viewtopic.php?p=12274#12274
апайте тему, кто читает в IBR и кто бы начинать читать в нем текст из браузера можно было в один клик
0
разработка интересная, но нет описания алгоритма и принципов работы. поэтому ценность статьи нулевая.
-1
Нужен плагин для Firefox который бы копировал в буфер основной контент.
Далее этот контент перехватывается программой читалкой Ice Book reader
www.ice-graphics.com/forumr/viewtopic.php?p=12274#12274
Может кто встречал?
Далее этот контент перехватывается программой читалкой Ice Book reader
www.ice-graphics.com/forumr/viewtopic.php?p=12274#12274
Может кто встречал?
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Получение основного контента веб-страниц программно