Comments 42
> Получение основного контента веб-страниц программно
Зачем там слово «программно»?
т.е. до этого всё делалось только аппаратно, а вы предложили программную реализацию?
> необходимо, чтобы все разработчики придерживались единых правил разметки веб-страниц
Собственно, дальше можно не читать. Это уже нереально.
Зачем там слово «программно»?
т.е. до этого всё делалось только аппаратно, а вы предложили программную реализацию?
> необходимо, чтобы все разработчики придерживались единых правил разметки веб-страниц
Собственно, дальше можно не читать. Это уже нереально.
>> Зачем там слово «программно»?
Оно необходимо.
>> Собственно, дальше можно не читать. Это уже нереально.
А вы почитайте, что перед этим написано: «Использование этого метода в данный момент сталкивается с такими проблемами...»
Оно необходимо.
>> Собственно, дальше можно не читать. Это уже нереально.
А вы почитайте, что перед этим написано: «Использование этого метода в данный момент сталкивается с такими проблемами...»
Ожидаем новый виток гонки вооружений между SEO-мастерами и инструментами анализа веб-страниц?
> В данный момент есть проблемы с некоторыми сайтами, например, с хабром.
Удивительно. Вот уж кого сложно обвинить в некошерной (несемантической) верстке. Весь контент лежит в div class=«content» и любые алгоритмы автоматического извлечения данных (будь то tidy read что встраивается расширением к хрому, или feedex.net коий работает расширителем урезанных rss-лент до полнотекстового вида) прекрасно с ним справляются.
Удивительно. Вот уж кого сложно обвинить в некошерной (несемантической) верстке. Весь контент лежит в div class=«content» и любые алгоритмы автоматического извлечения данных (будь то tidy read что встраивается расширением к хрому, или feedex.net коий работает расширителем урезанных rss-лент до полнотекстового вида) прекрасно с ним справляются.
Неужели нельзя было картинки на нормальный хост залить?
блин, используйте habrastorage.org для хостинга картинок. всегда.
Можно посмотреть на алгоритмы в Сафари, там есть функциональность Reader. И все делается автоматом
картинки под хабраэффектом?
Блин, ну как грязи же нормальных картиночных хостингов! Что все изъебнуться-то норовят?!
Перезалил изображения. Прошу извинить — не ожидал такой нагрузки.
System Requirements
1. OS: Windows XP SP3/2003/2003 R2/Vista/2008 32-bit only
2. .NET Framework 3.5
А я думаю че эт на 7 ке х64 не работает :(
1. OS: Windows XP SP3/2003/2003 R2/Vista/2008 32-bit only
2. .NET Framework 3.5
А я думаю че эт на 7 ке х64 не работает :(
Для этой заметки тоже нужен извлекатель контента, не читабельно.
Описание использованных алгоритмов: нет (есть ссылка на redability — чего б было её не проанализировать да не развёрнуто описать? алгоритм у них весьма простой используется)
Реклама собственной разработки в после: есть (при этом, я описание данной программы уже где-то видел довольно давно, судя по статье — ничего с тех пор не изменилось)
Полезность разработки для пользователей: нет (разработка не способна даже с хабром справиться, с коим легко справляются все доступные альтернативы; разработка эта на нечеловеческом .NET под устаревшие операционки, тогда как альтернативы мне встречались и на php и на perl и на python и на javascript, то есть заведомо кросс-платформенные)
Реклама собственной разработки в после: есть (при этом, я описание данной программы уже где-то видел довольно давно, судя по статье — ничего с тех пор не изменилось)
Полезность разработки для пользователей: нет (разработка не способна даже с хабром справиться, с коим легко справляются все доступные альтернативы; разработка эта на нечеловеческом .NET под устаревшие операционки, тогда как альтернативы мне встречались и на php и на perl и на python и на javascript, то есть заведомо кросс-платформенные)
Readability, ЕМНИП, на хабре тоже валится, когда наличествует комментарий, превышающий по объему статью.
Возможно, у разработки автора та же проблема.
А алгоритм, согласен, не мешало бы хоть чуть-чуть осветить, хотя бы в двух словах, в чем идея.
Возможно, у разработки автора та же проблема.
А алгоритм, согласен, не мешало бы хоть чуть-чуть осветить, хотя бы в двух словах, в чем идея.
Странные люди на хабре попадаются…
Описание использованных алгоритмов — 4 статьи привел с развернутым описанием.
Readability использует простой алгоритм — отлично, я за них очень рад.
Реклама собственной разработки — да, так и есть. И что?
Описание видели и ничего не изменилось — да вы, слепой, глядишь.
Полезность не видите — см. выше.
Не может даже с хабром справиться — не хабром едины, главное, что на зарубежных сайтах отрабатывает. А немного подправим — и для любимого вами хабра заработает.
Доступные альтернативы — это какие?
Нечеловеческий .NET — да, вы, извините, просто больной на голову.
Устаревшие операционки — Win7 64bit на которой были сделаны все скриншоты — это устаревшая операционка? Читать внимательно надо, а не ушами хлопать.
Короче, еще один крикун детектед.
Описание использованных алгоритмов — 4 статьи привел с развернутым описанием.
Readability использует простой алгоритм — отлично, я за них очень рад.
Реклама собственной разработки — да, так и есть. И что?
Описание видели и ничего не изменилось — да вы, слепой, глядишь.
Полезность не видите — см. выше.
Не может даже с хабром справиться — не хабром едины, главное, что на зарубежных сайтах отрабатывает. А немного подправим — и для любимого вами хабра заработает.
Доступные альтернативы — это какие?
Нечеловеческий .NET — да, вы, извините, просто больной на голову.
Устаревшие операционки — Win7 64bit на которой были сделаны все скриншоты — это устаревшая операционка? Читать внимательно надо, а не ушами хлопать.
Короче, еще один крикун детектед.
> Описание использованных алгоритмов — 4 статьи привел с развернутым описанием.
Глядя на пост, вижу 11 больших картинок и ни одного описания. Да, ещё 4 ссылки есть. По ссылкам реклама всё той же программы. По одной из сылок крайне общее описание работы программы.
Вы таки блогопосты свои рекламируете, или что-то новое на хабр принесли?
> Описание видели и ничего не изменилось — да вы, слепой, глядишь.
Именно эти ваши блогопосты от 2009 года я и видел. Вы ничего к ним в текущем посте не добавили, лишь тупо проставили ссылки.
> Нечеловеческий .NET — да, вы, извините, просто больной на голову.
Не извиню. Майкроссофт головного мозга лечению поддаётся плохо, и извинению не подлежит.
> Устаревшие операционки — Win7 64bit на которой были сделаны все скриншоты — это устаревшая операционка
По вашим же ссылкам везде проставлено:
System Requirements
OS: Windows XP SP3/2003/2003 R2/Vista/2008 32-bit only
.NET Framework 3.5
Слово «32-bit only» видите, зрячий вы наш?
> Короче, еще один крикун детектед.
«Слепой», «больной», «крикун»…
Вас, похоже, очень задевает объективная реакция на рекламный пост вне блога «я пиарюсь»? Привыкайте, если собираетесь и дальше продавать своё поделие.
Глядя на пост, вижу 11 больших картинок и ни одного описания. Да, ещё 4 ссылки есть. По ссылкам реклама всё той же программы. По одной из сылок крайне общее описание работы программы.
Вы таки блогопосты свои рекламируете, или что-то новое на хабр принесли?
> Описание видели и ничего не изменилось — да вы, слепой, глядишь.
Именно эти ваши блогопосты от 2009 года я и видел. Вы ничего к ним в текущем посте не добавили, лишь тупо проставили ссылки.
> Нечеловеческий .NET — да, вы, извините, просто больной на голову.
Не извиню. Майкроссофт головного мозга лечению поддаётся плохо, и извинению не подлежит.
> Устаревшие операционки — Win7 64bit на которой были сделаны все скриншоты — это устаревшая операционка
По вашим же ссылкам везде проставлено:
System Requirements
OS: Windows XP SP3/2003/2003 R2/Vista/2008 32-bit only
.NET Framework 3.5
Слово «32-bit only» видите, зрячий вы наш?
> Короче, еще один крикун детектед.
«Слепой», «больной», «крикун»…
Вас, похоже, очень задевает объективная реакция на рекламный пост вне блога «я пиарюсь»? Привыкайте, если собираетесь и дальше продавать своё поделие.
>>Вся логика энкапсулирована в классе MainContentExtractor из разработанной библиотеки Data Extracting SDK (в данный момент этой функциональности на сайте еще нет
Читать научись, перед тем как что то писать «объективное».
>>Вы таки блогопосты свои рекламируете, или что-то новое на хабр принесли?
А вы зайдите в профиль и посмотрите. Или лишние телодвижения сейчас не в моде?
У вас самого с мозгом проблемы.
Читать научись, перед тем как что то писать «объективное».
>>Вы таки блогопосты свои рекламируете, или что-то новое на хабр принесли?
А вы зайдите в профиль и посмотрите. Или лишние телодвижения сейчас не в моде?
У вас самого с мозгом проблемы.
> >>Вся логика энкапсулирована в классе MainContentExtractor из разработанной библиотеки Data Extracting
> SDK (в данный момент этой функциональности на сайте еще нет
> Читать научись, перед тем как что то писать «объективное».
Ага. То есть вы в техническом блоге datamining (не в «я пиарюсь») рекламируете свою прошлогоднюю программу (и только её, SDK нет, толкового описания работы нет, есть общие слова о том, что такое datamining, но в этом блоге половина статей с этого начиналась). Приводите ссылки на свои же блогопосты от 2009 года. При этом описываемой функциональности на вашем сайте даже и нет, как вы только что верно подметили.
> А вы зайдите в профиль и посмотрите. Или лишние телодвижения сейчас не в моде?
Зашел, посмотрел. Постом ранее вы ратовали за то, чтобы на хабре было больше полезных технических постов. Набрали с этого благого желания +80. А потом пошли в технический блог и выложили рекламный пост. Да вы, тьфу, SEOшник!
> SDK (в данный момент этой функциональности на сайте еще нет
> Читать научись, перед тем как что то писать «объективное».
Ага. То есть вы в техническом блоге datamining (не в «я пиарюсь») рекламируете свою прошлогоднюю программу (и только её, SDK нет, толкового описания работы нет, есть общие слова о том, что такое datamining, но в этом блоге половина статей с этого начиналась). Приводите ссылки на свои же блогопосты от 2009 года. При этом описываемой функциональности на вашем сайте даже и нет, как вы только что верно подметили.
> А вы зайдите в профиль и посмотрите. Или лишние телодвижения сейчас не в моде?
Зашел, посмотрел. Постом ранее вы ратовали за то, чтобы на хабре было больше полезных технических постов. Набрали с этого благого желания +80. А потом пошли в технический блог и выложили рекламный пост. Да вы, тьфу, SEOшник!
Не виже смысла что-то объяснять дебилу.
Мальчик, тебе в школу не пора? Что переместил топик в «я пиарюсь» — хвалю, молодец. А то ж это было нарушением правил хабра, за что мог бы и ата-та словить. Осталось разговаривать научиться, а то ругаешься как впервые дорвавшийся до интернета старшеклассник — мозгов ещё нет, зато гормоны бурлят. Не то, что-бы это кого-либо волновало, просто мне больше по нраву чистый от глупости хабр.
То же пишу программку, которая высовывает контент со страницы. Не подскажешь автор, как легче всего данные, похожие на формат xml, перевести в переменные?
Ну почему-то сразу в голову приходит eXpat. Это SAX XML парсер. Немного правда мудреный.
Спасибо. Но желательно стандартными средствами C# и библиотеки .NET.
Отличная работа.
С приходом HTML5 проблема находжения основного контента должна исчезнуть
Эх, HTML5… Меня вот друг вчера позвал помочь. Ему в 1С приходят отчеты в HTML, сформированные каким-то Oracle Reports. Так это вынос мозга. Такое впечатление, что тот, кто делал HTML-шаблон, просто нарочно сделал его как можно более невалидным и запутанным, но при этом напоминающим HTML. Таблица в таблице и в таблицу завернуто, <TR> и <TD> не закрыты… в общем, весело.
А за статью спасибо!
Readability использую несколько недель — результатами доволен. Правда, иногда он всё-же не совсем правильно вырезает статью, может и что-то лишнее схавать. Очевидно, полностью проблема не решена пока никем :)
Я вот для чтения текстов использую Ice Book Reader. Очень удобно.
Но в нем косяк сейчас, очень много нужно кликов что бы начать читать текст из браузера.
Сейчас в ветке обсуждается как сделать что бы можно было начинать читать в IBR в один клик.
www.ice-graphics.com/forumr/viewtopic.php?p=12274#12274
апайте тему, кто читает в IBR и кто бы начинать читать в нем текст из браузера можно было в один клик
Но в нем косяк сейчас, очень много нужно кликов что бы начать читать текст из браузера.
Сейчас в ветке обсуждается как сделать что бы можно было начинать читать в IBR в один клик.
www.ice-graphics.com/forumr/viewtopic.php?p=12274#12274
апайте тему, кто читает в IBR и кто бы начинать читать в нем текст из браузера можно было в один клик
разработка интересная, но нет описания алгоритма и принципов работы. поэтому ценность статьи нулевая.
Нужен плагин для Firefox который бы копировал в буфер основной контент.
Далее этот контент перехватывается программой читалкой Ice Book reader
www.ice-graphics.com/forumr/viewtopic.php?p=12274#12274
Может кто встречал?
Далее этот контент перехватывается программой читалкой Ice Book reader
www.ice-graphics.com/forumr/viewtopic.php?p=12274#12274
Может кто встречал?
Sign up to leave a comment.
Получение основного контента веб-страниц программно