Comments 33
Исходя из первого абзаца:
«Проблема заключается в том, что добрая половина веб-сайтов содержит кучу ненужной информации»
получается, что вот этот сервис как раз делает эту работу
lab.arc90.com/experiments/readability/
Или я чего-то недопонял?
«Проблема заключается в том, что добрая половина веб-сайтов содержит кучу ненужной информации»
получается, что вот этот сервис как раз делает эту работу
lab.arc90.com/experiments/readability/
Или я чего-то недопонял?
Вы поняли правильно. Большое спасибо за ссылку.
У меня по данному урлу не заходит, может закралась ошибка?
Интересный сервис, считает что контентом на хабре являются комментарии а не сама статья :)
По вашей ссылке, выходит, что ваш комментарий самая полезная часть данной страницы:
Спасибо очень интересная тема, сам только недавно начал копать в эту сторону. Ваш пост дал понять мне, на сколько далек я еще от «истины» =)
search.cpan.org/~jzhang/HTML-ContentExtractor-0.02/lib/HTML/ContentExtractor.pm
Очень интересно.
А как вы определяли вклад каждого фактора в общую картину? По регрессионной модели?
А как вы определяли вклад каждого фактора в общую картину? По регрессионной модели?
имхо такой продукт должен существовать в виде расширения к одному из браузеров (или для всех :) )
думаю не очень удобно будет каждый раз копипастить ссылки в отдельную программу.
даешь чистый веб! :)
думаю не очень удобно будет каждый раз копипастить ссылки в отдельную программу.
даешь чистый веб! :)
По моему первичную фильтрацию контента удобнее представлять на конечном сайте. Всегда приятно пользоваться веб сервисом на котором контент можно настроить под себя, а не читать всю кучу ненужной информации. Согласен с предыдущим комментарием по поводу расширения к браузеру. :)
UFO just landed and posted this here
Вы рассуждаете с точки зрения практического использования и я с Вами полностью согласен. В данный момент идея состоит в том, чтобы очистить, а как после этого мы применим ее и где — уже вопрос следующих этапов.
Если же говорить о каталогах, сайтах, где из нужной информации только ссылка для скачивания (зайцев.нет например), то этот подход работать не будет, ведь, по сути, основного контента (т.е. текста) попросту нет.
Если же говорить о каталогах, сайтах, где из нужной информации только ссылка для скачивания (зайцев.нет например), то этот подход работать не будет, ведь, по сути, основного контента (т.е. текста) попросту нет.
> Если же говорить о каталогах, сайтах, где из нужной информации только ссылка для скачивания
> (зайцев.нет например), то этот подход работать не будет, ведь, по сути, основного контента (т.е. текста)
> попросту нет.
Ещё комиксные сайты некоторые проблемы доставляют. Мне на них оказалось проще зафильтровать всё, что точно не является контентом, чем пытаться выделить контентный IMG.
> (зайцев.нет например), то этот подход работать не будет, ведь, по сути, основного контента (т.е. текста)
> попросту нет.
Ещё комиксные сайты некоторые проблемы доставляют. Мне на них оказалось проще зафильтровать всё, что точно не является контентом, чем пытаться выделить контентный IMG.
Что Вы думаете о возможности для пользователя скрывать/отключать блоки с маловажной информацией и «мусором»? До прочтения Вашей статьи считал, что нельзя позволять юзерам такие вольности.
UFO just landed and posted this here
может пропустил. А регрессия линейная или нет?
Да, SmartBrowser в качестве плагина для лисы был бы очень полезен, единственно не понимаю зачем Микрософту спонсировать разработку — не думаю что им это выгодно.
А количество плагинов для лисы, позволяющих настраивать вид страницы огромно, вот только для автоматического клинапа нашелся только один — Clean the junk — https://addons.mozilla.org/ru/firefox/addon/13193
А количество плагинов для лисы, позволяющих настраивать вид страницы огромно, вот только для автоматического клинапа нашелся только один — Clean the junk — https://addons.mozilla.org/ru/firefox/addon/13193
UFO just landed and posted this here
«An error has been occured while processing the query. Please try again.» — И ни в какую. Windows 7 7100
Было бы неплохо, если бы программа пыталась открыть url не только при клике мышкой по кнопочке, но и при нажатии клавиши Enter.
Было бы неплохо, если бы программа пыталась открыть url не только при клике мышкой по кнопочке, но и при нажатии клавиши Enter.
тоже проблемы:
System.IO.FileNotFoundException: Невозможно загрузить файл или сборку «Microsoft.mshtml, Version=7.0.3300.0, Culture=neutral, PublicKeyToken=b03f5f7f11d50a3a» или один из зависимых от них компонентов. Не удается найти указанный файл.
Имя файла: «Microsoft.mshtml, Version=7.0.3300.0, Culture=neutral, PublicKeyToken=b03f5f7f11d50a3a»
System.IO.FileNotFoundException: Невозможно загрузить файл или сборку «Microsoft.mshtml, Version=7.0.3300.0, Culture=neutral, PublicKeyToken=b03f5f7f11d50a3a» или один из зависимых от них компонентов. Не удается найти указанный файл.
Имя файла: «Microsoft.mshtml, Version=7.0.3300.0, Culture=neutral, PublicKeyToken=b03f5f7f11d50a3a»
Необходимо, чтобы на машине была установлена библиотека Microsoft.mshtml. Она устанавливается либо с Visual Studio, а также входит в различные SDK. Подробнее www.dotnet-tips.com/2006/09/issue-with-could-not-load-file-or.html
Больше чем уверен, такую штуку можно было бы скомпилять и для Net 2.0. Просто многие еще висят на XP. Или вы использовали фичи более поздних версий фреймворка, еслс ДА, то какие — интересно как разработчику. Сам стараюсь все под 2.0 подгонять…
Конечно, можно было писать и на 2.0.
В 3.5 использую упрощенную запись свойств типа «public string SomeProp {get;set;}» — при большом количестве свойств ощущается экономия места. Ну и Linq + лямбда-выражения, без них никак… :)
В 3.5 использую упрощенную запись свойств типа «public string SomeProp {get;set;}» — при большом количестве свойств ощущается экономия места. Ну и Linq + лямбда-выражения, без них никак… :)
ну про «без них никак» вы лукавите ))
Собственно, почему написал пост выше — на большинстве предприятий большая инертность, редко кто ставит что-то выше XP (тут и финансирование[софт, компы], переобучение и др. факторы), поэтому и задал вопрос… мне вот приходится вторым фреймворком обходиться(очень здорово, что софт без особых проблем под mono работает).
Собственно, почему написал пост выше — на большинстве предприятий большая инертность, редко кто ставит что-то выше XP (тут и финансирование[софт, компы], переобучение и др. факторы), поэтому и задал вопрос… мне вот приходится вторым фреймворком обходиться(очень здорово, что софт без особых проблем под mono работает).
Когда привыкаешь к хорошему, трудно себя заставить делать это по другому.
Я, например, убедил начальство использовать ASP.NET 3.5 SP1 ради ASP.NET Dynamic Data для разработки корпоративного сайта. Основной аргумент — сокращение времени разработки (а, значит, экономия денег для компании). А хостинг найти для 3.5 (даже с SP1) сейчас не проблема.
Я, например, убедил начальство использовать ASP.NET 3.5 SP1 ради ASP.NET Dynamic Data для разработки корпоративного сайта. Основной аргумент — сокращение времени разработки (а, значит, экономия денег для компании). А хостинг найти для 3.5 (даже с SP1) сейчас не проблема.
Кстати, по реализации.
Чтобы не приходилось «дискретно» решать мусор это или что-то важное, можно просто использовать яркость/прозрачность контента.
Чуть приглушить «маловажную информацию» и чуть более приглушить «мусор», и чтение станет гораздо более приятным. В то же время это даст возможность все-таки добраться до информации, распознанной как «шум».
Плюс дать возможность по, к примеру, Ctrl-Shift-Mouse Scroll восстанавливать/приглушать яркость и цены такой штуке не будет! А еще если в виде плагинов :)
Чтобы не приходилось «дискретно» решать мусор это или что-то важное, можно просто использовать яркость/прозрачность контента.
Чуть приглушить «маловажную информацию» и чуть более приглушить «мусор», и чтение станет гораздо более приятным. В то же время это даст возможность все-таки добраться до информации, распознанной как «шум».
Плюс дать возможность по, к примеру, Ctrl-Shift-Mouse Scroll восстанавливать/приглушать яркость и цены такой штуке не будет! А еще если в виде плагинов :)
> Среди параметров были следующие:
> * и т.д.
Вот на список параметров с уже проставленными весами было бы очень интересно посмотреть. Я только собираюсь реализовать у себя сходную функциональность и пока не составил даже списка подходящих метрик, не говоря уже о расчёте их влияния.
> * и т.д.
Вот на список параметров с уже проставленными весами было бы очень интересно посмотреть. Я только собираюсь реализовать у себя сходную функциональность и пока не составил даже списка подходящих метрик, не говоря уже о расчёте их влияния.
Sign up to leave a comment.
Очищаем веб-страницы от информационного шума