Исходя из первого абзаца:
«Проблема заключается в том, что добрая половина веб-сайтов содержит кучу ненужной информации»
получается, что вот этот сервис как раз делает эту работу
lab.arc90.com/experiments/readability/
Или я чего-то недопонял?
имхо такой продукт должен существовать в виде расширения к одному из браузеров (или для всех :) )
думаю не очень удобно будет каждый раз копипастить ссылки в отдельную программу.
даешь чистый веб! :)
По моему первичную фильтрацию контента удобнее представлять на конечном сайте. Всегда приятно пользоваться веб сервисом на котором контент можно настроить под себя, а не читать всю кучу ненужной информации. Согласен с предыдущим комментарием по поводу расширения к браузеру. :)
Вы рассуждаете с точки зрения практического использования и я с Вами полностью согласен. В данный момент идея состоит в том, чтобы очистить, а как после этого мы применим ее и где — уже вопрос следующих этапов.
Если же говорить о каталогах, сайтах, где из нужной информации только ссылка для скачивания (зайцев.нет например), то этот подход работать не будет, ведь, по сути, основного контента (т.е. текста) попросту нет.
> Если же говорить о каталогах, сайтах, где из нужной информации только ссылка для скачивания
> (зайцев.нет например), то этот подход работать не будет, ведь, по сути, основного контента (т.е. текста)
> попросту нет.
Ещё комиксные сайты некоторые проблемы доставляют. Мне на них оказалось проще зафильтровать всё, что точно не является контентом, чем пытаться выделить контентный IMG.
Что Вы думаете о возможности для пользователя скрывать/отключать блоки с маловажной информацией и «мусором»? До прочтения Вашей статьи считал, что нельзя позволять юзерам такие вольности.
В данном примере регрессия линейная. Как следующий этап исследований — это нахождение факторов которые вообще должны учавствовать в регрессионной модели, ведь по определению все факторы должны быть независимыми, что на практике не всегда верно.
Да, SmartBrowser в качестве плагина для лисы был бы очень полезен, единственно не понимаю зачем Микрософту спонсировать разработку — не думаю что им это выгодно.
А количество плагинов для лисы, позволяющих настраивать вид страницы огромно, вот только для автоматического клинапа нашелся только один — Clean the junk — https://addons.mozilla.org/ru/firefox/addon/13193
«An error has been occured while processing the query. Please try again.» — И ни в какую. Windows 7 7100
Было бы неплохо, если бы программа пыталась открыть url не только при клике мышкой по кнопочке, но и при нажатии клавиши Enter.
System.IO.FileNotFoundException: Невозможно загрузить файл или сборку «Microsoft.mshtml, Version=7.0.3300.0, Culture=neutral, PublicKeyToken=b03f5f7f11d50a3a» или один из зависимых от них компонентов. Не удается найти указанный файл.
Имя файла: «Microsoft.mshtml, Version=7.0.3300.0, Culture=neutral, PublicKeyToken=b03f5f7f11d50a3a»
Больше чем уверен, такую штуку можно было бы скомпилять и для Net 2.0. Просто многие еще висят на XP. Или вы использовали фичи более поздних версий фреймворка, еслс ДА, то какие — интересно как разработчику. Сам стараюсь все под 2.0 подгонять…
В 3.5 использую упрощенную запись свойств типа «public string SomeProp {get;set;}» — при большом количестве свойств ощущается экономия места. Ну и Linq + лямбда-выражения, без них никак… :)
ну про «без них никак» вы лукавите ))
Собственно, почему написал пост выше — на большинстве предприятий большая инертность, редко кто ставит что-то выше XP (тут и финансирование[софт, компы], переобучение и др. факторы), поэтому и задал вопрос… мне вот приходится вторым фреймворком обходиться(очень здорово, что софт без особых проблем под mono работает).
Когда привыкаешь к хорошему, трудно себя заставить делать это по другому.
Я, например, убедил начальство использовать ASP.NET 3.5 SP1 ради ASP.NET Dynamic Data для разработки корпоративного сайта. Основной аргумент — сокращение времени разработки (а, значит, экономия денег для компании). А хостинг найти для 3.5 (даже с SP1) сейчас не проблема.
Чтобы не приходилось «дискретно» решать мусор это или что-то важное, можно просто использовать яркость/прозрачность контента.
Чуть приглушить «маловажную информацию» и чуть более приглушить «мусор», и чтение станет гораздо более приятным. В то же время это даст возможность все-таки добраться до информации, распознанной как «шум».
Плюс дать возможность по, к примеру, Ctrl-Shift-Mouse Scroll восстанавливать/приглушать яркость и цены такой штуке не будет! А еще если в виде плагинов :)
Вот на список параметров с уже проставленными весами было бы очень интересно посмотреть. Я только собираюсь реализовать у себя сходную функциональность и пока не составил даже списка подходящих метрик, не говоря уже о расчёте их влияния.
Очищаем веб-страницы от информационного шума