@sashaeve4 авг 2009 в 16:58

Очищаем веб-страницы от информационного шума

5 мин

3.8K

Data Mining *

+40

Комментарии 33

@khizhaster 4 авг 2009 в 17:04

Исходя из первого абзаца:
«Проблема заключается в том, что добрая половина веб-сайтов содержит кучу ненужной информации»
получается, что вот этот сервис как раз делает эту работу
lab.arc90.com/experiments/readability/
Или я чего-то недопонял?

@sashaeve 4 авг 2009 в 17:07

Вы поняли правильно. Большое спасибо за ссылку.

@andreypaa 4 авг 2009 в 17:31

У меня по данному урлу не заходит, может закралась ошибка?

@rok 4 авг 2009 в 23:12

Интересный сервис, считает что контентом на хабре являются комментарии а не сама статья :)

@vansickle 5 авг 2009 в 05:43

У меня наоборот осталась только статья, без комментариев

@VIST 5 авг 2009 в 10:53

По вашей ссылке, выходит, что ваш комментарий самая полезная часть данной страницы:

полезный комментарий

@KRen 4 авг 2009 в 20:01

Спасибо очень интересная тема, сам только недавно начал копать в эту сторону. Ваш пост дал понять мне, на сколько далек я еще от «истины» =)

@Irokez 5 авг 2009 в 05:52

search.cpan.org/~jzhang/HTML-ContentExtractor-0.02/lib/HTML/ContentExtractor.pm

@Indalo 5 авг 2009 в 06:11

Очень интересно.

А как вы определяли вклад каждого фактора в общую картину? По регрессионной модели?

@sashaeve 5 авг 2009 в 08:06

Да, для каждого фактора был найдет его «вес» в общей регрессионной модели.

@lotas 5 авг 2009 в 06:19

имхо такой продукт должен существовать в виде расширения к одному из браузеров (или для всех :) )
думаю не очень удобно будет каждый раз копипастить ссылки в отдельную программу.
даешь чистый веб! :)

@niksite 9 авг 2009 в 11:19

для FF оно, разумеется, существует ;o) tidyread называется.

@lotas 9 авг 2009 в 12:24

да, интернет уже не тот..
раньше все эти банеры, ссылки и прочий crap был только на порно сайтах :))

@sidiys 5 авг 2009 в 06:48

По моему первичную фильтрацию контента удобнее представлять на конечном сайте. Всегда приятно пользоваться веб сервисом на котором контент можно настроить под себя, а не читать всю кучу ненужной информации. Согласен с предыдущим комментарием по поводу расширения к браузеру. :)

НЛО прилетело и опубликовало эту надпись здесь

@sashaeve 5 авг 2009 в 08:13

Вы рассуждаете с точки зрения практического использования и я с Вами полностью согласен. В данный момент идея состоит в том, чтобы очистить, а как после этого мы применим ее и где — уже вопрос следующих этапов.

Если же говорить о каталогах, сайтах, где из нужной информации только ссылка для скачивания (зайцев.нет например), то этот подход работать не будет, ведь, по сути, основного контента (т.е. текста) попросту нет.

@niksite 9 авг 2009 в 11:22

> Если же говорить о каталогах, сайтах, где из нужной информации только ссылка для скачивания
> (зайцев.нет например), то этот подход работать не будет, ведь, по сути, основного контента (т.е. текста)
> попросту нет.

Ещё комиксные сайты некоторые проблемы доставляют. Мне на них оказалось проще зафильтровать всё, что точно не является контентом, чем пытаться выделить контентный IMG.

@iLearner 5 авг 2009 в 07:33

Что Вы думаете о возможности для пользователя скрывать/отключать блоки с маловажной информацией и «мусором»? До прочтения Вашей статьи считал, что нельзя позволять юзерам такие вольности.

НЛО прилетело и опубликовало эту надпись здесь

@Valeratal 5 авг 2009 в 08:04

может пропустил. А регрессия линейная или нет?

@sashaeve 5 авг 2009 в 08:09

В данном примере регрессия линейная. Как следующий этап исследований — это нахождение факторов которые вообще должны учавствовать в регрессионной модели, ведь по определению все факторы должны быть независимыми, что на практике не всегда верно.

@chupvl 5 авг 2009 в 08:15

Да, SmartBrowser в качестве плагина для лисы был бы очень полезен, единственно не понимаю зачем Микрософту спонсировать разработку — не думаю что им это выгодно.

А количество плагинов для лисы, позволяющих настраивать вид страницы огромно, вот только для автоматического клинапа нашелся только один — Clean the junk — https://addons.mozilla.org/ru/firefox/addon/13193

@niksite 9 авг 2009 в 11:24

> Clean the junk

AdBlock неплохо с этим справляется. Особенно если с ElementHidingHelper совмещен.
А вы ищете TidyRead.

НЛО прилетело и опубликовало эту надпись здесь

@Andruhon 5 авг 2009 в 08:33

«An error has been occured while processing the query. Please try again.» — И ни в какую. Windows 7 7100
Было бы неплохо, если бы программа пыталась открыть url не только при клике мышкой по кнопочке, но и при нажатии клавиши Enter.

@web4_0 5 авг 2009 в 09:13

тоже проблемы:

System.IO.FileNotFoundException: Невозможно загрузить файл или сборку «Microsoft.mshtml, Version=7.0.3300.0, Culture=neutral, PublicKeyToken=b03f5f7f11d50a3a» или один из зависимых от них компонентов. Не удается найти указанный файл.
Имя файла: «Microsoft.mshtml, Version=7.0.3300.0, Culture=neutral, PublicKeyToken=b03f5f7f11d50a3a»

@sashaeve 5 авг 2009 в 10:49

Необходимо, чтобы на машине была установлена библиотека Microsoft.mshtml. Она устанавливается либо с Visual Studio, а также входит в различные SDK. Подробнее www.dotnet-tips.com/2006/09/issue-with-could-not-load-file-or.html

@megazhuk 5 авг 2009 в 15:13

Больше чем уверен, такую штуку можно было бы скомпилять и для Net 2.0. Просто многие еще висят на XP. Или вы использовали фичи более поздних версий фреймворка, еслс ДА, то какие — интересно как разработчику. Сам стараюсь все под 2.0 подгонять…

@sashaeve 5 авг 2009 в 15:33

Конечно, можно было писать и на 2.0.

В 3.5 использую упрощенную запись свойств типа «public string SomeProp {get;set;}» — при большом количестве свойств ощущается экономия места. Ну и Linq + лямбда-выражения, без них никак… :)

@megazhuk 5 авг 2009 в 15:45

ну про «без них никак» вы лукавите ))
Собственно, почему написал пост выше — на большинстве предприятий большая инертность, редко кто ставит что-то выше XP (тут и финансирование[софт, компы], переобучение и др. факторы), поэтому и задал вопрос… мне вот приходится вторым фреймворком обходиться(очень здорово, что софт без особых проблем под mono работает).

@sashaeve 5 авг 2009 в 15:58

Когда привыкаешь к хорошему, трудно себя заставить делать это по другому.

Я, например, убедил начальство использовать ASP.NET 3.5 SP1 ради ASP.NET Dynamic Data для разработки корпоративного сайта. Основной аргумент — сокращение времени разработки (а, значит, экономия денег для компании). А хостинг найти для 3.5 (даже с SP1) сейчас не проблема.

@CawaSPb 5 авг 2009 в 17:50

Кстати, по реализации.

Чтобы не приходилось «дискретно» решать мусор это или что-то важное, можно просто использовать яркость/прозрачность контента.
Чуть приглушить «маловажную информацию» и чуть более приглушить «мусор», и чтение станет гораздо более приятным. В то же время это даст возможность все-таки добраться до информации, распознанной как «шум».
Плюс дать возможность по, к примеру, Ctrl-Shift-Mouse Scroll восстанавливать/приглушать яркость и цены такой штуке не будет! А еще если в виде плагинов :)

@niksite 9 авг 2009 в 11:29

> Среди параметров были следующие:
> * и т.д.

Вот на список параметров с уже проставленными весами было бы очень интересно посмотреть. Я только собираюсь реализовать у себя сходную функциональность и пока не составил даже списка подходящих метрик, не говоря уже о расчёте их влияния.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий