printf Apr 26 2014 at 17:07

Readability своими руками

5 min

23K

JavaScript * Algorithms *

+48

Comments 13

grossws Apr 26 2014 at 18:15

Как говорят в указанной вами статье, теоретическое обоснование приведено в статье «Boilerplate Detection using Shallow Text Features» (Christian Kohlschütter, Peter Fankhauser, Wolfgang Nejdl // inproc WSDM, 2010). Посмотреть на неё можно, например, тут: www.decom.ufop.br/menotti/rp122/sem/sem1-brayan-milton-art.pdf.

Есть, например, boilerpipe, основанный на идеях вышеназванной статьи. Библиотека вполне рабочая.

Есть ещё онлайн-сервис выделения контента diffbot.com. Вполне нормальный, но цены у них поднялись последнее время. И триал получил ограничение на месяц.

printf Apr 26 2014 at 18:56

Именно boilerpipe сначала хотел использовать, но проблема – у меня Java в стеке нет.
Несколько раз порывался разобраться в ней досконально и портировать “as is”, но так и не сделал.

JIghtuse Apr 26 2014 at 18:39

Отлично, спасибо вам за статью и открытый исходник! Об используемых алгоритмах в таких сервисах не читал.
Пользуюсь Framabag, он делает примерно то же самое — Read-It-Later + выделение основного контента страницы. Тоже open source.

Zibx Apr 26 2014 at 18:54

Блог должен быть облачным. Когда на одном домене число заходов приближается к 3к — домен резко меняется на другой, а на старом остаётся редирект. Можно проворачивать это с доменами седьмого уровня.

bak Apr 26 2014 at 19:14

Пробовали как-то измерять качество? Для таких штук тесты ~ бесполезны. Обычно собирают крупный пул html страниц и соответствующего текста, а затем измеряют процент правильно извлечённого.
Из готовых решений с хорошим качеством могу порекомендовать rich content api яндекса.

printf Apr 26 2014 at 19:36

А почему бесполезны? Собираю руками разнообразные страницы и сравниваю, что получилось, с моими эталонными ожиданиями (т.е. с текстом, который я сам руками скопировал с этой страницы). В основном тесты проходят, а если не проходят, то скрипт подвергается насилию.

Получается достаточно интересно, ну и регрессии.

На самом деле надо бы потыкать датасет CleanEval, который по-моему все кроме меня применяют для этой цели.

bak Apr 26 2014 at 19:43

Ну не то чтобы бесполезны… Просто при наличии большого количества примеров небольшие изменения в алгоритме начинают влиять на то, какие из тестов проходят а какие нет. Например, можно разучиться распознавать пять примеров но научиться двадцать. По мере роста пула скрипт подвергать насилию всё сложнее, особенно если вёрстка не идеальна.

akira Apr 27 2014 at 10:44

Я наверное не понимаю, как работает rich content api от Яндекса, но контент с habrahabr.ru или lenta.ru он отдает урезанный.

akira Apr 27 2014 at 10:50

Посмотрел внимательнее, это выжимка содержимого со страницы, а не само содержимое. Явно не замена readability.

bak Apr 27 2014 at 17:10

Само содержимое. Выжимка в демке, в документации описан ключ full, например так.

RuJet Apr 26 2014 at 20:21

Не смотрели как работает Clearly от Evernote? Это расширение для Google Chorme умеющий очищать страницу от лишних элементов.

printf Apr 26 2014 at 20:26

Только визуально. Анимации там классные.

mihmig Apr 30 2014 at 10:57

>>Пример такой программы – strings (существует в большинстве неигровых операционных систем).
Как тонко… Оценил.