Ну все равно сама статья находится обычно в одном div, а вложенные баннеры — во вложенном div. Мы разбиваем DOM по div элементам и берем только текст с текущего уровня, вложенный div отбрасывается и обрабатывается в свою очередь как отдельный элемент.
То есть все эти баннеры и блоки со ссылками будут отброшены
да да, ссылка на его paper есть в сорцах. Дело в том не смотря на то что написано все с кучей формул, они ведут к одному заключению:
We have shown that textual content on the Web can ap- parently be grouped into two classes, long text (most likely the actual content) and short text (most likely navigational boilerplate text) respectively. Through our systematical anal- ysis we found that removing the words from the short text class alone already is a good strategy for cleaning boiler- plate and that using a combination of multiple shallow text features achieves an almost perfect accuracy. To a large ex- tent the detection of boilerplate text does not require any inter-document knowledge (frequency of text blocks, com- mon page layout etc.) nor any training at token level.
хуже чем с div. Текст таблицы (контент) которая уже в таблице (структура страницы) будет распознан как отдельные элементы. Если окружающего таблицу тескта будет много, то более или менее
демку нашей реализации мы выложим позже, но вот что дает например одна известная реализация: http://boilerpipe-web.appspot.com
они нашли самый большой коммент )
основной поисковый сервер ElasticSearch + многое дописано к самому ES + всякие другие подсистемы (краулер, парсер, отдача JS, выкачака/сжатие/отдача картинок, статистика, API и пр). Кроме эластика мы еще используем mongoDB.
5000 документов — размер всех документов умножьте на 4 где-то (3xрепликация в индексе, выкачанные картинки, всякая мета информация).
Но в целом такого размера индексы вообще ничего незаметны на наших железяках )
мы пока не подписали рекламный контракт, так что прямо сейчас показать рекламный блок не получится, но он будет очень умеренным.
Ну можно зайти с мобилки и потестировать выдачу )
То есть все эти баннеры и блоки со ссылками будут отброшены
http://boilerpipe-web.appspot.com
они нашли самый большой коммент )
Спасибо! Только учти что там мало страничек, около 5000
мы просто не доделали дату, ее можно брать из
но тут придется повозиться с «сегодня» / «вчера» и тд
А в идеале вам бы надо вставить Open graph разметку для статьи (http://ogp.me/#type_article)
и там будет дата article:published_time
С пагинатором вижу «тонкость», починим )
не смогу ответить, не до конца понял. Вопрос когда ляжет индекс? )
5000 документов — размер всех документов умножьте на 4 где-то (3xрепликация в индексе, выкачанные картинки, всякая мета информация).
Но в целом такого размера индексы вообще ничего незаметны на наших железяках )
Ну можно зайти с мобилки и потестировать выдачу )