All streams
Search
Write a publication
Pull to refresh
106
0
Cher @Cher

User

Send message
нет, это уже оформление. Его полезно учитывать, но все очень усложняется
Ну все равно сама статья находится обычно в одном div, а вложенные баннеры — во вложенном div. Мы разбиваем DOM по div элементам и берем только текст с текущего уровня, вложенный div отбрасывается и обрабатывается в свою очередь как отдельный элемент.
То есть все эти баннеры и блоки со ссылками будут отброшены
да, как вариант. Это можно сочетать с подсчетом точек(предложений)
ха, не знал, и эта штука гораздо лучше распарсила «неудобную» статью habrahabr.ru/post/194852/
да, вы правы. В статье я как раз и написал что длина блока сработает в 90% случаев
ненавязчивое упоминание в статье )
не очень понятно ) у нас для задач поиска используется
у них не все из того что описано в статье используется
да да, ссылка на его paper есть в сорцах. Дело в том не смотря на то что написано все с кучей формул, они ведут к одному заключению:
We have shown that textual content on the Web can ap- parently be grouped into two classes, long text (most likely the actual content) and short text (most likely navigational boilerplate text) respectively. Through our systematical anal- ysis we found that removing the words from the short text class alone already is a good strategy for cleaning boiler- plate and that using a combination of multiple shallow text features achieves an almost perfect accuracy. To a large ex- tent the detection of boilerplate text does not require any inter-document knowledge (frequency of text blocks, com- mon page layout etc.) nor any training at token level.
хуже чем с div. Текст таблицы (контент) которая уже в таблице (структура страницы) будет распознан как отдельные элементы. Если окружающего таблицу тескта будет много, то более или менее
демку нашей реализации мы выложим позже, но вот что дает например одна известная реализация:
http://boilerpipe-web.appspot.com
они нашли самый большой коммент )

да, там даже учитывается тэг habracut. Но это неспортивно )
Galaxy note 3: 1080 x 1920 pixels Pixel density: 386 ppi )
кстати да ) поправил
Выглядит здорово, хотя пока не везде посмотрел

Спасибо! Только учти что там мало страничек, около 5000

мы просто не доделали дату, ее можно брать из
<div class="published">сегодня в 16:20</div>

но тут придется повозиться с «сегодня» / «вчера» и тд

А в идеале вам бы надо вставить Open graph разметку для статьи (http://ogp.me/#type_article)
и там будет дата article:published_time

С пагинатором вижу «тонкость», починим )
у нас очень суровое железо, 72Gb памяти, 2xXeon, 5 винтов в рейде. Таким 5 штук только под поисковый индекс.
Очень интересна примерная стойкость хранения и обработки одного документа для решений на Elastic Search

не смогу ответить, не до конца понял. Вопрос когда ляжет индекс? )
попробуем показать наши наработки в Хабраблоге )
основной поисковый сервер ElasticSearch + многое дописано к самому ES + всякие другие подсистемы (краулер, парсер, отдача JS, выкачака/сжатие/отдача картинок, статистика, API и пр). Кроме эластика мы еще используем mongoDB.

5000 документов — размер всех документов умножьте на 4 где-то (3xрепликация в индексе, выкачанные картинки, всякая мета информация).
Но в целом такого размера индексы вообще ничего незаметны на наших железяках )
мы пока не подписали рекламный контракт, так что прямо сейчас показать рекламный блок не получится, но он будет очень умеренным.
Ну можно зайти с мобилки и потестировать выдачу )

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Date of birth
Registered
Activity