Comments / Profile of Cher / Habr

Cher Nov 1 2013 at 07:30

нет, это уже оформление. Его полезно учитывать, но все очень усложняется

Cher Nov 1 2013 at 07:29

Ну все равно сама статья находится обычно в одном div, а вложенные баннеры — во вложенном div. Мы разбиваем DOM по div элементам и берем только текст с текущего уровня, вложенный div отбрасывается и обрабатывается в свою очередь как отдельный элемент.
То есть все эти баннеры и блоки со ссылками будут отброшены

Cher Nov 1 2013 at 07:24

да, как вариант. Это можно сочетать с подсчетом точек(предложений)

Cher Nov 1 2013 at 07:23

ха, не знал, и эта штука гораздо лучше распарсила «неудобную» статью habrahabr.ru/post/194852/

Cher Nov 1 2013 at 07:22

да, вы правы. В статье я как раз и написал что длина блока сработает в 90% случаев

Cher Oct 31 2013 at 18:39

ненавязчивое упоминание в статье )

Cher Oct 31 2013 at 17:05

не очень понятно ) у нас для задач поиска используется

Cher Oct 31 2013 at 15:12

у них не все из того что описано в статье используется

Cher Oct 31 2013 at 15:12

да да, ссылка на его paper есть в сорцах. Дело в том не смотря на то что написано все с кучей формул, они ведут к одному заключению:

We have shown that textual content on the Web can ap- parently be grouped into two classes, long text (most likely the actual content) and short text (most likely navigational boilerplate text) respectively. Through our systematical anal- ysis we found that removing the words from the short text class alone already is a good strategy for cleaning boiler- plate and that using a combination of multiple shallow text features achieves an almost perfect accuracy. To a large ex- tent the detection of boilerplate text does not require any inter-document knowledge (frequency of text blocks, com- mon page layout etc.) nor any training at token level.

Cher Oct 31 2013 at 14:52

хуже чем с div. Текст таблицы (контент) которая уже в таблице (структура страницы) будет распознан как отдельные элементы. Если окружающего таблицу тескта будет много, то более или менее

Cher Oct 31 2013 at 14:49

демку нашей реализации мы выложим позже, но вот что дает например одна известная реализация:
http://boilerpipe-web.appspot.com
они нашли самый большой коммент )

Cher Oct 31 2013 at 14:44

да, там даже учитывается тэг habracut. Но это неспортивно )

Мобильный интернет в России и мире: платформы, потребление, тенденции

Cher Oct 31 2013 at 13:42

Galaxy note 3: 1080 x 1920 pixels Pixel density: 386 ppi )

Cher Oct 24 2013 at 15:24

кстати да ) поправил

Cher Oct 24 2013 at 14:57

Выглядит здорово, хотя пока не везде посмотрел

Спасибо! Только учти что там мало страничек, около 5000

мы просто не доделали дату, ее можно брать из

<div class="published">сегодня в 16:20</div>

но тут придется повозиться с «сегодня» / «вчера» и тд

А в идеале вам бы надо вставить Open graph разметку для статьи (http://ogp.me/#type_article)
и там будет дата article:published_time

С пагинатором вижу «тонкость», починим )

Cher Oct 24 2013 at 14:25

у нас очень суровое железо, 72Gb памяти, 2xXeon, 5 винтов в рейде. Таким 5 штук только под поисковый индекс.

Очень интересна примерная стойкость хранения и обработки одного документа для решений на Elastic Search

не смогу ответить, не до конца понял. Вопрос когда ляжет индекс? )

Cher Oct 24 2013 at 13:55

попробуем показать наши наработки в Хабраблоге )

Cher Oct 24 2013 at 13:42

основной поисковый сервер ElasticSearch + многое дописано к самому ES + всякие другие подсистемы (краулер, парсер, отдача JS, выкачака/сжатие/отдача картинок, статистика, API и пр). Кроме эластика мы еще используем mongoDB.

5000 документов — размер всех документов умножьте на 4 где-то (3xрепликация в индексе, выкачанные картинки, всякая мета информация).
Но в целом такого размера индексы вообще ничего незаметны на наших железяках )

Cher Oct 24 2013 at 13:23

)

-1

Cher Oct 24 2013 at 13:20

мы пока не подписали рекламный контракт, так что прямо сейчас показать рекламный блок не получится, но он будет очень умеренным.
Ну можно зайти с мобилки и потестировать выдачу )