Pull to refresh

Comments 3

Я ещё небольшими извращениями проверками занимался в виде дополнения к дереву:

— Строить дерево только по Div и Table, самой большой лист дерева — статья, всё остальное скорее всего (если совпадает с контентом предшествующей страницы на 70-80%) мусор. Ну и немного правил для востановления логики, если в table, что то пропущено.
— Если вёрстка нелогична, понижал рейтинг сайту.
— Правила для отсечения Div и т.п. c логическими именами типа: menu.
— В редких случаях можно попробовать ещё несколько методов, типа фильтраций, карт, нейронных сетей и т.п. Даже ради интереса грузил шаблоны популярных CMS (drupal, wordpress и т.п.) в них есть теги вывода основного контента = патерн выделения центральной части.

Проверки нужны были когда нужен был очень «корректный» текст статьи для определения на основании него определённых смысловых гипотез текста. Но опять же у меня база знаний, а не поисковик в чистом виде :).
Есть некоторая проблема в чистом XOR'е — повторяющиеся блоки на многих страницах зачастую не просто навигационные, но и информационные. Хорошим примером может быть предложение услуг компанией — к примеру, занимающейся недвижимостью — на каждой странице объекта сайдбар с описанием услуг (документальное, юридическое сопровождение сделки, бла-бла-бла), или, опять же в случае недвижимости, но уже работающей с жилыми комплексами — описание местности, например. Просто выкидывать — не очень хорошо (хотя понятно, — раздолье сеошникам, которые будут еще более востребованы из-за необходимости знать, что такому контенту нужна отдельная страница (кстати, построение в дерево учитывает хтмл-теги?)

Получается, что иногда такой контент надо сохранять — можно пойти двумя путями. В первом — отрезать только навигацию (т.е. такой блок на ксор проверять на процент ссылок в нем и еще пару параметров), во втором — оставлять только в «основной» странице (определять «верхнюю» страницу по хлебным крошкам/урлу, и т.д.). А еще лучше использовать оба.

Паттерны выделения контента по микроформатам и принятым стандартам в семантическом HTML, по моему опыту, в таких алгоритмах такое же зло, как заточка под «движки» — слишком много придется учитывать, да и всегда будет множество отклонений от стандартов. Хотя те же микроформаты только в плюс — не зря Яндекс и Гугл понемногу вводят колдунщики и расширенные сниппеты по ним и сопутствующим (рекстораны, гостиницы...).
Соглашусь с последним абзацем, не уверен что список предложений по загородной недвижке, например в правом меню будет релевантен контенту, о ремонте дома, в центре. По той причине и режу — ведь поисковик все равно туда попадет т.к. ссылки есть. Вообще можно сказать что текст ссылки относится к странице НА которую ведет, а не к текущей. Значит на странице статьи смысла знать что тут еще загородная продажа — нет, зато это надо знать на странице непосредственной продажи.

В принципе у меня PR считается пословный, и в нем учитывается все, однако напрямую «найдено по ссылке» я еще не сделал — очень непонятно как там ранжировть
Only those users with full accounts are able to leave comments. Log in, please.