cast Jul 11 2011 at 12:00

Про удаление малозначимых частей страниц при индексации сайта

2 min

3.4K

Comments 3

Infanty Jul 11 2011 at 12:20

Я ещё небольшими ~~извращениями~~ проверками занимался в виде дополнения к дереву:

— Строить дерево только по Div и Table, самой большой лист дерева — статья, всё остальное скорее всего (если совпадает с контентом предшествующей страницы на 70-80%) мусор. Ну и немного правил для востановления логики, если в table, что то пропущено.
— Если вёрстка нелогична, понижал рейтинг сайту.
— Правила для отсечения Div и т.п. c логическими именами типа: menu.
— В редких случаях можно попробовать ещё несколько методов, типа фильтраций, карт, нейронных сетей и т.п. Даже ради интереса грузил шаблоны популярных CMS (drupal, wordpress и т.п.) в них есть теги вывода основного контента = патерн выделения центральной части.

Проверки нужны были когда нужен был очень «корректный» текст статьи для определения на основании него определённых смысловых гипотез текста. Но опять же у меня база знаний, а не поисковик в чистом виде :).

marapper Jul 11 2011 at 12:53

Есть некоторая проблема в чистом XOR'е — повторяющиеся блоки на многих страницах зачастую не просто навигационные, но и информационные. Хорошим примером может быть предложение услуг компанией — к примеру, занимающейся недвижимостью — на каждой странице объекта сайдбар с описанием услуг (документальное, юридическое сопровождение сделки, бла-бла-бла), или, опять же в случае недвижимости, но уже работающей с жилыми комплексами — описание местности, например. Просто выкидывать — не очень хорошо (хотя понятно, — раздолье сеошникам, которые будут еще более востребованы из-за необходимости знать, что такому контенту нужна отдельная страница (кстати, построение в дерево учитывает хтмл-теги?)

Получается, что иногда такой контент надо сохранять — можно пойти двумя путями. В первом — отрезать только навигацию (т.е. такой блок на ксор проверять на процент ссылок в нем и еще пару параметров), во втором — оставлять только в «основной» странице (определять «верхнюю» страницу по хлебным крошкам/урлу, и т.д.). А еще лучше использовать оба.

Паттерны выделения контента по микроформатам и принятым стандартам в семантическом HTML, по моему опыту, в таких алгоритмах такое же зло, как заточка под «движки» — слишком много придется учитывать, да и всегда будет множество отклонений от стандартов. Хотя те же микроформаты только в плюс — не зря Яндекс и Гугл понемногу вводят колдунщики и расширенные сниппеты по ним и сопутствующим (рекстораны, гостиницы...).

cast Jul 11 2011 at 12:58

Соглашусь с последним абзацем, не уверен что список предложений по загородной недвижке, например в правом меню будет релевантен контенту, о ремонте дома, в центре. По той причине и режу — ведь поисковик все равно туда попадет т.к. ссылки есть. Вообще можно сказать что текст ссылки относится к странице НА которую ведет, а не к текущей. Значит на странице статьи смысла знать что тут еще загородная продажа — нет, зато это надо знать на странице непосредственной продажи.

В принципе у меня PR считается пословный, и в нем учитывается все, однако напрямую «найдено по ссылке» я еще не сделал — очень непонятно как там ранжировть