Очень часто на странице, которую стоит индексировать, находится информация, которая для индексации не предназначена.
Это четвёртый результат по запросу «туда сюда» на хабре.
И не надо думать, что это относится только к навигации, которая повторяется на каждой странице. Наверное, почти никто не хочет, чтобы индексировались новостные потоки других сайтов, реклама, очень динамический контент («на сайте сейчас находятся…»). Кто-то отключил бы индексацию комментариев, а кому-нибудь захочется скрыть поисковикам содержание своих постов и оставить только заголовки.
В принципе, в семантическом вебе такой проблемы не будет; но у каждого из нас есть шанс не дожить до тех светлых времён.
Оказывается, решение уже давно существует: микроформат Robot Exclusion Profile.
Вот как это должно выглядеть:
Омрачает эту сказку только одно: насколько мне известно, на данный момент микроформат не принят окончательно и не поддерживается поисковыми системами.
Кто-нибудь, кто бывает на Google Developer Day или Яндекс Субботниках, спросите у разработчиков, не хотят ли включить хотя бы драфт в алгоритмы своего поисковика. :)
P.S. Если уже сейчас существует возможность исключать часть страницы из индекса, то расскажите, пожалуйста, о ней.
UPD: Про <noindex> я знаю. Но он нарушает стандарт и не воспринимается Google.
Это четвёртый результат по запросу «туда сюда» на хабре.
И не надо думать, что это относится только к навигации, которая повторяется на каждой странице. Наверное, почти никто не хочет, чтобы индексировались новостные потоки других сайтов, реклама, очень динамический контент («на сайте сейчас находятся…»). Кто-то отключил бы индексацию комментариев, а кому-нибудь захочется скрыть поисковикам содержание своих постов и оставить только заголовки.
В принципе, в семантическом вебе такой проблемы не будет; но у каждого из нас есть шанс не дожить до тех светлых времён.
Оказывается, решение уже давно существует: микроформат Robot Exclusion Profile.
Вот как это должно выглядеть:
<head profile=”http://example.org/xmdp/robots-profile#”>
...
<div class=”robots-noindex”>There once was a man from Nantucket…</div>
<p>This page is not about <span class=”robots-noindex”>pornography</span>.</p>
* This source code was highlighted with Source Code Highlighter.
Омрачает эту сказку только одно: насколько мне известно, на данный момент микроформат не принят окончательно и не поддерживается поисковыми системами.
Кто-нибудь, кто бывает на Google Developer Day или Яндекс Субботниках, спросите у разработчиков, не хотят ли включить хотя бы драфт в алгоритмы своего поисковика. :)
P.S. Если уже сейчас существует возможность исключать часть страницы из индекса, то расскажите, пожалуйста, о ней.
UPD: Про <noindex> я знаю. Но он нарушает стандарт и не воспринимается Google.