Как стать автором
Обновить

Комментарии 20

теперь будут индексировать


Роботы Google и раньше индексировали страницы с параметрами в URL.
Почему-то они сами пишут, что нет. :)
Значит врут.
Вот пример:
http://72.14.221.104/search?q=cache:f0cLWe6hWpoJ:www.monitor.net.ru/forum/-forum-3.html%3…:www.monitor.net.ru&hl=ru&ct=clnk&cd=451
Но «статичные» URL индексировали конечно на порядок чаще...
Видимо, сегодняшняя новость означает, что теперь они смогут ещё чаще динамику индексировать.
Вообще по идее в блоге говорится о параметре "&id=". Я не специалист в этом вопросе, но, может быть, Вы подскажете, насколько вероятно, что они не могли индексировать именно его... ) По-моему, это нереально.
Но написано в новости «будут индексировать», что подразумевает под собой, что раньше типа они не индексировали. Это я и откомментировал.
А вот как там параметры названы... «id» или как то по другому — это я думаю для Google совершенно безразлично.
Ну теперь хоть пишут, что этих параметров желательно иметь не более двух.
А вообще конечно же спасибо им за то, что теперь modrewrite будут меньше применять ;)
id, sid, PHPSESSID обычно запрещают (не относится к поисковым монстрам) к индексации, либо отбрасывают возможные идентификаторы сессии. Мб тут похожая ситуация? Логичнее конечно определять индексацию контента не по ссылке, а по аналогии с каким-нибудь diff и при большом совпадении не индексировать..
id тут не причем. Явно дано ради примера названия параметра.

Сравнение различий контента страниц в рамках одного сайта это имхо тоже уже происходит.
Неявно. Они в webmaster guidelines явно обозначили:
Don't use "&id=" as a parameter in your URLs, as we don't include these pages in our index.
Сравнение в рамках одного сайта да, а стоило бы в рамках всех (хотя нагрузка еще та, вселенную вычислить можно), зато не было бы дурацкой ситуации с большим кол-вом доменов на один сайт.
В рамках всех сайтов не выйдет. Главная проблема: как узнать первоначальный источник контента?
Кто первый тот и папа :)
А почему проблема? Поисковику должно быть побоку, какой сайт при этом отображается - его задача - дать пользователю искомый контент, а не пригнать на сайт траффик определенного объема (кстати, деньги поисковик зарабатывает именно на пользователях). И гундеть владельцы сайтов тут права не имели и не имеют.. Вот какие у меня мысли на этот счет. А в рамках всех сайтов - в принципе есть тот-же copyscape.com, производящий сравнение (используется для определения плагиата).
1. copyscape.com не показывает изначальный источник. Там предполагается что проверяющий знает кто автор.
2. Поисковику все таки придеться прислушаться к возгласам авторов :) Вот пример: http://www.mediaguide.ru/news_sub.php?nu…
Абсолютно глупый прецедент. Видимо, в правилах использования поисковика подобные случаи не оговорены. На самом деле оштрафовать поисковик можно и просто так. Например, за кражу контента. Ведь если поисковик сам нашел мой сайт, проиндексировал его, а потом показывает МОЙ контент у себя на странице (без моего на то разрешения), да еще и рекламу крутит - это нарушение моих прав. Просто никто таких прецедентов еще не создавал имхо. Вот случай с гостиницей - очень близкий к тому.
Интересно – а попробуйте в Гугле просто
«&id=» поискать – куча ссылок выйдет – значит нормально индексирует.
Наверное какое непонимание случилось
Возможно, в поисковых роботах была улучшена индексация подобных URL.
Тем не менее Вы всегда можете проверить источник новости: он вряд ли вызовет сомнения.
Я просто помню на заре моей карьеры :) - активно ходили разговоры что Гугл плохо индексирует динамические страницы с такими адресами (с кучей переменных в чистом виде передаваемых методом GET – если точнее). А потом все вдруг решили, что Гугл с этой проблемой справился – и вроде все нормально индексировалось. А официально объявили о решении этой проблемы только сейчас :)
Осталось понять, зачем нужна оговорка про то, что не стОит использовать больше двух параметров. Если они и раньше индексировали, но плохо, а теперь начали делать это хорошо - то такие оговорки ни к чему...
Вот посмотрите – вытащил с первой страницы по запросу «&id=»
http://mbclub.ru/?lng=rus&action=shownew…
То есть таких параметров там аж 5 – и нормально проиндексирована

В общем – простым смертным не постичь логики Гугла
В Google видимо поняли, что большинство занимаются колдовством с modrewrite, и бороться с ними бессмысленно. Решили остановится на 2-х параметрах, так как:
Переписывать WEB-мастерам на стороне сервера один-два параметра в «статичные» URL проще.
Если параметров много, то легче так их оставить — все равно робот по этим URL пройдется, не сегодня так завтра.

Хотя при грамотной организации структуры сайта все GET запросы можно сделать якобы статичными.
Да в любом случае, не только из за Гугла, использование ЧПУ чаше всего просто более удобно
Несомненно.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории