Mio 26 окт 2006 в 01:14

Google будет индексировать больше

1 мин

627

Чулан

Комментарии 20

Shtoong 26 окт 2006 в 01:34

теперь будут индексировать

Роботы Google и раньше индексировали страницы с параметрами в URL.

-2

Mio 26 окт 2006 в 01:46

Почему-то они сами пишут, что нет. :)

Shtoong 26 окт 2006 в 01:57

Значит врут.
Вот пример:
http://72.14.221.104/search?q=cache:f0cLWe6hWpoJ:www.monitor.net.ru/forum/-forum-3.html%3…:www.monitor.net.ru&hl=ru&ct=clnk&cd=451
Но «статичные» URL индексировали конечно на порядок чаще...

Mio 26 окт 2006 в 01:59

Видимо, сегодняшняя новость означает, что теперь они смогут ещё чаще динамику индексировать.
Вообще по идее в блоге говорится о параметре "&id=". Я не специалист в этом вопросе, но, может быть, Вы подскажете, насколько вероятно, что они не могли индексировать именно его... ) По-моему, это нереально.

Shtoong 26 окт 2006 в 02:06

Но написано в новости «будут индексировать», что подразумевает под собой, что раньше типа они не индексировали. Это я и откомментировал.
А вот как там параметры названы... «id» или как то по другому — это я думаю для Google совершенно безразлично.
Ну теперь хоть пишут, что этих параметров желательно иметь не более двух.
А вообще конечно же спасибо им за то, что теперь modrewrite будут меньше применять ;)

adnull 26 окт 2006 в 13:42

id, sid, PHPSESSID обычно запрещают (не относится к поисковым монстрам) к индексации, либо отбрасывают возможные идентификаторы сессии. Мб тут похожая ситуация? Логичнее конечно определять индексацию контента не по ссылке, а по аналогии с каким-нибудь diff и при большом совпадении не индексировать..

Shtoong 26 окт 2006 в 14:34

id тут не причем. Явно дано ради примера названия параметра.

Сравнение различий контента страниц в рамках одного сайта это имхо тоже уже происходит.

adnull 27 окт 2006 в 15:07

Неявно. Они в webmaster guidelines явно обозначили:
Don't use "&id=" as a parameter in your URLs, as we don't include these pages in our index.
Сравнение в рамках одного сайта да, а стоило бы в рамках всех (хотя нагрузка еще та, вселенную вычислить можно), зато не было бы дурацкой ситуации с большим кол-вом доменов на один сайт.

Shtoong 27 окт 2006 в 15:59

В рамках всех сайтов не выйдет. Главная проблема: как узнать первоначальный источник контента?

adnull 27 окт 2006 в 16:10

Кто первый тот и папа :)
А почему проблема? Поисковику должно быть побоку, какой сайт при этом отображается - его задача - дать пользователю искомый контент, а не пригнать на сайт траффик определенного объема (кстати, деньги поисковик зарабатывает именно на пользователях). И гундеть владельцы сайтов тут права не имели и не имеют.. Вот какие у меня мысли на этот счет. А в рамках всех сайтов - в принципе есть тот-же copyscape.com, производящий сравнение (используется для определения плагиата).

Shtoong 28 окт 2006 в 00:31

1. copyscape.com не показывает изначальный источник. Там предполагается что проверяющий знает кто автор.
2. Поисковику все таки придеться прислушаться к возгласам авторов :) Вот пример: http://www.mediaguide.ru/news_sub.php?nu…

adnull 30 окт 2006 в 08:17

Абсолютно глупый прецедент. Видимо, в правилах использования поисковика подобные случаи не оговорены. На самом деле оштрафовать поисковик можно и просто так. Например, за кражу контента. Ведь если поисковик сам нашел мой сайт, проиндексировал его, а потом показывает МОЙ контент у себя на странице (без моего на то разрешения), да еще и рекламу крутит - это нарушение моих прав. Просто никто таких прецедентов еще не создавал имхо. Вот случай с гостиницей - очень близкий к тому.

North 26 окт 2006 в 02:14

Интересно – а попробуйте в Гугле просто
«&id=» поискать – куча ссылок выйдет – значит нормально индексирует.
Наверное какое непонимание случилось

Mio 26 окт 2006 в 02:21

Возможно, в поисковых роботах была улучшена индексация подобных URL.
Тем не менее Вы всегда можете проверить источник новости: он вряд ли вызовет сомнения.

North 26 окт 2006 в 02:31

Я просто помню на заре моей карьеры :) - активно ходили разговоры что Гугл плохо индексирует динамические страницы с такими адресами (с кучей переменных в чистом виде передаваемых методом GET – если точнее). А потом все вдруг решили, что Гугл с этой проблемой справился – и вроде все нормально индексировалось. А официально объявили о решении этой проблемы только сейчас :)

Mio 26 окт 2006 в 02:36

Осталось понять, зачем нужна оговорка про то, что не стОит использовать больше двух параметров. Если они и раньше индексировали, но плохо, а теперь начали делать это хорошо - то такие оговорки ни к чему...

North 26 окт 2006 в 02:41

Вот посмотрите – вытащил с первой страницы по запросу «&id=»
http://mbclub.ru/?lng=rus&action=shownew…
То есть таких параметров там аж 5 – и нормально проиндексирована

В общем – простым смертным не постичь логики Гугла

Shtoong 26 окт 2006 в 02:45

В Google видимо поняли, что большинство занимаются колдовством с modrewrite, и бороться с ними бессмысленно. Решили остановится на 2-х параметрах, так как:
Переписывать WEB-мастерам на стороне сервера один-два параметра в «статичные» URL проще.
Если параметров много, то легче так их оставить — все равно робот по этим URL пройдется, не сегодня так завтра.

Хотя при грамотной организации структуры сайта все GET запросы можно сделать якобы статичными.

North 26 окт 2006 в 03:07

Да в любом случае, не только из за Гугла, использование ЧПУ чаше всего просто более удобно

Shtoong 26 окт 2006 в 08:58

Несомненно.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Google будет индексировать больше

Комментарии 20

Публикации

Истории