@Mio25 окт 2006 в 21:14

Google будет индексировать больше

1 мин

694

Чулан

Комментарии 20

@Shtoong 25 окт 2006 в 21:34

теперь будут индексировать

Роботы Google и раньше индексировали страницы с параметрами в URL.

@Mio 25 окт 2006 в 21:46

Почему-то они сами пишут, что нет. :)

@Shtoong 25 окт 2006 в 21:57

Значит врут.
Вот пример:
http://72.14.221.104/search?q=cache:f0cLWe6hWpoJ:www.monitor.net.ru/forum/-forum-3.html%3…:www.monitor.net.ru&hl=ru&ct=clnk&cd=451
Но «статичные» URL индексировали конечно на порядок чаще...

@Mio 25 окт 2006 в 21:59

Видимо, сегодняшняя новость означает, что теперь они смогут ещё чаще динамику индексировать.
Вообще по идее в блоге говорится о параметре "&id=". Я не специалист в этом вопросе, но, может быть, Вы подскажете, насколько вероятно, что они не могли индексировать именно его... ) По-моему, это нереально.

@Shtoong 25 окт 2006 в 22:06

Но написано в новости «будут индексировать», что подразумевает под собой, что раньше типа они не индексировали. Это я и откомментировал.
А вот как там параметры названы... «id» или как то по другому — это я думаю для Google совершенно безразлично.
Ну теперь хоть пишут, что этих параметров желательно иметь не более двух.
А вообще конечно же спасибо им за то, что теперь modrewrite будут меньше применять ;)

@adnull 26 окт 2006 в 09:42

id, sid, PHPSESSID обычно запрещают (не относится к поисковым монстрам) к индексации, либо отбрасывают возможные идентификаторы сессии. Мб тут похожая ситуация? Логичнее конечно определять индексацию контента не по ссылке, а по аналогии с каким-нибудь diff и при большом совпадении не индексировать..

@Shtoong 26 окт 2006 в 10:34

id тут не причем. Явно дано ради примера названия параметра.

Сравнение различий контента страниц в рамках одного сайта это имхо тоже уже происходит.

@adnull 27 окт 2006 в 11:07

Неявно. Они в webmaster guidelines явно обозначили:
Don't use "&id=" as a parameter in your URLs, as we don't include these pages in our index.
Сравнение в рамках одного сайта да, а стоило бы в рамках всех (хотя нагрузка еще та, вселенную вычислить можно), зато не было бы дурацкой ситуации с большим кол-вом доменов на один сайт.

@Shtoong 27 окт 2006 в 11:59

В рамках всех сайтов не выйдет. Главная проблема: как узнать первоначальный источник контента?

@adnull 27 окт 2006 в 12:10

Кто первый тот и папа :)
А почему проблема? Поисковику должно быть побоку, какой сайт при этом отображается - его задача - дать пользователю искомый контент, а не пригнать на сайт траффик определенного объема (кстати, деньги поисковик зарабатывает именно на пользователях). И гундеть владельцы сайтов тут права не имели и не имеют.. Вот какие у меня мысли на этот счет. А в рамках всех сайтов - в принципе есть тот-же copyscape.com, производящий сравнение (используется для определения плагиата).

@Shtoong 27 окт 2006 в 20:31

1. copyscape.com не показывает изначальный источник. Там предполагается что проверяющий знает кто автор.
2. Поисковику все таки придеться прислушаться к возгласам авторов :) Вот пример: http://www.mediaguide.ru/news_sub.php?nu…

@adnull 30 окт 2006 в 05:17

Абсолютно глупый прецедент. Видимо, в правилах использования поисковика подобные случаи не оговорены. На самом деле оштрафовать поисковик можно и просто так. Например, за кражу контента. Ведь если поисковик сам нашел мой сайт, проиндексировал его, а потом показывает МОЙ контент у себя на странице (без моего на то разрешения), да еще и рекламу крутит - это нарушение моих прав. Просто никто таких прецедентов еще не создавал имхо. Вот случай с гостиницей - очень близкий к тому.

@North 25 окт 2006 в 22:14

Интересно – а попробуйте в Гугле просто
«&id=» поискать – куча ссылок выйдет – значит нормально индексирует.
Наверное какое непонимание случилось

@Mio 25 окт 2006 в 22:21

Возможно, в поисковых роботах была улучшена индексация подобных URL.
Тем не менее Вы всегда можете проверить источник новости: он вряд ли вызовет сомнения.

@North 25 окт 2006 в 22:31

Я просто помню на заре моей карьеры :) - активно ходили разговоры что Гугл плохо индексирует динамические страницы с такими адресами (с кучей переменных в чистом виде передаваемых методом GET – если точнее). А потом все вдруг решили, что Гугл с этой проблемой справился – и вроде все нормально индексировалось. А официально объявили о решении этой проблемы только сейчас :)

@Mio 25 окт 2006 в 22:36

Осталось понять, зачем нужна оговорка про то, что не стОит использовать больше двух параметров. Если они и раньше индексировали, но плохо, а теперь начали делать это хорошо - то такие оговорки ни к чему...

@North 25 окт 2006 в 22:41

Вот посмотрите – вытащил с первой страницы по запросу «&id=»
http://mbclub.ru/?lng=rus&action=shownew…
То есть таких параметров там аж 5 – и нормально проиндексирована

В общем – простым смертным не постичь логики Гугла

@Shtoong 25 окт 2006 в 22:45

В Google видимо поняли, что большинство занимаются колдовством с modrewrite, и бороться с ними бессмысленно. Решили остановится на 2-х параметрах, так как:
Переписывать WEB-мастерам на стороне сервера один-два параметра в «статичные» URL проще.
Если параметров много, то легче так их оставить — все равно робот по этим URL пройдется, не сегодня так завтра.

Хотя при грамотной организации структуры сайта все GET запросы можно сделать якобы статичными.

@North 25 окт 2006 в 23:07

Да в любом случае, не только из за Гугла, использование ЧПУ чаше всего просто более удобно

@Shtoong 26 окт 2006 в 04:58

Несомненно.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий