UseShots Aug 7 2008 at 10:16

Googlebot теперь находит ссылки и в JavaScript’е.

5 min

1.6K

Lumber room

Comments 50

khim Aug 7 2008 at 10:36

Дык эта. Про это чётко написано в спецификациях HTML:

The "get" method should be used when the form is idempotent (i.e., causes no side-effects). Many database searches have no visible side-effects and make ideal applications for the "get" method.

If the service associated with the processing of a form causes side effects (for example, if the form modifies a database or subscription to a service), the "post" method should be used.

Я так понимаю что googlebot пытается с помощью каких-то эвристик понять - что стоит сунуть вашему cgi-скрипту чтобы получить в ответ что-нибудь интересное. Вряд ли он включает сколько-нибудь полноценный интерпретатор JavaScript'а... Хотите чтобы он куда-то не лазил - robots.txt к вашим услугам...

Меня скорее напрягает тот факт, что он паршиво понимает пока JavaScript (скажем с fanfiction.net и deviantart.com явно не все страницы в индекс попали).

UseShots Aug 7 2008 at 10:51

В спецификации написано, как страницы строить и как браузерам их показывать. А про то, что со всем этим googlebot делать будет, там ничего нет ;-)

У меня ж форме прописано method="post", да и в JS тоже post отправляется. Понятно, что роботу легче get отправить - вдруг прокатит. Меня удивило, что он сам УРЛ из JS достал, так как форма сабмитится только из JS.

А на счёт robots.txt - это правильно. Добавил несколько Disallow, чтоб робот не лез, куда не просят.

GiroCepasso Aug 7 2008 at 11:11

Возможно все-таки у Google есть интерпритатор.
У оперы ведь есть Opera mini, которая страницы через свой сервер направляет, а на сервере в свою очередь выполняет javascript в течении некоторого времени и потом отсылает результат в браузер.
Кроме того, сподобились же на создаия Google Web Toolkit, значит потенциал чтобы разобраться с javascript у гугла должен быть.

UseShots Aug 7 2008 at 11:27

То что Googlebot понимает и частично выполняет JS, про это Гугловчане открытым текстом говорят. Я же привёл цитаты с их официального блога.

Вопрос в том, при каких условиях googlebot это делает и какие у него ограничения.

oRb Aug 7 2008 at 11:12

да иногда поисковики творят магию: залил на сервак сайт клиента в отдельную папку (/1/) просто для теста. Потом вижу он в индексе Яндекса вылез. Хотя никаких ссылок не было, и даже в роботс.тхт папка не была прописана. Как это получилось я уже 2 года понять не могу)

UseShots Aug 7 2008 at 11:29

Клиент выдал? ;-)

brutaler Aug 7 2008 at 11:33

Поисковики не только по ссылкам могут ходить, например сами гугловцы рекомендуют прописывать Disallow в robots.txt для папок со скриптами и иными служебными файлами, обьясняя это тем что уменьшается нагрузка на поисковой бот.

UseShots Aug 7 2008 at 11:56

Ну вероятность попадания скрипта в результаты гугла пока маловероятно. О нагрузке на их бот я мало волнуюсь. Мне скорее вазна нагрузка на мой сервер.

А вот попадание "недостраниц" в результаты поиска, как в моём случае, весьма нежелательно. Для них точно нужно Disallow добавлять. Хотя для одного из таких урлов Disallow уже почти месяц как добавлен, а он всё ещё в индексе.

brutaler Aug 7 2008 at 12:02

Нагрузка на их бот влияет на то как долго он будет серфить по вашему сайту и индексировать страницы

djon32 Aug 7 2008 at 12:00

Disallow выходит за рамки темы поста. И это не спасет от парсинга JS.
А вот как защитить JS от получения кривых ссылок в индексах поисковиков - вопрос интересный.
Использование "noindex" поможет?

UseShots Aug 7 2008 at 12:07

А куда "ноиндекс" добавлять? У меня же Ajax'ом не полные страницы подгружаются, а кусочки. Там нет meta тэгов :(
Приходится Disallow спасаться

UseShots Aug 7 2008 at 12:12

сам себе отвечаю: можно просекать, что хитрый гугл GET-ом вместо POST-а лезет и подсовывать ему страницу с meta noindex.

Правда тут cloaking'ом попахивает. Подожду пока. Посмотрю, как он на Disallow отреагирует.

djon32 Aug 7 2008 at 12:16

noindex-ом нужно (по идее должно помочь) обрамлять JS.
noindex
script ...... /script
/noindex

kurokikaze Aug 7 2008 at 15:41

Вот это имхо и есть решение.

brutaler Aug 7 2008 at 12:09

те поисковые системы которые поддерживают тэг noindex, говорят что пропускают все что в нем.. но гарантий как известно никаких.

kost Aug 7 2008 at 12:42

<noindex> это самодельный невалидный тег Рамблера и Яндекса. Google о нём не знает.

djon32 Aug 7 2008 at 12:53

ахх.. точно :) забыл. а как все было бы просто...
Ну и? как лечить то?

по поводу robots.txt - рекомендации гугеля:
http://www.google.ru/support/webmasters/…

но для данного случая не подходит - тут подгружается AJAX-ом xml, если я правильно понял.

UseShots Aug 7 2008 at 13:02

Не. В одном случае plain/text в другом простой HTML гружу (фрагменты реальной страницы). Суть дела правда это почти не меняет.

brutaler Aug 7 2008 at 13:04

нарыл в инете как делать валидным noindex:

<del class="inv"><![CDATA[<noindex>]]></del>
То, что запрещено к индексации
<del class="inv"><![CDATA[</noindex>]]></del>

источник

kost Aug 7 2008 at 13:37

Спасибо. А сведения о корректном восприятии этого Яндексом есть?

brutaler Aug 7 2008 at 13:52

На собственном опыте не пользовался(ибо только что сам нашел)
подробнее на блоге того кто это придумал:
http://www.seoburg.ru/2007/01/25/162/
копипаст от туда: "UPD: проверено, метод работает!"

kost Aug 7 2008 at 13:56

Спасибо еще раз.
Возможно, теперь буду пользоваться noindex иногда.

brutaler Aug 7 2008 at 13:06

brutaler Aug 7 2008 at 13:13

мда.. сорри за дублирование, хабр сегодня не голодный

AmirL Aug 7 2008 at 12:09

Насчет первого места частая фишка у гугла. Не знаю почему, но новые сайты даже по высокочастнотным запросам он иногда выводит на первое вместо через пару недель после индексации. (так было у меня). потом опять вниз заталкивает правда :)

brutaler Aug 7 2008 at 12:12

воопбще это даже наверно правильно, поначалу показывать новые сайты людям, а потом уже отодвигать их на действительный рейтинг.

fornex Aug 7 2008 at 12:17

дорогой человек, это было известно еще в 2006 году:

http://www.seoweblog.ru/archives/54

UseShots Aug 7 2008 at 12:37

Спасибо за ссылку. Для полноты картину - то что нужно.

Моя статья дабавляет к той ещё несколько аспектов:
1). ссылки определяются не только в JS-редиректах, но и в строках с HTML-кодом, и в AJAX-запросах.
2). ссылки могут быть относительными.
3). боты не только ходят по ссылкам, но и индексируют найденные таким образом страницы.

aps Aug 8 2008 at 07:12

Все намного хуже.
4) Они перераспределяют по этим ссылкам PageRank

Kiriyama Aug 7 2008 at 12:35

Думаю, причина в другом.

Google не читает ваш JavaScript, и не использует JS-интерпретатор. Просто Opera отсылает гуглу всю историю запросов, сделанных браузером. Проверено. Достаточно оперой стукнуться на любой новый домен, и Googlebot будет там в течении ближайших суток, а то и часа. Это давно известный факт. Так разработчики браузера зарабатывают, отчасти именно поэтому Opera стал бесплатным.

Я не интересовался, что входит в список отправляемых адресов, но, вполне может быть, что и AJAX-запросы туда включаются тоже. Аналогичная ситуация происходит, если у вас установлен плагин Google Toolbar.

UseShots Aug 7 2008 at 12:58

Ну если люди с гугла в официальном блоге говорят, что Googlebot разбирает и частично выполняет JS, то не вижу повода им не верить.

На счёт Google Toolbar я высказал в статье свои сомнения.
На счёт Oper'ы - не исключено. Может кто-то Оперой заходил и наследил.
Правда тут теже сомнения, что и в случае с Google Toolbar: почему в индекс попал урл с пустым параметром, если в реальной жизни такого не могло появиться?

Kiriyama Aug 7 2008 at 13:16

Наверное, это последствия инициатив гугла по раскрытию "невидимого интернета". В частности, контента сайтов, активно использующих AJAX. Лишь бы не начали формы заполнять и слать POST-запросы. Это будет уже полнейшее свинство.

Такими темпами, скоро придётся все обработчики форм и AJAX-запросов закрывать в robots.txt...

UseShots Aug 7 2008 at 13:50

Абсолютно согласен на счёт POST-запросов и заполненных форм.

Так гугл-бот подпишется на все рассылки, начнет отправлять липовые заказы, удалять пользователей и списывать деньги со счетов ;)

Zex0n Aug 7 2008 at 20:02

Надо капчу ставить перед каждым AJAX запросом :)

zotov Aug 7 2008 at 13:20

У вас в коде страницы написано:

zotov Aug 7 2008 at 13:24

У вас в коде страницы страницы написано:
<a href="/security-tools/find-hidden-links/site/?siteUrl='

В индекс попал с пустым параметром именно потому, что гугл никакого js не выполнял, а просто увидел тег <a> и взял из него ссылку. А уж добавлять к ссылке адрес сайта Гугл умеет ;)

UseShots Aug 7 2008 at 13:47

Возможно и так. А возможно и выполнил. С пустым значение тоже самое получится. А уж строчки складывать он, думаю, умеет. Вот выше есть ссылка, где у народа и зашифрованную ссылку робот подхватывал.

В любом случае, какую-то логику скрипта нужно понимать, чтоб ссылки правильно выдирать.

alexxxst Aug 7 2008 at 18:05

А если <a rel="nofollow" href="..." или как-то так?

UseShots Aug 7 2008 at 18:41

Ну поле для разных экспериментов обширно, так как трюков можно придумать множество, а официальной информации о том, что и как интерпретируется googlebot'ом в скриптах, почти нет.

silverwind Aug 7 2008 at 20:13

Ну ведь как раз nofollow и описан где-то в статьях как рекомендованый Гуглом веб-мастерам для запрета индексации и учета "веса" ссылки... не так?

UseShots Aug 7 2008 at 21:13

Это они в HTML вставлять рекомендуют. JS совсем другой зверь. Для него у гугла чётких рекомендаций нет. Разве что дублировать важные части проcтым HTML.

al_one Aug 7 2008 at 13:48

Опера не делает такого. "Проверено". У меня браузер выходит через мой локальный прокси, так что вижу все УРЛы куда она обращается.

Kiriyama Aug 7 2008 at 14:30

Значит, недоглядели.

Аргументирую. Статья "У Google под колпаком". Почитайте, проверьте сами. Я лично уже неоднократно убедился на собственном опыте. Открыл в Опере (и больше ничего) - завтра по логам уже заметишь посещение гуглобота. Причём, именно тех страниц, которые ты открывал. Т.е. ссылок на них не было ниоткуда.

Например, гуглобот посетит страницы результатов поисковых запросов, которые ты делал накануне, если поисковая форма получает данные через GET. Ссылок прямых на эти запросы нет, всякими глупостями, вроде "последние поиски на сайте" не балуюсь.

al_one Aug 7 2008 at 23:37

Прочитал. Проверить про Оперу не могу, т.к. там ничего про нее конкретно не написано, всё очень расплывчато. :)
Эта статья не аргумент. Вы еще статью Криса о WebMoney Keeper почитайте. Например, эта страница забавная, где он нашел в файле три буквы "pci" и делает вывод, что идет обращение к PCI-шине, хотя там невооруженным глазом видно, что просто формируется HTTP-запрос. Сам список параметров, начинающихся на pci_*, можно посмотреть на сайте WM.

Kiriyama Aug 8 2008 at 02:40

Я не верю лично Крису. Я верю своим наблюдениям последних лет.

Опыты ставил специально. Гугл - вездесущ. И вездесущность его сильно пересекается с браузерами. Например, в разработке находится специальный раздел сайта, адрес стартовой страницы которого, на всём белом свете, знаю только я и мой браузер (никому другому ещё ссылок не давал). Достаточно. Назавтра гугл уже всё сожрал. С тех пор, пока тестирую сайт, взял за правило выкладывать запрещающий всё robots.txt

Про WebMoney я читал. Но тут как в притче о мальчике с волками. Похоже, в этот раз Крис прав. Да и аргументация в статье уже посерьёзнее, не как в случае с WM. И прочёл я её уже после того, как сам столкнулся с поведением гуглобота.

Вообще, "дополнительные заработки" разработчиков браузеров - это тема для отдельной статьи, если не серии статей. Вы когда-нибудь интересовались стоимостью SSL-сертификатов у какого-нить VeriSign, Thawte и т.п.? Тысячи долларов! За то, что любой человек с пакетом openssl может сделать за секунду! Затрат у сертификационных центров особых нет. Это делание денег из воздуха, и хороших денег. Фактически, вы платите за то, что сертификат центра сертификации будет установлен "из коробки" во всех популярных браузерах. И мне страшно представить, сколько тот же VeriSign отстёгивает в Mozilla, Opera и Microsoft.

Я люблю Opera Software и Mozilla Foundation, но не склонен их идеализировать. Поверьте, альтруизмом и заботой о всемирной справедливости там и не пахнет.

UFO landed and left these words here

sunnybear Aug 7 2008 at 18:18

я вот лично склоняюсь больше к такому варианту Гугл же может определять параметры и вырезать их из адреса. К тому же, работы по серверной интерпретации клиентского JavaScript уже давно ведутся
http://ejohn.org/projects/bringing-the-b…

maxic Aug 8 2008 at 08:09

Кстати googlebot индексирует также некоторые элементы форм, которые за закрытыми тегами.
Например заполненный textarea или все select-ы.
Так что пользуйтесь ;) особенно хорошо можно поднять рейтинг select-ами.
Игнорирует всё что в тегах.

kermakov Aug 25 2008 at 11:27

Ох, эксперты…
Вот здесь написано, как бот Гугла обращается с формами, отправляемыми методом Get.
А вот здесь у автора топика как раз такая форма.

Так что никакой JavaScript тут не причём. Просто Гугл пытается угадать, какая же страница получится, если отправить такую форму. Причём, судя по приведённому скриншоту выдачи, форма отправляется пустая.

UseShots Aug 25 2008 at 14:48

Спасибо., за ссылку. Почему-то эту статью я пропустил…

Кстати она совершенно не отрицает того, что я написал в этом посте.

Статья начинается с того, что они говорят, что они уже сканируют JavaScript и Flash на предмет обнаружения ссылок.

А в описании алгоритма генерации URL's для сабмита GET форм, сказано, что для заполнения текстовых полей googlebot автоматически подбирает слава, найденные на сайте, на котором размещена форма. Поэтому следовало бы ожидать, что он проиндексирует страницу с URLом с заполненым параметров, а не с пустым (благо слов на на сайте достаточно и у бота не должно было возникнуть проблем с выбором ;-)