Поисковый краулер Google постоянно улучшается, чтобы получить доступ к относительно закрытым частям сайтов. В 2008 году Googlebot начал сабмиттить GET-формы, а нынешним летом — исполнять JavaScript. Сейчас дошло дело и до передачи данных серверу методом POST.
Веб-мастер сайта thumbtack.com демонстрирует примеры таких запросов в логах Apache за сентябрь-октябрь 2011 года.
Запросы идут с IP-адресов, которые действительно принадлежат краулеру Google: 66.249.71.47, 66.249.72.198, 66.249.72.207.
На сайте thumbtack.com эти POST-запросы генерирует скрипт мониторинга ошибок, который пытается сообщить о них на сервер. Запросы от Google тоже содержат такую информацию, судя по всему, роботу удалось проанализировать скрипт. Данное поведение краулера не причиняет никакого вреда сайту, так что его можно считать нормальным. Однако, интеллектуальное поведение бота удивляет.
Веб-мастер сайта thumbtack.com демонстрирует примеры таких запросов в логах Apache за сентябрь-октябрь 2011 года.
Запросы идут с IP-адресов, которые действительно принадлежат краулеру Google: 66.249.71.47, 66.249.72.198, 66.249.72.207.
66.249.71.47 - - [04/Sep/2011:04:53:52 +0000] "POST /act/site/clienterror HTTP/1.1" 200 36 "http://www.thumbtack.com/ma/malden/dog-walking/dog-walking-and-pet-care-services" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.72.198 - - [25/Sep/2011:04:27:50 +0000] "POST /act/site/clienterror HTTP/1.1" 200 36 "http://www.thumbtack.com/ca/solana-beach/wedding-photographers/photography-cary-pennington-photography" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.72.207 - - [04/Oct/2011:09:53:08 +0000] "POST /act/site/clienterror HTTP/1.1" 200 36 "http://www.thumbtack.com/tx/san-antonio/painting/residential-commercial-construction-services" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
На сайте thumbtack.com эти POST-запросы генерирует скрипт мониторинга ошибок, который пытается сообщить о них на сервер. Запросы от Google тоже содержат такую информацию, судя по всему, роботу удалось проанализировать скрипт. Данное поведение краулера не причиняет никакого вреда сайту, так что его можно считать нормальным. Однако, интеллектуальное поведение бота удивляет.