alizar Apr 14 2008 at 03:47

Google пытается проиндексировать Невидимую Сеть

2 min

2.5K

IT-companies

+42

Comments 75

Bobos Apr 14 2008 at 03:54

Теперь рядом с каждой формой каптча будет

koct9i Apr 14 2008 at 11:22

скоро это тоже перестанет быть проблемой =)

dharbari Apr 14 2008 at 15:47

Пока есть всемогущий robots.txt - капча не будет такой уж повсеместной.

PART Apr 14 2008 at 22:02

Пока robots.txt всемогущий...

dmitriy_b Apr 14 2008 at 04:00

Да интересно получится... Бот будет накручивать голоса в голосовалках, сабмитить формы например в вики со случайным текстом и подобным поведением способствовать замусориванию интернета. Я думаю что Гугле должны это понимать, посему интересно что они предприймут чтобы этого избежать... Надеюсь не придется делать для всех форм в инете дополнительный параметр noindex.

gerziorrim Apr 14 2008 at 11:17

Я думаю в Google что-либо припримут по этому поводу. Все-таки не дураки разрабатывают систему.

ScREW Apr 14 2008 at 11:56

Задача краулера получить качественную информацию. Качественная информация - информация чистая. Хороший краулер не должне вносить изменений в индексируюмую информацию. Уверен, что разработчики Google это понимают.

MadGreen Apr 14 2008 at 13:43

Краулеры пока не научились отличать качественную информацию от некачественной)))

ScREW Apr 14 2008 at 21:50

Факт. :)

mirritil Apr 14 2008 at 12:12

mirritil Apr 14 2008 at 12:15

diamant Apr 14 2008 at 12:15

UFO just landed and posted this here

Infthi Apr 14 2008 at 12:54

я напишу гостевуху с GET-формой и засужу гугл за флуд >.<

Jenek Apr 14 2008 at 13:41

Не засудите, на их стороне спецификация HTTP запрещающая изменять что-то с помощью GET, это так называемы "safe" метод, он должен работать только на отдачу ничего не меняя.

metanol Apr 14 2008 at 13:58

Можно подробнее, что за "safe" метод?
Для примера: действующая форма, скажем, на PHP, получила переменные в $_GET или $_POST - откуда существующий скрипт будет знать, что это не добавлять в базу надо, а гугл перебирает?

metanol Apr 14 2008 at 14:08

Стоп. Сначала написал, потом подумал. С каментом ниже все понятно, прошу извинить.

Jenek Apr 14 2008 at 13:59

Они уже предприняли, паук работает только с GET, а в спецификации HTTP по этому поводу есть такой абзац:
In particular, the convention has been established that the GET and
HEAD methods SHOULD NOT have the significance of taking an action
other than retrieval. These methods ought to be considered "safe".

Так что нужно исправлять сайты, если где-то GET используется не по назначению.

PS: Пошел проверять свои, и ведь знал же, а делал, блин, пока гром не грянет...

egorinsk Nov 3 2008 at 18:34

Расскажите это Дурову

ski88er Apr 14 2008 at 14:37

'noindex' - это для Яндекса.
а для Гугла придётся ставить 'nofollow'.

UFO just landed and posted this here

svolot4 Apr 14 2008 at 04:40

С пол года назад заметил, что Гугл пользуется внутренним поиском по сайту (каталог товаров)... причём ищет товары, которых как правило нет на сайте, т.е. он подбирает слова не с этого же сайта, но соответствующие тематике! Тогда я так и не понял зачем ему это...

hlomzik Apr 14 2008 at 06:04

у вас на сайте нет страницы со списком последних поисковых запросов?
реферер еще посмотрите, он тоже может помочь понять гугл ;)

svolot4 Apr 14 2008 at 06:08

Страницы со списком последних запросов нет. Да и запросы явно "нечеловеческие", видно что ботом каким-нибудь составлены (правда довольно грамотно составлены).

diamant Apr 14 2008 at 12:13

grokinn Apr 14 2008 at 11:33

так допустим эти самые базы данных открыты к всеобщему доступу только в определенные часы (как некоторые базы на сайте Консультант+), если гугл их проиндексирует и будет показывать в своем кеше в любое время насколько это будет честно со стороны гугла?

krasin Apr 14 2008 at 11:40

Консультант+ может запросто запретить индексацию баз данных гуглоботом, изменив robots.txt. Что-нибудь вроде:
User-agent: *
Disallow: /secret_data_bases

Yeah Apr 14 2008 at 11:43

А вдруг Гугл наплюет неа robots.txt? Или уже так делает?
Кто мешает Гуглу при поисковой индексации выдавать себя за человека?

-3

krasin Apr 14 2008 at 11:50

Почему это вопрос ко мне?

Yeah Apr 14 2008 at 11:55

Ну ведь это вы написали, что можно отключать "индексацию баз данных гуглоботом, изменив robots.txt"???

krasin Apr 14 2008 at 11:58

именно так. Потому что Гугл следует спецификации robots.txt

krasin Apr 14 2008 at 11:59

т.е. я ответил про реальную, а не про теоретические возможности.

Yeah Apr 14 2008 at 12:17

Yeah Apr 14 2008 at 12:19

Yeah Apr 14 2008 at 12:59

Хабр глючит...
Я хотел сказать, что вы не можете наверняка утверждать, что Гугл будет использовать эту же спецификацию при индексации Невидимой сети. Уж слишком высока цена вопроса.

ivlis Apr 14 2008 at 11:51

Совесть :)

fog Apr 14 2008 at 11:53

Надеюсь, Гугль не будет запускать одновременно по сотне процессов на поиск... иначе он задосит половину интернета, ведь часто поисковая форма самая "тормозная" на сайте.

UFO just landed and posted this here

Infthi Apr 14 2008 at 12:57

нагрузка на базу большая может получиться.

UFO just landed and posted this here

fog Apr 14 2008 at 13:01

Ну, как..

Вообще поиск - обычно алгоритм не самый тривиальный и рессурсоёмкий.

Хотябы форумы, когда начинаются проблемы с производительностью - первым делом отключают поиск.

starosta Apr 14 2008 at 14:02

Полностью согласен, что в данном случае могут быть действительно большие нагрузки. А если это понравится еще и другим роботам, будет не гуд. Хотя вероятно что такие роботы существуют и без гугла, так как информация, которую они могут получить, весьма серьезная, глупо было бы отказываться от такого пласта информации.

UFO just landed and posted this here

silverwind Apr 14 2008 at 17:39

Ну при чем тут сразу "..кодеры"???

Вот например, есть список "чего-либо" с постраничной разбивкой: закеширован (не суть важно как или мемкеш, или плайн-текст) и есть еще рядом форма, которая позволяет "фильтровать" этот список так скажите, будет же больше значительно загрузка если:

а) 1 000 человек смотрят просто список и из них 1 00 юзайт фильтр по 1-3 запроса за "сессию"
б) приперся Гугл-паук "и давай" сабмитить в фильтр по 1 000 вариантов запросов и сравнивать результаты "вдруг там есть че новое"...???

А если это взять и увидеть в масштабе многих разделов сайта, а если не одного сайта, а скажем 1 000 000 сайтов?

Все-равно "нагрузка" будет расти и ресурсоемкость повышаться соотв.

UFO just landed and posted this here

silverwind Apr 14 2008 at 20:04

И первое и второе не показания к смене деятельности (недостаток ква-ии решает опыт приобретаемый годами, время и силы так же меняемые во времени категории). Показания к смене деятельности иные, но не об этом речь.

Прекрасно понимаю вашу точку зрения на то, что "гугло-бот" не особо и напрягет сайты масштабных проектов, но давайте будем реалистами в мире тонны сайтов которые работают так, как работают и сделаны так, как сделаны!

Я же спорю с вами, что нагрузка будет сумасшедшей и не пытаюсь доказывать, что такие действия Гугла могут быть ужасно опасными, но то, что они добавят много трафика и нагрузок на сервера(сайты, осбенно на вирт. хостингах) и еще не ясно как себя все это поведет это точно.

silverwind Apr 14 2008 at 20:05

Сори, Игорь: в 3-м абзаце менно должно быть "НЕ спорю"! ;

UFO just landed and posted this here

atomicxp Aug 19 2008 at 20:57

И таких замечу большинство.

Jenek Apr 14 2008 at 13:48

Если будет так, то это просто ненавязчивый намек на то, что нужно пользоваться поиском от Гугла.

UFO just landed and posted this here

vodjanoj Apr 15 2008 at 00:33

Индексация делается довольно мягко - буквально сегодня пытался разобраться откуда гугль нарыл ссылок на форму поиска :), оказывается вот оно как - если верить логам, переодичность - 1 запрос в 2 секунды

mirritil Apr 14 2008 at 12:16

VPK Apr 14 2008 at 12:58

Ахтунг, гугль будет буртфорсить мои проекты? :)

homm Apr 14 2008 at 12:59

Что-бы удалить свой аккаунт, поставте галочку и нажмите кнопку «удалить аккаунт»

Спасибо, что пользовались услугами нашего сайта.

landau Apr 14 2008 at 13:05

краулер это по-русски гуглбот7

hlomzik Apr 14 2008 at 13:14

crawler — червяк, от crawl — ползать

bolk Apr 14 2008 at 13:12

Мда. А комменты мусорные оно тоже будет постить? Ведь это тоже формочка.

UFO just landed and posted this here

Habitat Apr 14 2008 at 15:51

Ждём на башорге, цитаты by Google! )))

someone Apr 14 2008 at 13:53

Будет забавно, если гуглу удастся проиндексировать половину запароленных страниц используя словарь из десятка слов =)

UFO just landed and posted this here

zooh Apr 14 2008 at 14:13

Следующими этапами, видимо, будут взлом капчей, регистрация гуглобота на блогах-форумах и создание запрошенного поисковиком контента на лету :)

homm Apr 14 2008 at 14:42

Откуда мне знать, что Вы не гугл-бот?

Jake Apr 14 2008 at 15:33

А разве в его ответе есть слова из этой страницы? )

silverwind Apr 14 2008 at 17:41

Так, половина слов его ответа с этой страницы, только в разных падежах, Гугл же умеет уже склонять слова ;-)

UFO just landed and posted this here

silverwind Apr 14 2008 at 20:11

К сожелению не знаком ни с XPlanner ни с этой историей, но с трудом представляю как ссылки на удаление какого-либо контента сайта можно выставлять на сайте в открытом виде (не закрытом аутенфикацией и т.п.)

UFO just landed and posted this here

Joshua Apr 15 2008 at 00:02

Crawling в русской транслитерации будет скорее "крОулинг".
За статью - спасибо!

maxic Apr 15 2008 at 17:09

Нет, это просто тормознутость какае-то... 2008 год... и только "додуматься" до этого.
Когда я ваял своего паучка по сбору новостей линков на новости, мне в голову сразу такая мысль пришла, но это было в 2000 году то.
И большой сложности с технической реализацией там особо нет, тем более для такой софтверно-инетовской компании как гугл, которую я кстати очень уважаю. Просто не понятны причины... скорее всего как всегда ошибка отдела маркетинга. На гребне успеха хватало и того что есть... Теперь когда ms хочет купить yahoo начал шевелится отдел маркетинга...:)

siteinside Apr 15 2008 at 22:57

Господа, скажите мне, если я прав.
Прочитав изложенное, вырисовалась следующая картина: гуглобот сканит "невидимую" сеть. После этого я задаю запрос в поисковике и он дает мне результаты. Проходя по ссылкам которых мне постоянно будет предлагаться зарегистрироваться. Так или нет? Ведь, как написано выше, закрытая формами информация составляет 90% содержимого глобальной сети.

Show the best of all time