Как стать автором
Обновить

Bigbrother следит за тобой или темная сторона интернета

Время на прочтение3 мин
Количество просмотров2K
UPD: На самом деле виноват PHPBB — он считает ботов зарегистрированными пользователями, и дает им права на чтение. Спасибо khim mikes
google is watching youНесколько лет назад где-то читал, что Google собирается проиндексировать «темную сторону интернета» — это всевозможные базы данных, закрытые библиотеки и вообще платные сайты. Т.е. информацию, для просмотра которой необходимо ввести как минимум логин и пароль. По некоторым подсчетам, «темной» информации в интернете может быть от 90 до 98%.
Тогда я обрадовался — можно будет смотреть тот же experts-exchange.com (про клавишу End знаю) и подобные сайты, чем и пользовался.

Но вот недавно мне потребовалось создать внутренний форум для организации. Организация достаточно большая и распределена по стране. Задача стояла сделать простое общение географически распределенных сотрудников внутри организации. Планировалось обсуждать внутреннюю информацию, доступ конкурентов к которой был, мягко говоря нежелателен.

Что я сделал:
  • Добавил суб-домен
  • Установил и настроил PHPBB
  • Закрыл все форумы — не авторизованному пользователю выдается сообщение «На этом сайте нет форумов»
  • Добавил на страницу регистрации дополнительное поле с вопросом, ответ на который знают только сотрудники, работающие в этой организации.
  • Оповестил сотрудников только по почте. Ссылка в интернете нигде не светилась.
Однако через неделю в логах заметил пауков googlebot, yandexbot, и др менее известных. Это меня не смутило — есть куча сервисов, которые показывают DNS статистику — через них поисковики могли выйти на форум.
Однако через месяц заметил в логах индексацию форума гуглем:
66.249.71.178 - - [time] "GET /robots.txt HTTP/1.1" 404 2152 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.71.178 - - [time] "GET / HTTP/1.1" 200 17743 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.71.178 - - [time] "GET /viewtopic.php?f=x5&p=y96 HTTP/1.1" 200 26238 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.71.178 - - [time] "GET /viewforum.php?f=x5 HTTP/1.1" 200 13482 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.71.177 - - [time] "GET /viewforum.php?f=x0 HTTP/1.1" 200 14550 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.71.178 - - [time] "GET /viewtopic.php?f=x5&p=y34 HTTP/1.1" 200 15503 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"


Я был несколько шокирован. КАК? Как гугль получил доступ к форуму? В это время появляются первые 2 ссылки по запросу «site:forum.of.site.com».
Быстро добавил robots.txt
	User-agent: Googlebot
	Disallow: /
	

Через некоторое время бот перечитал robots.txt, но продолжил индексацию. Еще через неделю в кеше гугля появилось несколько десятков страниц.

Я начал искать информацию, как удалить информацию из индекса и кеша.
Гугл рекомендует добавить в HTML строчки
	<meta name="robots" content="noarchive">
	<meta name="googlebot" content="noarchive">
	

Что и было незамедлительно сделано, тем не менее индексация продолжилась, страницы в кеше увеличивались.

Продолжил поиски — нашел Инструмент для создания заявки на удаление веб-страницы, сервис не удобен тем, что позволяет удалить только один URL за раз, причем задает много вопросов, но подать заявку может любой желающий.
К счастью нашел способ удалить весь сайт — добавить в свои сайты в панель инструментов, подтвердить управление и после чего можно удалить. Возможно в ближайшее время будет востребована профессия SED (Search Engine Deoptimizator) :)?

Но остается главный вопрос:

Как Google получил доступ?


У меня есть лишь одно предположение: один из сотрудников пользуется Google Desktop — (об этом говорит его user-agent string). Судя по всему Google Desktop передает cookies. По сути ворует куки. Не думаю, что он передает все данные форм — это был бы скандал, да и нет POST запросов от бота.

UPD: На самом деле виноват PHPBB — он считает ботов зарегистрированными пользователями, и дает им права на чтение. Спасибо khim mikes
Теги:
Хабы:
+29
Комментарии27

Публикации

Изменить настройки темы

Истории

Ближайшие события

Weekend Offer в AliExpress
Дата20 – 21 апреля
Время10:00 – 20:00
Место
Онлайн
Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн