Comments 116
...
Allow: /document
...
Allow: /spreadsheet
...
и пр.
А почему бы ей быть запрещённой? Там открытая информация хранится, кроме тех документов, которые не разрешены для общего доступа.
Немного странно, что документы, которые доступны только знающим секретную ссылку (а именно так эта функция обозначена в интерфейсе Google Docs) становятся доступными всем желающим.
Нет, понятно, что это уже далеко не первый такой слив. Но по задумке они все-таки должны быть доступны не всем.
Значит ссылка попала в открытые источники, откуда её добыл краулер Яндекса. Всё по-прежнему легитимно — доступ только тем у кого есть ссылка, если ссылка выложена публично — доступ есть у всех.
Хотя, возможно, стоило бы проверять, что документ "защищён" таким образом, и не индексировать его. Но поисковику ухудшать своё качество поиска однозначно не выгодно.
Как поисковик получил эти ссылки неизвестно, но, навскидку, таких способов сильно больше одного. И самая простая защита от индексации таких документов — правильный robots.txt.
К сожалению, я не смог найти историю этого файла в кешах поисковиков и на wayback machine. Неизвестно, как давно этот файл разрешает индексацию документов.
правильный robots.txt
Не прокатит: он должен быть в корне сайта, и туда придётся вносить ссылки на все "защищённые" документы в гугл докс. Файлик получится на пару терабайт :) Хотя, может быть есть есть какой-нибудь мета-тег, запрещающий краулерам индексацию конкретно этой страницы.
Там же по префиксам проверка. Достаточно просто одной строчки, чтобы запретить индексацию всех таких документов.
В гугл-доксах пути к защищённым и не защищённым документам не отличаются. По техническим причинам: документ можно перевести из одной категории в другую, и ссылка(секретная или нет) при этом не должна сломаться.
Разве защищённые доступны по ссылке всем желающим? Если так, то не очень понятно в чем их защищённость.
Бывают разрешённые только определённым учётным записям, а бывают защищённые только ссылкой. Не уверен, как они называются в терминологии гугла. Проиндексировались, понятно, именно вторые.
Документы, доступные только определённым записям, доступны только этим записям и по прямой ссылке просят залогиниться. Поисковики их тоже не индексируют, по той же причине.
Своим пользователям гугл должен объяснить, что защищать документы ссылкой — не очень надёжно, т. к. ссылка не является приватной информацией и может сливаться браузерами/дополнениями/etc.
Ссылка может уже использоваться в рабочем процессе(быть прислана кому-то по почте, в чате, выложена в вики и т. д.) и из-за изменения параметров документа не должна сломаться.
Круалер пройдёт по редиректу, вопрос остался бы открытым
Ниже в комментах Iqorek рассказал, что для этого есть хедер X-Robots-Tag: noindex
и мета-тег noindex
. Так что всё решается даже проще, но ваша схема тоже должна сработать.
Если же речь идет о «пароле на бумажке возле компьютера», то да — это фикция.
самая простая защита от индексации таких документов — правильный robots.txt
А теперь вопрос, что мешает заинтересованным лицам создать собственный поисковик, который игнорирует robots.txt?
Никто не мешает.
Но согласитесь, у существующих гигантов рынка больше возможностей получить ссылки на какую-то личную информацию пользователя, чем у вчера запущенного наколеночного проекта.
А так — да, это вопрос лишь порядочности. И документ, защищённый лишь ссылкой, в современном интернете приватным не является. Телеметрию собирают все кому не лень.
Ну это как-то уж слишком. Есть куча других каналов: форумы, обсуждения в открытых группах вконтакте/фейсбуке, и так далее.
Хотя, конечно, подозрение очень неприятное, и стоило бы скастовать в комментарии представителей Яндекса, прояснить ситуацию.
Hint: кроме браузера и поисковой системы у Гугла и Яндекса есть много других сервисов, которые могут скачивать вашу страничку. Детектор malware, к примеру.
Вот и у Гугла с Яндексом — та же история, только наоборот. Нет никаких «конкретных IP адресов, с которых ходят конкретные боты». Просто нету. Есть сервис, скачивающий с web-сайтов файлы и отдающий их ботам, которые эти данные запросили. Есть сервисы, которые запрашивают файлы у сервися скачивания файлов — краулер, почта и прочие.
Просто потому что так эффективнее. И безопаснее. Потому вы и не сможете отличить бот, который проверяет вашу страничку на наличие malware от бота, который скачивает вашу почту с Yandex.ru и заливает на Gmail.com, что «снаружи» это — один и тот же бот!
А вот уже боты, которые посылали запросы на скачивание файлов — они да, уже разные. Но им никто в Internet напрямую ходить не даст. Не положено.
Есть сервис, скачивающий с web-сайтов файлы и отдающий их ботам
Т.е. вы всерьез приколупались к фразе бот? Пусть будет сервис, я вообще говорил, о том что скачивает именно гугл/яндекс, как потом эта информация обрабатывается у них, известно только работникам этих контор. Но учитывая, что в поисковиках куча скрытых адресов, то вполне успешно в итоге адреса индексируются (например, можно вспомнить как проиндексировались смски Мегафона или билеты РЖД с паспортными данными).
что «снаружи» это — один и тот же бот!
Яндексу об этом не забудьте написать, а то они не знают, и пишут, что их боты как раз выглядят по-разному. Да и IPшники у этих ботов обычно разные.
Если нужно передать «секретный текст» через почту, можно использовать картинки. Хотя их сейчас тоже скорее всего прогоняют через анализаторы на предмет всякой порнографии.
Если нужно передать «секретный текст» через почту
Про банальные архивы с паролем позабыли? Пароль передаётся через другой канал связи. Если у респондентов есть заранее сформированный список паролей, то можно в том же письме передать номер (идентификатор) пароля.
Конечно, они же, бедняжки, не смогут прочитать содержимое. Решается просто — запароленный архив внутри обычного.
Нет, не заглядывают, проверяется лишь возможность распаковки первого архива. Это работает. Можете проверить самостоятельно.
Чтобы предотвратить распространение вирусов, в Gmail запрещено пересылать файлы определенного типа, а именно:
- файлы из списка запрещенных, включая сжатые (например, GZ или BZ2) и помещенные в архив (например, ZIP или TGZ);
- документы с вредоносными макросами;
- архивы, содержащие архивы и защищенные паролем.
А я только что отправил сам себе 3 письма, используя почтовый клиент:
- Зашифрованный RAR-архив, в свойствах которого не было сокрытия файлов (encrypt file names) благополучно был отправлен и получен;
- Зашифрованный RAR-архив, как и предполагалось, не отправился;
- Зашифрованный RAR-архив внутри ZIP-архива благополучно был отправлен и получен.
Оказалось что ситуация наблюдается только когда User-Agent исходного создателя -Яндекс.Браузер и попадают на нее в основном пользователи Яндекс.Браузера (видимо потому что у них поиск по-умолчанию Яндекс). Так что браузер сливает еще как
Очень интересное наблюдение. BarakAdama, тут есть подозрение, что Яндекс индексирует посещённые пользователями Яндекс.Браузер страницы. На эти страницы нет прямых ссылок на сайте, попасть на них мог только залогиненный пользователь. Можете прокомментировать или попросить прокомментировать коллег из Яндекса?
Есть такой вариант, выше я попробовал скастовать BarakAdama (яндекс) для ответа на этот вопрос.
А разве яндекс.браузер не отправляет данные о посещенных страницах? Если и не отправляет — то могли выложить ссылку на документ на (возможно закрытом) форуме где стоит метрика.
Значит ссылка попала в открытые источники, откуда её добыл краулер Яндекса. Всё по-прежнему легитимно — доступ только тем у кого есть ссылка, если ссылка выложена публично — доступ есть у всех.
А если яндекс вытащил ссылку из пользовательской яндекс-почты, просто нам об этом не сообщает? Я вот не совсем понимаю, зачем индексировать гуглодоки в принципе, открыты они или нет.
зачем индексировать гуглодоки в принципе, открыты они или нет.
Потому что именно в публичных гуглдоках часто находится ответ на заданный вопрос (и иногда только на гуглдоках, например расписание груповых занятий фитнеса, которые на оф.сайте есть только в виде гуглдока). Несколько раз нагугливал ответ на гуглдоках или pdf файлах.
Сейчас тот же гугл публичные гуглдоки весьма активно индексирует.
Только что стало известно что Яндекс начал индексировать Google Документы в числе которых есть и документы с паролями, личными данными и т.д.
Ему (и остальным) что-то мешало индексировать до этого? Или он, увидев слово "пароль", должен отвернуться? В общем, неясно в чем открытие.
Всё-таки, случайный набор символов ссылке позволяет предполагать, что случайно открыть документ не получится. Значит, либо Яндекс читает приватную переписку, либо собирает все ссылки, по которым ходят пользователи яндексбраузера, например… И то и то некрасиво.
Возможно, есть и третий вариант, но сходу ничего на ум не приходит.
Самое интересное, каким образом они попались боту. Причём так массово. Дальнейшие действия и так понятны.
Я предполагаю, что яндекс что-то поправил в коде кравлера и содержимое GDocs'а поддалось индексации.
А дальше, пользователи через ЯПочту передавали ссылки на GDocs'ы другим пользователям и не заморачивались с правами, а уповали на приватность расчитывая на ссылки.
Со словом «документы» ассоциируются некие важные бумагиЕсли со словом «документы» ассоциируется что-то важное и секретное, пользователь сам должен, условно говоря, закрыть дверцу сейфа и не раздавать ключ кому попало. Сервис не имеет права принимать решения касательно уровня доступа к вашим данным самостоятельно — хотя соглашусь, это можно было бы сделать более дружественно. Например, как Gmail предупреждает вас об отправке сообщений со словом «прикладываю», но без файлов.
почему было не назвать раздел «файлы»Вот это точно вводило бы в заблуждение. «Документы» поддерживают только три конкретных типа (презентации, таблицы и тексты), а для произвольных файлов уже есть Google Drive.
пользователь сам должен… и не раздавать ключ кому попало
Как я понял, речь шла о том, что поисковый краулер сам как-то находил такие файлы. Иначе претензии к поисковикам выглядели бы странно.
«Документы» поддерживают только три конкретных типа
Под документами я подразумевал раздел вконтакте (где сканы паспортов выкладывают), там этот список несколько шире.
«документы» ассоциируются некие важные бумаги, за которыми сервису стоит заботиться,
Вообще это сам гугл проиндексировал 9 млн. документов из гугл док. Если вы создали публичный документ, он будет публичным и все его увидят, это как заливать фоточки в фейсбук, а потом удивлятся, что их кто-то постороний увидел.
Если вы создали публичный документ, он будет публичным и все его увидят
Это должно быть очевидно для юзера. Как правило это решается подтверждениями и умолчаниями. Если юзер стал раскладывать «секретные ссылки» по всему публичному интернету, то он ССЗБ и вопросов к сервису нет.
Откуда у Яндекса появились эти ссылки совершено не понятно.
Яндекс индексирует всю открытую часть интернета — те страницы, которые доступны при переходе по ссылкам без ввода логина и пароля. Страницы, индексация которых запрещена администратором сайта в файле robots.txt, Яндекс не индексирует, даже если они находятся в открытой части интернета.
Наша служба безопасности связывается сейчас с коллегами из Google, чтобы обратить их внимание на то, что в этих файлах может оказаться приватная информация.
Проверить, откуда утекают ссылки, вообще довольно легко:
mysite.example.com/aFjkp6 — отправляем себе почтой
mysite.example.com/4о2qmZ — вставляем в адресную строку яндекс-браузера
mysite.example.com/k942gX — вставляем в поисковую строку
Смотрим логи
Какой жёлтый заголовок
Замечено что в поисковиках Google, Mail.ru, Bing и т.д так же можно наткнутся на открытые документы.
Только вот подавляющее большинство из них — специально созданные, так сказать, в SEO-целях с ключевыми словами. Даже и близко нет того клондайка, который был в выдаче Яндекса.
— Google допустили возможность индексации «секретных» документов
— Люди хранят в гуглодоксах пароли
— Яндекс исправил ситуацию
Сюр
Вывод: доступ по ссылке — это не защита, это только ограничение аудитории, которой файл доступен по-умолчанию. Файл с паролями в облаке должен быть защищен и по доступу и паролем — Это аксиома!.. Файл с паролям без этих защит = розданные всем желающим пароли.
Ограничение в robot.txt равносильно табличке «посторонним вход воспрещен», и никак не защищает от выборки роботами и теми, кто читать не умеет или не желает соблюдать предписанный этикет. Любой может своим (не яндекса) роботом собрать ссылки и сами документы доступные по ссылкам из облаков (хоть подбором).
А еще в оф. блоге гугла russia.googleblog.com/2018/07/ рекламируют сервис
whohasaccess.com, но вот, получив список таких файлов, можно только им всем балком обновить права. Выбрать каким — нельзя.
И что? Пастбин тоже индексируется всеми поисковикам. И очень часто оттуда тоже сливаются туча паролей. В том числе от aws. При чем тут поисковик? Да и скорее всегда эта новость опоздала лет так на 10)
Представьте, что к вам в дом залазит некто, шарится по всем комнатам, роется в ваших вещах, копирует ваши документы и вывешивает их на всеобщее обозрение на ближайшем заборе. На вопрос «какого хрена?» он отвечает — но ведь на двери не было таблички [disallow], что нельзя входить!
Тот, кто придумал robots.txt был либо недальновидным, либо подло дальновидным.Тот, кто придумал robots.txt был, в первую очередь, реалистом. И понимал, что если сделать умолчанием «роботом ходить нельзя», то это просто уничтожит Web на корню. Или вы про Нупедию ничего не знаете?
Представьте, что к вам в дом залазит некто, шарится по всем комнатам, роется в ваших вещах, копирует ваши документы и вывешивает их на всеобщее обозрение на ближайшем заборе. На вопрос «какого хрена?» он отвечает — но ведь на двери не было таблички [disallow], что нельзя входить!Ну дык это — собственно обычное поведение и детишек и вских папарацци! Замок у вас на двери — это, собственно, и есть такая табличка [disallow]. Большинство замков можно открыть банально отвёрткой, но если какой-никакой замок есть — то это значит, что туда ходить нельзя. А если нет — то можно.
В чём отличие от robots.txt?
Вы можете представить, чтобы, например, Google Chrome отправлял домой все, что оказывается в адресной строке, а потом Google выкладывал это в открытый доступ? Или можете представить, чтобы Facebook дал кому-то проиндексировать все фото своих пользователей и искать их по лицам?
Но как-то так вышло, что и Яндекс, и Вконтакте банально кладут на элементарные нормы приватности и безопасности. Причем с позволения государства и одобрения многих своих пользователей.
Яндекс начал индексировать Google Документы с паролями