trigun117 Jul 4 2018 at 23:58

Яндекс начал индексировать Google Документы с паролями

1 min

65K

Information Security*Search engines*

+36

116

Comments 116

FFiX Jul 5 2018 at 00:12

Самое интересное, что индексация явно разрешена в robots.txt:

...

Allow: /document

...

Allow: /spreadsheet

...

и пр.

trigun117 Jul 5 2018 at 00:13

это вы верно подметили

selivanov_pavel Jul 5 2018 at 00:58

А почему бы ей быть запрещённой? Там открытая информация хранится, кроме тех документов, которые не разрешены для общего доступа.

+12

FFiX Jul 5 2018 at 01:02

Немного странно, что документы, которые доступны только знающим секретную ссылку (а именно так эта функция обозначена в интерфейсе Google Docs) становятся доступными всем желающим.

Нет, понятно, что это уже далеко не первый такой слив. Но по задумке они все-таки должны быть доступны не всем.

selivanov_pavel Jul 5 2018 at 01:06

Значит ссылка попала в открытые источники, откуда её добыл краулер Яндекса. Всё по-прежнему легитимно — доступ только тем у кого есть ссылка, если ссылка выложена публично — доступ есть у всех.

Хотя, возможно, стоило бы проверять, что документ "защищён" таким образом, и не индексировать его. Но поисковику ухудшать своё качество поиска однозначно не выгодно.

+18

FFiX Jul 5 2018 at 01:15

Как поисковик получил эти ссылки неизвестно, но, навскидку, таких способов сильно больше одного. И самая простая защита от индексации таких документов — правильный robots.txt.
К сожалению, я не смог найти историю этого файла в кешах поисковиков и на wayback machine. Неизвестно, как давно этот файл разрешает индексацию документов.

selivanov_pavel Jul 5 2018 at 01:19

правильный robots.txt

Не прокатит: он должен быть в корне сайта, и туда придётся вносить ссылки на все "защищённые" документы в гугл докс. Файлик получится на пару терабайт :) Хотя, может быть есть есть какой-нибудь мета-тег, запрещающий краулерам индексацию конкретно этой страницы.

FFiX Jul 5 2018 at 01:38

Там же по префиксам проверка. Достаточно просто одной строчки, чтобы запретить индексацию всех таких документов.

selivanov_pavel Jul 5 2018 at 01:41

В гугл-доксах пути к защищённым и не защищённым документам не отличаются. По техническим причинам: документ можно перевести из одной категории в другую, и ссылка(секретная или нет) при этом не должна сломаться.

FFiX Jul 5 2018 at 01:43

Разве защищённые доступны по ссылке всем желающим? Если так, то не очень понятно в чем их защищённость.

selivanov_pavel Jul 5 2018 at 01:45

Бывают разрешённые только определённым учётным записям, а бывают защищённые только ссылкой. Не уверен, как они называются в терминологии гугла. Проиндексировались, понятно, именно вторые.

FFiX Jul 5 2018 at 02:00

Документы, доступные только определённым записям, доступны только этим записям и по прямой ссылке просят залогиниться. Поисковики их тоже не индексируют, по той же причине.

vitaliy2 Jul 5 2018 at 02:56

В теории интернета документы, защищённые только ссылкой, защищёнными не являются, т. к. считается, что ссылки никогда не могут хранить приватные данные. По крайней мере так считают поисковики, и те, кто следят за безопасностью, обязаны с этим смириться.

Своим пользователям гугл должен объяснить, что защищать документы ссылкой — не очень надёжно, т. к. ссылка не является приватной информацией и может сливаться браузерами/дополнениями/etc.

vintage Jul 5 2018 at 07:09

С чего бы это она не должна меняться? Должна. Более того, секретная ссылка должна каждый раз генериться новая. И должен быть механизм отзыва такой ссылки.

-3

selivanov_pavel Jul 5 2018 at 10:12

Ссылка может уже использоваться в рабочем процессе(быть прислана кому-то по почте, в чате, выложена в вики и т. д.) и из-за изменения параметров документа не должна сломаться.

UFO just landed and posted this here

selivanov_pavel Jul 5 2018 at 15:27

Круалер пройдёт по редиректу, вопрос остался бы открытым

UFO just landed and posted this here

selivanov_pavel Jul 5 2018 at 15:43

Ниже в комментах Iqorek рассказал, что для этого есть хедер X-Robots-Tag: noindex и мета-тег noindex. Так что всё решается даже проще, но ваша схема тоже должна сработать.

Iqorek Jul 5 2018 at 12:52

«Все уже украдено до нас», noindex метатаг или заголовок X-Robots-Tag: noindex
гугл об этом знает, яндекс надеюсь тоже, даже интересно где произошел косяк, гугл не выдавал этот заголовок или яндекс его игнорил.

vedenin1980 Jul 5 2018 at 14:04

Гугл сам индексирует открытые документы гуглдока , естественно, он не будет запрещать себе же индексирование.

vintage Jul 6 2018 at 09:10

Ссылки в принципе ломаться не должны. Но вот неавторизованный доступ предоставлять отозванная ссылка уже не должна.

areht Jul 5 2018 at 15:00

вы забыли «время экспирации 5 секунд». Тут надо чуть потолще, а то люди не догадаются, что вы шутите.

mrsantak Jul 5 2018 at 22:26

«Секретная» ссылка — это фикция. Основывать защиту документа на том, что кто-то не знает его URI — это лишь видимость защиты.

vintage Jul 6 2018 at 08:59

Любая «защита» — это фикция. Разница лишь в степени рисков. Завязывайте с бинарным мышлением. Ссылка — это прежде всего удобно. Иногда это удобство стоит риска компроментации, иногда нет. И плохо, когда в случае компроментации отозвать такую ссылку можно лишь полностью запретив неавторизованный доступ с соответствующими неудобствами.

Gutt Jul 6 2018 at 13:11

Ровно такая же фикция, как секретный пароль. Пока вы его не опубликовали, всё в порядке (при использовании HTTPS и нормальной безопасности на стороне хранилища файла).

mrsantak Jul 6 2018 at 15:54

Между паролем и URI очень большая разница. Пароль — это секрет который знаете только вы и не передаете третьим лицам. В то время как секретная ссылка — это сущность которую вы третим лицам передаете.

Если же речь идет о «пароле на бумажке возле компьютера», то да — это фикция.

Gutt Jul 6 2018 at 21:22

Если вы хотите передать информацию, находящуюся в зашифрованном файле, другому человеку, то вам нужно передать ему и ключ шифрования. То же и с уникальным длинным случайным URI.

Germanets Jul 5 2018 at 13:30

Угу, с таким замечательным файликом и краулер не нужен, просто скачиваем его, и вот у нас есть все ссылки)

SakuradaJun Jul 5 2018 at 11:48

самая простая защита от индексации таких документов — правильный robots.txt

А теперь вопрос, что мешает заинтересованным лицам создать собственный поисковик, который игнорирует robots.txt?

FFiX Jul 5 2018 at 11:55

Никто не мешает.
Но согласитесь, у существующих гигантов рынка больше возможностей получить ссылки на какую-то личную информацию пользователя, чем у вчера запущенного наколеночного проекта.

А так — да, это вопрос лишь порядочности. И документ, защищённый лишь ссылкой, в современном интернете приватным не является. Телеметрию собирают все кому не лень.

Urushev Jul 5 2018 at 01:19

Я думаю, что добыть они могли их только одним способом: они отправили на индексацию то, куда ходили пользователи Яндекс.Браузера.

+27

selivanov_pavel Jul 5 2018 at 01:23

Ну это как-то уж слишком. Есть куча других каналов: форумы, обсуждения в открытых группах вконтакте/фейсбуке, и так далее.

Хотя, конечно, подозрение очень неприятное, и стоило бы скастовать в комментарии представителей Яндекса, прояснить ситуацию.

Urushev Jul 5 2018 at 01:33

Да, соглашусь с Вами.

0xf0a00 Jul 5 2018 at 02:43

Ох наврятли такое будет кто выкладывать на форуме. Так что Urushev практически со 100% вероятностью прав.

Ссылка содержит приватные данные!

тык

u007 Jul 5 2018 at 06:53

Уже не содержит) Но батареи в офисе им придётся заменить...

zapimir Jul 5 2018 at 03:53

А что тут удивительного, Яндексу (да и Гуглу) же нужно контекстную рекламу показывать, вот и сливается адреса страниц, на них заходит бот, смотрит robots.txt там дано добро на индексацию, заливает всё в индекс.

-3

zapimir Jul 5 2018 at 23:19

Ну и чего минусим, это все на основе данных логов своих серверов, где очень часто после захода на скрытую ссылку (которую никто не должен знать кроме одного пользователя), почти сразу же туда заходит робот, либо гугла либо яндекса.

1ax Jul 6 2018 at 14:45

ну так если ссылка не запрещена к индексированию, а пользователь использует например ЯндексБраузер так и произойдет, тут нет ничего необычного.

khim Jul 7 2018 at 01:22

А теперь, пожалуйста, красочную историю в трёх частях с объяснениями как вы по логам своего сервера выяснили — занёс ли Гугл/Яндекс ссылку к себе в индекс или нет.

Hint: кроме браузера и поисковой системы у Гугла и Яндекса есть много других сервисов, которые могут скачивать вашу страничку. Детектор malware, к примеру.

-2

zapimir Jul 9 2018 at 01:38

Ага причем эти «другие» ходят с ip адресов google и яндекс :)

khim Jul 9 2018 at 19:01

А почему, собственно, они должны с других адресов ходить? Они в том же облаке живут, что и поиск, просто немного другим заняты.

zapimir Jul 9 2018 at 22:10

Речь о конкретных IP адресах, с которых ходят конкретные боты, а не просто подсети принадлежащие яндексу или google

-1

khim Jul 10 2018 at 00:30

Я даже не знаю — смеяться или плакать. Вы когда-нибудь видели ASP-приложения на NGINX'е? А почему с домена habr.com отвечает «Server: QRATOR» — знаете?

Вот и у Гугла с Яндексом — та же история, только наоборот. Нет никаких «конкретных IP адресов, с которых ходят конкретные боты». Просто нету. Есть сервис, скачивающий с web-сайтов файлы и отдающий их ботам, которые эти данные запросили. Есть сервисы, которые запрашивают файлы у сервися скачивания файлов — краулер, почта и прочие.

Просто потому что так эффективнее. И безопаснее. Потому вы и не сможете отличить бот, который проверяет вашу страничку на наличие malware от бота, который скачивает вашу почту с Yandex.ru и заливает на Gmail.com, что «снаружи» это — один и тот же бот!

А вот уже боты, которые посылали запросы на скачивание файлов — они да, уже разные. Но им никто в Internet напрямую ходить не даст. Не положено.

-1

zapimir Jul 10 2018 at 01:18

Каким боком тут Хабр и его защита от DDOS'а? Я могу на своих серваках, хоть VasyaPupkin в Server выводить и что?

Есть сервис, скачивающий с web-сайтов файлы и отдающий их ботам

Т.е. вы всерьез приколупались к фразе бот? Пусть будет сервис, я вообще говорил, о том что скачивает именно гугл/яндекс, как потом эта информация обрабатывается у них, известно только работникам этих контор. Но учитывая, что в поисковиках куча скрытых адресов, то вполне успешно в итоге адреса индексируются (например, можно вспомнить как проиндексировались смски Мегафона или билеты РЖД с паспортными данными).

что «снаружи» это — один и тот же бот!

Яндексу об этом не забудьте написать, а то они не знают, и пишут, что их боты как раз выглядят по-разному. Да и IPшники у этих ботов обычно разные.

semifunctional Jul 5 2018 at 09:20

Да, только не скастовать, а засуммонить.

Naves Jul 5 2018 at 10:18

Совсем необязательно. Была старая история, когда Гугл и Яндекс парсили текст из электронной почты и предлагали таргетированную рекламу пользователям, что вызвало определенные возмущения. Тогда же всплыло, что такие приватные ссылки, отправленные через почту, начинали индексироваться. Тоже самое и в любом мессенджере.
Если нужно передать «секретный текст» через почту, можно использовать картинки. Хотя их сейчас тоже скорее всего прогоняют через анализаторы на предмет всякой порнографии.

reff Jul 5 2018 at 11:57

Если нужно передать «секретный текст» через почту

Про банальные архивы с паролем позабыли? Пароль передаётся через другой канал связи. Если у респондентов есть заранее сформированный список паролей, то можно в том же письме передать номер (идентификатор) пароля.

DCNick3 Jul 5 2018 at 12:37

Или же использовать PGP (а ключи, опять же, передать заранее)

Free_ze Jul 5 2018 at 14:21

Некоторые почтовые сервисы (тот же gmail) этого не позволяют этого делать «в целях безопасности».

reff Jul 5 2018 at 14:26

Конечно, они же, бедняжки, не смогут прочитать содержимое. Решается просто — запароленный архив внутри обычного.

Free_ze Jul 5 2018 at 14:27

Вы думаете, что они настолько просты, что не заглядывают внутрь архивов?)

reff Jul 5 2018 at 14:57

Нет, не заглядывают, проверяется лишь возможность распаковки первого архива. Это работает. Можете проверить самостоятельно.

Free_ze Jul 5 2018 at 15:01

Попробовал — не работает. Причем, достаточно давно. Цитирую справку:

Чтобы предотвратить распространение вирусов, в Gmail запрещено пересылать файлы определенного типа, а именно:

файлы из списка запрещенных, включая сжатые (например, GZ или BZ2) и помещенные в архив (например, ZIP или TGZ);

документы с вредоносными макросами;

архивы, содержащие архивы и защищенные паролем.

reff Jul 5 2018 at 15:22

А я только что отправил сам себе 3 письма, используя почтовый клиент:

Зашифрованный RAR-архив, в свойствах которого не было сокрытия файлов (encrypt file names) благополучно был отправлен и получен;
Зашифрованный RAR-архив, как и предполагалось, не отправился;
Зашифрованный RAR-архив внутри ZIP-архива благополучно был отправлен и получен.

Free_ze Jul 5 2018 at 15:46

Забавно. Через веб-интерфейс с 7z без шифрования имен — работает. Архив-в-врхиве — не работает. Для zip оба кейса работают.

Krypt Jul 5 2018 at 20:23

archive.base64.txt :D

athacker Jul 5 2018 at 15:03

Почему «старая»? Про Яндекс не знаю, а гугель до сих пор так делает. Также он парсит SMS, которые отправляются/принимаются на андоидах. По крайней мере раньше точно так делал. Плюс есть сообщения от целого ряда знакомых, что озвученное ВСЛУХ рядом с андроидофоном приводило к тому, что в контекстная реклама на следующий день была полна теми вещами, про которые шёл разговор.

Ronkosa Jul 6 2018 at 09:25

В последнем пункте убедился лично. Обсуждали достаточно узкоспециализированную вещь (ни одного запроса ни с одного компа рядом не было, только голосовое обсуждение) и на следующий день «та-дам, реклама»

SeriousDron Jul 5 2018 at 14:12

Могу подвердить, на своем вебсервисе сталкивались с таким. Есть страничка которая доступна только по прямой ссылке и ссылка нигде не появляется кроме как у того пользователя кто изначально на нее попал. Оказалось что на некоторые такие странички попадают и другие пользователи, что в нашем случае не так критично, но все-таки.
Оказалось что ситуация наблюдается только когда User-Agent исходного создателя -Яндекс.Браузер и попадают на нее в основном пользователи Яндекс.Браузера (видимо потому что у них поиск по-умолчанию Яндекс). Так что браузер сливает еще как

selivanov_pavel Jul 5 2018 at 15:33

Очень интересное наблюдение. BarakAdama, тут есть подозрение, что Яндекс индексирует посещённые пользователями Яндекс.Браузер страницы. На эти страницы нет прямых ссылок на сайте, попасть на них мог только залогиненный пользователь. Можете прокомментировать или попросить прокомментировать коллег из Яндекса?

EvilFox Jul 6 2018 at 00:27

Насколько я помню эта практику давно начал гугл с хромом, вряд ли яндексу хочется оставаться в отстающих.
Это используется как раз чтобы быстро находить новые сайты.

UFO just landed and posted this here

selivanov_pavel Jul 5 2018 at 16:23

Есть такой вариант, выше я попробовал скастовать BarakAdama (яндекс) для ответа на этот вопрос.

UFO just landed and posted this here

Fen1kz Jul 5 2018 at 18:50

> Значит ссылка попала в открытые источники, откуда её добыл краулер Яндекса.

А разве яндекс.браузер не отправляет данные о посещенных страницах? Если и не отправляет — то могли выложить ссылку на документ на (возможно закрытом) форуме где стоит метрика.

geisha Jul 6 2018 at 00:28

Значит ссылка попала в открытые источники, откуда её добыл краулер Яндекса. Всё по-прежнему легитимно — доступ только тем у кого есть ссылка, если ссылка выложена публично — доступ есть у всех.

А если яндекс вытащил ссылку из пользовательской яндекс-почты, просто нам об этом не сообщает? Я вот не совсем понимаю, зачем индексировать гуглодоки в принципе, открыты они или нет.

-1

vedenin1980 Jul 6 2018 at 00:43

зачем индексировать гуглодоки в принципе, открыты они или нет.

Потому что именно в публичных гуглдоках часто находится ответ на заданный вопрос (и иногда только на гуглдоках, например расписание груповых занятий фитнеса, которые на оф.сайте есть только в виде гуглдока). Несколько раз нагугливал ответ на гуглдоках или pdf файлах.
Сейчас тот же гугл публичные гуглдоки весьма активно индексирует.

lxsmkv Jul 6 2018 at 20:20

да, на ютубе например можно опубликовать видео как unlisted и ты его можешь вызвать только по прямой ссылке, а найти его никак не возможно. Так же должно быть и с документами которые передаются только по личной ссылке.

express Jul 5 2018 at 00:56

Только что стало известно что Яндекс начал индексировать Google Документы в числе которых есть и документы с паролями, личными данными и т.д.

Ему (и остальным) что-то мешало индексировать до этого? Или он, увидев слово "пароль", должен отвернуться? В общем, неясно в чем открытие.

+17

dartraiden Jul 5 2018 at 09:17

Мешало незнание ссылок на эти документы. А дальше каким-то образом они таки попались боту, он не нашёл запрета robots.txt и закономерно их проиндексировал.

Darth_Malok Jul 5 2018 at 12:56

Самое интересное, каким образом они попались боту. Причём так массово. Дальнейшие действия и так понятны.

Всё-таки, случайный набор символов ссылке позволяет предполагать, что случайно открыть документ не получится. Значит, либо Яндекс читает приватную переписку, либо собирает все ссылки, по которым ходят пользователи яндексбраузера, например… И то и то некрасиво.

Возможно, есть и третий вариант, но сходу ничего на ум не приходит.

dartraiden Jul 5 2018 at 13:14

Яндекс.Элементы ещё. Я даже помню похожий случай, когда именно в Яндекс слились ссылки, которые краулер сам по себе найти бы не мог. Хотя, там, вроде, утекло через Метрику, которая вряд ли появится на сервисе Google…

UFO just landed and posted this here

ZetaTetra Jul 5 2018 at 18:27

Самое интересное, каким образом они попались боту. Причём так массово. Дальнейшие действия и так понятны.

Я предполагаю, что яндекс что-то поправил в коде кравлера и содержимое GDocs'а поддалось индексации.

А дальше, пользователи через ЯПочту передавали ссылки на GDocs'ы другим пользователям и не заморачивались с правами, а уповали на приватность расчитывая на ссылки.

Vsevo10d Jul 5 2018 at 01:02

Ну неприятно, конечно, но с той стороны монитора тоже ведь люди, кидающие сканы в документы ВК прямо под названиями «паспорт Сережи» и тому подобное. В Гугл-документах всегда было русским по белому написано не хранить там пароли.

Free_ze Jul 5 2018 at 12:29

Тут ситуация как с забором с надписями: почему было не назвать раздел «файлы»? Со словом «документы» ассоциируются некие важные бумаги, за которыми сервису стоит заботиться, раз уж специальный раздел для них. Так же и секретные ссылки оказались ни разу не секретными. Внезапно юзер вынужден идти куда-то и штудировать условия, иначе какой-нибудь «сейф» окажется ящиком для добровольных пожертвований. Это банальное введение в заблуждение.

-1

impwx Jul 5 2018 at 13:09

Со словом «документы» ассоциируются некие важные бумаги

Если со словом «документы» ассоциируется что-то важное и секретное, пользователь сам должен, условно говоря, закрыть дверцу сейфа и не раздавать ключ кому попало. Сервис не имеет права принимать решения касательно уровня доступа к вашим данным самостоятельно — хотя соглашусь, это можно было бы сделать более дружественно. Например, как Gmail предупреждает вас об отправке сообщений со словом «прикладываю», но без файлов.

почему было не назвать раздел «файлы»

Вот это точно вводило бы в заблуждение. «Документы» поддерживают только три конкретных типа (презентации, таблицы и тексты), а для произвольных файлов уже есть Google Drive.

Free_ze Jul 5 2018 at 13:35

пользователь сам должен… и не раздавать ключ кому попало

Как я понял, речь шла о том, что поисковый краулер сам как-то находил такие файлы. Иначе претензии к поисковикам выглядели бы странно.

«Документы» поддерживают только три конкретных типа

Под документами я подразумевал раздел вконтакте (где сканы паспортов выкладывают), там этот список несколько шире.

vedenin1980 Jul 5 2018 at 14:08

«документы» ассоциируются некие важные бумаги, за которыми сервису стоит заботиться,

Вообще это сам гугл проиндексировал 9 млн. документов из гугл док. Если вы создали публичный документ, он будет публичным и все его увидят, это как заливать фоточки в фейсбук, а потом удивлятся, что их кто-то постороний увидел.

Free_ze Jul 5 2018 at 14:12

Про документы -> файлы я хотел сказать о вконтакте.

Если вы создали публичный документ, он будет публичным и все его увидят

Это должно быть очевидно для юзера. Как правило это решается подтверждениями и умолчаниями. Если юзер стал раскладывать «секретные ссылки» по всему публичному интернету, то он ССЗБ и вопросов к сервису нет.

vaslobas Jul 5 2018 at 01:13

А в гугле, судя по всему, не ищет закрытые доки, а только открытые site:https://docs.google.com/ пароли

-5

FFiX Jul 5 2018 at 02:10

Так закрытые на то и закрытые, что они доступны только определённым учёткам и недоступны по прямой ссылке. И роботам поисковиков тоже недоступны.

vaslobas Jul 5 2018 at 02:15

Есть ещё закрытые, но доступные по секретной ссылке на них (просмотр/редактирование).
Откуда у Яндекса появились эти ссылки совершено не понятно.

FFiX Jul 5 2018 at 02:22

Я несколько раз переключил эти режимы и во всех случаях ссылка абсолютно одинаковая. Даже в режиме «выкл», но в этом случае для доступа к документу нужен пароль от аккаунта. А вот в первых двух случаях никакого пароля не надо. Не очень понятно чем они различаются. Возможно, документы из п.1 специально добавляются в поиск гугла для индексации.

vlivyur Jul 6 2018 at 16:28

Возможно в первом случае если у тебя есть ссылка на каталог, где этот файл, тогда ты в нём увидишь его. Во втором случае в каталоге этого файла не будет.
По крайней мере именно так я воспринимаю опцию «Только по прямой ссылке».

u007 Jul 5 2018 at 05:53

Яндекс:

Яндекс индексирует всю открытую часть интернета — те страницы, которые доступны при переходе по ссылкам без ввода логина и пароля. Страницы, индексация которых запрещена администратором сайта в файле robots.txt, Яндекс не индексирует, даже если они находятся в открытой части интернета.

Наша служба безопасности связывается сейчас с коллегами из Google, чтобы обратить их внимание на то, что в этих файлах может оказаться приватная информация.

UFO just landed and posted this here

Darth_Malok Jul 5 2018 at 13:25

Значит они не отрицают, что индексируют не только опубликованные, а вообще все доступные без ввода логина и пароля ссылки. Значит читают почту, сливают с браузера, что-то ещё… Печально.

-7

u007 Jul 5 2018 at 13:54

Нашу почту в Яндексе не читают. Ибо машины не умеют читать. Статистический анализ — другое дело, но пока за подобными занятиями был замечен только гугл.

Проверить, откуда утекают ссылки, вообще довольно легко:

mysite.example.com/aFjkp6 — отправляем себе почтой
mysite.example.com/4о2qmZ — вставляем в адресную строку яндекс-браузера
mysite.example.com/k942gX — вставляем в поисковую строку

Смотрим логи ~~апача~~ nginX. Всё.

Lonsofore Jul 6 2018 at 14:45

Не поверите, такими действиями я и узнал, что Яндекс.Браузер ссылки сливает.

u007 Jul 6 2018 at 15:38

Какие из способов слива в итоге подтвердились?
По ссылкам не было скриптов типа метрики?

Lonsofore Jul 6 2018 at 16:54

Ссылки были без метрик, пара строк в html. По ссылкам переходил из адресной строки, писал по памяти. Ссылок туда нигде не было. Вот хочу сейчас проверить это в более глобальном масштабе.

dopusteam Jul 5 2018 at 08:17

Какой жёлтый заголовок

UFO just landed and posted this here

dartraiden Jul 5 2018 at 09:20

Замечено что в поисковиках Google, Mail.ru, Bing и т.д так же можно наткнутся на открытые документы.

Только вот подавляющее большинство из них — специально созданные, так сказать, в SEO-целях с ключевыми словами. Даже и близко нет того клондайка, который был в выдаче Яндекса.

dmitry_dvm Jul 5 2018 at 09:37

А что удивительного что приватные ссылки утекают? Хром шлёт все открываемые урлы в Гугл, Яндексбраузер в Яндекс, Эдж в мс. Там и индексируют. А что и куда шлют расширения для браузеров одному богу известно. Защита а-ля «доступно только тем, кто знает ссылку» — это не защита.

rjhdby Jul 5 2018 at 09:56

— Яндекс стал индексировать Google
— Google допустили возможность индексации «секретных» документов
— Люди хранят в гуглодоксах пароли
— Яндекс исправил ситуацию

Сюр

+10

unlor Jul 5 2018 at 10:01

Тут еще пропустили, когда Яндекс игнорировал директивы для своего же робота и индексировал все подряд на Я.диске.

Tufed Jul 5 2018 at 12:38

Не вижу ни проблемы, ни криминала абсолютно! Тот факт, что яндекс из-за сбоя (ессесно!) чуть-чуть показал, что может выдавать ссылки на приватные файлы — только подтверждает правило: всё, к чему любой пользователь интернета может иметь доступ без пароля — является доступным всем. Яндекс показал, что хранение таких файлов таким способом есть заболевание их владельцев вирусом «не знаю/не хочу инфо-безопасность». А сейчас ссылки на файлы с паролями просто перестали отображаться в поиске пользователям, но это не лекарство. Мы же с вами верим, что ими никто не воспользуется и даже хранить у себя не будет .
Вывод: доступ по ссылке — это не защита, это только ограничение аудитории, которой файл доступен по-умолчанию. Файл с паролями в облаке должен быть защищен и по доступу и паролем — Это аксиома!.. Файл с паролям без этих защит = розданные всем желающим пароли.
Ограничение в robot.txt равносильно табличке «посторонним вход воспрещен», и никак не защищает от выборки роботами и теми, кто читать не умеет или не желает соблюдать предписанный этикет. Любой может своим (не яндекса) роботом собрать ссылки и сами документы доступные по ссылкам из облаков (хоть подбором).

-1

teamfighter Jul 5 2018 at 12:45

На yahoo та же петрушка

тык

vedenin1980 Jul 5 2018 at 14:10

Вы не поверите, но в самом гугле… тык

UFO just landed and posted this here

vedenin1980 Jul 5 2018 at 15:42

В выдаче есть даже те, доступ к которым сейчас закрыт вообще, при этом в кэше можно увидеть содержимое, например кеш. Если попытаетесь открыть оригинал, он скажет что у вас нет доступа.

UFO just landed and posted this here

siziyman Jul 5 2018 at 14:54

Пароль, однако, интересный.

bush Jul 5 2018 at 20:31

На producthunt сегодня появился сервис который позволяет просканировать свой google.drive аккаунт на наличие public файлов www.filewatch.rekatsu.com

bofh Jul 6 2018 at 16:58

Ну да, но habr-way это нативненько https://developers.google.com/apis-explorer/?hl=ru#p/drive/v3/drive.files.list?q=visibility+%253D+'anyoneCanFind'+and+'me'+in+owners&fields=files(contentHints(indexableText%252Cthumbnail%252Fimage)%252CcreatedTime%252Cdescription%252CfileExtension%252ChasThumbnail%252CmimeType%252Cname%252CoriginalFilename%252Csize%252CwebContentLink%252CwebViewLink)&_h=6&

А еще в оф. блоге гугла russia.googleblog.com/2018/07/ рекламируют сервис
whohasaccess.com, но вот, получив список таких файлов, можно только им всем балком обновить права. Выбрать каким — нельзя.

echipachenko Jul 6 2018 at 14:45

И что? Пастбин тоже индексируется всеми поисковикам. И очень часто оттуда тоже сливаются туча паролей. В том числе от aws. При чем тут поисковик? Да и скорее всегда эта новость опоздала лет так на 10)

devalone Jul 7 2018 at 16:07

Опять учёные изнасиловали журналиста

trigun117 Jul 7 2018 at 22:19

Сложившаяся ситуация очень похожа на то, что описано в этой статье.

NetMozg Jul 10 2018 at 22:50

Тот, кто придумал robots.txt был либо недальновидным, либо подло дальновидным. Правило его обработки гласит: можно совать свой хобот в любую щель, на закрытую disallow. А должно было бы по здравому смыслу быть: суй только туда, что явно allow.
Представьте, что к вам в дом залазит некто, шарится по всем комнатам, роется в ваших вещах, копирует ваши документы и вывешивает их на всеобщее обозрение на ближайшем заборе. На вопрос «какого хрена?» он отвечает — но ведь на двери не было таблички [disallow], что нельзя входить!

khim Jul 11 2018 at 19:32

Тот, кто придумал robots.txt был либо недальновидным, либо подло дальновидным.

Тот, кто придумал robots.txt был, в первую очередь, реалистом. И понимал, что если сделать умолчанием «роботом ходить нельзя», то это просто уничтожит Web на корню. Или вы про Нупедию ничего не знаете?

Представьте, что к вам в дом залазит некто, шарится по всем комнатам, роется в ваших вещах, копирует ваши документы и вывешивает их на всеобщее обозрение на ближайшем заборе. На вопрос «какого хрена?» он отвечает — но ведь на двери не было таблички [disallow], что нельзя входить!

Ну дык это — собственно обычное поведение и детишек и вских папарацци! Замок у вас на двери — это, собственно, и есть такая табличка [disallow]. Большинство замков можно открыть банально отвёрткой, но если какой-никакой замок есть — то это значит, что туда ходить нельзя. А если нет — то можно.

В чём отличие от robots.txt?

Googlist Jul 12 2018 at 22:07

«Если бьі не такие как тьі, рядовой Гомер куча, в єтом мире уже не бьіло бьі воров!» ©
Вообще-то описанньіе вами функции вьіполняют забор/чик, стеньі и двери, а замок препятствует умьішленному проникновению.

skand888 Jul 10 2018 at 23:00

Настало время и российским компаниям отвечать за сохранность данных пользователей.

Вы можете представить, чтобы, например, Google Chrome отправлял домой все, что оказывается в адресной строке, а потом Google выкладывал это в открытый доступ? Или можете представить, чтобы Facebook дал кому-то проиндексировать все фото своих пользователей и искать их по лицам?

Но как-то так вышло, что и Яндекс, и Вконтакте банально кладут на элементарные нормы приватности и безопасности. Причем с позволения государства и одобрения многих своих пользователей.

Show the best of all time