Яндекс начал индексировать Google Документы с паролями

    Только что стало известно что Яндекс начал индексировать Google Документы в числе которых есть и документы с паролями, личными данными и т.д.

    image

    Ссылка на поисковый запрос

    Рекомендуется всем проверить настройки доступа своих Google Документов.

    UPD: 05.07.2018 1:10 МСК. Только что стало известно, что Яндекс исправил проблему.

    UPD: 05.07.2018 1:30 МСК.
    Замечено что в поисковиках Google, Mail.ru, Bing и т.д так же можно наткнутся на открытые документы.

    UPD: 05.07.2018 1:45 МСК.
    На своей странице под одной из записей Вконтакте был опубликован комментарий от Яндекса следующего содержания

    Яндекс индексирует всю открытую часть интернета — те страницы, которые доступны при переходе по ссылкам без ввода логина и пароля. Страницы, индексация которых запрещена администратором сайта в файле robots.txt, Яндекс не индексирует, даже если они находятся в открытой части интернета.

    Наша служба безопасности связывается сейчас с коллегами из Google, чтобы обратить их внимание на то, что в этих файлах может оказаться приватная информация.
    Поделиться публикацией
    Ой, у вас баннер убежал!

    Ну. И что?
    Реклама
    Комментарии 116
      +2
      Самое интересное, что индексация явно разрешена в robots.txt:
      ...
      Allow: /document
      ...
      Allow: /spreadsheet
      ...

      и пр.
        +1
        это вы верно подметили
          +12

          А почему бы ей быть запрещённой? Там открытая информация хранится, кроме тех документов, которые не разрешены для общего доступа.

            +8

            Немного странно, что документы, которые доступны только знающим секретную ссылку (а именно так эта функция обозначена в интерфейсе Google Docs) становятся доступными всем желающим.


            Нет, понятно, что это уже далеко не первый такой слив. Но по задумке они все-таки должны быть доступны не всем.

              +18

              Значит ссылка попала в открытые источники, откуда её добыл краулер Яндекса. Всё по-прежнему легитимно — доступ только тем у кого есть ссылка, если ссылка выложена публично — доступ есть у всех.


              Хотя, возможно, стоило бы проверять, что документ "защищён" таким образом, и не индексировать его. Но поисковику ухудшать своё качество поиска однозначно не выгодно.

                +4

                Как поисковик получил эти ссылки неизвестно, но, навскидку, таких способов сильно больше одного. И самая простая защита от индексации таких документов — правильный robots.txt.
                К сожалению, я не смог найти историю этого файла в кешах поисковиков и на wayback machine. Неизвестно, как давно этот файл разрешает индексацию документов.

                  0
                  правильный robots.txt

                  Не прокатит: он должен быть в корне сайта, и туда придётся вносить ссылки на все "защищённые" документы в гугл докс. Файлик получится на пару терабайт :) Хотя, может быть есть есть какой-нибудь мета-тег, запрещающий краулерам индексацию конкретно этой страницы.

                    0

                    Там же по префиксам проверка. Достаточно просто одной строчки, чтобы запретить индексацию всех таких документов.

                      +4

                      В гугл-доксах пути к защищённым и не защищённым документам не отличаются. По техническим причинам: документ можно перевести из одной категории в другую, и ссылка(секретная или нет) при этом не должна сломаться.

                        0

                        Разве защищённые доступны по ссылке всем желающим? Если так, то не очень понятно в чем их защищённость.

                          +5

                          Бывают разрешённые только определённым учётным записям, а бывают защищённые только ссылкой. Не уверен, как они называются в терминологии гугла. Проиндексировались, понятно, именно вторые.

                            0

                            Документы, доступные только определённым записям, доступны только этим записям и по прямой ссылке просят залогиниться. Поисковики их тоже не индексируют, по той же причине.

                              +6
                              В теории интернета документы, защищённые только ссылкой, защищёнными не являются, т. к. считается, что ссылки никогда не могут хранить приватные данные. По крайней мере так считают поисковики, и те, кто следят за безопасностью, обязаны с этим смириться.

                              Своим пользователям гугл должен объяснить, что защищать документы ссылкой — не очень надёжно, т. к. ссылка не является приватной информацией и может сливаться браузерами/дополнениями/etc.
                            –3
                            С чего бы это она не должна меняться? Должна. Более того, секретная ссылка должна каждый раз генериться новая. И должен быть механизм отзыва такой ссылки.
                              +3

                              Ссылка может уже использоваться в рабочем процессе(быть прислана кому-то по почте, в чате, выложена в вики и т. д.) и из-за изменения параметров документа не должна сломаться.

                                +1
                                Редирект решил бы вопрос.
                                  +2

                                  Круалер пройдёт по редиректу, вопрос остался бы открытым

                                    0
                                    Если ресурс был публичный, а стал закрытым, делаем редирект из /public~ в /protected~. Если был закрытый, стал публичный — редирект обратно. В robors.txt запрещаем индексировать /protected.
                                    Все ссылки работают, вне зависимости от того, в какой момент они были получены. Краулеры не индексируют приватные документы, если даже ссылка была где-то опубликована. И волки сыты и овцы целы.
                                      0

                                      Ниже в комментах Iqorek рассказал, что для этого есть хедер X-Robots-Tag: noindex и мета-тег noindex. Так что всё решается даже проще, но ваша схема тоже должна сработать.

                                  +3
                                  «Все уже украдено до нас», noindex метатаг или заголовок X-Robots-Tag: noindex
                                  гугл об этом знает, яндекс надеюсь тоже, даже интересно где произошел косяк, гугл не выдавал этот заголовок или яндекс его игнорил.
                                    +1
                                    Гугл сам индексирует открытые документы гуглдока , естественно, он не будет запрещать себе же индексирование.
                                    0
                                    Ссылки в принципе ломаться не должны. Но вот неавторизованный доступ предоставлять отозванная ссылка уже не должна.
                                    0
                                    вы забыли «время экспирации 5 секунд». Тут надо чуть потолще, а то люди не догадаются, что вы шутите.
                                      0
                                      «Секретная» ссылка — это фикция. Основывать защиту документа на том, что кто-то не знает его URI — это лишь видимость защиты.
                                        +2
                                        Любая «защита» — это фикция. Разница лишь в степени рисков. Завязывайте с бинарным мышлением. Ссылка — это прежде всего удобно. Иногда это удобство стоит риска компроментации, иногда нет. И плохо, когда в случае компроментации отозвать такую ссылку можно лишь полностью запретив неавторизованный доступ с соответствующими неудобствами.
                                          +1
                                          Ровно такая же фикция, как секретный пароль. Пока вы его не опубликовали, всё в порядке (при использовании HTTPS и нормальной безопасности на стороне хранилища файла).
                                            0
                                            Между паролем и URI очень большая разница. Пароль — это секрет который знаете только вы и не передаете третьим лицам. В то время как секретная ссылка — это сущность которую вы третим лицам передаете.

                                            Если же речь идет о «пароле на бумажке возле компьютера», то да — это фикция.
                                              0
                                              Если вы хотите передать информацию, находящуюся в зашифрованном файле, другому человеку, то вам нужно передать ему и ключ шифрования. То же и с уникальным длинным случайным URI.
                                    +2
                                    Угу, с таким замечательным файликом и краулер не нужен, просто скачиваем его, и вот у нас есть все ссылки)
                                    +3
                                    самая простая защита от индексации таких документов — правильный robots.txt

                                    А теперь вопрос, что мешает заинтересованным лицам создать собственный поисковик, который игнорирует robots.txt?
                                      0

                                      Никто не мешает.
                                      Но согласитесь, у существующих гигантов рынка больше возможностей получить ссылки на какую-то личную информацию пользователя, чем у вчера запущенного наколеночного проекта.


                                      А так — да, это вопрос лишь порядочности. И документ, защищённый лишь ссылкой, в современном интернете приватным не является. Телеметрию собирают все кому не лень.

                                    +27
                                    Я думаю, что добыть они могли их только одним способом: они отправили на индексацию то, куда ходили пользователи Яндекс.Браузера.
                                      +1

                                      Ну это как-то уж слишком. Есть куча других каналов: форумы, обсуждения в открытых группах вконтакте/фейсбуке, и так далее.


                                      Хотя, конечно, подозрение очень неприятное, и стоило бы скастовать в комментарии представителей Яндекса, прояснить ситуацию.

                                        +2
                                        Да, соглашусь с Вами.
                                          0
                                          Ох наврятли такое будет кто выкладывать на форуме. Так что Urushev практически со 100% вероятностью прав.
                                          Ссылка содержит приватные данные!
                                            0
                                            Уже не содержит) Но батареи в офисе им придётся заменить...
                                            –3
                                            А что тут удивительного, Яндексу (да и Гуглу) же нужно контекстную рекламу показывать, вот и сливается адреса страниц, на них заходит бот, смотрит robots.txt там дано добро на индексацию, заливает всё в индекс.
                                              0
                                              Ну и чего минусим, это все на основе данных логов своих серверов, где очень часто после захода на скрытую ссылку (которую никто не должен знать кроме одного пользователя), почти сразу же туда заходит робот, либо гугла либо яндекса.
                                                0
                                                ну так если ссылка не запрещена к индексированию, а пользователь использует например ЯндексБраузер так и произойдет, тут нет ничего необычного.
                                                  –2
                                                  А теперь, пожалуйста, красочную историю в трёх частях с объяснениями как вы по логам своего сервера выяснили — занёс ли Гугл/Яндекс ссылку к себе в индекс или нет.

                                                  Hint: кроме браузера и поисковой системы у Гугла и Яндекса есть много других сервисов, которые могут скачивать вашу страничку. Детектор malware, к примеру.
                                                    0
                                                    Ага причем эти «другие» ходят с ip адресов google и яндекс :)
                                                      0
                                                      А почему, собственно, они должны с других адресов ходить? Они в том же облаке живут, что и поиск, просто немного другим заняты.
                                                        –1
                                                        Речь о конкретных IP адресах, с которых ходят конкретные боты, а не просто подсети принадлежащие яндексу или google
                                                          –1
                                                          Я даже не знаю — смеяться или плакать. Вы когда-нибудь видели ASP-приложения на NGINX'е? А почему с домена habr.com отвечает «Server: QRATOR» — знаете?

                                                          Вот и у Гугла с Яндексом — та же история, только наоборот. Нет никаких «конкретных IP адресов, с которых ходят конкретные боты». Просто нету. Есть сервис, скачивающий с web-сайтов файлы и отдающий их ботам, которые эти данные запросили. Есть сервисы, которые запрашивают файлы у сервися скачивания файлов — краулер, почта и прочие.

                                                          Просто потому что так эффективнее. И безопаснее. Потому вы и не сможете отличить бот, который проверяет вашу страничку на наличие malware от бота, который скачивает вашу почту с Yandex.ru и заливает на Gmail.com, что «снаружи» это — один и тот же бот!

                                                          А вот уже боты, которые посылали запросы на скачивание файлов — они да, уже разные. Но им никто в Internet напрямую ходить не даст. Не положено.
                                                            0
                                                            Каким боком тут Хабр и его защита от DDOS'а? Я могу на своих серваках, хоть VasyaPupkin в Server выводить и что?
                                                            Есть сервис, скачивающий с web-сайтов файлы и отдающий их ботам

                                                            Т.е. вы всерьез приколупались к фразе бот? Пусть будет сервис, я вообще говорил, о том что скачивает именно гугл/яндекс, как потом эта информация обрабатывается у них, известно только работникам этих контор. Но учитывая, что в поисковиках куча скрытых адресов, то вполне успешно в итоге адреса индексируются (например, можно вспомнить как проиндексировались смски Мегафона или билеты РЖД с паспортными данными).
                                                            что «снаружи» это — один и тот же бот!

                                                            Яндексу об этом не забудьте написать, а то они не знают, и пишут, что их боты как раз выглядят по-разному. Да и IPшники у этих ботов обычно разные.
                                                +4
                                                Да, только не скастовать, а засуммонить.
                                                0
                                                Совсем необязательно. Была старая история, когда Гугл и Яндекс парсили текст из электронной почты и предлагали таргетированную рекламу пользователям, что вызвало определенные возмущения. Тогда же всплыло, что такие приватные ссылки, отправленные через почту, начинали индексироваться. Тоже самое и в любом мессенджере.
                                                Если нужно передать «секретный текст» через почту, можно использовать картинки. Хотя их сейчас тоже скорее всего прогоняют через анализаторы на предмет всякой порнографии.
                                                  0
                                                  Если нужно передать «секретный текст» через почту

                                                  Про банальные архивы с паролем позабыли? Пароль передаётся через другой канал связи. Если у респондентов есть заранее сформированный список паролей, то можно в том же письме передать номер (идентификатор) пароля.

                                                    0
                                                    Или же использовать PGP (а ключи, опять же, передать заранее)
                                                      0
                                                      Некоторые почтовые сервисы (тот же gmail) этого не позволяют этого делать «в целях безопасности».
                                                        0

                                                        Конечно, они же, бедняжки, не смогут прочитать содержимое. Решается просто — запароленный архив внутри обычного.

                                                          0
                                                          Вы думаете, что они настолько просты, что не заглядывают внутрь архивов?)
                                                            0

                                                            Нет, не заглядывают, проверяется лишь возможность распаковки первого архива. Это работает. Можете проверить самостоятельно.

                                                              0
                                                              Попробовал — не работает. Причем, достаточно давно. Цитирую справку:
                                                              Чтобы предотвратить распространение вирусов, в Gmail запрещено пересылать файлы определенного типа, а именно:

                                                              • файлы из списка запрещенных, включая сжатые (например, GZ или BZ2) и помещенные в архив (например, ZIP или TGZ);
                                                              • документы с вредоносными макросами;
                                                              • архивы, содержащие архивы и защищенные паролем.
                                                                0

                                                                А я только что отправил сам себе 3 письма, используя почтовый клиент:


                                                                1. Зашифрованный RAR-архив, в свойствах которого не было сокрытия файлов (encrypt file names) благополучно был отправлен и получен;
                                                                2. Зашифрованный RAR-архив, как и предполагалось, не отправился;
                                                                3. Зашифрованный RAR-архив внутри ZIP-архива благополучно был отправлен и получен.
                                                                  0
                                                                  Забавно. Через веб-интерфейс с 7z без шифрования имен — работает. Архив-в-врхиве — не работает. Для zip оба кейса работают.
                                                              +1
                                                              archive.base64.txt :D
                                                        +2
                                                        Почему «старая»? Про Яндекс не знаю, а гугель до сих пор так делает. Также он парсит SMS, которые отправляются/принимаются на андоидах. По крайней мере раньше точно так делал. Плюс есть сообщения от целого ряда знакомых, что озвученное ВСЛУХ рядом с андроидофоном приводило к тому, что в контекстная реклама на следующий день была полна теми вещами, про которые шёл разговор.
                                                          +1
                                                          В последнем пункте убедился лично. Обсуждали достаточно узкоспециализированную вещь (ни одного запроса ни с одного компа рядом не было, только голосовое обсуждение) и на следующий день «та-дам, реклама»
                                                        +5
                                                        Могу подвердить, на своем вебсервисе сталкивались с таким. Есть страничка которая доступна только по прямой ссылке и ссылка нигде не появляется кроме как у того пользователя кто изначально на нее попал. Оказалось что на некоторые такие странички попадают и другие пользователи, что в нашем случае не так критично, но все-таки.
                                                        Оказалось что ситуация наблюдается только когда User-Agent исходного создателя -Яндекс.Браузер и попадают на нее в основном пользователи Яндекс.Браузера (видимо потому что у них поиск по-умолчанию Яндекс). Так что браузер сливает еще как
                                                          +1

                                                          Очень интересное наблюдение. BarakAdama, тут есть подозрение, что Яндекс индексирует посещённые пользователями Яндекс.Браузер страницы. На эти страницы нет прямых ссылок на сайте, попасть на них мог только залогиненный пользователь. Можете прокомментировать или попросить прокомментировать коллег из Яндекса?

                                                            +2
                                                            Насколько я помню эта практику давно начал гугл с хромом, вряд ли яндексу хочется оставаться в отстающих.
                                                            Это используется как раз чтобы быстро находить новые сайты.
                                                        • НЛО прилетело и опубликовало эту надпись здесь
                                                          +2
                                                          Значит ссылка попала в открытые источники, откуда её добыл краулер Яндекса. Всё по-прежнему легитимно — доступ только тем у кого есть ссылка, если ссылка выложена публично — доступ есть у всех.

                                                          Например, ее открыли через браузер с Яндекс.Баром. Ну или в Яндекс-браузере…
                                                            0

                                                            Есть такой вариант, выше я попробовал скастовать BarakAdama (яндекс) для ответа на этот вопрос.

                                                              +2
                                                              Просто лет 7 назад у Webasyst Shopscript была похожая проблема.
                                                              ЛК для просмотра статуса заказа был доступен по ссылке из письма и яндекс проиндексировал ссылки из писем при открытии в яндексбраузере или в браузере с яндекс баром. Покупки в сексшопах стали доступны всем)
                                                              www.anti-malware.ru/news/2011-07-25/4373
                                                              Видимо ничего не поменялось.
                                                            0
                                                            > Значит ссылка попала в открытые источники, откуда её добыл краулер Яндекса.

                                                            А разве яндекс.браузер не отправляет данные о посещенных страницах? Если и не отправляет — то могли выложить ссылку на документ на (возможно закрытом) форуме где стоит метрика.
                                                              –1
                                                              Значит ссылка попала в открытые источники, откуда её добыл краулер Яндекса. Всё по-прежнему легитимно — доступ только тем у кого есть ссылка, если ссылка выложена публично — доступ есть у всех.

                                                              А если яндекс вытащил ссылку из пользовательской яндекс-почты, просто нам об этом не сообщает? Я вот не совсем понимаю, зачем индексировать гуглодоки в принципе, открыты они или нет.
                                                                +1
                                                                зачем индексировать гуглодоки в принципе, открыты они или нет.

                                                                Потому что именно в публичных гуглдоках часто находится ответ на заданный вопрос (и иногда только на гуглдоках, например расписание груповых занятий фитнеса, которые на оф.сайте есть только в виде гуглдока). Несколько раз нагугливал ответ на гуглдоках или pdf файлах.
                                                                Сейчас тот же гугл публичные гуглдоки весьма активно индексирует.
                                                              +1
                                                              да, на ютубе например можно опубликовать видео как unlisted и ты его можешь вызвать только по прямой ссылке, а найти его никак не возможно. Так же должно быть и с документами которые передаются только по личной ссылке.
                                                          +17
                                                          Только что стало известно что Яндекс начал индексировать Google Документы в числе которых есть и документы с паролями, личными данными и т.д.

                                                          Ему (и остальным) что-то мешало индексировать до этого? Или он, увидев слово "пароль", должен отвернуться? В общем, неясно в чем открытие.

                                                            +1
                                                            Мешало незнание ссылок на эти документы. А дальше каким-то образом они таки попались боту, он не нашёл запрета robots.txt и закономерно их проиндексировал.
                                                              0
                                                              Самое интересное, каким образом они попались боту. Причём так массово. Дальнейшие действия и так понятны.

                                                              Всё-таки, случайный набор символов ссылке позволяет предполагать, что случайно открыть документ не получится. Значит, либо Яндекс читает приватную переписку, либо собирает все ссылки, по которым ходят пользователи яндексбраузера, например… И то и то некрасиво.

                                                              Возможно, есть и третий вариант, но сходу ничего на ум не приходит.
                                                                0
                                                                Яндекс.Элементы ещё. Я даже помню похожий случай, когда именно в Яндекс слились ссылки, которые краулер сам по себе найти бы не мог. Хотя, там, вроде, утекло через Метрику, которая вряд ли появится на сервисе Google…
                                                                  +1
                                                                  Всё-таки, случайный набор символов ссылке позволяет предполагать, что случайно открыть документ не получится. Значит, либо Яндекс читает приватную переписку, либо собирает все ссылки, по которым ходят пользователи яндексбраузера, например… И то и то некрасиво.

                                                                  Лет 7 как точно читает.
                                                                  Старая история:
                                                                  habr.com/company/webasyst/blog/124968
                                                                    0
                                                                    Самое интересное, каким образом они попались боту. Причём так массово. Дальнейшие действия и так понятны.

                                                                    Я предполагаю, что яндекс что-то поправил в коде кравлера и содержимое GDocs'а поддалось индексации.

                                                                    А дальше, пользователи через ЯПочту передавали ссылки на GDocs'ы другим пользователям и не заморачивались с правами, а уповали на приватность расчитывая на ссылки.
                                                                +5
                                                                Ну неприятно, конечно, но с той стороны монитора тоже ведь люди, кидающие сканы в документы ВК прямо под названиями «паспорт Сережи» и тому подобное. В Гугл-документах всегда было русским по белому написано не хранить там пароли.
                                                                  –1
                                                                  Тут ситуация как с забором с надписями: почему было не назвать раздел «файлы»? Со словом «документы» ассоциируются некие важные бумаги, за которыми сервису стоит заботиться, раз уж специальный раздел для них. Так же и секретные ссылки оказались ни разу не секретными. Внезапно юзер вынужден идти куда-то и штудировать условия, иначе какой-нибудь «сейф» окажется ящиком для добровольных пожертвований. Это банальное введение в заблуждение.
                                                                    +2
                                                                    Со словом «документы» ассоциируются некие важные бумаги
                                                                    Если со словом «документы» ассоциируется что-то важное и секретное, пользователь сам должен, условно говоря, закрыть дверцу сейфа и не раздавать ключ кому попало. Сервис не имеет права принимать решения касательно уровня доступа к вашим данным самостоятельно — хотя соглашусь, это можно было бы сделать более дружественно. Например, как Gmail предупреждает вас об отправке сообщений со словом «прикладываю», но без файлов.

                                                                    почему было не назвать раздел «файлы»
                                                                    Вот это точно вводило бы в заблуждение. «Документы» поддерживают только три конкретных типа (презентации, таблицы и тексты), а для произвольных файлов уже есть Google Drive.
                                                                      0
                                                                      пользователь сам должен… и не раздавать ключ кому попало

                                                                      Как я понял, речь шла о том, что поисковый краулер сам как-то находил такие файлы. Иначе претензии к поисковикам выглядели бы странно.

                                                                      «Документы» поддерживают только три конкретных типа

                                                                      Под документами я подразумевал раздел вконтакте (где сканы паспортов выкладывают), там этот список несколько шире.
                                                                      +2
                                                                      «документы» ассоциируются некие важные бумаги, за которыми сервису стоит заботиться,

                                                                      Вообще это сам гугл проиндексировал 9 млн. документов из гугл док. Если вы создали публичный документ, он будет публичным и все его увидят, это как заливать фоточки в фейсбук, а потом удивлятся, что их кто-то постороний увидел.
                                                                        0
                                                                        Про документы -> файлы я хотел сказать о вконтакте.

                                                                        Если вы создали публичный документ, он будет публичным и все его увидят

                                                                        Это должно быть очевидно для юзера. Как правило это решается подтверждениями и умолчаниями. Если юзер стал раскладывать «секретные ссылки» по всему публичному интернету, то он ССЗБ и вопросов к сервису нет.
                                                                    –5
                                                                    А в гугле, судя по всему, не ищет закрытые доки, а только открытые site:https://docs.google.com/ пароли
                                                                      +1
                                                                      Так закрытые на то и закрытые, что они доступны только определённым учёткам и недоступны по прямой ссылке. И роботам поисковиков тоже недоступны.
                                                                        +3
                                                                        Есть ещё закрытые, но доступные по секретной ссылке на них (просмотр/редактирование).
                                                                        Откуда у Яндекса появились эти ссылки совершено не понятно.

                                                                        image
                                                                          +1
                                                                          Я несколько раз переключил эти режимы и во всех случаях ссылка абсолютно одинаковая. Даже в режиме «выкл», но в этом случае для доступа к документу нужен пароль от аккаунта. А вот в первых двух случаях никакого пароля не надо. Не очень понятно чем они различаются. Возможно, документы из п.1 специально добавляются в поиск гугла для индексации.
                                                                            0
                                                                            Возможно в первом случае если у тебя есть ссылка на каталог, где этот файл, тогда ты в нём увидишь его. Во втором случае в каталоге этого файла не будет.
                                                                            По крайней мере именно так я воспринимаю опцию «Только по прямой ссылке».
                                                                      +2
                                                                      Яндекс:
                                                                      Яндекс индексирует всю открытую часть интернета — те страницы, которые доступны при переходе по ссылкам без ввода логина и пароля. Страницы, индексация которых запрещена администратором сайта в файле robots.txt, Яндекс не индексирует, даже если они находятся в открытой части интернета.

                                                                      Наша служба безопасности связывается сейчас с коллегами из Google, чтобы обратить их внимание на то, что в этих файлах может оказаться приватная информация.
                                                                      • НЛО прилетело и опубликовало эту надпись здесь
                                                                          –7
                                                                          Значит они не отрицают, что индексируют не только опубликованные, а вообще все доступные без ввода логина и пароля ссылки. Значит читают почту, сливают с браузера, что-то ещё… Печально.
                                                                            +4
                                                                            Нашу почту в Яндексе не читают. Ибо машины не умеют читать. Статистический анализ — другое дело, но пока за подобными занятиями был замечен только гугл.

                                                                            Проверить, откуда утекают ссылки, вообще довольно легко:

                                                                            mysite.example.com/aFjkp6 — отправляем себе почтой
                                                                            mysite.example.com/4о2qmZ — вставляем в адресную строку яндекс-браузера
                                                                            mysite.example.com/k942gX — вставляем в поисковую строку

                                                                            Смотрим логи апача nginX. Всё.
                                                                              +1
                                                                              Не поверите, такими действиями я и узнал, что Яндекс.Браузер ссылки сливает.
                                                                                0
                                                                                Какие из способов слива в итоге подтвердились?
                                                                                По ссылкам не было скриптов типа метрики?
                                                                                  +2
                                                                                  Ссылки были без метрик, пара строк в html. По ссылкам переходил из адресной строки, писал по памяти. Ссылок туда нигде не было. Вот хочу сейчас проверить это в более глобальном масштабе.
                                                                          +1

                                                                          Какой жёлтый заголовок

                                                                            0
                                                                            Добро пожаловать на хабр.
                                                                            0
                                                                            Замечено что в поисковиках Google, Mail.ru, Bing и т.д так же можно наткнутся на открытые документы.

                                                                            Только вот подавляющее большинство из них — специально созданные, так сказать, в SEO-целях с ключевыми словами. Даже и близко нет того клондайка, который был в выдаче Яндекса.
                                                                              +7
                                                                              А что удивительного что приватные ссылки утекают? Хром шлёт все открываемые урлы в Гугл, Яндексбраузер в Яндекс, Эдж в мс. Там и индексируют. А что и куда шлют расширения для браузеров одному богу известно. Защита а-ля «доступно только тем, кто знает ссылку» — это не защита.
                                                                                +10
                                                                                — Яндекс стал индексировать Google
                                                                                — Google допустили возможность индексации «секретных» документов
                                                                                — Люди хранят в гуглодоксах пароли
                                                                                — Яндекс исправил ситуацию

                                                                                Сюр
                                                                                  +3
                                                                                  Тут еще пропустили, когда Яндекс игнорировал директивы для своего же робота и индексировал все подряд на Я.диске.
                                                                                  –1
                                                                                  Не вижу ни проблемы, ни криминала абсолютно! Тот факт, что яндекс из-за сбоя (ессесно!) чуть-чуть показал, что может выдавать ссылки на приватные файлы — только подтверждает правило: всё, к чему любой пользователь интернета может иметь доступ без пароля — является доступным всем. Яндекс показал, что хранение таких файлов таким способом есть заболевание их владельцев вирусом «не знаю/не хочу инфо-безопасность». А сейчас ссылки на файлы с паролями просто перестали отображаться в поиске пользователям, но это не лекарство. Мы же с вами верим, что ими никто не воспользуется и даже хранить у себя не будет .
                                                                                  Вывод: доступ по ссылке — это не защита, это только ограничение аудитории, которой файл доступен по-умолчанию. Файл с паролями в облаке должен быть защищен и по доступу и паролем — Это аксиома!.. Файл с паролям без этих защит = розданные всем желающим пароли.
                                                                                  Ограничение в robot.txt равносильно табличке «посторонним вход воспрещен», и никак не защищает от выборки роботами и теми, кто читать не умеет или не желает соблюдать предписанный этикет. Любой может своим (не яндекса) роботом собрать ссылки и сами документы доступные по ссылкам из облаков (хоть подбором).
                                                                                    0
                                                                                    На yahoo та же петрушка
                                                                                    тык
                                                                                    image
                                                                                      0
                                                                                      Вы не поверите, но в самом гугле… тык

                                                                                        +1
                                                                                        Это документы в режиме «Общедоступно в Интернете». Не нашел в выдаче гугла документов, доступных только по ссылке.
                                                                                          0
                                                                                          В выдаче есть даже те, доступ к которым сейчас закрыт вообще, при этом в кэше можно увидеть содержимое, например кеш. Если попытаетесь открыть оригинал, он скажет что у вас нет доступа.
                                                                                            0
                                                                                            Попадание в кеш легко объяснить, если документ ранее был открыт для всех, потом доступ закрыли. Пока не вижу примеров, говорящих, что гугл показывает в выдаче документы, доступные только по ссылке.
                                                                                        0
                                                                                        Пароль, однако, интересный.
                                                                                        0
                                                                                        На producthunt сегодня появился сервис который позволяет просканировать свой google.drive аккаунт на наличие public файлов www.filewatch.rekatsu.com
                                                                                        0

                                                                                        И что? Пастбин тоже индексируется всеми поисковикам. И очень часто оттуда тоже сливаются туча паролей. В том числе от aws. При чем тут поисковик? Да и скорее всегда эта новость опоздала лет так на 10)

                                                                                          0
                                                                                          Опять учёные изнасиловали журналиста
                                                                                            0
                                                                                            Сложившаяся ситуация очень похожа на то, что описано в этой статье.
                                                                                              0
                                                                                              Тот, кто придумал robots.txt был либо недальновидным, либо подло дальновидным. Правило его обработки гласит: можно совать свой хобот в любую щель, на закрытую disallow. А должно было бы по здравому смыслу быть: суй только туда, что явно allow.
                                                                                              Представьте, что к вам в дом залазит некто, шарится по всем комнатам, роется в ваших вещах, копирует ваши документы и вывешивает их на всеобщее обозрение на ближайшем заборе. На вопрос «какого хрена?» он отвечает — но ведь на двери не было таблички [disallow], что нельзя входить!
                                                                                                0
                                                                                                Тот, кто придумал robots.txt был либо недальновидным, либо подло дальновидным.
                                                                                                Тот, кто придумал robots.txt был, в первую очередь, реалистом. И понимал, что если сделать умолчанием «роботом ходить нельзя», то это просто уничтожит Web на корню. Или вы про Нупедию ничего не знаете?

                                                                                                Представьте, что к вам в дом залазит некто, шарится по всем комнатам, роется в ваших вещах, копирует ваши документы и вывешивает их на всеобщее обозрение на ближайшем заборе. На вопрос «какого хрена?» он отвечает — но ведь на двери не было таблички [disallow], что нельзя входить!
                                                                                                Ну дык это — собственно обычное поведение и детишек и вских папарацци! Замок у вас на двери — это, собственно, и есть такая табличка [disallow]. Большинство замков можно открыть банально отвёрткой, но если какой-никакой замок есть — то это значит, что туда ходить нельзя. А если нет — то можно.

                                                                                                В чём отличие от robots.txt?
                                                                                                  0
                                                                                                  «Если бьі не такие как тьі, рядовой Гомер куча, в єтом мире уже не бьіло бьі воров!» ©
                                                                                                  Вообще-то описанньіе вами функции вьіполняют забор/чик, стеньі и двери, а замок препятствует умьішленному проникновению.
                                                                                                0
                                                                                                Настало время и российским компаниям отвечать за сохранность данных пользователей.

                                                                                                Вы можете представить, чтобы, например, Google Chrome отправлял домой все, что оказывается в адресной строке, а потом Google выкладывал это в открытый доступ? Или можете представить, чтобы Facebook дал кому-то проиндексировать все фото своих пользователей и искать их по лицам?

                                                                                                Но как-то так вышло, что и Яндекс, и Вконтакте банально кладут на элементарные нормы приватности и безопасности. Причем с позволения государства и одобрения многих своих пользователей.

                                                                                                Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                                                                Самое читаемое