Pull to refresh

Comments 314

Хотя про то, что покпают люди в сексшопах интереснее, все равно зачет. Неделя веселых результатов с яндекса открыта!
Да это даже интереснее сексшопа — можно заранее узнать имена попутчиков и прикидываться потом Шерлоком Холмсом. Или устроить флэшмоб — встречать заданный поезд с плакатами имён пассажиров.
UFO just landed and posted this here
Главное — случайно не найти результы будущих выборов, и тогда не посадят :)
Они уже многим известны, так что ничего страшного. В Казахстане например (по рассказам людей оттуда уехавших — моих знакомых) люди ходили не просто на выборы президента, а на выборы президента Назарбаева. :-)
У нас вся разница лишь в том — какой из пары десятков засветившихся будет назначен светлым князем всея Руси.
Они уже многим известны

Думаю пока немногим.
разумеется :) «во всем виноват @devteev ^_^» ©
UFO just landed and posted this here
UFO just landed and posted this here
А чем яндекс то виноват, сайт не закрыл данные от поискового робота. Или яндекс должен проверять страницу на слово «паспорт» и номер похожий на номер паспорта и не индексировать его? На мой взгляд никому он ничего не должен, кроме как хорошо искать по словам. Или же страницы были закрыты для индексации а злобный яндекс все равно их проиндексировал?
Наверное, если ссылка на определенную страницу нигде не упоминается на сайте, ее не нужно индексировать, нет?
Потому, что поисковик так и будет себя вести по-умолчанию (если не сливать данные дополнительно через бары/метрику).
UFO just landed and posted this here
>Еще на страницы бывает вешают счетчики, притом в глобальном шаблоне.
Яндекс метрика? :)

Да, access.log, да, логи прокси, да, можно заснифать — только масштабы не те. Одно дело, когда урл видит админ, другое дело, когда эти урлы появляются в открытом доступе для любого желающего.
А еще если вы находитесь на какой нибудь приватной странице, и не закрывая вкладки просто вбиваете новый адрес в адресную строку, страница на который вы находились иногда передается на ваш следующий сайт как реферер.

А на следующем вашем сайте, на который вы зашли, результаты статистики awstat лежат в открытом доступе, а там и ссылки откуда приходят — wuala! ваш приватный url утек куда не надо.

Короче говоря, надеятся что если кроме вас никто не знает какой-то урл — то его никто и не узнает — глупо, потому что url-ы, в отличие от содержимого страниц, никогда не шифруются ни https, ни каким-то другим способом, и урл в процессе серфинга попадает к слишком большому количеству третьих лиц чтобы считаться хоть сколько либо секретной информацией
Какую-то херню ты сейчас сморозил про реферер.
где-то я встречал что браузер функционировал именно таким образом, т. е. если я не уходя со страницы вводил новый адрес в адреную строку то страница, на которой я был, передавалась на следующий сайт в качестве реферера
А не только при переходе по ссылке? А то ж это вообще ужас :)
блин сорри, щас еще раз перечитал и понял что бред написал, да. сыну месяц, толком не сплю, надеюсь меня простят.

я вспомнил какую на самом деле схему компроментации таких приватных URL через реферер я видел: человек заходит на свою приватную страницу заказа. она приватная, без метрики и всего остального. там кликабельные ссылки на товары заказанные. человек переходит по такой ссылке на товар и тут начинается самое интересное — его приватный урл виден в реферере, соответственно его видят и метрика и все остальное.
под понятие остальное могут попадать, например, картинки со сторонних сайтов в комментариях к товару и т.д. короче если человек с приватного урла переходит по ссылке на публичный то на публичной возможна компроментация приватного через реферер
Ну вот, теперь нормально )
Поздравляю с сыном, кстати. Моему 11 месяцев, но память о первых неделях еще свежа )
Какую-то херню ты сейчас сморозил про URL и HTTPS.
ага, в рамках TLS/SSL сначала происходит шифрование, а только потом — передача запроса. В логах того же прокси будет только домен и метод CONNECT. URL и URI там не будет.
UFO just landed and posted this here
А еще урл страницы можно заснифать где то между клиентом и сервером.

это уже перебор ;)
тогда URL будет наименее интересной частью
UFO just landed and posted this here
Ох. Кажется это уже тянет на уголовное дело. Нет?
С Яндексом я узнаю много нового и интересного каждый день.
Ага, люди познали темную сторону поисковых систем! :)
ваш билет тоже в выдпчу попал?
Простите меня за этот глупый комментарий. Почтовый ящик взломали. Я очень удивился, увидев комментарий, который не писал.
Ну Вы выдали!!! Вы считаете, что теперь народ не просто клянчит инвайт, а взламывает почту хабраюзеров и от их имени пишет комменты??..
Блин какие рамки???
Мне вспоминается анекдот:
Девушка спрашивает парня: «Почему, если у девушки много парней, то она „Шлюха“, а если у парня много девушек — он „Настоящий мужчина“?
— Ну давай я тебя объясню. Если у тебя есть ключ, который открывает любой замок — то это супер ключ, а если у тебя есть замок, который открывается любым ключом, то это хреновый замок.

Так и тут. Яндекс — супер ключ, который найдёт ВСЁ, а сливший инфу сайт — хреновый замок.
Это надо добавить в топик! :)
Больше похоже на другую ситуацию:
Поставили счетчик на входную дверь, считать кто когда приходит, а потом узнаешь что все имущество описано, где лежит и сколько, и выложено в общий доступ.
UFO just landed and posted this here
UFO just landed and posted this here
Единственное здравое объяснение в пользу яндекса, что скандал с секшопами, заставил шевелится многих вебмастеров, и роботтхт могли настроить буквально сегодня/вчера… :)
лишь бы одним впиливанием robots.txt не ограничивалось, а то злоумышленники получат хорошую подсказку, где собственно искать конфетки >:-)
Исправили только что…
tutu.ru/robots.txt
Last-Modified: Thu, 30 Jun 2011 10:17:13 GMT

avia.tutu.ru/robots.txt
Last-Modified: Wed, 13 Jul 2011 12:35:52 GMT

ну может не только что, но недавно
Интересно, а в выдаче яндекса по tutu.ru, страницы по 18 июля аж.
Возможно яндексовский бот сперва формирует список страниц для индексации, к примеру это произошло 29июня, а потом по чуть-чуть начинает индексировать содержимое и это может закончиться намного позже, когда уже и закрыли для индексации файлом эти страницы.

Но проблема тут даже не в robots.txt и что яндекс проиндексировал, а что вообще подобная информация открыта для любого человека.
В общем, есть доказательство, что robots.txt, на которые переводит стрелки Яндекс, не всегда спасают от индексации. Т.е. надо вешать именно замок, а табличку «закрыто» яндекс игнорирует.
сразу после мегафона
Да robots.txt тут не причем. Очень наивно полагать, что поменяв robots.txt, приватные данные сразу в танке. Robots.txt он вообще для исключения из индекса технических страниц, без SEO-ценного контента, чтобы робот свое время не тратил, а соответсвенно не понижал рейтинг.

Приватные данные должны быть защищены механизмами авторизации и аутентификации.

UFO just landed and posted this here
То есть только логин\пароль? Удобные для многих задач ссылки с секреткой (скажем спасибо яндексу) уходят в прошлое?
Просто секретка в ссылке должна быть одноразовой.
Т. е. человек по ней перешел один раз — второй раз уже не сможет.
В эпоху real-time поиска человек может и не успеть… :)
Яндекс тут не при чем… Вообще секретный ключ передавать, присылать, хранить в открытом виде не безопасно. Вот вам и «покупка без регистрации» и прочие прелести открытого интернета =) зато как удобно!
Для редактирования объявлений например самое то. Не настолько критично, чтобы мучить людей регистрацией.
Ну да, всему свое применение. просто эту идею «сделать X без регистрации» применяют по делу и без него. В итоге пользователи не задумываются о безопасности своих данных совсем.
Достаточно одноразового пароля, который при повторном заходе будет отсылать, например, на email новый.
ШОК! СЕНСАЦИЯ! народ научился пользоваться поиском! Достало уже немного, если честно. Еще пару лет назад народ развлекался, находя через Гугл камеры видеонаблюдения.
А я cisco call manager находил и даже звонить получалось… эх были времена.
UFO just landed and posted this here
railwayticket.ru посетил хабраэффект или они так оперативно чинят?

«The page you are looking for is temporarily unavailable.
Please try again later.»
Кстати, robots.txt
User-agent: *
Disallow: /print.php
Disallow: /company.php
Disallow: /info_eticket.php
Disallow: /info_2.php
Disallow: /info_ret_rzd.php
Disallow: /pay_euroset.php
Disallow: /pay_unikassa.php
Disallow: /pay_qiwi.php
Disallow: /pay_elecsnet.php
Disallow: /terminal_tts.php
Disallow: /piterhotels.php
Disallow: /pay_masterbank.php
Disallow: /pravila-provoza.php
Disallow: /pay_pinpay.php
Disallow: /*errnum=
Disallow: /forum/
Host: www.railwayticket.ru


интересно, давно прикрыли prrint.php?
If-Modified-Since:Tue, 26 Jul 2011 10:43:21 GMT
Дыру в robots.txt закрыли только сегодня в 14:43 MSK, где то за час до публикации топика
UFO just landed and posted this here
можно в кэше яндекса смотреть
Яндекс, скажи, кто выиграет выборы?
Лучше спрашивать пароль будущего президента в твиттере, он об этом более осведомлен :)
Пароль к ядерному чемоданчику. Ох, зря его Димке отдали :)
Кто сказал что отдали? :)
По моему на этот вопрос можно ответить уже сейчас и без яндекса.
Все в толк не возьму: почему во всех этих аттракционах виноват Яндекс, а не олени-вебмастера?
Меня это тоже возмущает. Типа «Яндекс раскрыл», вернее тогда «SexShop раскрыл» или «railwayticket отдал Яндексу приватную информацию» и т.д.
А то в новостях крутят, что виноват Яндекс, а народная вэб-чернь в этом ни бум-бум.
насколько я понял у яндекса тоже не все так гладко
ведь print.php нужно передать параметр с идентификатором запроса
а ид уникальный обычно
а теперь угадайте с трех раз, как яндекс «подобрал» этот ид?
Яндекс бар
Яндекс метрика.
UFO just landed and posted this here
Яндекс старается индексировать все, включая страницы с метрикой. И это его функция как поисковой системы.
UFO just landed and posted this here
На таких страницах тоже может быть полезная информация.
UFO just landed and posted this here
Пример: посты со всякими инструкциями и howto «для себя» в технические персональные блоги.
UFO just landed and posted this here
И на удивление она есть! О чём свидетельствует сабж :)
Ну как же! Столько интересного мы узнали о разных людях за эти дни!
Вот только не думаю, что люди этого хотели
Вы лучше спросите себя (или криворуких разработчиков) — зачем ставить на такие страницы «метрику»?
UFO just landed and posted this here
Что значит «не должен»? Кто это определяет?
UFO just landed and posted this here
>Определяет вебмастер

Какие ещё могут быть вопросы? :)

>Для этого у него есть следующее:

Ни как нет! «Следующее» у него есть главным образом для того, чтобы _облегчить_ поисковикам их труд и попытаться повысить страницу в выдаче.

Первым и третьим так же можно ограничить паукам доступ к некоторым страницам, _если_ пауки придерживаются конвенции, чего, в общем случае, делать не обязаны.

Но всё это имеет очень малое отношение к рассматриваемому случаю. То есть «вебмастер» (разработчик/владелец сервиса) в первую очередь нарушил ФЗ о защите персональных данных. Данные отдаются без авторизации кому угодно. Этого быть не должно. Если «вебмастер» определил эти данные как конфиденциальные, то он и только он должен позаботится об их защите.

>Эта штука полностью теряет смысл, если Яндекс считает нормальным начинать индексирование страницы, на которую не ведет ни одна ссылка с открытых веб-ресурсов.

Нет, не теряет. Это разные инструменты для разных целей.
А добыча таких ссылок — это работа по уменьшению «скрытого интернета». Все поисковики в этом заинтересованы. Это нормально. В конце-концов, подобная страничка по сути ничем не отличается от, скажем, целого «скрытого» сайта, который делался для людей, но, по каким-то причинам, не обзавёлся внешними ссылками на него (не зарегистрирован в каталогах, не проталкивается дорвеями и тд). Например, его владельцы просто не в курсе, что так надо делать и пошли традиционным путём — адрес сайта указан у них на визитках и в печатной рекламе (и это даже работает).

>Яндекс всё правильно сделал?

По большому счёту, я не нашёл в соглашении метрики явного указания на то, что страничка с метрикой будет проиндексирована. Косвенно, об этом можно судить по наличию средств защиты конфиденциальных полей в п9. С другой стороны адрес URL не является конфиденциальной/персональной информацией и «вебмастер» ничего не сделал из множества предлагаемых средств для её защиты.
Вот тут я попробовал ответить на ваш вопрос:
habrahabr.ru/blogs/infosecurity/124956/#comment_4110400

Существуют такие страницы, которые могут быть полезными/содержательными, но на которые не ведут никакие ссылки
UFO just landed and posted this here
проблема в том, что далеко не все веб-мастера достаточно основательно подходят к своей работе, чтобы
потихоньку добавлять список ссылок на все страницы в sitemap.xml


В итоге, если действовать так, как вы предлагаете, действительно в индексе останутся только реально «публичные» страницы. НО страниц станет гораздо меньше, и преобладать будут СЕО-страницы с кучей мусорных ссылок на них и т.д.

Яндекс.бар в данном случае выполняет благую роль — он позволяет яндексу выяснять:
— какая ссылка была реально просматривается людьми, а не просто сео-ссылка
— какие ссылки ранжировать выше

В том числе, он также позволяет находить интересные для пользователей ссылки, которых пока нигде нет: например, человек разместил какой нибудь интересный код на pastebin и разослал своим контактам в скайпе, те перешли и посмотрели. В таком случае, если ссылка заинтересовала 5-10 человек, возможно она заинтересует и других? Почему бы ее не проиндексировать?

Т. е. ваш вариант — максимально «зажатого» веба.
Я же, как «потребитель», предпочитаю максимальную открытость — чтобы мне было доступно как можно больше информации для поиска. Очевидно, яндекс так же придерживается второй позиции
UFO just landed and posted this here
UFO just landed and posted this here
We process your requests in order to operate and improve the Google Toolbar and other Google services.

Что подразумевается под «улучшением сервисов гугл» не уточняется. В том числе это может быть и индексация этих страниц
UFO just landed and posted this here
В том что касается гугла, «может быть проиндексировано» == «будет обязательно проиндексировано в ближайшем времени» :)
UFO just landed and posted this here
Но вы уверены что яндекс узнал о проиндексированных им ресурсах именно от бара или метрики?
UFO just landed and posted this here
UFO just landed and posted this here
по причине тотального использования ajax с подгрузкой не только данных, но порой и всего сайта по некоторым индексам в запросе
а отличить просто индекс от идентификатора сессии порой боту непросто
особенно если такой целью не задавались
UFO just landed and posted this here
А с какой стати Яндексу ухудшать качество своей работы?

Если на сайте есть страницы с конфиденциальной информацией, доступ к ним должен быть ограничен техническими средствами (авторизация).
Если страница доступна без авторизации, ничего секретного на ней быть не должно.

И да, robots.txt стоит применять с умом.

А то доходит до смешного: в robots.txt вставляют строчку «Disallow: /phpmyadmin», а пароль на на базу не ставят.
Думаю понятно, чем это чревато.

UFO just landed and posted this here
Абсолютно согласен. При разработке систем, затрагивающих конфиденциальные (и нежелательные к разглашению) данные нужно сразу думать о том, можно ли получить эту информацию каким-то иным способом и прикрывать эти дыры.

robots.txt это конечно славно, однако, нельзя забывать, что даже включив url в него, эта информация все равно остается в метрике/аналитиксе/барах. Необходимо это делать через https и с учетом аутентификации ну или в худшем случае cookie/ip и исключать такие страницы из аналитики.
Яндекс конечно не виноват что он проиндексировал паблик. Однако по ссылке в этом комменте habrahabr.ru/blogs/infosecurity/124956/#comment_4109784 я прямо сейчас вижу номера паспортов людей (мошенники скажут спасибо), в то время как сам виновный сайт уже удалил страницы и даже поставил robots. Поскольку инфа по подобным поводам идет уже не первый день яндекс мог бы по крайней мере начать оперативно вычищать выдачу в подобных случаях.
UFO just landed and posted this here
просто пиар Яндекса вот и все. Ничего ему никто не сделает, т.к. он не виноват ни в чем
Хороший пиар. Я из-за него яндекс-бар снес.
Вот видите, во всем есть положительные моменты)
При обмене электронного билета на настоящий требуется паспорт, так что не прокатит
В мою последнюю поездку электронный билет не надо было менять на живой, т.к. на нём было написано что-то вроде «Регистрация пройдена».
Кроме того, при проверке билетов уже после отъезда проводнику нужно было сказать магическую фразу «У нас электронные билеты» — и их даже не надо было доставать и предъявлять.
Я когда так же ездил, по электронному, с пройденной регистрацией, у проводника был список таких пассажиров в вагоне, она сверилась со своей распечаткой, моим паспортом, после чего пустила в вагон.
Да, прошу прощения за дезинформацию.
Вспомнил, что при входе в вагон паспорт-таки надо предъявлять.
Мой опыт показывает, что не всегда. Иногда проводники забивают или верят.
Все равно же скорее всего на занятое место (если проводник пустил без проверки обманщика) придет законный пассажир. И вот тут у проводника будет повод у обоих паспорт проверить.
Значит надо настоящего пассажира закрыть в лифте.
При получении в терминале достаточно номер заказа и номер паспорта…
При этом на входе в вагон проводник проверяет и паспорт, и билет.
Это да, но можно и договориться...)
Ну тогда можно и без билета договориться! :)
Без билета сложнее.
А так, надавил на жалость, ну что поделать, паспорт забыл :)
Тоже верно, однако как уже было замечено выше, проводник-таки заподозрит что-то неладное, когда на одно и то же место придёт жалостливый тип без паспорта и ничего не подозревающий тип с паспортом, прошедший электронную регистрацию. Разве если только перед поездкой убрать конкурента :)
«Как там стоимость акций яндекса?» (С) SE
Да причём тут Яндекс-то?
У людей руки из жопы растут, а Яндекс виноват.
особенно у тех, кто яндекс панель поставил…
UFO just landed and posted this here
А Яндекс их с помощью телепатии нашёл? Ведут откуда-то, значит.
UFO just landed and posted this here
Да знаю я, знаю. Но всё равно из БД Яндекса уже нехилый мешок счастья получается.
Стоимость растет! т.к. Яндекс показывает оперативность и качество своей работы ))
Должны бы да подрасти, какая хорошая демонстрация поискового движка )
а движок то тут при чем?
это люди сами подарили свою приватную информацию яндексу
при попустительстве разработчиков сайтов
а яндекс и рад стараться! даже при том, что при просмотре дерева сайта ссылка, полученная из яндекс бара нигде не встречается, он ее все-равно индексирует…

imho виноваты обе стороны
разработчики сервисов прозевали robots.txt, а яндекс не фильтрует ссылки полученные не непосредственно с сайта
Количество личной информации в поиске увеличено вдвое.
UFO just landed and posted this here
Зато сколько людей научились делать нетривиальные поисковые запросы до домену.
В конце июля 2011 года люди ВНЕЗАПНО обнаружили, что поисковые машины индексируют страницы в интернете!© @antonzabannikh
Не надоело? В каждом топике про Яндекс этот бредовый твит.
Который день не могу понять: а причем тут яндекс?
тема месяца! ищет то, что не надо =) или как грамотно создавать запросы в поисковик.
ну так на то он и поисковик чтобы все искать! =) Тут явный косяк разработчиков.
Скорее уж долбо#бы выкладывают в паблик то, что не надо.
А при том, что нехер собирать и потом индексировать чужие урлы с хэшами. И не надо валить всё на веб-мастеров. Если посмотреть, сколько уже таких косяков обнаружилось, получается, что все кругом криворукие, один яндекс пушистый. А между тем, именно яндекс не гнушается тянуть у пользователей и веб-сервисов всю приватную информацию и потом юзать её без явного согласия.
чужие урлы с хэшами

Откуда яндекс должен знать что это персональная информация, а хеш не является просто идентификатором страницы на сайте
например потому, что на сайте данная ссылка ни разу не встречалась?

ну не умеют нормально работать поисковики с интерактивным контентом
поэтому «тырят» у пользователей ссылки
в итоге получаются вот такие вот ляпы
и если завтра где-нить в новостях скажут, что в поиск попали только те, у кого стояли различные инструменты яндекса, никто не будет разбираться, была ли это проблема конкретного ресурса или страница слита сразу целиком с компа пользователя…
что на сайте данная ссылка ни разу не встречалась

А если это сайт, например, как pastebin.com?

Там тоже на многие расшаренные исходные коды ссылки могут не встречаться, но эти ссылки люди могут давать друг-другу, например на форумах и т.д. Почему яндекс не может проиндексировать эти исходники, чтобы потом выдавать пользователям по соответствующим запросам?

В интернете очень много контента, который можно найти только «тыря» у пользователей ссылки, но яндекс не вправе решать, какой из этого контента важен пользователям, а какой — нет.

Для того, чтобы ваш контент не стырили, как раз и придумывают различные системы авторизации/аутентификации.

была ли это проблема конкретного ресурса или страница слита сразу целиком с компа пользователя

Если робот не может по ссылке открыть страницу (получает например предложение ввести пароль или информацию что страница приватная) то он и не будет ее добавлять в поисковую выдачу, ведь человек, который перейдет по ссылке — не сможет увидеть то же самое, что робот, как вы выразились, «целиком слил с компа пользователя».
например на одном сайте я делал редактирование объявление с доступом по урлу. Ибо для людей осилить регистрацию зачастую очень сложно, а шанс что кто-подберет ключ для редактирования стремиться к нулю. Если бы не яндекс бар :(
Надо было добавить в объявление поле «e-mail».

И сделать кнопку «редактировать» по нажатию на которую человеку высылается письмо с ссылкой на редактирование, в ссылке одноразовая секретка. Т. е. человек отредактировал — больше никто не сможет.

Получается компромисс между регистрацией и доступом по урлу.

Кроме того, что вам мешает сделать ссылки на редактирование вида /edit/hash и запретить в robots.txt индексирование /edit/*? Тогда никакой яндекс.бар вам не помеха.
Да мне в голову не могло придти, что закрытая ссылка каким то образом попадет в поиск, если пользователь сам ее не выложит. Не может же разработчик все учитывать. Теперь понятно, будут и это учитывать, и очень жаль, что придется отказаться от секреток :(
Закрытая ссылка может попасть в поиск кучей разных путей, не только через яндекс.бар Например, если утекут в паблик логи проксей у провайдера. И т.д.

По-умолчанию нельзя считать URL секретной информацией, а если решили его таким сделать — как минимум предусмотрите элементарные средства безопасности — robots.txt, одноразовые секретки и т. д.
Сорри, но в вашем примере могут также утечь и БД с паролями, и информация о cookies и т.д.

С интуитивной точки зрения, мне кажется, все должно выглядеть так:

— на компьютере пользователя, в его почте и т.д. находится приватная информация. URL, вводимый в строке браузера (а может, я там хочу пароль ввести?) тоже подпадает под это определение.

— в «открытом» интернете, куда можно добраться по ссылкам с других сайтов или с титульных страниц разных сайтов — информация открыта.

Таким образом, решается, например, проблема с pastebin.com — если ссылка опубликована на форуме — это повод ее проиндексировать. Но, извините, если она появилась в приватном скайп-разговоре — как раз наоборот, как бы ценна не была там информация. Может, люди паролями делятся, или еще каким секретным кодом.
все верно
но для ссылок полученных с других или с этого-же ресурса
в случае ссылки полученной непосредственно из браузера пользователя нужно быть, по крайней мере быть несколько осторожнее, скармливая ее боту
ЗЫ ошибки в настройке серверов были и тут как-бы никаких вопросов. а вот в плане обращения с инфой, полученной не вполне обычным путем, нужно быть по крайней мере острожным и сверять ее с другими источниками…
хотя если ссылка есть в другом источнике, то использовать ее для поиска уже как-бы ни к чему. разве что для подсчета рейтинга ссылки
а вот в плане обращения с инфой, полученной не вполне обычным путем


Они получают не вполне обычным путем только url. Потом бот переходит по этому урлу, проверяет наличие robots.txt, проверяет не запрещен ли урл в robots.txt, если после этого урл доступен, не редиректит на какой нибудь /login, не выдает 404 ошибку то он его индексирует.

Кстати вот вам еще один вариант решения проблемы: на всех приватных страницах возвращать 404, тогда точно ни один поисковик не проиндексирует :D
Но тут честь и хвала разработчикам портала ticket.rzd.ru, они предусмотрели это:
image
Не зная номер документа распечатать билет не удастся.
А лоханулись в данном случае посредники РЖД. На официальном портале такого нет
У РЖД можно без регистрации купить? Я помню, что был вынужден зарегистрироваться.
ХЗ, я зарегистрирован с 2008 года. Без регистрации нельзя вроде как. Но вот вам и обратная сторона.
Без регистрации не получится купить билет.
А что толку с распечатки билета? Билет же все равно именной.
в поездах далеко не всегда проверяют документы, например.
Но согласен, смысла в этом немного, настоящий владелец то тоже придет. Кстати, я не уверен, выдаст ли автомат второй раз билет. Если нет, то это просто может быть некой «подлянкой» для человека, пришел забрать билет, а он уже кем-то забран, долгие разборки в кассе, нервы, трата времени.
Самой большой проблемой в данном случае является раскрытие данных о поездках конкретных людей, это очевидно.
Второй билет ни автомат ни кассир не выдадут — тут вы правы. Иначе можно было бы получить два билета, один перед поездкой вернуть в кассу и получить заплаченные за него деньги, а по второму ехать бесплатно.
При чем здесь яндекс то?
Почему нельзя было проделать ту же самую штуку с гуглом и выложить скрин оттуда?


Думаю в яху, бинге и т.д. можно найти тоже что-то похожее. Яндекс то в чем виноват?
Яндекс — он наш, родной, ближе к нам… :)
Yahoo! и Bing не находят ничего по аналогичным запросам
Они вообще плохо ищут по россии.
Я говорю про аналогичные запросы по зарубежным сайтам.
Яндекс бар индексирует, вот при чём.
Тулбар Гугла тоже информацирует Гугл о посещённых страницах.
Информировать это одно, а сливать в публичный доступ это другое.

Не секрет, что в интернете полно всячески динамически сгенеренных странниц с результатами поиска (читай дорвеи) и гугл мог вполне честно найти ссылки там. Тут правило действует, кто первый слил тот и бука. Я не знаю работает ли стабильно синтаксис поиска при котором можно получить все страницы, которые ссылаются на данную (link:http://leaked.page). Мои тесты показывают что такой синтаксис работает не всегда у гугла (может эскейпить надо как-то по хитрому), как у яндекса я не знаю. В любом случае Яндекс имеет эту информацию, но опровергать подозрения по поводу Бара-Метрики не хочет, видно есть что скрывать. Так что «Ату его!».
что вы подразумеваете под «сливать в публичный доступ»?

Бар вполне открыто отправляет яндексу информацию о всех посещенных урлах, и если робот потом может открыть эту ссылку — он ее индексирует.

Есть такая известная пословица «На зеркало неча пенять, коли рожа крива».
В данном случае яндекс — зеркало
Хорошая логика. Вот смотрите, вы пользуетесь gmail-ом и он вполне «открыто» хранит-анализирует вашу почту. Более того, даже контекстную рекламу вам показывает. А ну ка он выложит в публичный индекс — информации полезной ведь тоже полно там.

Я думаю никто бы не возражал, если бы они учитывали популярность страниц по статистики Бара только для тех документов которые были обнаружены обычными способами (читай паук, сайтмэп итд).
Я не буду против если гугл выложит в открытый доступ все url-ы по которым я хожу, и все url-ы по которым я могу прочитать свои письма

Но больше никто кроме меня не сможет по этим url-ам ничего прочитать, правильно? вылезет страница с требованием авторизации.

Просто нельзя считать то, что никто не знает url, залогом безопасности.

URL получить легко. Содержимое этого урла, если оно приватное — должно быть получить сложно невозможно, если ты не авторизован для его просмотра
Приватные гуглодоки можно было смотреть по ссылке из письма долгое время.
Потом поправили и начали требовать авторизации сразу каждый раз.
Очевидно, раз это исправили — это была недоработка/баг

В данном случае так же — на сайте продавца билетов был баг, позволяющий любому человеку просмотреть приватную информацию. Из-за этого бага приватная информация попала в индекс яндекса. После этого баг был обнаружен и исправлен.

Таким образом получается что благодаря яндексу был обнаружен и исправлен баг, который мог привести к утечке большого количества персональной информации

По-моему выходит что яндекс молодец. Так что на него тогда гонения устраивают?
> Так что на него тогда гонения устраивают?
 
Парадоксально, но немногие люди умеют думать верхней головой.
Который привел к утечке большого количества персональной информации :)))
Вот если бы он только предупредил, что возможны утечки — был бы молодец.
А он сразу слил всё в паблик — и потому шпиён.
Кто предупредить должен был? Яндекс?
О да, в подвалах Яндекса сидят тысячи китайцев и просматривают всю выдачу в realtime на предмет палева.
Забыл поставить там теги. Вот: <irony> </irony>
Вставить по вкусу.
Яндекс.бар не может индексировать, он только сливает информацию роботам яндекса чтобы индексация прошла быстрее.

Так поступает еще куча приложений, в смысле сливают информацию в те или другие места, яндекс в своем официальном заявлении довольно хорошо про это написал.

Яндекс не индексирует страницы, запрещенные в robots.txt, и тем более не может индексировать страницы, находящие в разделах сайта, закрытых паролем. Если веб-мастера не предусмотрели закрытие паролем лично информации — это проблема веб-мастеров, а не яндекса.
а кто дал право Яндексу индексировать персональные данные? мне как обычному пользователю плевать на robots.txt, есть ли соглашение между вебмастером и ПС, где прописаны эти правила индексации? или это просто так заведено в мире веб разработки, что robots.txt определяет правила? с кого спрос по законодательству?
а кто дал право Яндексу индексировать персональные данные

Веб-мастер, который выложил ваши данные в открытый доступ, не позаботившись об их безопасности (поставить пароль, прописать robots.txt)

с кого спрос по законодательству

Очевидно, с веб-мастера
Очевидно же, что не было бы Яндекса, не было бы и проблемы) Я это к чему? на мой взгляд индексация должна как-то регулироваться между владельцем ресурса и ПС, где будут юридически закреплены отношения сторон и в случае разбирательств и были бы определены виновные, другое дело, что этот robots.txt просто общепризнанный факт в мире веб разработки, ничем не подкреплённый или я не прав?
UFO just landed and posted this here
а если ПС хранят в кэше персональные данные, а веб ресурс их удалил, с кого в данном случае спрос?
UFO just landed and posted this here
если веб-ресурс удалил данные или закрыл к ним доступ то при следующей переиндексации они уходят и из кеша (из кеша гугла уже ушли например)

также веб-ресурс может попросить удалить их данные «вне очереди».
По поводу удаления данных — есть специальная страница, которая также позволяет ускорить процесс удаления страниц
webmaster.yandex.ru/delurl.xml
У яндекса имеется огромный раздел о том, как он что индексирует, и как сделать чтобы необходимые данные индексировались лучше, а ненужные или приватные — вообще не индексировались

help.yandex.ru/webmaster/?id=1111307#995337
Вы пытались скачать секретную информацию с нашего сервера. Что делать?
Робот берет ссылки с других страниц, а это значит, что на какой-то странице указаны ссылки на секретные разделы вашего сайта. Вы можете как закрыть их паролем, так и указать запрет для робота Яндекса в файле robots.txt. И в том, и в другом случае робот не будет скачивать секретную информацию.


help.yandex.ru/webmaster/?id=996567
Чтобы запретить доступ робота к некоторым частям сайта или сайту целиком, используйте директиву 'Disallow'. Примеры:


Не было бы яндекса — данные бы всплыли в гугле, бинге или какой нибудь нигме

robots.txt — это стандарт исключений для роботов начиная с 1994 года, соответственно его использование обязательно в случае, если ты не хочешь допустить поисковые роботы к приватной информации
UFO just landed and posted this here
Находить с помощью Яндекса Бара неизвестные пауку документы и индексировать их нельзя. Есть куча примеров с аутентификацией по хешу в урле начиная от pastebin (скрытые посты, которые не зная url никак не найти), picasa (временно расшаренные по хешу альбомы) и еще очень много всего.
Что мешает в robots.txt запретить индексацию таких урлов?
Попробуйте запостите на pastebin два вида поста — публичный и закрытые. Посмотрите отличаются ли чем-нибудь url-ы. Правильно — ничем кроме уникального хеша. Тем не менее публичные посты видны в листингах/каталогах и прекрасно индексируются поисковыми системами. Как вы предлагаете запрещать в robots.txt закрытые посты? Можно сказать конечно, что разработчики pastebin сами буратины, но я уверен что они даже подумать не могли что Гугл ТулБары или Яндекс Бары начнут шпионить и пополнять свой индекс таким образом. По моему это никому разумному в голову не может прийти. Поэтому мне все таки кажется, что Гугл таким не промыщляет, иначе давно скандал бы был.
UFO just landed and posted this here
Пробил свою фамилию и номер паспорта. Всё чисто. Странно.
Теперь у Яндекса есть ваши фамилия и номера паспорта, ожидайте иx публикации в следующей волне «разоблачений и сливов».
Надо поискать на сайтах ОВИРов и налоговых, вдруг и там что есть :)
WHAT NEXT?

Запасаюсь попкорном на следующую неделю — очень жду премьеры блокбастера «Письма Яндекс на вашем экране!».
ЧТО СЛЕДУЮЩИЙ?

Жду премьеры блокбастера «Русский, твою мать, ты говоришь на нем?!»
ЧТО СЛЕДУЮЩИЙ?

Извините, но как то не сильно на русский похоже
Видимо автор хотел сказать, что по английски правильно писать «what's next», или, соответственно, «what is next». И если английский плохо знаешь, то пиши уже по русски. Типа того.
Так ведь довольно много англичан говорят именно «what next». Но это больше разговорный.
А вообще, если переводить «what next» дословно, то звучать это будет как «Что дальше».
Те кто минусует — если не сложно, приведите какие-либо аргументы плз.
> довольно много англичан

ЛПиП. не говорит так никто. даже в разговорной речи.

> если переводить «what next» дословно…

а как вы собираетесь «переводить» заведомо неверные лингвистические конструкции на язык с НЕМНОЖЕЧКО другой грамматикой?
«не говорит так никто»
Я учусь в Англии вот уже 5 лет. В среднем я провожу там пол года, и поэтому у меня есть основания заявлять, что они так говорят. Теперь хотелось бы услышать ваши.

«НЕМНОЖЕЧКО другой грамматикой»
вот здесь немного не понял, что именно вы имеете ввиду.
Ай, надоели уже. Фенито ла комедия.
Становится модным писать подобные топики.
Становится модным писать в середине «Недели Х», что про Х писать становтся модным.
Если вы выбрали пункт «закачать через сервер», а не «передать напрямую»
Похоже, некий zhjguan очень любит азиаток.
Похоже, китайцы решили сэкономить на хостинге для порно-сайта.
UFO just landed and posted this here
sita.int и иже с ними…
интересно как много после всех этих открытий появится в интернете robots.txt, да и кол-во сайтов в Яндекс.Вебмастере думаю явно прибавится
UFO just landed and posted this here
Скоро яндекс проиндексирует базу правительств (разных) и захватит мир.
Может хватить? Сколько можно постить этот треш? Какая польза от этих псевдо статей? Пообсасывать чужой фэйл?
UFO just landed and posted this here
UFO just landed and posted this here
Немного покопавшись в инете, устраиваем деанон, ну и приезжаем к медсестричке какой-нибудь.
… а ей 60 лет и она живет с медбратом )
и жить без него не может? :-))
Жить она не может без кислородной подушки.
По теме: жаль, что вся эта история пролетит мимо большинства хомячков, с уставленными всяческими х-барами браузерами. Искренне надеюсь, что профессионалы, от действий которых зависит вся эта вакханалия хоть в малейшей степени, почешутся и постараются найти грамотное решение проблемы.
Нехилый такой маркетинг! Уже неделю только о Янденсе и слышно. Молодцы, креативненько подошли.
UFO just landed and posted this here
UFO just landed and posted this here
Понравилось по первой же приведенной ссылке: «Выдан УВД В.Новгорода 05.09.1006» Не иначе Кошкина Валерия Андреевна настоящий горец ;)
Вот это настоящий жескач. Тех бы кулем, которые позволили оказаться этому документу в открытом доступе, да к ответу привлечь!
загадочно они как-то оценки считают.
за 38 баллов двойка, а за 40 сразу пятерка.
видимо я чего-то не понимаю в системе ЕГЭ
Да и заказчика найти не проблема теперь.
Перезалейте куда нибудь, а то «Интенсивность запросов превысила допустимый лимит»
На habrastorage у меня почему-то ошибка, залил на айпикчу

Из кэша

hghltd.yandex.net/yandbtm?fmode=inject&url=http%3A%2F%2Fwww.sexyz.ru%2Findex.php%3Fukey%3Dorder_status%26orderID%3D2792%26code%3DYWxlbmtheWEtODZAbWFpbC5ydQ%3D%3D%26hash%3D8499c95c70129fea3f9696a40ebd38ae&text=url%3Awww.sexyz.ru*%20|%20url%3Asexyz.ru*%20%D1%81%D1%82%D0%B0%D1%82%D1%83%D1%81%20%D0%B7%D0%B0%D0%BA%D0%B0%D0%B7%D0%B0&l10n=ru&mime=html&sign=161793cadb470b051b2515796dbbfcf2&keyno=0
Ого, видать это профессионал, раз столько причендалов покупает:)
UFO just landed and posted this here
скорее всего это заказ от какого-нибудь секс-шопа, т.е. они сначала накапливают у себя список заказов от клиентов, потом массово все это закупают, и потом выдают своим клиентам
так и есть. По страничке девушки в контакте видно )) Экономическое образование, ИП, Торговый Комплекс «XL» отдел «Соблазн».
зачем же заливать на радикал, интенсивность запросов превышается за 10 минут. есть же habrastorage
Что то зачастили подобные посты на Хабре. И непонятно, то ли это реклама внушающая нам, что «Яндекс действительно может найти что угодно», то ли антиреклама, цель которой — привлечь внимание репрессивных ведомств некомпетентных в ИТ, чтобы те закрыли Яндекс.
мне одному кажется, что не зависимо от роботс.тхт яндекс все равно будет индексировать все что можно и не положено, просто в выдаче не будет показывать!
не уверен я на 100 процентов в этом
UFO just landed and posted this here
В то время как как зарубежные сайты терроризируют Lulz Sec и Anonymous, сливают информацию WikiLeaks и всё такое, с российскими сайтами вполне успешно справляется Яндекс :)
Интересно теперь увидеть подборку текст смс, покупки в шопе и поездки одного и того же человека.
Яндекс прямо в ударе в последнее время. Только про смс дочитал, еще не успел глянуть про скандал о секс-шопах, а тут уже новый скандал.
не в поддержку ли нового закона эта шумиха?
Все может быть, все может быть.
Ведь, как я понимаю, проблема такого рода касается не только яндекса, но и гугла, например. Только по поводу гугла никто такую шумиху не разводит, по телеку не показывает.
Только вот не понятно: это в поддержку закона (показать как различные компании сейчас не следуют его букве и какие последствия этого могут быть) или против него (показать не готовность к новому закону даже крупных компаний).
Люди просто стали искать интересную инфу. И таки нашли её.
Паранойя несколько не к месту.
с какой целью вы тут это постите?
Наверное, свой заказ показал.
наверное, делится своим заказом :)
Мне кажется, в данном случае виноват магазин. Именно он не достаточно хорошо обеспечил сохранность частных данных. Из структуры ссылки видно, что вебмастер принял меры для сокрытия данных: чтобы увидеть данные по заказу нужно знать не только номер заказа, но и хеш, вычисляемый по не публичной информации. В старом вебе этого было бы достаточно, но…

В веб 2.0 такой защиты уже недостаточно.

Privacy в веб 2.0 это очень большая проблема. При открытии страницы вся ее информация, урлы, вводимые данные могут быть доступны:
0. самому сайту;
1. счетчикам, установленным на этой странице;
2. рекламодателям, чьи рекламные блоки крутятся на этой странице;
3. сайтам чей контент вставлен на эту страницу (картинки с др. сервисов, ролики, виджеты...);
4. дополнениям к вашему браузеру;
5. браузерам;
6. ОС.
Т.е. даже в самом обычном случае около 10 сторон имеют доступ к информации, а в некоторых случаях из модет быть до сотни. И как тут обеспечить privacy?!

Как минимум вебмастер должен сделать так, чтобы на странице, где есть непубличная информация, не было ничего от сторонних сайтов, это защита от п.1,2,3. Как защититься от остальных пунктов — непонятно, возможно в рамках современного веба только грамотно написанный java-applet может обеспечить защиту (исполнение кода «отделено» от браузера). Других вариантов я пока не вижу.
Причём все (или очень многие) магазины в выдаче Яндекса имеют одинаковый формат страницы, одинаковые данные, т.е. сделаны явно на одном движке.
#comment_4112593 уберите из ссылки.
Почему-то все обвиняют Яндекс, хотя все данные (Мегафон и прочее), которые утекли за последний месяц, стали достоянием общественности лишь по вине разработчиков ресурсов.
Вы комменты то почитайте, большинство наоборот защищает Яндекс, и подобных вашему комментарию уже здесь много.
ага, защищайте… а завтра яндекс.картинки начнут также брать ссылки на приватные фотки выложенные на фотохостингах. вот веселуха будет.
Если на сайте есть страницы с конфиденциальной информацией, доступ к ним должен быть ограничен техническими средствами (авторизация).
Если страница доступна без авторизации, ничего секретного на ней быть не должно.
данные не настолько секретные, чтобы хранить их в сейфе, но и не настолько публичные, чтобы показывать их всем кому ни попадя.

да и при чём тут страницы? страница может быть и за авторизацией, а вот запрашивать хттп-авторизацию на каждую из 20 запрашиваемых с этой страницы картинок — верх маразма. да, можно поиграться с куками, но тогда фотостораджу придётся для каждой картинки стучаться к серверу авторизации в результате чего сильно просядет скорость их показа.

если бы пользователь знал, устанавливая я.бар, что его личные данные могут оказаться в широком доступе, то он ни за что его бы не поставил. однако яндексом этот факт замалчивается, потому что шпионить выгодно, а заботиться о пользователях — нет. и не надо валить всё на разработчиков, которые наивно полагали, что поисковые системы будут соблюдать сетевой этикет. если на страницу нет публичных ссылок — значит никто не хотел, чтобы её проиндексировали. СЕКРЕТНЫЙ КЛЮЧ В УРЛЕ — УСТОЯВШАЯСЯ ПРАКТИКА С КОТОРОЙ НЕОБХОДИМО СЧИТАТЬСЯ какой бы правильной или неправильной она ни была.
Наверное уже кто-то постил про почту
13 тыс. ответов :) Хотя тут личных данных особо нет…
«В случае выявления неправомерных действий с персональными данными, оператор в срок, не превышающий трех рабочих дней с даты такого выявления, обязан устранить допущенные нарушения. В случае невозможности устранения допущенных нарушений, оператор в срок, не превышающий трех рабочих дней с даты выявления неправомерности действий с персональными данными, обязан уничтожить персональные данные. Об устранении допущенных нарушений или об уничтожении персональных данных оператор обязан уведомить субъекта персональных данных или его законного представителя, а в случае, если обращение или запрос были направлены уполномоченным органом по защите прав субъектов персональных данных, — также в указанный орган».

152-ФЗ
Между тем хабравчане может уже и не все помнят, но раньше хабр присылал сообщения о новом сообщении в хабраящике (приватной хабрапочте) с «секретной» ссылкой по которой можно было читать переписку без авторизации и ещё настоятельно советовал никому эту ссылку не показывать. Как же я рад что хабр отказался от этого до всей этой истории и в поисковиках ничего не осталось (гугл дает одну ссылку и то без снипетов), однако факт такой был. (в robots.txt у хабра нет ограничение на индексирование /mail/read/ хотя тогда может и было иначе).
UFO just landed and posted this here
* Хотел запостить мини топик по теме, но пока нельзя. Ничего, выложу тут.

Как не попасть в выдачу Яндекса
Чтобы потом не обсуждали как яндекс проиндексировал приватные страницы вашего сайта, есть простое решение — вывести на таких страницах метатег:

<meta name="robots" content="noindex"/>

Удобно добавить его в базовый шаблон страниц приватной части сайта.

И даже если по какой-то причине поисковая система не прочитала robots.txt (или в нем не оказалось нужного запрета индексации) и все-таки получила HTML приватной страницы, то этот тег запретит индексацию.

Методы управления поведением Яндекс-робота
Гугл тоже анализирует этот метатег.
да о чем тут говорить, если запросы inurl:main.php Welcome to phpMyAdmin и те до сих пор находят, что надо. Если проявить немного фантазии, все становится более чем элементарным.
Нет, не извИняю, ваша безграмотность — не меньший пОзор.
Кстати, в русском языке слова в середине предложения с заглавной буквы не пишутся.
такое ощущение, что все комментарии повторяются с достаточно небольшим периодом
UFO just landed and posted this here
еще добавить filetype:doc
эхх, только хотел написать :)
UFO just landed and posted this here
хех Еще можно узнать, что в Томбове используют за

OS, Какое железо, в какие игры играют, что за антивирусы итд.

ftp.tomsk.gov.ru/pub/

Кстати, сайт работает на win :/ хотя и на apache
ой в Тамбов, в Томске :)

P.S За ошибку и маленькую букву, не злитесь. Ночь уже!
Меня больше беспокоило DesktopBSD :) Нет я бы понял linux, но вот bsd.
Распечатываем электронные билеты и путешествуем* вместе с Яндексом.
* Не забудьте украсть паспорт и переклеить фото.
Просто в Яндексе обиделись, прочитав пост «Google лучше Яндекса».
Вот и решили показать на что они способны.
Продвинутые женщины до этого момента знали поехал ли их муж в командировку.
В продолжении этой увлекательной истории про Яндекс:
сегодня по радио услышал, что введя специальный запрос в Яндекс (вот заразы: какой не сказали) можно получить доступ к совершенно секретным документам правительства РФ и ее структур: ФАС и еще каких-то (не запомнил).
Это уже становиться более интересным — это Вам не СМСки читать.
Скандалы, интриги, расследования.
www.google.ru/#sclient=psy&hl=ru&newwindow=1&site=&source=hp&q=allintitle:+%D0%B4%D0%BB%D1%8F+%D1%81%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%BE%D0%B3%D0%BE+%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F+site%3Agov.ru&pbx=1&oq=allintitle:+%D0%B4%D0%BB%D1%8F+%D1%81%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%BE%D0%B3%D0%BE+%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F+site%3Agov.ru
UFO just landed and posted this here
ну вот скажите мне, кто в apache скопировал содержимое раб стола и главное ЗАЧЕМ?
Самое банальное, врменный бэкап по каким то причинам именно туда, о котором потом забыли.
дырку залатали, сейчас емэйл просят.
Классно. Добавил себе на сайт код Яндекс.Метрики.
вывесили очень милую отмазку

Комментарий администрации портала RailwayTicket.ru к сообщениям СМИ об утечке персональных данных
Администрация портала Railwayticket.ru приносит свои глубочайшие извинения пассажирам ОАО «РЖД» и руководству ОАО «РЖД» за произошедшую в результате технического сбоя на стороне программной части сайта railwayticket.ru частичную утечку информации о данных железнодорожных билетов в сеть Интернет.
Причиной утечки послужил технологический сбой в работе системы RailwayTicket.ru, позволивший роботу Яндекс проиндексировать страницу заказа билета в случаях использования пользователями интернет браузеров с программной надстройкой Yandex.Bar.
По факту несанкционированного распространения информации проведено служебное расследование. На данный момент устранена как сама возможность утечки информации, так и все данные, ранее попавшие в Сеть.
Файл robots.txt приведен в соответствие с рекомендациями поисковых систем «Яндекс» и «Google».
Также введена дополнительная защита от несанкционированного доступа к данным о билете: теперь, чтобы распечатать бланк билета, необходимо ввести кодовое сочетание символов, указанных при его оформлении.
Все виновные в недоработке программной части портала Railwayticket.ru понесут административное наказание.
Администрация сайта RailwayTicket.ru еще раз приносит свои искренние извинения всем пассажирам, кого коснулась данная проблема.

С уважением, Администрация портала RailwayTicket.ru

Articles