Pull to refresh

Comments 490

Чего тут непонятного — распространённая уязвимость, вот о ней узнали и начали активно эксплуатировать…
Ну тогда ни разу не удивлюсь, если в ближайшем будущем умельцы расковыряют проиндексированные тонны писем на mail.ru каком-нибудь.
Да уж… программеры полные му. Кому не лень могут покопаться с xss — в оформлении заказа, явные намеки есть, причем сразу
'';!--"=&{()}
и если нашли "xss" - значит там ему и быть
:)
Понятное дело, что на habr-e фильтр всё сьел, но не на сайте.
На сайте заменяются только символы открытия тега и закрытия, а кавычки? Так можно влететь на onclick xss.
Используйте пару элементов <source></source> для оформления тех блоков кода, которые не должны быть поедены парсером Хабрахабра.
Не все удостоены права пользоваться тегами
Мне кажется что это проделки самой ПС, уж очень подозрительно они себя ведут, последний апдейт ТИЦ был еще в апреле, апдейта выдачи иногда неделями не бывает.
Без наличия приватных страниц в открытом доступе поисковая система ничего сделать не может. При наличии же страницы индексируются автоматически: робот не умеет отличать приватное от публичного. В этом он полагается на админов сайтов, поступая строго так, как те велят.

Вывод — виноваты админы/разработчики сайтов и больше никто.
а разве тут есть люди которые этого не понимают… другое плохо для яндекса, что обыватели в очередной раз увидев «Яндекс раскрыл...» примут это за чистую монету…
Ну по крайней мере у топикстартера и автора верхнего коммента в этой ветке есть сомнения. :)
Отвечу за себя.
Я понимаю, что проблема в админах, человеческий фактор, кривой код движков и т.д.
Но на мой взгляд все события последних пары недель как-то уж очень плотно состыковались друг с другом.
Как правильно говорят, эти страницы висели в паблике не день и не два, подозреваю что даже не один месяц — и никому не было дела.
А тут вдруг все резко вывалилось с шумом и плясками.

Причем во всех случаях обсасывают всего две темы: методику индексирования Яндекса и собственно сами приватные данные.
Потому и возникли сомнения — просто ли совпадение это или нет?
Возник яркий скандал с Мегафоном. Тема стала актуальной. Народ на почве этого интереса стал прощупывать другие «чувствительные к приватности» (калька с английского) сайты и делиться находками с чувством триумфа.

Никакого совпадения в этом нет. Никакого заговора тоже.
Ну и хорошо.
Отлегло.
так это ж очевидно было. в СМИ такие волны постоянно — перевернулся автобус, все роют автобусы. трагедия на переезде — в фокусе переезды и т.д.
Метрика стала сдавать страницы в очередь краулера. Раньше он бы их без внешних ссылок не обнаружил.
Вот, это хорошая версия. Да идиоты, это а не разработчики у которых приватные данные на шАре болтаются.
А гугл у яндекса их подглядел?
Вообще у поисковиков и без метрики есть куча способов получать эти ссылки. И бары и рекламные баннеры…
Гугл их по моему увидел когда на них стали ссылаться все кому не лень. В самом начале этих страниц в его индексе не было.
и чем это плохо для репутации Яндекса? Алгоритм абсолютно правильно нашел релевантные запросу данные. То, что эти данные доступны для индексации — вопрос некомпетентности админов Sexyz.ru
В этом вы правы, но согласитесь что эти страницы выкатили в паблик не сегодня и даже не вчера. Все это время они были доступны и дожидались своего часа.
Мало того, админы до сих пор не закрыли приватные страницы заказов 8-\
Таким программистам и админам надо сразу по рукам и башке давать.
Вы представляете, жена вводит в поиск яндекса имя мужа а здесь ссылка как он покупал «кому-то» «женское бельё»
В штатах я думаю и-нет магазин давно бы стал банкротом от исков возмущенных покупателей.
Ушли, вообще, все личные данные.
Кстати о криворукости программистов и верстальщиков можно посмотреть даже по исходному коду html.
Не, я до сих пор в шоке, как из-за каких то д… в у многих жизнь может привратиться в ад
Просто из любопытства спрашиваю. Вы просто так распыляетесь или Ваши данные тоже стали достоянием гласности?
Нет, я нигде своих реальных данных не оставляю это раз, во вторых на таких сайтах не бываю.

Просто обидно за других людей. Вы просто подумайте над серьёзностью происшедшего.
Например, введите дальше после «Получатель» ваш город и улицу и вы будите всё знать о своих соседях.
Но это еще цветочки, из-за таких утечек могут быть и самоубийства и психические расстройства и т.п. Некоторые люди очень ранимые.
Вы не покупаете в интернет-магазинах?
Перед тем как что-то заказать в магазине, я наведу сначала справки, посмотрю как он сделан, а потом… позвоню :)
Я не люблю делать покупки у роботов.
Это такой наивный лайфхак? Ва думаете оператор магазина куда ваши данные запишет? В тетрадочку? Или вы уверены, что их похищают в момент передачи данных с вашего компьютера в базу магазина?
Это вы наивный, поверьте базы данных магазинов попадают потом к другим и их используют разные рассыльщики каталогов, продавцы ковров, книг, пылесосов и прочей фигни.
И как вы собираетесь предовратить утечку, делая заказ по телефону? Вы думаете ваши данные оператор не внесет в базу? А куда он их «внесет» по вашему?
Так вроде ссылки публично не открываются? Только через кэш.
Очень даже открываются прямыми ссылками мимо кеша. Авторизация зашита в GET запросе, то есть — прямо в ссылке.
В конце июля 2011 года люди ВНЕЗАПНО обнаружили, что поисковые машины индексируют страницы в интернете! © @antonzabannikh
Какая уязвимость?

Просто люди не прописали robots.txt и не закрыли там нужный раздел от роботов.

Зато пользуются Яндекс Метрикой. И она честно добавляет все известные ей страницы в индекс.

Вот и получилось, что у Гугла этих страниц в индексе нет, т.к. на них нигде нет ссылок. А у Яндекса благодаря Метрике есть
Нужно также оценить инженерную мысль. Люди используют для безопасности аж 2 гет параметра с хэшами
&code=U1lLRVRATUFJTC5SVQ==&hash=2e9b91e1ee0949585c784942bc1e0339
чтобы никто лишний не попал на эту страницу!

Глобально и надежно! Только из-за этого сложного инженерного решения можно сказать, что сайт на PHP написан
PHP тут только как бы не при чём :)
можно и на ASP или JSP сделать точно так же криво
Да, на чем угодно можно сделать, в в основном (чуть чаще чем всегда) такое делают именно на PHP
UFO just landed and posted this here
Угу, а Александры самые плохие водители, если верить статистике ГИБДД, это имя чаще других присутствует в списках.
Здесь php не причем, здесь логика и архитектура проекта виновата.

Ведь вся работа с юзером должна вестись через кукисы, нельзя без кук доверять любому кто входит. Пришел без куки — значит на 90% ты не тот за кого себя выдаёшь.

Так и получилось. «Писать» на любом языке — это еще не признак мастерства. Вначале надо освоить логику и архитектуру проекта.
Тем более по таким параметрам как права пользователя.
Они перед программистом должны висеть отдельным стикером на мониторе.
Мне так нравится, когда люди начинают на полном серьезе говорить откровенно очевидные вещи, правда.

Я только не понимаю почему в хабра-редактор до сих пор не добавили тег , потому что без него становится изъясняться все тяжелее. Особенно когда речь касается php.
Ой, да ладно.
На каких-нибудь рельсах это было было так:
/orders/code/U1lLRVRATUFJTC5SVQ/hash/2e9b91e1ee0949585c784942bc1e0339/
или так
/orders/U1lLRVRATUFJTC5SVQ/2e9b91e1ee0949585c784942bc1e0339/
(книжка The Rails Way, страница 106-107). Единственная ошибка в том, что такие ссылки должны (обязаны) быть одноразовыми (либо генерировать куку, при первом заходе).
> такие ссылки должны (обязаны) быть одноразовыми (либо генерировать куку, при первом заходе)

А если это страничка отслеживания заказа, как в данном случае? Просто многие магазины (DX, etc.) дают юзеру (незареганному) номер заказа, по которому потом мона его отслеживать, писать тикеты, etc. Тут просто волшебная ссылочка. В принципе тоже самое. Если бы не сомнительный функционал метрики.
А куку можно потерять, так что не катит.
Элементарно:
«к сожалению, ваша кука потерялась, нажмите кнопочку»
«спасибо, новая ссылка у вас в ящике, проверьте почту»
Дык элементарно на самом деле:
<form method="post" action="/order.php?code=U1lLRVRATUFJTC5SVQ==&hash=2e9b91e1ee0949585c784942bc1e0339&nex" >

<input type="hidden" name="nexstep" value="yes">
<input type="submit" value="Просмотреть">
</form>

Можно даже яваскриптом автонажатие кнопки сделать.
Ну и/или robos.txt как самый правильный вариант.
Ну и узнал ты что сайт на пыхе и что дальше? Какая разница?
UFO just landed and posted this here
Как и в прошлый раз.
Ну сейчас эти ссылки уже достояние интернетов — они везде постятся. Поэтому краулеры других поисковиков их также подобрали и добавили в свои индексы.
Кстати, классная реклама магазину. Врядли, существующие клиенты довольны, зато пузомерки как вырастут (ТИЦ, PageRank).
Для магазина это куда больше антиреклама.
Вряд ли у него после такого пиара появятся новые клиенты + очень недовольные старые + иски в суд.
Что может быть хуже для магазина?
Ну у гугла Хром может осведомителем сработать. А у bing кто? У bing вроде только поисковый сервис.
На Хабре вроде была ссылка на перевод или сам перевод исследования о том, как Бинг подсматривает результаты поиска у Гугла. Может это как-то сыграло? )
IE? Windows? У Бинга тоже bar есть. Bing — дитя Майкрософта, вообще-то.
"© Корпорация Майкрософт (Microsoft Corp.), 2011" внизу страницы намекает.
Хлеще там в комментах ссылки. С ящиками клубники.
Это и есть уязвимость этих сайтов.
Да причем здесь robot.txt?!!!
И причем здесь Метрика ?!

Эта информация должна быть закрыта всем пользователям, кроме владельца заказа и админа, системой разделения прав самим движком.

Это самая обычная ошибка криворуких прогамеров (програмерами как-то язык не поворачивается назвать)
Да не волнуйтесь Вы так, право! Комментарием ниже я как раз об этом писал.
Да я посмотрел, а в 90% комментарием как раз «винят» yandex, хотя он здесь совсем не при чем.
Хотя если посмотреть то перлы по выдаче начали выдавать, например как google, смотрю в выдаче свои сайты и тихо фигею, от того что google взял за основу url из javascript переменной real_url=… это вообще нонсенс, с какой «оперы» он это взял. Хотя url имеет вид /la-la-la, а он берет из js переменную real_url=/la/la/la. Мало того он проиндексировал почему-то половину ссылок как ajax, т.е. опять почему-то выдрал из js ссылки на блоки и получается в выдаче как нормальные страницы, так и ajax страницы блоков (хотя на странице нет ajax вызовов, просто cms так заточена). Прикольно конечно для seo (просто прекрасно) но логики googl-a я не монял. Пришлось срочно «убить» все js переменные вида url и block.
Нифига себе «честно добавляет». Что ж тут честного? Или просто ходить по существующим ссылкам у роботов уже не модно?
Модно, а еще модно получать ссылки от браузеров (в случае Яндекса это Яндекс бар), и через форму addurl, и через метрику тоже модно…

А чем эти ссылки хуже других с точки зрения поисковика? только потому, что на них нет других внутренних ссылок на сайте?
Вот только посмотрел.
Google тоже проиндексировал, и тоже в выдаче вся приватная информация по заказам.
Правда еще в выдаче только 7 результатов (пока писал уже 12), то к утру я думаю будут все.
И о чем нам это говорит? Только на этой странице треда есть пару ссылок на выдачи из Яндекса и конкретно на заказы.
… пользователи Хабра по ссылкам из Яндекса ходят по этим страницам. А у самих стоит гугол-тулбар, который палит ссылки гуголю :)
Интересно, откуда?
Случайно или кто-то очень пыхтел над этим?
А что вы делали на этом сайте?
«Доктор, а откуда у вас такие картинки?»
это было у О'Генри
Скорее неделя GoogleЯндекс хака на хабре
Это хак не яндекса, а хак сайта с кривым движком, настройками и беззаботными владельцами.
Так ведь не «хак Яндекса», а «Яндекс хак».
Да это и «гугл хак» и даже немножко «рамблер хак». Просто Яндекс более качественно проиндексировал открытую информацию.
В свете вчерашего граммар-срача надо говорить «яндексохак» или «Яндекс.Хак», в зависимости от предпочтений :)
ну а чем слив яндекса? просто непрописанный robots.txt
Вы, батенька, ни разу не конспиролог :)
Это ж какую бучу можно поднять, если правильно поставить задачу нужным людям.
Яндекс копается в чужом белье!
За вами подглядывают!
и все такое.
Я бы не сказал, что это просто непрописанный robots
Тут дело в том, что на административные страницы возможен вход без пароля. Это серьёзная уязвимость.
И второе, что на них где-то ссылка была.
Другой вариант — на них поставили яндекс-метрику, но по-моему это бред, ставить на административный интерфейс яндекс-метрику.
Разве что ее впердолили в основной index-файл, который используется везде. Тогда это опять дырка, использовать один index-файл и для юзеров и для админов.
Короче, руки выпрямлять надо и мозг.
UFO just landed and posted this here
а какая разница что сливает? косяк ведь всё равно не на стороне яндекса
UFO just landed and posted this here
Неважно откуда ссылка взята, главное, чтобы было правило в robots.txt. Даже если бар скормил Яндексу эту ссылку, то Яндекс прежде чем проиндексировать эту страницу сверится с robots.txt
UFO just landed and posted this here
Вы прям ересь какую-то говорите. Прочитайте сначала лицензионные соглашения, затем правила индексации.
UFO just landed and posted this here
help.yandex.ru/webmaster/?id=995295
Сайт должен прописывать ограничения не для spyware, а для поисковых роботов. Создатели сайтов должны думать не только о SEO, но и о конфиденциальности данных своих клиентов. Разработчик должен следовать современных реалиям. Вы говорите «А почему бы ему по умолчанию себя не ограничивать?» — я не хочу писать robots.txt для своей домашней странички, зачем мне создавать себе лишнюю работу? robots.txt сделан для ограничений. Короче говоря, плохому танцору и яйца мешают
UFO just landed and posted this here
реалии, они давно такие.

«Всё, что не запрещено — разрешено».

Можно только посочувствовать тем, кто не понимает столь простых истин. Не только применительно к Интернет, кстати.
UFO just landed and posted this here
ээ, то, что ссылки попадают из Я.Бар, нужно еще доказать.

Но для меня это роли не играет. Для меня важно то, что авторы магазина и те, кто их магазином пользуются не понимают простых очевидных вещей — даже если в подъезде есть домофон, и круглосуточная охрана, на двери каждой квартиры должен быть замок, с уникальным ключиком.
Ок, пусть и Я.Бар приложился.

Но я как-бы про другое — контент отдается по get. В моей вселенной, разумным людям уже не важно, откуда у робота взялся url для этого get.

Хуже того, в моей вселенной разумные люди задумаются, что это мог быть не робот вовсе, а человек с «плохими мыслями».

Я правильно понимаю, про провайдеры в договорах не обещают конфиденциальность списка ссылок по которым их клиенты ходят? И transparent proxy, это вполне себе штатная фишка?
UFO just landed and posted this here
еще раз — для меня не важно, как они собраны.

нет, не понимаю. Наказывать нужно того, что выставляет данные в паблик. Всё остальное работает так, как и задумывалось.
UFO just landed and posted this here
по юзерской логике, нужно собраться дружной компанией, и подать иск на магазин.
И так, для каждого магазина на этой платформе.

Далее, владельцы магазинов, в свою очередь, как пользователи платформы, тоже должны собраться дружной компанией, и подать иск на авторов.

Знаете, что дальше произойдет?

В лицензионном соглашении платформы сказано «AS IS, авторы ни за что не отвечают» (пп.5). Платформа просто подмочит репутацию.

Магазины, думаю в зависимости от своей юридической подкованности. У того же Sexyz, ни на форме регистрации (/register/), где пользователю предлагают заполнить анкету, ни на странице «гарантии надежности» (/auxpage_warranties/), ничего о конфиденциальности данных пользователя нет.

В этом месте я бы закупился попкорном, и уселся по-удобнее.

А пинать Янедкс удобно да. Сразу вспоминается известная басня Крылова, про Моську и Слона.
UFO just landed and posted this here
Да отвяжитесь вы от бара, данные могут быть из тысячи мест — со ссылок, с других поисковиков, со счетчиков и систем статистики.
какие конфиденциальные данные? заказ доступен без ввода какой-либо идентифицирующей информации, читай свободно. Если вы паспорт потеряете, вы же не будете пинать нашедшего потому, что он не по тем улицам ходит и ваши документы видел.

А как ссылка подобрана, из бара, метрики или подбором механизма генерации параметра — не суть важно. Важно, что она доступна свободно.
UFO just landed and posted this here
ну и в соглашении Я.Бара по-русски одинаковым шрифтом с остальным текстом написано, что он имеет право урлы передавать. Кто не читает соглашения и ставит себе подобное — сам себя наказывает.
А то, что вы описываете в аналогиях, перечислено и в УК, в отличии от автоматического сбора ссылок после согласия пользователя.
UFO just landed and posted this here
Там написано большими буквами, что его личные данные могут пострадать? Нет. И даже в соглашении, ссылка на которое традиционно мелким шрифтом, написано обратное.
а вы соглашение-то читали, или так, наугад реплики пишете?
bar.yandex.ru/ie/agreement.xml
5.1. Пользователь настоящим уведомлен и соглашается, что при включении в Программе функции показа «Индекса Цитирования» для определения индекса цитирования сайта в интернете, который посещает Пользователь во время использования Программы, Правообладателю в автоматическом режиме сообщается анонимная (без привязки к Пользователю) информация о посещаемом сайте и загружаемых файлах, до момента отключения указанной функции.
и так для многих функций.
6.3. Пользователь настоящим уведомлен и соглашается, что при использовании Программы Правообладателю в автоматическом режиме анонимно (без привязки к Пользователю) передается следующая информация: тип операционной системы компьютера Пользователя, версия Программы и идентификатор Программы, а также иная техническая информация.
UFO just landed and posted this here
1. в соглашении всё одинаково написано. никаких блеклых шрифтов и подобного.
2. Конечно я прочитал. Привяжете мне code=OTEzNTgyQGJ1kDjcJ1&hash=040e7cb12822f4541138d77ba4f9115de8 к пользователю?
UFO just landed and posted this here
Ну а если поисковик будет урлы просто по алфавиту индексировать и рано или поздно дойдет до приватных — что делать? Какая разница как поисковый механизм находит страницы? Как Гугл через свой браузер или как Яндекс через бар? Урл доступен без авторизации — значит до него можно добраться.

Вот вы смотрите на глобальную проблему — поисковик проиндексировал много чужих данных. А представьте ту же проблему, но локально. Например, злоумышленник подобрал урл с приватной информацией 1 человека. И пострадал 1 человек. Злоумышленник также как и яндекс, в текущей ситуации, не виноват. Он просто зашел на публичную страницу по публичному урлу (и не важно, что разработчик сайта этот урл «считал» не публичным). Значит виноват только разработчик, который «считал» не правильно. На него в суд и подавать.

Интернет — публичная сеть, и все что не закрыто паролем — есть публичный ресурс.
Немного поправлю — личную информацию он и не сливает. Адрес страницы без привязки к пользователю не является личной информацией.
«это нужно уметь не только читать, но и понимать» /учитель английского/

bar.yandex.ru/firefox/agreement.xml

5.1. Пользователь настоящим уведомлен и соглашается, что при включении в Программе функции показа «Индекса Цитирования» для определения индекса цитирования сайта в интернете, который посещает Пользователь во время использования Программы, Правообладателю в автоматическом режиме сообщается анонимная (без привязки к Пользователю) информация о посещаемом сайте и загружаемых файлах, до момента отключения указанной функции.

6.2. В максимальной степени, допустимой действующим законодательством, Правообладатель не несет никакой ответственности за какие-либо прямые или косвенные последствия какого-либо использования или невозможности использования Программы и/или ущерб, причиненный Пользователю и/или третьим сторонам в результате какого-либо использования или неиспользования Программы, в том числе из-за возможных ошибок или сбоев в работе Программы.
UFO just landed and posted this here
Похоже, что слив ссылки произошел через Яндекс метрику.

По крайней мере метрика стоит на страницах этих.
UFO just landed and posted this here
можно устроить интересное соревнование.

Ведущий раздает крутым хакерам листы бумаги с напечатанными URL.
Участники, без помощи сети интернет, определяют пользователей, которые ОДНОЗНАЧНО ПРИВЯЗНЫ™ к этим адресам.

Побеждает тот, что быстрее определит максимально количество пользователей.

Призовой фонд — от команды разработчиков Яндекс.Бар (если они к завершению соревнования не умрут со смеху)
UFO just landed and posted this here
Какую защиту? Защита от дурака (читай доступ к не закрытому логин-паролем разделу) уже существует — robots.txt. Вот если бы поисковики пренебрегли директивами этого файла, то однозначно виноваты ПС. Если этого файла нет, либо не сказано что туда не ходи, а сюда ходи, то ПС молодцы, отработали на 4+ и выдали правильные данные согласно сформулированному в поиске запросу.
А если кто-то из пользователей эту ссыку на форуме даст? Упс, будет индексация без метрики и бара.
UFO just landed and posted this here
Вот скажите, пожалуйста, как Яндекс должен отличить приватную ссылку от просто редкой (Вася Пупкин написал единую теорию всего на свете, сделал одностраничный хоумпэйдж, а как рассказать о ней не знает, и только друзья из РАН по прямому линку читают ее)?

— в robots.txt нет запрета на индексацию страницы.
— контент открыт и не защищен ни паролем, ни кукаками.

UFO just landed and posted this here
Почему Яндекс должен заботится об сохранности информации пользователя на ДРУГИХ ресурсах?
UFO just landed and posted this here
Он эту информацию не получал.
UFO just landed and posted this here
И где там он оплучил информацию? Кроме URL?
UFO just landed and posted this here
уже целую неделю поражаюсь странной логике.

1. не закрывают страницы от поисковика
2. считают, что косяк на стороне яндекса

ахренеть!
UFO just landed and posted this here
странно то, что люди как-бы забывают, что данные в паблик выставил сайт.
UFO just landed and posted this here
я похож на робота Яндекса? Я обещал, что-либо искать?
Всё таки, человек должен думать, а машина работать.

по пунктам:
1. Заказ без регистрации.
а) при оформлении заказа без регистрации, человек должен быть предупрежден, что вся информация заказа может быть доступна третьим лицам.
б) Более того, он должен согласиться, что его это устраивает, или пройти регистрацию.

Например меня-бы вполне могло бы устроить, фамилию свою я не скрываю, всякие мелочи порой покупаю указывая адрес офиса.

2. Ссылки на подтверждение
а) одноразовые (по крайней мере те, по которым мне доводилось подтверждать). Если даже робот узнал о существовании такой ссылки, и сходил туда, то второй переход по этой же ссылке из выдачи даст что-то типа «простите, ссылка протухла».
б) после перехода по ссылке подтверждения e-mail, на грамотно написанных сайтах, никаких автоматических входов не происходит. Переход по ссылке всего-навсего устанавливает поле «e-mail подтвержден» в базе пользователей сайта.
Если подумать трезво, нет никакой разницы, это сделаю я из своего браузера, или робот поисковика это сделает раньше меня.

Если не ошибаюсь, до тех пор, пока человек не открыл письмо в gmail, про эти ссылки в письмах гугля не знает?

Допустим, что:
— всё не так прозрачно у какой-либо почты, и робот поисковика получает ссылки из писем без открытия письма человеком
— ссылка не одноразовая, и по ней можно перейти как минимум два раза (раз работ, второй раз кто-то изх выдачи)
— кто-то постоянно ищет такого рода ссылки в выдаче, с целью получения доступа к чужим учетным записям
— авторизация на сайте недальновидная, и делает автоматических логин тому, что переходит по ссылке, не проверяя куку, которую выставили при регистрации, например.

вам не кажется, что такое сочетание условий довольно редкое уже само по себе?

О чем это говорит? Что механизм подтверждения чего-либо, через отправку ссылки в почту — не идеален, и уже нужно начинать задумываться о том, как бы это место сделать надежнее.

Еще раз (вдруг кто-то не заметил) — я считаю, что если по ссылке отдается контент, без проверок чего-либо еще — это дыра. Каким образом про эту дыру узнали, и в неё пролезли — совершенно не важно.
Дыры нужно затыкать.

Кстати, ссылки для подтверждения довольно легко усиливаются:
1. при регистрации ставят куку, при подтверждении её проверяют, если нет — пп.2
2. В письме присылают контрольный код текстом, и просят ввести на форме, которая открывается по переходу на ссылку. Перед полем ввода пишут «Требуется дополнительно подтверждение. В письме со ссылкой строкой выше есть контрольный код, впишите его в это поле, пожалуйста».

Обращу внимание — это всё нужно, если ссылка не одноразовая И сразу авторизует пользователя.
UFO just landed and posted this here
1) вот же оказалась доступной?
2) далеко не всегда дырки затыкают. Понимаю.

FB у меня не вписывается в пример грамотно построенной защиты данных пользователя. Вон, недавно «прорвало» индекс пользовательских видео.

Да может быть что угодно. Мы хотим обсудить, какие проблемы случаются и как их грамотно решать, или какие проблемы классифицировать «это нормально», и заставить решать их Яндекс? (а вместе с ним Гугель, Бинг и прочих).

Я все же сторонник, что за данные отвечает тот, кому я эти данные передаю непосредственно. А поисковик — это «третьи лица». И задача ресурса обеспечить недоступность данных по ссылке для третьих лиц.

В том-то и дело, что авторизации никакой нет. Как я уже где-то тут рядом спрашивал — провайдеры интернет гарантируют отсутствие transparent proxy и/или конфиденциальность тех ссылок, по которым ходит их пользователь?
Я в договоре со своим провайдером такого не припоминаю :))
UFO just landed and posted this here
1. тема «я.бар = spyware» — хорошая. Но я не считаю, что ссылки воруют.
Поэтому, это направление без меня, я сбоку постою, понаблюдаю :)
Конечно, сделать в настройках Я.Бар одну заметную птичку «ничего не передавать в Яндекс», я не возражаю. Конечно, пусть сделают.
Но я отдаю себе отчет, кто Я.Бар/Метрика — это далеко не единственное место утечки.

2. еще раз — складывать данные авторизации в url, а потом жаловаться, что они утекли — это бред неграмотных людей. И по этому месту нужно бить всех, невзирая на лица, пока не станут умнее.

Если кто-то считает, что «security trough obscurity» имеет право на существование, это его проблема.

На мой вкус, правильнее заткнуть одну дырку в безопастнотси, нежели бегать за всеми яндексами, гугулами и прочими (кто, возможно, вообще на robots.txt плюёт), и просить их «не ходить по нашим секретным url'ам».

Есть ведь всякие трояны, и специально созданное spyware, авторов которых попробуй найди.
гггггг
UFO just landed and posted this here
вы понимаете разницу между URL, и той информацией, которая по этому URL доступна?

И если по HTTP GET сервер ответит «введите имя пользователя и пароль», то никакой контент никуда не попадет?

Эх, жаль, я надеялся, что вы еще не совсем потеряны.

Впрочем, несмотря на то, что моя надежда умерла, у вас есть шанс.
UFO just landed and posted this here
простите, я видимо ошибся постом (ветвью каментов)

для меня «правомерность поведения Яндекса» вне обсуждения. С моей точки зрения, Яндекс ведет себя как и должен вести.
Согласен. Яндекс — это в первую очередь поисковик.
И это его главная задача — индексировать все, что только он сможет.
А если владельца сайта это не устраивает — достаточно всего лишь robots.txt написать.
А «секретные ссылки» — чушь какая-то.
Если я пойду и заведу сайт типа superpupermegasecret.com, то что, всерьез можно думать, что поисковик его не найдет и не проиндексирует? И никакие мои желания на сей факт не повлияют.
Можно и другой пример привести — друг пришел к вам, в холле стоит лоток с газетами — он взял одну, почитал, тут набежали жильцы и ну орать, что это приватная газета, только для своих, и что его теперь во дворе повесят на столбе за это.
UFO just landed and posted this here
Как робот дожен отличить газету от письма? Или личное письмо от приватного письма? Если это все свалено в холле и никем, и нигде не указано, что это читать нельзя.
UFO just landed and posted this here
Вы не ту точку для давления выбираете, лучше бы на магазины давали и сотовых операторов.
UFO just landed and posted this here
Прозреваю у вас на груди значок «Почётный танкист».
 
Ещё одно сравнение: побегите по улице с голой жопой и каждому взглянувшему на вас кричите — «Не смотри на меня, ты, извращенец поганый!» Толку-то.
 
Дурак тут не тот, кто сказал прохожим — «Идите, посмотрите на идиота», и не тот, кто посмотрел. Идиот тот, кто бегает.
Когда люди научат роботов разбираться в контексте содержимого, то придет Skynet. И думаю не стоит объяснять сложность построения лексического анализатора с учетом контекста.

[irony]
Представляю поискового робота вчитывающегося в томик Пушкина или Толстого =))
[/irony]
есть другое предложение.
Сайты, у которых найдены и опубликованы дыры в безопасности, в процессе чистки индекса в Яндексе выносятся из выдачи целиком. На год-два.
UFO just landed and posted this here
Я перейду на личности — Вы неадекват!
Вам тут уже пол топика написали, что да как. И главная ваша проблема не в том что у вас альтернативная точка зрения. А в том, что вы не слушаете.

В связи с чем, давайте закончим… Сер!!!
UFO just landed and posted this here
Так личные данные агрегирует не Яндекс, так что и факап не его.
Не совсем так. Не закрывают страницы от поисковика, Метрики и Бара. А это немного сложнее.
Метрика и бар сливают только ссылку. Контент не защищен разработчиками.
если страница открывается get-запросом, и не требует ни наличия куки тривиальной, вообще ничего, это что — нормально?

Какая, простите, метрика и бар?
Насколько я знаю, примерно так же устроены скрытые албюомы в picasa и photos.live.com — при расшаривании добавляется параметр authkey.

Теперь предположим, что кто-то создает поисковый движок, который не учитывает robots.txt, а создает свою новую продвинутую robots.xml
На уровне дата центров его забанят да и все.
Это прогамеры криворукие, такую информацию надо блокировать еще на этапе выдачи движком, т.е. системой управления правами пользователей.
Эту информацию должны видеть только автор и админ. Всё.
И robot.txt и метрика здесь не причем. Если у кого-то в голове не хватает (у криворуких программеров), то не надо винить других.
Из представленного ассортимента ничего не понравилось :(
Поставьте Яндекс.Бар и поделитесь со всеми интересным ассортиментом
А девочки с фотографий у них разве не в комплекте?
UFO just landed and posted this here
UFO just landed and posted this here
А если я напишу скрипт, который простым перебором скачает все страницы с этого сайта, соберу в один архив и выложу в интернете, то снова будет виноват яндекс?

Помнится была такая история с сервисом обмена картинками для айфонов. Тогда в сеть утекли сотни пикантных фотографий.
UFO just landed and posted this here
Есть такой сервис, imhonet
Так вот в нем на почту уведомления приходят со ссылкой. В конце ссылки параметр auth_hash, который позволяет авторизоваться без ввода данных. И эти параметры кучами лежат в индексе гугла и яндекса.
Но переход по ним ничего не дает, т.к. администраторы озаботились безопасностью и после авторизации хэш аннулируется.
Да там за медсестрой костюма не видно.
Причем, если нажать на квитанцию — можно получить подробнейшие юридические данные фирм, которые оплачивают все «клубничные» аксессуары.

Кажется, sexyz.ru потеряет немножко клиентов :)
Могут быт магазины специализированные. Им все равно
А могут и не быть… -)
Хорошая опечатка «быт магазины», хозяйственные.

— Можно мне две ламочки, клей ПВА, моток проволоки и селиконовый костюм?
— Конечно, все вместе 1856 рублей 52 копейки, пройдите в кассу 3-го отдела.
Интересно, а зачем в отзывах открыто пишут трекеры посылок EMS?
Протыкал наугад десяток результатов поиска. Все покупатели — женщины, занятно :)
Не, есть и мужик с костюмом горничной, чулками с рюшами и париком «Элли из Изумрудного города» :-)
Конечно, для друга.
Попробовал похожие запросы. Ну и дела.
Не так критично, только email-адреса светятся.
Или так
похоже все сайты на одной CMS
это WebAsyst Shop-Script :) Сталкивался с этой cms — архитектура и код ужасны((
«Ужасные» — слишком мягкое слово
На Хабре, помнится, лет здак пару назад уже обсуждали его исключительную кривизну. Тот самый топик, правда, найти не могу.
А вспомнил, я еще тогда про рекурсию им втыкал. Я ж говорил, что такими вые… ми можно потерять контроль над ситуацией. Вот — потеряли, хотя и в другой области архитектуры (что еще хуже), в области управления правами пользователей.

Я тогда еще говорил. Ошибки в архитектуре. Вот они и вылезли.
Ну почему не прислушаться. Ведь говорилось то про реальные вещи
Ага, мне тогда за критику влепили минусов по самые уши, а прислушались бы может и не было такого позора.
Жалко, а ведь довольно часто я подымал вопросы спецификаций и стандартов. А вот так опозориться, это просто игнорирование спецификаций программирования в архитектуре проекта (если она еще есть :). Знай мало мальские навыки в этом — не было бы такого. Мне то пофиг те минусы, а вот автору -… я представляю сколько матьков в его честь прозвучало, плюс удар по продукту.
Ну не все так плохо, данный баг вижу впервые, но движок раньше считался довольно неплохим.
Можно еще так:
«Получатель» && inurl:index.php?ukey=order_status&orderID= && title:«Статус заказа»
Блин, мы скоро в яндексе будем sql запросы писать, а он уже сам будет эксплойты делать и в результат нам показывать… по всем сайтам…
UFO just landed and posted this here
Ага, а фамилия легко находится в сетях типа майл.ру.
Там сайты не на одном ли движке? Каком, интересно?
Костюм «Медсестричка» 432.0 рубля.

Выдаётся вплоть до полного адреса покупательниц.
Слоган яндекса всё сильнее и сильнее себя оправдывает.
теперь я знаю, к кому пойду в гости ^_^
Боюсь он не очень-то и болен :)
Боюсь, что лечить придется после похода в гости.
Зато он единственный из всех вас ничего не боится.
Так-то.
Мужские трусики из латекса с полостью для полового члена и внутренней анальной пробочкой Peni Pants (черный, M) clck.ru/HGSu
Боюсь представить, зачем оно вообще надо…
Там же: «Подытог»
А чем обусловлено небольшое количество (31 ответ) результатов в выдаче? Индексируются только выборочные страницы?
Некоторые покупатели поставили в заказе галочку «Скрыть мою покупку от Яндекса». Вуаеристы (31 штука) эту галочку не ставили.
Только не вауеристы, а эксгибиционисты.
Точно. Вуаеристы это те, кто сейчас тщательно прочесывает выдачу яндекса. )
А вуаЙеристы подсматривают за безграмотными пользователями Хабра.
Ужас то какой. Да, я безграмотен, попутал как правильно писать этих извращенцев.
Я вот что-то так и не могу понять… Ну мегафон ладно, там авторизации не было. Хотя возникает вопрос зачем смс вообще хранить. Но тут я вообще теряюсь в догадках, каким образом данные без авторизации вылезли. Кривые руки программиста, которые решили сэкономить и не вводить авторизацию. В общем не понятно.

Свои сайты чтоль посканить…
на страницах установлена yandex-metrika
Метрика может выдать в яндекс полный URL страницы, а какого хрена эта страница доступна без авторизации? Не запросом яндекса, а простым кликом по ссылке.
Все данные авторизации в ссылке.
Сдается мне, что это из email подтверждения заказа, чтобы сразу из почты с авторизацией пройти в просмотр инфо.
а как еще посмотреть статус заказа, если он оформлялся без регистрации?
У кого-то накоплены скидки, прикольно )

«Каждый 5ый фалос — бесплатно» =)))
Мне интереснее другое: почему вообще эти страницы с заказами сгенерировались на сайте и лежат вот так открыто?
потому что данные аутентификации (при том не имеющие срока действия и привязки к IP-адресу) передаются через GET параметры вместо куки
Также можно узнать, какое спутниково оборудование приобретают компании…

Ключевая строка для поиска — " статус заказа index.php?ukey=order_status "
После чего берете сайт — и подставляете в соседнее окошко со следующим видом поискового запроса — site:eleciga.ru Статус заказа Получатель и находите кто какой аромат купил себе для электронной сигареты :)
UFO just landed and posted this here
Email-ы, айпишники, адреса, и ФИО. Это даже эпичнее, чем у Мегафона. Разве что фотографий покупательниц не хватает.
Виноваты в утечке знамо дело создатели сайта, забывшие про robots.txt, и придумавшие столь «безопасный» интерфейс.
Тут даже не robots.txt виновато. Просто элементарно нужно разрешать просмотр только администратору.
Не администратору, а юзеру с паролем и только свои заказы
UFO just landed and posted this here
фотографии найти не сложно. Если ящик на mail.ru, то у них есть мой мир, где можно найти пользователя по email. Если yandex.ru, то там мой круг.
>фотографий покупательниц не хватает.
Вас научить искать в социальных сетях по e-mail?
а также в ICQ, Mail.ru Агенте и Skype :]
Полагаю, у 99,999% сайтов robots.txt не запрещает индексацию областей сайта, требующих аутентификации. Поисковые роботы туда элементарно не могут попасть, даже если будут знать, куда именно.
В данном случае проблема даже не столько в нём, сколько в идиотской реализации аутентификации (через GET параметры).
Совершенно верно. Проблема в сочетании сразу трех факторов:
1. Robots.txt
2. Get с волшебным supersecretpage ключом
3. Метрика == разрешение индексировать все страницы, кроме явно запрещенных
При наличии мыл и ФИО фотографии найти не так сложно =)
Все это и раньше висело, наверно, просто после случая с мегафоном многие начали копать выдачи в яндексе.
Я правильно понимаю, что на всех этих дырявых сайтах стоит тот самый shop-script?
Нет, скорее дырявый роботс.тхт -)
Видимо, сарказм не в моде.
Понятно что не роботс, это ж не директории попадают в поиск.
Или тэг сарказм стоит явно указывать?
На нормальный вопрос — кривляние, обозванное вами сарказмом.
скорее посматриваем, в книге такого выражения не было
Подзабыл книгу… =) А посматриваем тогда уж Гинзбурга =)

Я в таких случаях пишу письмо админу. А выкладывать инфу в общий доступ об уязвимостях связанных с личной информацией — не православно.
Нашёлся один хороший человек…
UFO just landed and posted this here
Либо не так хорошо идут дела у магазина ;)
UFO just landed and posted this here
Проверил, нашел в соц сети одного покупателя.
И как? Он таки покупал «Юркий щекотунчик»?
Не похоже на вброс, под схожий запрос на другие сайты также выдается информация… скорее просто связано с тем, что именно проверка статуса была сделана с браузером с яндексбаром, к примеру, который и натравил робота.
UFO just landed and posted this here
Виноваты все, но создатели дырявых магазинов — в первую очередь. К тулбару вообще меньше всего претензий, что ему дали, то и сожрал.
Оценить по e-mail фотографии на «Моем мире», выбрать наиболее симпатичную, завалиться по адресу и спросить «Так это вы плетку заказывали?» :D.
«Супер-акция: при покупке в нашем магазине плётки — порка в подарок!»
Всероссийская известность в подарок
число ссылок = мощность пересечения множеств «используют fx с я.баром» и «покупают в этом магазине». По-моему, вполне ожидаемое незначительное число.
В данном случае сфейлили разработчики Shop-Script, которые сделали возможность просмотра деталей заказа без логина по специальной ссылке, но забыли закрыть подобные ссылки от индексации.

В результате сотни магазинов раскрыли данные тысяч своих клиентов: yandex.ru/yandsearch?text=ukey%3Dorder_status+%22%D0%9F%D0%BE%D0%BB%D1%83%D1%87%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%3A+%22&lr=195
Скорее всего каждый магазин на Shop-Script у которого данная фича включена подвержен проблеме.
Пора мне уже «Разместить объявление по запросу «ukey=order_status ...»» ;-)
UFO just landed and posted this here
(Я работаю в Вебасисте и занимаюсь проектом Shop-Script.)

Сегодня, конечно, для нас это боле неожиданной новостью… технически все произошло примерно как у Мегафона: проблема возникла только там (у тех магазинов), которые пользуются Яндекс.Метрикой:
1. Shop-Script позволяет оформлять заказы незарегистрированным пользователям.
2. В email-уведомление о заказе покупателю отправляется ссылка на страницу с информацией и статусом его заказа.
3. Покупатель заходит на этой страницу, авторизация не требуется (так как при оформлении заказа покупатель не регистрировался), и Яндекс.Метрики добавляет УРЛ в общую базу индексации…
Конечно, тут необходимо требовать от покупателя вводить какие-то дополнительные идентификационные данные прежде чем показывать ему информацию о заказе — стабильное решение может быть только таким.

Максимально подробно, насколько смог, описал сложившуюся ситуацию в блог-посте на сайте Вебасиста: blog.webasyst.ru/shop-script-private-data-indexed-problem-summer-2011/

Я нисколько не хочу оправдаться — это просто описание сложившейся ситуации.
Учитесь на наших ошибках.
Уважаемый, в google уже тоже появилась вся приватная информация с сайта.
Не в метрике дело…
А в таких случаях, просто пишут «спасибо за заказ» и ничего не показывают.
maxic, а вы не думали, что google-bot зайдя в этот топик прошелся бравым шагом по любезно выложенным ссылкам на выдачу yandex и успешно их сейчас индексирует (при чем, как вы сами заметили выше/ниже, пока там еще не все что выдает яндекс), а? удобство пользователей+Метрика = Я.Колготки.Чулки )
Пробуем в Яндексе запрос: " +'Адрес доставки заказа:' +'История работы с заказом' " и находим еще много подобных магазинов, которые сдают с потрохами своих клиентов.
Если подправить запрос под любой другой движок, можно и по другом магазинам пошерстить.
подавляющее большинство движков не показывают статус заказа неавторизованным пользователям.
Есть куча магазинных движков, которые позволяют делать заказ без регистрации. Как вы думаете как там покупатели статусы смотрят? Заказ без регистрации многим удобен для единичной покупки, поэтому такая фишка есть почти во всех подобных скриптах.
Да ну? Почти во всех подобных — это в каких именно, кроме shop-script?
Как-то с opencart имел дело, там такое тоже есть. Движок один из самых популярных.
С opencart дело не имел, но «одним из самых популярных» или хотя бы просто популярным он точно не является, по крайней мере в рунете. Битрикс, амиро, уми, упомянутый выше шопскрипт, шопцмс, вебассист, виртуемарт, оскоммерс — точно популярнее, чем opencart.
Из них только шопскрипт и, вот не помню, возможно еще вебассист позволяют видеть статусы заказов левым посетителям.
Отказ от регистрации в том числе означает отказ от трекинга заказов — в нормальных движках — и уж точно не дает никакого права публиковать в свободном доступе приватную информацию. За такое программистам нужно отрывать все вторичные половые признаки, начиная с бороды и усов. Я думаю, легко находящийся в яндексе Николай К**ов из Красноярска (домашний адрес и телефон прилагаются), который приобрел себе анальную пробку и в не очень прекрасное сегодняшнее утро ставший звездой рунета, очень даже готов меня поддержать.
С opencart дело не имел, но «одним из самых популярных» или хотя бы просто популярным он точно не является, по крайней мере в рунете

Именно, в рунете. В мире OpenCart входит в top10: trends.builtwith.com/shop
Не представляю, как можно посчитать подобную статистику. В большинстве случаев определить движок магазина сложно или невозможно, особенно если стоит ЧПУ. Потом, по какой выборке показана статистика? «Топ 10000 сайтов» для всего интернета вызывает смех — как они составляли этот топ? По продажам в штате Луизиана? Это не статистика, а бред компании с манией величия.
Не представляю, как можно посчитать подобную статистику.

Видимо вы не работали c разными движками интернет-магазинов. Для коробочных продуктов все достаточно просто определяется.

«Топ 10000 сайтов» для всего интернета вызывает смех — как они составляли этот топ?

Меня удивлияет ваше нежелание нажать на ссылку «FAQ» на той странице и потратить 3 минуты на чтение. Все ваши вопросы там уже отвечены. Они проиндексировали 90 миллионов сайтов, топ взят по статистике от Quantcast
Я работал с достаточным количеством движков, в том числе интернет-магазинов, и хочу сказать что во многих случаях определить CMS невозможно. Есть произвольные ЧПУ, есть ситуации когда был сайт на движке Х, вместо него сделали новый сайт на движке Y, но, чтобы не выпасть из индекса, сделали прозрачное отображение старых урлов через htaccess.

ФАК я просмотрел, они пишут якобы о 90 миллионах сайтов, но нигде не приводят статистику по этим 90 миллионам. Из них они как-то заведомо неслучайно надергали топ миллион, из этого миллиона топ 100к, из топ100к выдрали топ10к — опять же повторю, заведомо неслучайным образом, то есть полностью испортили статистику. Достаточно сравнить данные по топ10к и топ-миллиону, чтобы увидеть что они полностью друг другу не соответствуют. Ну это совершенно базовые, элементарные понятия статистики; если бы выборка делалась правильно, то есть случайно и не предвзято, тогда топ10к соответствовал бы топ миллиону с точностью до десятых процента, и тогда можно было бы экстраполировать результаты на весь интернет. Здесь же этого нет даже близко. Это цифры ни о чем, понимаете? Они никак не описывают реальность. Если я захочу эти цифры проверить, я а) не смогу этого сделать в силу отсутствия внятного описания и б) даже если смогу, я получу очень другие результаты.
Если результаты какого-то эксперимента нельзя проверить, это уже не наука, это или религия, или профанация. Здесь скорее всего второе.
И еще. В рейтинге указана платформа яху.стор, но нет ни амазона, ни ебея, ни таобао, ни алибабы. Каждая из этих платформ крупнее (используется в бОльшем числе магазинов), чем яху.стор, ну или по крайней мере сопоставима. Почему они не учтены? А мы не знаем почему, так как детали сбора статистики не раскрыты.
1. Опеределять движок по URL действительно так еще задача. Поэтому только по URL никто не определяет. Например WordPress опеределяется по одному взгляду на HTML source.

Почему бы вам просто не потестировать их методику самому? builtwith.com/

2.
Достаточно сравнить данные по топ10к и топ-миллиону, чтобы увидеть что они полностью друг другу не соответствуют. Ну это совершенно базовые, элементарные понятия статистики; если бы выборка делалась правильно, то есть случайно и не предвзято, тогда топ10к соответствовал бы топ миллиону с точностью до десятых процента, и тогда можно было бы экстраполировать результаты на весь интернет. Здесь же этого нет даже близко. Это цифры ни о чем, понимаете? Они никак не описывают реальность.


Как раз тот факт, что статистика по top10K и top1M разная полностью очевидно и правильно. Сайты, которые входят в top10K по посещаемости используют другие решения чем обычные малые бизнесы. Например решения от Oracle, IBM и Ebay(все эти решения в топе для top10K сайтов)
Ох как туго-то.
Попробую разжевать в стиле «для идиотов».
Итак, они взяли 10к/100k/1mil сайтов и сказали — это будут топовые сайты, мы в это верим. Ни какой научной базы под их определением топа, ни даже внятного описания что же это за топ такой — нет. То есть это просто вопрос веры — или вы им верите, или не верите. Я не собираюсь спорить с людьми верующими, это бесполезно, просто единственный способ адекватного описания реальности, который даёт повторяемые результаты это «научный подход». Здесь им даже не пахнет. Лично вы можете им верить, но никакого отношения к реальности все их красивые диаграммки не имеют. Если это вам не понятно, то значит у вас просто больше развито не то полушарие мозга и вам просто нечего делать в ИТ. Ну разве что копирайтером подвизаться. Ни в коем случае не в обиду, просто вера и логика увы не совместимы в одном человеке.

Теперь по второй части, про их якобы мощное определение CMS. Да, вордпресс c joomla и textpattern оно определяет. Но я из интереса проверил навскидку — ни битрикс, ни шопцмс, ни вебассист оно не знает. На каждой из этих систем ну по 10к магазинов точно сделано. То есть в табличке они должны быть указаны как минимум во второй десятке, а битрикс так и в первой. Но их там нет.
Что-то мне подсказывает, что китайских CMS там тоже нет как класса, а это главный язык в сети. Равно как и корейских, японский и прочих рассчитанных на иероглифы — там поверьте хватает своей специфики и особенностей ментальности. А это между прочим большая часть интернета. Про амазон с ебеем я уже писал. Короче, в их так сказать статистике просто нет подавляющего числа платформ. Всё, точка, это не статистика, а мусор.

«Чукча не читатель, чукча писатель»…
Вам же по-русски написали, что топ взят по трафику, информация о трафика — от Quantcast. Чего тут непонятного?
Quantcast дает среднепотолочные данные по пользователям в США. Точка. Сверху кто-то что-то заливал про «в мире», ага?
И всё-таки читать полезнее, чем писать. Из www.quantcast.com/how-we-do-it:

«Quantcast provides the most accurate traffic and audience data both on a global and local basis, with audience insights for digital media for every country around the world
Википедия с вами несогласна. Американцы вообще такие люди, что у них если вдруг чуть лучше чем у соседа, то сразу world's best. Культура такая.
Ох, лол. Вы много тут написали, на личности перешли, а так и не удосужились погуглить что такое Quantcast и каковы методики расчета статистики у них.

Вы перед тем как что-то разжевывать, вспомните, что пару комментариев назад вы на полном серьезе утверждали, что тот факт, что статистика по top10K и top1M не совпадает это неправильно и такого быть не должно:

Достаточно сравнить данные по топ10к и топ-миллиону, чтобы увидеть что они полностью друг другу не соответствуют. Ну это совершенно базовые, элементарные понятия статистики; если бы выборка делалась правильно, то есть случайно и не предвзято, тогда топ10к соответствовал бы топ миллиону с точностью до десятых процента, и тогда можно было бы экстраполировать результаты на весь интернет. Здесь же этого нет даже близко. Это цифры ни о чем, понимаете?


Как-то сложно воспринимать вас всерьез после этого. Даже не после этой вашей ошибки(все ошибаются), а того факта, что вы отказываетесь ее признать.

Про амазон с ебеем я уже писал.

Вот еще один пример того, что не нужно всегда думать, что окружающие все идиоты, а вы несете свет истины.
Например ваш eBay сам по себе не дает сделать standalone shopping cart, поэтому его в обзоре и нет. Зато два других решения от eBay: ProStores и GSI Commerce(их недавно купил ebay) там вполне присутсвуют.

Гораздо правильней было бы например придраться к тому, что в списке отсутствует BigCommerce — он достаточно крупный игрок на рынке.

Если честно возникает ощущение, что вы не совсем владеете темой о которой спорите. Это опять же нормально(никто не может знать все, у нас у всех ограниченные уровни компетенции), но зачем тогда спорить?
Ладно, последний аргумент. По их статистике 330 из топ10000 (мировых!) интернет-магазинов используют оскоммерц. Понимаю, что не все в теме, но это а) совершенно никак не масштабируемая CMS, то есть её предел это 1 сервер и б) очень и очень кривая и тормозная система, хотя и бесплатная. Из-за этого её потолок — сотни товаров и десятки пользователей онлайн, при больших цифрах она намертво падает. И никакое железо и никакой программист-хоттабыч не позволят это ограничение обойти.
В одной только Москве больше 10к интернет-магазинов с пиковой посещаемостью, недоступной для оскоммерц.
Но 330 таких сайтов как-то всё-таки пролезли в «мировой топ». Я бы еще понял, если бы их были единицы — ошибки определения, супер-перепиленные уникальные решения и т.п. — но 330 оскоммерцей?! И ни одного сайта на битриксе?

Повторю еще раз: вы можете верить их статистике или не верить, это ваш выбор. Но к реальности она отношения не имеет. Заниматься же демагогией с человеком верующим — извините, у меня нет времени.
А может надо с прямыми руками к ней подходить? Например, 123inkjets.com использует oscommerce, имеет до 19к посетителей в день и огромное кол-во товаров.
Да-да, это из той же серии что, скажем, гугл использует линукс.
Там правда свои драйвера для своего железа, свой стек tcp/ip, своя файловая система, свой менеджер памяти и свой libc — и благодаря багу в GPL гугл ни с кем своими наработками не делится. Но это ведь всё равно линукс, так же? И если у вас сервер с линуксом тормозит, то «может надо к нему с прямыми руками подходить»?
> Заниматься же демагогией с человеком верующим

И главное, ведь сам же демагогию и развёл.
Воопрос «при чём тут вера» также остался открытым.
Заниматься же демагогией с человеком верующим — извините, у меня нет времени.


Было бы здорово, если бы вы нашли время привести хотя бы один вменяемый аргумент. А то все ваши доводы на ссылки и факты имеют вид «этого не бывает, така как я знаю, что этого не бывает».
В «примитивных» интернет-магазинах покупателю сообщают номер трекинга по e-mail. Получается, что чем примитивнее магазин, тем он безопаснее для покупателя.
Сообщать по емейл надо не номер трекинга, а все операции с заказом. Если человек не зарегистрирован — то кроме емейла нигде статус заказа посмотреть нельзя.
Не, примитивные магазин на то и примитивные, что там статус заказа отслеживается только в ручном режиме оператором магазина. Если что-то идет не так покупатель пишет или звонит в магазин и узнает статус заказа. Дико не удобно. Но в Яндекс не попадет =)
Если я правильно понимаю, то даже если адрес на просмотр состояния заказа придет на почту, есть шанс утечки данных через бары и т.п.
Единственный вариант тут в письме сообщать уникальный номер заявки, а в режиме просмотра заявок, просить в поле ввести этот номер и POST запросом отправлять данные на сервер и отображать статус ордера.
Ну и, конечно, правильная настройка robots.txt
Не. В примитивном магазине такой страницы нет. Есть номер трекинга в бумажной накладной. Номер сообщается покупателю по e-mail. Покупатель заходит на сайт Почты России или EMS и смотрит трекинг.
Я не говорю, что это хорошо. Это как раз плохо — куча ни кому не нужной ручной работы и неудобство для покупателя. Но в сложившейся ситуации это оказывается самым дешевым способом инфобезопасности %)
сайты ПР или EMS по крайней мере не раскрывают столько деталей о получателе, максимум ФИО и почтовый индекс
Есть куча магазинных движков, которые позволяют делать заказ без регистрации

ну, назовите что ли эту «кучу» ;)
Если движок это не позволяет делать, то это плохой, негодный движок.
2 клиента как-то не густо… даже покопаться не в чем =)
Почему сразу жопа, там и другие части тела.
Да, при отправке заказа, мы отправляем Вам сообщение об измене статуса Вашего заказа
там уже вы на первой строчке
Скушно и боянно. Я с квипа ушел несколько лет назад, как раз когда они новую версию объявили, которая гоняла файлы через их сервер и вела микроблог статусов без ведома пользователя.
Ой дурак, это ж секс-шоп, там все такое.
Epic Fail
Да не «кто-то», а Мария Васильева из Нижневартовска.
Топику не хватает тега «найдется всё»
Возможны ситуации «Жена заказала себе „Комплект “Нежный гепард»", а также черные трусики с бантиком, а я не в курсе и не видел их!", с дальнейшими судебными исками на тему вторжения в личную жизнь.
Хотя скорее всего в нашей стране такого рода иск далеко не уйдет.
У многих всплывших, кстати, независимо от магазина, есть скидка постоянного покупателя. Индексируется «особые» пользователи?
Екатерина Ульянкина с Чернышевского, 102 стали известностью в мире секс аксессуаров и белья :) Немного пошаря интернет выяснилось что работает в суде)))
Блджад, и что теперь? Если в суде работает, то заказывать разную хрень и в ней трахаться нельзя, что ли?
Понабежало моралистов.
Я ничего против ее интимной жизни не имею против.)
Судя по всему, ссылки эти открывались из почты, т.к. содержат некие токены, которые, скорее всего, используются для авторизации. Также и Хабр делает, кстати. Если я прав, то проблема тех, кто писал магазин в том, что эти токены не очищаются.
Не почта. Для того, чтобы получить эту ссылку нужно ввести номер заказа и e-mail: www.sexyz.ru/order_status/

Можно было и не давать ссылку на профиль человека. Более того, начали еще человеку срать на стене.
А под этим срачем с ссылкой красуется комментарий-поздравление от ее 13-ти летней дочки.
Да. Одно дело — потроллить участника РосПила, запрещающего торренты. И совсем другое дело — такое. В конце концов, ничего предосудительного человек не делает. Вопреки словам Эрика Шмидта, все делают что-то, что не хотят выносить на публику.
В том то и дело, что там действительно все нормально. Подумаешь интимное белье. Просто это действительно личное, к тому же особенно мерзко, что в это так или иначе вовлекается ребенок.
Разуй глаза, я там ни одного комментария на стене не написал.
Он не говорил, что вы писали. Он сказал, что не надо было ссылку давать на открытом для всяких троллей ресурсе.
Незачем быть таким агресивным…
Я ничего не делал! Я просто открыл клетку со львами, а они сами уже порвали кучу людей!
А ей 27, 13 лет назад и в 14 рожали?
Не знаю, может и рожали. Я просто факт констатировал…
А если зайти в профиль к дочке, то окажется, что у нее родители Богатая Алёна и Ольга Богатая, так что тут все гораздо интереснее.
Наша страна богата на причуды =)
Итого, имеем:
Дочка, 13 лет, родители Алена 27 лет и Ольга 16 лет.
В перспективе сюжет для блокбастера)
Ну вы и мудак, простите. Если бы над вашей мамой в похожей ситуации весь хабр издевался, вам бы понравилось? А если бы вам при этом 13 лет было?
Сам мудак. Я там не троллил между прочим и не собирался. И вообще даже не продпологал, что столько быдла с хабра набежит.
Хабр пол-рунета читает, особенно такие резонансные новости. Надо думать про последствия своих поступков, а деанонимизировать людей — вообще никогда не нужно. Вас в детстве не учили примерять свои поступки на самого себя?
Павел, найти человека в соцсетях и выкинуть ссылку на ресурсе который читают столько людей, особенно в таком контексте — это гарантировано приведет к тому, к чему привело. Тут просто других вариантов нет.
Наверняка Светлана Ч. тоже не семейники носит. Вам было бы приятно, если бы кто то опубликовал ее заказ на интимное белье в общедоступном ресурсе с огромным потоком людей? Естественно это привело бы к тому что ее начали бы просто троллить. Вы бы считали, что человек опубликовавший ссылку на ее профиль ничего плохого не сделал?
И нет, вы не тролль. Вы просто взяли и открыли дверь куче троллей. Нужно понимать, что за собой несут те или иные действия.
Впрочем, не мне вас учить.
Додумался, «молодец».
простите, а что такого в заказе? :) не фаллоимитаторы заказывает девушка)
кстати, интересный факт
магазин то шлёт заказы из Китая



такой вот «русский» бизнес
Это общемировая практика. Гуглите дропшиппинг
Да я в курсе, как бы…
Просто мне как клиенту было бы неприятно с такими случаями сталкиваться. Ну пусть уж тогда китайцы и продают напрямую, сайт только локализацию и наймусь русскоязычный саппорт.
На Taobao или Alibaba я и сам способен заказать. :)
А причем здесь «русский» бизнес. Он должен китайцев заставить сделать локализацию и самоликвидироваться?
Я на Таобао не сопособен заказать=)
Вы у китайцев спросите сначала, готовы ли они сюда приходить в качестве непосредственных продавцов. После полученного отрицательного ответа узнайте, отчего производители используют дилерские сети, а не открывают фирменные магазины самостоятельно.
 
А Google скромно две ссылки, вместо 31 :)
Как-то бодро Яндекс стал индексировать — я еще смс-ки не дочитал.
Здесь явно виноваты администраторы самого ресурса, как и в предыдущих случаях. В Яндексе много вкусностей, интерес к нему обострился после первой утечки.
А какой стимул изучать язык запросов!
Между тем cуд принял иск против «Мегафона» за утечку SMS. Всем у кого личные данные попали в сеть есть реальная возможность вернуть деньги путем иска в суд на магазин) Пошел устанавливать бар и за покупками (Не подскажите хороший магазин железа на shop-script?)
Вернуть деньги за что? За отправку бесплатных СМС с сайта Мегафона?
Скорее возместить ущерб. Что-то мне подсказывает, что они возместят его смсками и бонусными баллами.
Интересно, сколько народу кинулось искать себя?
Скорее знакомых. Я вот нашел одного товарища.
Как вы ему теперь в глаза смотреть будете?
С надеждой или с пониманием =) Ну, или с укором, как вариант.
еще может бывать вариант «с сочувствием» :)
А мне кажется это всё выльется в принятие закона о сохранности персональных данных и владельцам интернет ресурсов придётся получать какие-нибудь сертификаты безопасности. Причем сертификаты гос. образца
Вот тут-то и станет ясно чей профит
Ну переедут все дружно на .com (нужное вписать), вместе с хостингом и всё. Тут не правовые нормы нужны, а показательная порка… не не показательная а постоянная.
Так уже 152 ФЗ. Но дуракам закон не писан )
тем более в России с их исполнением как-то не очень…
А может это специальный вброс, чтоб подстегнуть выполнение 152ФЗ?.. Хм…
В последнее время стало модным что ли повторять косяки?
Один склад боеприпасов взорвался — так сразу у всех повзрывались.
Один раз слили инфу, так теперь снова и снова будет что ли? ДОКОЛЕ?
А вообще-то, товарищи, это просто вырвиглазный ппц и у меня волосы на спине шевелятся от ужаса.
Что, тоже отоварились где-то? Расскажите ^_^
Может Яндекс(Google) и не виноваты, но бары ихние снес от греха подальше
Новое, хорошо забытое старое.
Помню подобным способом народ раньше искал .htpasswd и mp3 =)
Нужно было просто добавить в robots.txt вот такую строчку:
Disallow: /*order_status*
Не говоря уже о том, что эти данные должны выдаваться только авторизованому пользователю
Почему бельё грязное? Говорят, чистое, новое.
Латексное, с анальной пробочкой.
Там и такое есть? Ох, затейники!
Из анонса статьи История проекта Shop-Script:
«О том, как создавался скрипт интернет-магазина Shop-Script — «стартап», которому скоро исполнится десять лет. От первой версии, написанной в общаге ГЗ МГУ...»

Не имею ни чего против общаги ГЗ МГУ и вообще это конечно не показатель. Но в целом шутка получается очень злая )
Я писал эту статью про историю Shop-Script и, собственно, занимаюсь этим проектом. Не собираюсь оправдывать Шоп-скрипт никоим образом. Действительно, в текущей версии есть проблемы. Мы это признаем и работаем над тем, чтобы сделать как надо (в статье про историю проекта об этом говорится).

Что же случилось в данном случае, я постарался максимально подробно описать в посте в блоге на сайте Вебасиста:
blog.webasyst.ru/shop-script-private-data-indexed-problem-summer-2011/

Проблема только в магазинах с установленной Яндекс.Метрикой. Конечно, частично вина на Шоп-скрипте — магазин показывает информацию о заказе пользователя, когда пользователь переходит по ссылке, которая приходит ему по электронной почте после оформления заказа (а так как пользователь при этом не является зарегистрированным в магазине, так как это необязательное требование для покупки, то никакая авторизация у него не запрашивается). Пользователь переходит по ссылке — и Яндекс.Метрика добавляет адрес в общий индекс. robots.txt есть, но им пользуются далеко не все интернет-магазины. Решение для пострадавших магазинов мы уже предложили, скоро выпустии также и общее обновление, чтобы подобные проблемы не возникали вновь.

Однако, я не сторонник подхода Яндекс.Метрик, которая скармливает любой УРЛ в общий индекс. Думаю, это вызовет еще массу проблем в других движках магазинов, cms и т.п. Случай Мегафона хорошо привлек внимание к этой проблеме.
Когда пользователь оформляет заказ он фактически регистрируется.
Делайте ему временную регистрацию (и кроме того в e-mail, напишите ему временный пароль входа), потом:
вешайте куку и проверяйте когда заходят по токену (на строке 590 :) ), есть кука — получаем права и работаем, нету, вводим ручками доп. информацию (тот временный пароль). Ведь пользователь то в 99% случаев будет проверять сразу свой статус и тем же браузеров в каком оформлял заказ.
А у бота куки не будет :)
Мухаха, «частично вина на Шоп-скрипте».
Ну да, ну да. Частично. Процентов эдак на 99,9.
Вина таки на вашей стороне. Вы предлагаете свою платформу как готовое решение для создания магазина. Т.е. вашим продуктом могут и будут пользоваться не квалифицированные пользователи. Где аудит безопасности? Где FAQ по безопасности (http://www.shop-script.ru/overview/ — тут ни чего нет про безопасность)? Почему данные не только в Яндексе с его Метрикой, но и в Гугле и Бинге и т.д.?
Еще никто на ленте не видел эту новость? Там вообще все сайты с подобной дырой выдает:
Пост, на самом деле, призван сексуально просвещать хабровчан ;)
Как-то странно, что все это «неожиданно» выплыло после закона о персональных данных.
Так наоборот это хорошо. Закон же не просто висеть, он применяться должен!
Да, сегодня для нас это боле неожиданной новостью… Разбирательство показало, что технически все произошло как у Мегафоном — проблема возникла только у магазинов, которые пользуются Яндекс.Метрикой:
1. Shop-Script позволяет оформлять заказы незарегистрированным пользователям.
2. В уведомление о заказе покупателю отправляется ссылка на страницу с информацией и статусом его заказа.
3. Покупатель заходит на этой страницу, авторизация не требуется (так как при оформлении заказа покупатель не регистрировался), и Яндекс.Метрики добавляет УРЛ в общую базу индексации.
Конечно, тут необходимо требовать покупателя ввести какие-то дополнительные идентификационные данные — стабильное решение может быть только таким.
Максимально подробно, насколько смог, описал сложившуюся ситуацию в блог-посте на сайте Вебасиста: blog.webasyst.ru/shop-script-private-data-indexed-problem-summer-2011/

Учитесь на наших ошибках. Думаю, проблема потенциально ждет многие сайты.
При чем здесь Метрика, Google тоже отреагировал
www.google.com.ua/#q=site:www.sexyz.ru+%D1%81%D1%82%D0%B0%D1%82%D1%83%D1%81+%D0%B7%D0%B0%D0%BA%D0%B0%D0%B7%D0%B0+%D0%BF%D0%BE%D0%BB%D1%83%D1%87%D0%B0%D1%82%D0%B5%D0%BB%D1%8C&hl=ru&prmd=ivns&filter=0&fp=1cb4ff609e83d66b&biw=1280&bih=828
Думаю, что Гугл проиндексировал эти страницы, перейдя по ним хотя бы даже по ссылкам из этого поста.
мда, противоречите себе:
Все данные хранятся на защищенном веб-сервере и доступны только изнутри WebAsyst для пользователей, у которых есть соответствующие права доступа.
Почему было не сделать простейшую авторизацию по фамилии?

Я лично сам разработчик движка для интернет-магазина. У меня, конечно, решение не очень хорошее, но пока оно сбоев не давало. ID клиента сохраняется в cookies, также как и значение сложного хэша от этого ID, чтобы нельзя было скомпрометивать ID тупым перебором. Восстановить cookies можно по e-mail, пройдя по одноразовой ссылке.

Я думаю вам стоит сделать какую-нибудь заплатку, чтобы её массово ставили владельцы интернет-магазинов на вашем движке.
Вы совершенно верно заметили — кукисы, ну как можно было доверять пришедшему юзеру без кук, не понимаю.

И второе:
Я вообще не понимаю коммерческих продуктов без возможности обновления.
А некоторые «заплатки» надо в приказном порядке ставить. Даже чтобы не клиент ставил. А «головной» сайт сам рассылал обновления и устанавливал. Здесь тоже проще простого. Делаем хеши папок и сравниваем с хешами сборок из базы. Для каждой сборки свои обновления. Если хеши разные, значит юзер менял внутренности движка, тогда ему срочное уведомление и т.п.

Кстати MS так и делает. И плевать ей включено ли обновление или нет, некоторые файлы обновляются, даже не говоря об этом юзеру.
А что к ним приставать, у них же написано на главной =)

Преимущества создания интернет-магазина с помощью WebAsyst Shop-Script:
4. SEO — оптимизирован для поисковиков
Ну да, они кагбэ заранее предупредили!
Ждем-с новую волну разводов. Ухх поле деятельности тут для мошенников открывается, просто непаханное:
— Добрый день Антонина Ивановна, вы делали заказ №2244441 и приобретали ххх?
-Да я, а в чем проблема?
— Дело в том, что ххх нет в наличии, и мы можем вам прямо сейчас заменить на yyy (не смотря на то, что оно в 2 раза дороже, мы просим Вас доплатить всего 30%, остальное покроем из собственных фондов.
— Да, я согласна, куда перечислить разницу?
— …
«xxx» в данном контексте замечательно выглядит.
Вы описали что-то слишком мягкий вариант, я боюсь у нас в стране будет так:

— Добрый день Антонина Ивановна, вы делали заказ №2244441 и приобретали ххх?
— Как вы узнали?
— Это не важно, если вы не передадите деньги там-то, тому-то весь подъезд узнает о том какие трусы заказал себе ваш муж.
да уж! особенно удивил адрес доставки
Меня лично гораздо больше удивили сроки доставки из Китая — 9 от экспорта до вручения. Это какая-то фантастика.
Мамма дорогая… там что, бордель?
vkontakte.ru/id21409443

Место работы:
ТК «XL» отдел «Соблазн»
Казань, с 2011 г.
Индивидуальный предприниматель
Вот, где сила интернетов вырисовывается :)
Религ. взгляды:
Ислам
А ислам вроде не запрещает перчатки в сеточку
Насколько я понимаю ислам (а понимаю я его не очень хорошо), то не замужем она теперь будет ещё очень долго.
дело в том что очень многие инет магазины у нас в стране делаются на одной и той же веб-платформе, в которой содержится такая уязвимость, или точнее ее будет назвать фича, про которую не знают разработчики ПО для веб-магазинов.
От этого никуда ни деться, дальше будет только хуже. Издержки развития информационных технологий. Как то бороться бесполезно. В конечном итоге все будем жить за стеклом друг пред другом.
Весело будет, если кому-то удастся доказать вину Яндекса (Мегафон ведь пытался).

Суд постановил: «Решением суда, запрещаем Гуглу и Яндексу индексировать интернет-магазины».
… запрещается индексировать фалоиммитаторы, плётки и костюм «Скромная горничная». Т.к. их наш судья себе заказывал.
может это Файрфокс от Яндекса? Яндекс.Бар?
Во-первых не яндекс.бар скорее всего, а метрика.
Google Chrome, всевозможные счётчики, баннерные системы — в интернете огромное количество щелей, в которую утекают URL`ы. И это, если честно, совершенно нормально. Не должно в GET запросе передавать ничего важно, содержимое GET-запроса по идее такая же общедоступная информация, как и содержимое страницы.

Надо быть полным идиотом, чтобы передавать через GET приватные данные.
Яндекс держит в кэше страницы, на которые установлена Яндекс.Метрика.
А вот создатели сайтов не удосуживаются не ставить метрику на приватные страницы.
Уже разжевали, что это косяк WebAsyst Shop Script. Я сомневаюсь, что те, кто ставят себе этот движок вообще разбираются сколь-нибудь в SEO, программировании и поисковых системах.
Да уж, все печально.
написал им. дал ссылку на этот топик, и на ваш коменнт.
Ну вот, уже и на РЕН-ТВ в бегущей строке в новостях появилось :-) Оперативненько. Так скоро вся страна узнает о заказах всяких МарьИван.
Народ признавайся. Кто после прочтения топика, пошел искать свой инет-магазин на наличия ошибок?!
… забыл-то самое главное. Это жесть конечно. Как после такого можно спокойно чтото покупать в инет магазине. А потом не волноваться что это не ВСПЛЫВЁТ!!!
Я тут недавно зарядник с комплектом акков заказал. Волнуюсь теперь…
Если и после этого всплывет, то кого-то нужно гнать из бизнеса поганой метлой.
А так да, я первым делом к разработчику побежала с вопросами.
Очень просто. Фамилию не пишите, и все. Точный адрес доставки по телефону.
И вы думаете, что адрес доставки на бумажке запишут, а не внесут в систему?? И при отправке заказа по почте вам его без фамилии не выдадут. А фамилию, опять же, не на бумажке записывать будут.
По почте да, без фамилии и адреса никак. Тогда пишите вымышленную.
И получать по вымышленному паспорту?
Тогда еще придется сделать паспорт на эту вымышленную фамилию
— «Дулин, как тебе не стыдно тыже наш завод опозорил на всю страну »

— «Михалыч, этоже я все для тебя купил»
дождусь когда админы поправят robots.txt и назаказываю себе чего–нибудь поинтереснее…
заказывайте за рубежом, там и дешевле, и таких фейлов обычно не возникает
Какая хорошая лакмусовая бумажка получилась для хабра.
Меня вот что беспокоит. Как бы на этой волне вновь не подняли тему «надо отрегулировать интернет»…
Если честно, то на мой взгляд Яндекс поступает очень некорректно, если он берет адреса страниц из метрики.
Одна из возможных ситуаций: есть хостинг картинок. Незалогиненные пользователи могут загружать картинки.
У каждой картинки есть своя страница наподобии image.php?id=123&pass=qwerty
Таким образом, пока пользователь не выложит эту ссылку где-нибудь никто о ней не должен узнать. Запрещать индексирование таких страниц в robots.txt — глупо. Пусть страница индексируется, но индексироваться она должна только после того, как она взята из открытого источника.
> Запрещать индексирование таких страниц в robots.txt — глупо.
И у вас наверняка куча аргументов, почему это глупо?
Ну а зачем запрещать их индексирование? Пусть индексируются, на сайт пойдет траффик с яндекс.картинок, например. Я тут больше делал акцент на то, что чтобы проиндексировать ссылку поисковая система должна увидеть ее на каком-нибудь сайте. Исключения могут составлять только специальные файлы robots.txt или sitemap.xml.
Вы указали URL картинки, содержащий пароль qwerty. Таким образом, это страница не предполагается для публикации на публичных ресурсах. С другой стороны вы хотите трафик. Вы уже определитесь с уровнем секретности ссылки, а потом утверждайте, что robots.txt — это глупо.
Пароль у картинки указан только для того, чтобы кто-нибудь не начал перебирать все возможные ID картинок и смотреть изображения, которые он не должен видеть.
С другой стороны, если пользователь опубликовал где-то ссылку на такую картинку, значит он не против, чтобы ее видели.
Если это будет закрытый форум, значит поисковик не увидит этой ссылки и не должен ее индексировать. С другой стороны, если это открытый форум, где любой может посмотреть такую ссылку, то пожалуйста — пусть ее индексируют.
А если другой пользователь этого закрытого форума перепостит эту секретную ссылку уже в открытом форуме? Слишком много неоднозначностей. Для решения подобных вопросов, а так же указания в явном виде поисковику, что можно индексировать, а что нельзя, и был придуман robots.txt.
Я с Вами полностью согласен, robots.txt для этого и придуман.
Я говорю о том, что страницы такого вида сами по себе в индекс попасть не могут, так как в них присутствует пароль. Но, с другой стороны, если поисковик увидел где-то такую ссылку, почему бы ее не проиндексировать?
Вот в метрике он ее и увидел=)
Метрика — не открытый источник.
Рано или поздно это грязное белье увидело бы свет. Просто пришло время
Мне кажется что search.file.qip.ru/search/?query=DSCN_ будет поинтереснее :)

З.Ы. Можете еще посерчить на предмет DSC_ -)

Если просто вбивать в поиск — перекидывает на обычный серч, но мы не сдаемся и обратно фписываем файлы в адресную строку! :)
там же нашелся пароль от онлайнброкера, причем действующий… нда.
Вот что мне прислали в твитор. Автор дал добро на публикацию. Я выделил на мой взгляд самое важное:

Чтобы все понимали, как данные попадают в поисковики, давайте проследим, что происходит с веб-страницей от момента ее создания до попадания в результаты поиска.

Итак, страница появилась на сайте. Не важно, статический ли это html или динамически созданная серверным приложением страница. Важно, что у нее есть текстовое содержимое, которое могут читать пользователи и индексировать поисковые системы.
Разместив в интернете свою страницу, вебмастер ждет посетителей. Как он может рассказать людям о ней? Конечно, он отправит запрос на индексирование страницы поисковым системам. Возможно, отправит ссылку друзьям и знакомым, сократит ее и выложит в Твиттер, другие блоги и соцсети. Он может поставить ссылку на эту страницу и в других местах, уже известных поисковым системам, чтобы роботы быстрее ее нашли.

Итак, на страничку не зашел еще ни один живой человек, но про нее уже могут знать тысячи программ по всему интернету:
• поисковые системы, куда вебмастер отправил ссылку вручную;
• блог-платформы и сокращатели ссылок;
• поисковые системы, которые переиндексировали страницы с ссылками на эту (а зачастую это происходит очень быстро);
• всевозможные анализаторы и подписчики RSS (если на сайте есть RSS), причем не только через RSS сайта, где расположена страничка, но и через RSS блогов, агрегаторов, блогов агрегаторов, агрегаторов блогов, агрегаторов агрегаторов и так далее;
• компании-владельцы интернет-мессенджеров и провайдеры почтовых сервисов.
Иначе говоря, к этому моменту про новую страницу знает уже половина «роботной» части мирового интернета.
И только теперь на страницу заходит первый пользователь. Например, сидя в интернет-кафе, человек кликнул по ссылке в Твиттере и перешел на страницу. Конечно, этот клик зафиксировал javascript системы статистики сайта — в данном случае Твиттера. Как правило, пользователь попадает на страницу через сервис сокращения ссылок, и переход осядет в логах этого сервиса. Дальше браузер открывает страницу и начинает загружать объекты — картинки, анимацию, скрипты, css, рекламу, коды счетчиков и систем статистики. Если в браузере установлен антифишинговый или антивирусный плагин (собственный есть почти во всех браузерах и почти везде включен, а некоторые антивирусные компании еще добавляют свой), он отправляет адрес посещенной страницы на проверку. В браузер могут быть встроены и другие плагины. Например, Яндекс.Бар или Google.Бар показывают ранг страницы, для чего передают ее адрес на сервер. Бывает так, что трафик пользователей в публичных местах пропускается через прокси-сервер — для защиты от атак, экономии IP-адресов или ускорения загрузки страниц. В этом случае все указанные взаимодействия пройдут через прокси-сервер, и он тоже узнает о странице.

* * * Вот очень интересная часть * * *
Если на страничке есть картинки или flash-объекты с других ресурсов, то о странице будут знать все эти ресурсы. При наличии на странице iframe о ней будет известно системе показа рекламы или сервисам других систем, загруженных через iframe. Если вебмастер использовал скрипты из внешней библиотеки, счетчики и системы сбора статистики, то о новой страничке будут знать все эти сервисы и их провайдеры. Данные получат прокси-серверы и серверы антивирусной и антифишинговой систем, встроенных в браузер.
* * * * *

Дальше система управления поисковым роботом идет по списку ссылок и готовится индексировать содержимое страниц. Но прежде чем поисковый робот обращается к конкретной странице сайта, он обязательно проверяет файл robots.txt. Все крупные поисковые системы в обязательном порядке выполняют директивы этого файла.

Только если поисковый робот убедился, что robots.txt не запрещает индексирование странички, он будет ее индексировать. Это — единственный путь, по которому содержимое страницы попадает в поисковую систему. Другого способа нет.

twitter.com/#!/bobuk/status/95590488517771264
А мне интересно, зачем вообще в форме заказа писать фамилию, емайл и прочие личные данные (даже IP)? Зачем их вообще публиковать? Тогда бы даже если ссылка утекла, никого бы не беспокоило, что некто egor заказал костюм для горничной и что там еще у них продается. А трекинговый номер лучше высылать по почте (и опять же, не публиковать там адрес доставки, чтобы не собирать всяких извращенцев, желающих посмотреть этот самый костюм на владельце).
Вот согласен полностью. Ну, пускай ФИО видит только админ, а покупатель видит только первые буквы. Я думаю расчет создателей WebAsyst Shop Script был такой «пусть покупатель видит свои ФИО и адрес, чтобы поправить их если что».
Для таких случаев давно придумали куки, как проверку токенов и хешев :)
image

имхо, такие посты лучше все же делать закрытыми — жаль девочек
А это кто? :) Клиентка секс-шопа?
Блдя, там ещё и IP в заказах указан. Нет пути.
Прозреваю массовое изнасилование владельцев этого говномагазина купленными у них же дилдами.
Да IP тут уже и не важен — практически любого человека можно найти Вконтакте и узнать о нём куда больше, чем даст IP. Вотнапример.
Сколько читаю заказы, дилдо что то не встречал o_O
Все прочитали хоть? Ничего не пропустили?
Боевой тролль К@тя Gonch@rov@ уже срывает покровы в мэйловском мире. Линк не вставляется, к сожалению, my.mail.ru/mail/love_nettik/.
Какой хороший сервер у sexyz.ru — держит нагрузку, несмотря на очевидное множество заходов на него.

И по поводу попадания приватных данных в выдачу, очень хорошо высказался Синодов:

…к размещаемому на наших страницах контенту
мы порой предъявляем требования даже строже,
чем явно прописанные в законодательстве
Яндекс


Осталось чтобы слово «Яндекса» не расходилось с его делом. (с)
UFO just landed and posted this here
Собственно история с данным скриптом повторяется. Полтора года назад с сети сексшопов Украины были слиты данные о клиентах и их заказах. Слиты были «гениальным» образом — простым перебором orderID заказов. После инцидента были добавлены просто code и hash поля, делающие невозможным простой перебор. Но как оказалось это не спасло от запоминания ссылок поисковиками.
Мыши плакали, кололись, но продолжали заказывать секс игрушки.
Кстати Федеральный закон «О персональных данных» к эти магазинам относится? Сертификацию они проходили?
Sexyz.ru «закрыли косяк» — теперь при переходе на страницу со статусом заказа подставляют номер заказа, емейл и просят ввести фамилию «Чтобы посмотреть более подробную информацию о заказе, введите вашу фамилию (требуется для идентификации):»

Только вот не учли, что фамилии как раз на в результатах поиска светятся…
Кстати, у меня разрыв шаблона на тему «Думал, что они заказывают одно, а они оказыввается заказывают другое»
Как я рад сейчас, что ничего не покупал в наших интернет-магазинах!
google запросто отдаёт ссылки на альбомы picasa с типом «только для тех, у кого есть ссылка»: goo.gl/30ZZE
У всех альбомов в выдаче статус «Совместный доступ» («Для всех в Интернете»)
не у всех. замените в строке поиска «фотографии» на «есть ссылка»
Ну да — встречаются с ограничением по ссылке.
Но если эту ссылку поискать — покажет где она опубликована
Яндекс — молодцы.
Google — молодцы.
Shopscript — плохо.
Вот и настала эпоха роботов не имеющих ни чести ни морали ни совести.
И еще один фейл разработчиков. На этот раз — личные данные о билетах на поезд.
Хотел запостить да кармы не хватило)))

Может и писали уже выше, но: Яндекс сказал как защититься от него webmaster.ya.ru/replies.xml?item_no=10941
Какая прекрасная возможность раскрутить свой сайт, проиндексировав штук 50 фиктивных заказов с фиктивными адресами и создав фейковые сообщения об утечке на Хабре и других местах. Это же супер-метод вирусной рекламы!
Некоторые из фигурантов заказов гугляться, легко находятся в контактах\одноклассниках. Вполне живые люди и живые заказы.
Никто не спорит, что оба инцидента — реальность. Я про возможность вообще таким способом раскрутить сайт.
Тоже проскальзывала идея, но вот тут как раз бага, а не вирусная реклама.
Мегафон, очень уж стал популярным после такой рекламы ;)

Articles