Как стать автором
Обновить

Комментарии 490

Чего тут непонятного — распространённая уязвимость, вот о ней узнали и начали активно эксплуатировать…
Ну тогда ни разу не удивлюсь, если в ближайшем будущем умельцы расковыряют проиндексированные тонны писем на mail.ru каком-нибудь.
Да уж… программеры полные му. Кому не лень могут покопаться с xss — в оформлении заказа, явные намеки есть, причем сразу
'';!--"=&{()}
и если нашли "xss" - значит там ему и быть
:)
Понятное дело, что на habr-e фильтр всё сьел, но не на сайте.
На сайте заменяются только символы открытия тега и закрытия, а кавычки? Так можно влететь на onclick xss.
Используйте пару элементов <source></source> для оформления тех блоков кода, которые не должны быть поедены парсером Хабрахабра.
Не все удостоены права пользоваться тегами
Мне кажется что это проделки самой ПС, уж очень подозрительно они себя ведут, последний апдейт ТИЦ был еще в апреле, апдейта выдачи иногда неделями не бывает.
Без наличия приватных страниц в открытом доступе поисковая система ничего сделать не может. При наличии же страницы индексируются автоматически: робот не умеет отличать приватное от публичного. В этом он полагается на админов сайтов, поступая строго так, как те велят.

Вывод — виноваты админы/разработчики сайтов и больше никто.
а разве тут есть люди которые этого не понимают… другое плохо для яндекса, что обыватели в очередной раз увидев «Яндекс раскрыл...» примут это за чистую монету…
Ну по крайней мере у топикстартера и автора верхнего коммента в этой ветке есть сомнения. :)
Отвечу за себя.
Я понимаю, что проблема в админах, человеческий фактор, кривой код движков и т.д.
Но на мой взгляд все события последних пары недель как-то уж очень плотно состыковались друг с другом.
Как правильно говорят, эти страницы висели в паблике не день и не два, подозреваю что даже не один месяц — и никому не было дела.
А тут вдруг все резко вывалилось с шумом и плясками.

Причем во всех случаях обсасывают всего две темы: методику индексирования Яндекса и собственно сами приватные данные.
Потому и возникли сомнения — просто ли совпадение это или нет?
Возник яркий скандал с Мегафоном. Тема стала актуальной. Народ на почве этого интереса стал прощупывать другие «чувствительные к приватности» (калька с английского) сайты и делиться находками с чувством триумфа.

Никакого совпадения в этом нет. Никакого заговора тоже.
Ну и хорошо.
Отлегло.
так это ж очевидно было. в СМИ такие волны постоянно — перевернулся автобус, все роют автобусы. трагедия на переезде — в фокусе переезды и т.д.
Метрика стала сдавать страницы в очередь краулера. Раньше он бы их без внешних ссылок не обнаружил.
Вот, это хорошая версия. Да идиоты, это а не разработчики у которых приватные данные на шАре болтаются.
А гугл у яндекса их подглядел?
Вообще у поисковиков и без метрики есть куча способов получать эти ссылки. И бары и рекламные баннеры…
Гугл их по моему увидел когда на них стали ссылаться все кому не лень. В самом начале этих страниц в его индексе не было.
и чем это плохо для репутации Яндекса? Алгоритм абсолютно правильно нашел релевантные запросу данные. То, что эти данные доступны для индексации — вопрос некомпетентности админов Sexyz.ru
В этом вы правы, но согласитесь что эти страницы выкатили в паблик не сегодня и даже не вчера. Все это время они были доступны и дожидались своего часа.
Мало того, админы до сих пор не закрыли приватные страницы заказов 8-\
Таким программистам и админам надо сразу по рукам и башке давать.
Вы представляете, жена вводит в поиск яндекса имя мужа а здесь ссылка как он покупал «кому-то» «женское бельё»
В штатах я думаю и-нет магазин давно бы стал банкротом от исков возмущенных покупателей.
Ушли, вообще, все личные данные.
Кстати о криворукости программистов и верстальщиков можно посмотреть даже по исходному коду html.
Не, я до сих пор в шоке, как из-за каких то д… в у многих жизнь может привратиться в ад
Просто из любопытства спрашиваю. Вы просто так распыляетесь или Ваши данные тоже стали достоянием гласности?
Нет, я нигде своих реальных данных не оставляю это раз, во вторых на таких сайтах не бываю.

Просто обидно за других людей. Вы просто подумайте над серьёзностью происшедшего.
Например, введите дальше после «Получатель» ваш город и улицу и вы будите всё знать о своих соседях.
Но это еще цветочки, из-за таких утечек могут быть и самоубийства и психические расстройства и т.п. Некоторые люди очень ранимые.
Вы не покупаете в интернет-магазинах?
Перед тем как что-то заказать в магазине, я наведу сначала справки, посмотрю как он сделан, а потом… позвоню :)
Я не люблю делать покупки у роботов.
Это такой наивный лайфхак? Ва думаете оператор магазина куда ваши данные запишет? В тетрадочку? Или вы уверены, что их похищают в момент передачи данных с вашего компьютера в базу магазина?
Это вы наивный, поверьте базы данных магазинов попадают потом к другим и их используют разные рассыльщики каталогов, продавцы ковров, книг, пылесосов и прочей фигни.
И как вы собираетесь предовратить утечку, делая заказ по телефону? Вы думаете ваши данные оператор не внесет в базу? А куда он их «внесет» по вашему?
Так вроде ссылки публично не открываются? Только через кэш.
Очень даже открываются прямыми ссылками мимо кеша. Авторизация зашита в GET запросе, то есть — прямо в ссылке.
В конце июля 2011 года люди ВНЕЗАПНО обнаружили, что поисковые машины индексируют страницы в интернете! © @antonzabannikh
Какая уязвимость?

Просто люди не прописали robots.txt и не закрыли там нужный раздел от роботов.

Зато пользуются Яндекс Метрикой. И она честно добавляет все известные ей страницы в индекс.

Вот и получилось, что у Гугла этих страниц в индексе нет, т.к. на них нигде нет ссылок. А у Яндекса благодаря Метрике есть
Нужно также оценить инженерную мысль. Люди используют для безопасности аж 2 гет параметра с хэшами
&code=U1lLRVRATUFJTC5SVQ==&hash=2e9b91e1ee0949585c784942bc1e0339
чтобы никто лишний не попал на эту страницу!

Глобально и надежно! Только из-за этого сложного инженерного решения можно сказать, что сайт на PHP написан
PHP тут только как бы не при чём :)
можно и на ASP или JSP сделать точно так же криво
Да, на чем угодно можно сделать, в в основном (чуть чаще чем всегда) такое делают именно на PHP
НЛО прилетело и опубликовало эту надпись здесь
Угу, а Александры самые плохие водители, если верить статистике ГИБДД, это имя чаще других присутствует в списках.
Здесь php не причем, здесь логика и архитектура проекта виновата.

Ведь вся работа с юзером должна вестись через кукисы, нельзя без кук доверять любому кто входит. Пришел без куки — значит на 90% ты не тот за кого себя выдаёшь.

Так и получилось. «Писать» на любом языке — это еще не признак мастерства. Вначале надо освоить логику и архитектуру проекта.
Тем более по таким параметрам как права пользователя.
Они перед программистом должны висеть отдельным стикером на мониторе.
Мне так нравится, когда люди начинают на полном серьезе говорить откровенно очевидные вещи, правда.

Я только не понимаю почему в хабра-редактор до сих пор не добавили тег , потому что без него становится изъясняться все тяжелее. Особенно когда речь касается php.
Ой, да ладно.
На каких-нибудь рельсах это было было так:
/orders/code/U1lLRVRATUFJTC5SVQ/hash/2e9b91e1ee0949585c784942bc1e0339/
или так
/orders/U1lLRVRATUFJTC5SVQ/2e9b91e1ee0949585c784942bc1e0339/
(книжка The Rails Way, страница 106-107). Единственная ошибка в том, что такие ссылки должны (обязаны) быть одноразовыми (либо генерировать куку, при первом заходе).
> такие ссылки должны (обязаны) быть одноразовыми (либо генерировать куку, при первом заходе)

А если это страничка отслеживания заказа, как в данном случае? Просто многие магазины (DX, etc.) дают юзеру (незареганному) номер заказа, по которому потом мона его отслеживать, писать тикеты, etc. Тут просто волшебная ссылочка. В принципе тоже самое. Если бы не сомнительный функционал метрики.
А куку можно потерять, так что не катит.
Элементарно:
«к сожалению, ваша кука потерялась, нажмите кнопочку»
«спасибо, новая ссылка у вас в ящике, проверьте почту»
Дык элементарно на самом деле:
<form method="post" action="/order.php?code=U1lLRVRATUFJTC5SVQ==&hash=2e9b91e1ee0949585c784942bc1e0339&nex" >

<input type="hidden" name="nexstep" value="yes">
<input type="submit" value="Просмотреть">
</form>

Можно даже яваскриптом автонажатие кнопки сделать.
Ну и/или robos.txt как самый правильный вариант.
Ну и узнал ты что сайт на пыхе и что дальше? Какая разница?
НЛО прилетело и опубликовало эту надпись здесь
На этот раз всё ещё хлеще — гугл и бинг тоже проиндексировали эти страницы %) roem.ru/2011/07/25/addednews32332/
Как и в прошлый раз.
Ну сейчас эти ссылки уже достояние интернетов — они везде постятся. Поэтому краулеры других поисковиков их также подобрали и добавили в свои индексы.
Кстати, классная реклама магазину. Врядли, существующие клиенты довольны, зато пузомерки как вырастут (ТИЦ, PageRank).
Для магазина это куда больше антиреклама.
Вряд ли у него после такого пиара появятся новые клиенты + очень недовольные старые + иски в суд.
Что может быть хуже для магазина?
Ну у гугла Хром может осведомителем сработать. А у bing кто? У bing вроде только поисковый сервис.
На Хабре вроде была ссылка на перевод или сам перевод исследования о том, как Бинг подсматривает результаты поиска у Гугла. Может это как-то сыграло? )
IE? Windows? У Бинга тоже bar есть. Bing — дитя Майкрософта, вообще-то.
"© Корпорация Майкрософт (Microsoft Corp.), 2011" внизу страницы намекает.
Хлеще там в комментах ссылки. С ящиками клубники.
Это и есть уязвимость этих сайтов.
Ну я немного наброшу:
yandex.ru/yandsearch?text=site%3Aleprosorium.ru%2Famnesia%2F&lr=194
В Футурико отписал, но им, видимо, пох…
Для сведения — можно попробовать подобрать пароль. Т.е. есть логин и адрес почты — это уже уязвимость.
Да причем здесь robot.txt?!!!
И причем здесь Метрика ?!

Эта информация должна быть закрыта всем пользователям, кроме владельца заказа и админа, системой разделения прав самим движком.

Это самая обычная ошибка криворуких прогамеров (програмерами как-то язык не поворачивается назвать)
Да не волнуйтесь Вы так, право! Комментарием ниже я как раз об этом писал.
Да я посмотрел, а в 90% комментарием как раз «винят» yandex, хотя он здесь совсем не при чем.
Хотя если посмотреть то перлы по выдаче начали выдавать, например как google, смотрю в выдаче свои сайты и тихо фигею, от того что google взял за основу url из javascript переменной real_url=… это вообще нонсенс, с какой «оперы» он это взял. Хотя url имеет вид /la-la-la, а он берет из js переменную real_url=/la/la/la. Мало того он проиндексировал почему-то половину ссылок как ajax, т.е. опять почему-то выдрал из js ссылки на блоки и получается в выдаче как нормальные страницы, так и ajax страницы блоков (хотя на странице нет ajax вызовов, просто cms так заточена). Прикольно конечно для seo (просто прекрасно) но логики googl-a я не монял. Пришлось срочно «убить» все js переменные вида url и block.
Нифига себе «честно добавляет». Что ж тут честного? Или просто ходить по существующим ссылкам у роботов уже не модно?
Модно, а еще модно получать ссылки от браузеров (в случае Яндекса это Яндекс бар), и через форму addurl, и через метрику тоже модно…

А чем эти ссылки хуже других с точки зрения поисковика? только потому, что на них нет других внутренних ссылок на сайте?
Вот только посмотрел.
Google тоже проиндексировал, и тоже в выдаче вся приватная информация по заказам.
Правда еще в выдаче только 7 результатов (пока писал уже 12), то к утру я думаю будут все.
И о чем нам это говорит? Только на этой странице треда есть пару ссылок на выдачи из Яндекса и конкретно на заказы.
… пользователи Хабра по ссылкам из Яндекса ходят по этим страницам. А у самих стоит гугол-тулбар, который палит ссылки гуголю :)
Интересно, откуда?
Случайно или кто-то очень пыхтел над этим?
А что вы делали на этом сайте?
«Доктор, а откуда у вас такие картинки?»
это было у О'Генри
Скорее неделя GoogleЯндекс хака на хабре
Это хак не яндекса, а хак сайта с кривым движком, настройками и беззаботными владельцами.
Так ведь не «хак Яндекса», а «Яндекс хак».
Да это и «гугл хак» и даже немножко «рамблер хак». Просто Яндекс более качественно проиндексировал открытую информацию.
В свете вчерашего граммар-срача надо говорить «яндексохак» или «Яндекс.Хак», в зависимости от предпочтений :)
ну а чем слив яндекса? просто непрописанный robots.txt
Вы, батенька, ни разу не конспиролог :)
Это ж какую бучу можно поднять, если правильно поставить задачу нужным людям.
Яндекс копается в чужом белье!
За вами подглядывают!
и все такое.
Я бы не сказал, что это просто непрописанный robots
Тут дело в том, что на административные страницы возможен вход без пароля. Это серьёзная уязвимость.
И второе, что на них где-то ссылка была.
Другой вариант — на них поставили яндекс-метрику, но по-моему это бред, ставить на административный интерфейс яндекс-метрику.
Разве что ее впердолили в основной index-файл, который используется везде. Тогда это опять дырка, использовать один index-файл и для юзеров и для админов.
Короче, руки выпрямлять надо и мозг.
НЛО прилетело и опубликовало эту надпись здесь
а какая разница что сливает? косяк ведь всё равно не на стороне яндекса
НЛО прилетело и опубликовало эту надпись здесь
Неважно откуда ссылка взята, главное, чтобы было правило в robots.txt. Даже если бар скормил Яндексу эту ссылку, то Яндекс прежде чем проиндексировать эту страницу сверится с robots.txt
НЛО прилетело и опубликовало эту надпись здесь
Вы прям ересь какую-то говорите. Прочитайте сначала лицензионные соглашения, затем правила индексации.
НЛО прилетело и опубликовало эту надпись здесь
help.yandex.ru/webmaster/?id=995295
Сайт должен прописывать ограничения не для spyware, а для поисковых роботов. Создатели сайтов должны думать не только о SEO, но и о конфиденциальности данных своих клиентов. Разработчик должен следовать современных реалиям. Вы говорите «А почему бы ему по умолчанию себя не ограничивать?» — я не хочу писать robots.txt для своей домашней странички, зачем мне создавать себе лишнюю работу? robots.txt сделан для ограничений. Короче говоря, плохому танцору и яйца мешают
НЛО прилетело и опубликовало эту надпись здесь
реалии, они давно такие.

«Всё, что не запрещено — разрешено».

Можно только посочувствовать тем, кто не понимает столь простых истин. Не только применительно к Интернет, кстати.
НЛО прилетело и опубликовало эту надпись здесь
ээ, то, что ссылки попадают из Я.Бар, нужно еще доказать.

Но для меня это роли не играет. Для меня важно то, что авторы магазина и те, кто их магазином пользуются не понимают простых очевидных вещей — даже если в подъезде есть домофон, и круглосуточная охрана, на двери каждой квартиры должен быть замок, с уникальным ключиком.
То что ссылки попадают в том числе из Бара, товарищ доказал. Но здесь его заминусовали.
Ок, пусть и Я.Бар приложился.

Но я как-бы про другое — контент отдается по get. В моей вселенной, разумным людям уже не важно, откуда у робота взялся url для этого get.

Хуже того, в моей вселенной разумные люди задумаются, что это мог быть не робот вовсе, а человек с «плохими мыслями».

Я правильно понимаю, про провайдеры в договорах не обещают конфиденциальность списка ссылок по которым их клиенты ходят? И transparent proxy, это вполне себе штатная фишка?
НЛО прилетело и опубликовало эту надпись здесь
еще раз — для меня не важно, как они собраны.

нет, не понимаю. Наказывать нужно того, что выставляет данные в паблик. Всё остальное работает так, как и задумывалось.
НЛО прилетело и опубликовало эту надпись здесь
по юзерской логике, нужно собраться дружной компанией, и подать иск на магазин.
И так, для каждого магазина на этой платформе.

Далее, владельцы магазинов, в свою очередь, как пользователи платформы, тоже должны собраться дружной компанией, и подать иск на авторов.

Знаете, что дальше произойдет?

В лицензионном соглашении платформы сказано «AS IS, авторы ни за что не отвечают» (пп.5). Платформа просто подмочит репутацию.

Магазины, думаю в зависимости от своей юридической подкованности. У того же Sexyz, ни на форме регистрации (/register/), где пользователю предлагают заполнить анкету, ни на странице «гарантии надежности» (/auxpage_warranties/), ничего о конфиденциальности данных пользователя нет.

В этом месте я бы закупился попкорном, и уселся по-удобнее.

А пинать Янедкс удобно да. Сразу вспоминается известная басня Крылова, про Моську и Слона.
НЛО прилетело и опубликовало эту надпись здесь
Да отвяжитесь вы от бара, данные могут быть из тысячи мест — со ссылок, с других поисковиков, со счетчиков и систем статистики.
какие конфиденциальные данные? заказ доступен без ввода какой-либо идентифицирующей информации, читай свободно. Если вы паспорт потеряете, вы же не будете пинать нашедшего потому, что он не по тем улицам ходит и ваши документы видел.

А как ссылка подобрана, из бара, метрики или подбором механизма генерации параметра — не суть важно. Важно, что она доступна свободно.
НЛО прилетело и опубликовало эту надпись здесь
ну и в соглашении Я.Бара по-русски одинаковым шрифтом с остальным текстом написано, что он имеет право урлы передавать. Кто не читает соглашения и ставит себе подобное — сам себя наказывает.
А то, что вы описываете в аналогиях, перечислено и в УК, в отличии от автоматического сбора ссылок после согласия пользователя.
НЛО прилетело и опубликовало эту надпись здесь
Там написано большими буквами, что его личные данные могут пострадать? Нет. И даже в соглашении, ссылка на которое традиционно мелким шрифтом, написано обратное.
а вы соглашение-то читали, или так, наугад реплики пишете?
bar.yandex.ru/ie/agreement.xml
5.1. Пользователь настоящим уведомлен и соглашается, что при включении в Программе функции показа «Индекса Цитирования» для определения индекса цитирования сайта в интернете, который посещает Пользователь во время использования Программы, Правообладателю в автоматическом режиме сообщается анонимная (без привязки к Пользователю) информация о посещаемом сайте и загружаемых файлах, до момента отключения указанной функции.
и так для многих функций.
6.3. Пользователь настоящим уведомлен и соглашается, что при использовании Программы Правообладателю в автоматическом режиме анонимно (без привязки к Пользователю) передается следующая информация: тип операционной системы компьютера Пользователя, версия Программы и идентификатор Программы, а также иная техническая информация.
НЛО прилетело и опубликовало эту надпись здесь
1. в соглашении всё одинаково написано. никаких блеклых шрифтов и подобного.
2. Конечно я прочитал. Привяжете мне code=OTEzNTgyQGJ1kDjcJ1&hash=040e7cb12822f4541138d77ba4f9115de8 к пользователю?
НЛО прилетело и опубликовало эту надпись здесь
Ну а если поисковик будет урлы просто по алфавиту индексировать и рано или поздно дойдет до приватных — что делать? Какая разница как поисковый механизм находит страницы? Как Гугл через свой браузер или как Яндекс через бар? Урл доступен без авторизации — значит до него можно добраться.

Вот вы смотрите на глобальную проблему — поисковик проиндексировал много чужих данных. А представьте ту же проблему, но локально. Например, злоумышленник подобрал урл с приватной информацией 1 человека. И пострадал 1 человек. Злоумышленник также как и яндекс, в текущей ситуации, не виноват. Он просто зашел на публичную страницу по публичному урлу (и не важно, что разработчик сайта этот урл «считал» не публичным). Значит виноват только разработчик, который «считал» не правильно. На него в суд и подавать.

Интернет — публичная сеть, и все что не закрыто паролем — есть публичный ресурс.
Немного поправлю — личную информацию он и не сливает. Адрес страницы без привязки к пользователю не является личной информацией.
«это нужно уметь не только читать, но и понимать» /учитель английского/

bar.yandex.ru/firefox/agreement.xml

5.1. Пользователь настоящим уведомлен и соглашается, что при включении в Программе функции показа «Индекса Цитирования» для определения индекса цитирования сайта в интернете, который посещает Пользователь во время использования Программы, Правообладателю в автоматическом режиме сообщается анонимная (без привязки к Пользователю) информация о посещаемом сайте и загружаемых файлах, до момента отключения указанной функции.

6.2. В максимальной степени, допустимой действующим законодательством, Правообладатель не несет никакой ответственности за какие-либо прямые или косвенные последствия какого-либо использования или невозможности использования Программы и/или ущерб, причиненный Пользователю и/или третьим сторонам в результате какого-либо использования или неиспользования Программы, в том числе из-за возможных ошибок или сбоев в работе Программы.
НЛО прилетело и опубликовало эту надпись здесь
Похоже, что слив ссылки произошел через Яндекс метрику.

По крайней мере метрика стоит на страницах этих.
НЛО прилетело и опубликовало эту надпись здесь
можно устроить интересное соревнование.

Ведущий раздает крутым хакерам листы бумаги с напечатанными URL.
Участники, без помощи сети интернет, определяют пользователей, которые ОДНОЗНАЧНО ПРИВЯЗНЫ™ к этим адресам.

Побеждает тот, что быстрее определит максимально количество пользователей.

Призовой фонд — от команды разработчиков Яндекс.Бар (если они к завершению соревнования не умрут со смеху)
НЛО прилетело и опубликовало эту надпись здесь
Какую защиту? Защита от дурака (читай доступ к не закрытому логин-паролем разделу) уже существует — robots.txt. Вот если бы поисковики пренебрегли директивами этого файла, то однозначно виноваты ПС. Если этого файла нет, либо не сказано что туда не ходи, а сюда ходи, то ПС молодцы, отработали на 4+ и выдали правильные данные согласно сформулированному в поиске запросу.
А если кто-то из пользователей эту ссыку на форуме даст? Упс, будет индексация без метрики и бара.
НЛО прилетело и опубликовало эту надпись здесь
Вот скажите, пожалуйста, как Яндекс должен отличить приватную ссылку от просто редкой (Вася Пупкин написал единую теорию всего на свете, сделал одностраничный хоумпэйдж, а как рассказать о ней не знает, и только друзья из РАН по прямому линку читают ее)?

— в robots.txt нет запрета на индексацию страницы.
— контент открыт и не защищен ни паролем, ни кукаками.

НЛО прилетело и опубликовало эту надпись здесь
Почему Яндекс должен заботится об сохранности информации пользователя на ДРУГИХ ресурсах?
НЛО прилетело и опубликовало эту надпись здесь
Он эту информацию не получал.
НЛО прилетело и опубликовало эту надпись здесь
И где там он оплучил информацию? Кроме URL?
НЛО прилетело и опубликовало эту надпись здесь
уже целую неделю поражаюсь странной логике.

1. не закрывают страницы от поисковика
2. считают, что косяк на стороне яндекса

ахренеть!
НЛО прилетело и опубликовало эту надпись здесь
странно то, что люди как-бы забывают, что данные в паблик выставил сайт.
НЛО прилетело и опубликовало эту надпись здесь
я похож на робота Яндекса? Я обещал, что-либо искать?
Всё таки, человек должен думать, а машина работать.

по пунктам:
1. Заказ без регистрации.
а) при оформлении заказа без регистрации, человек должен быть предупрежден, что вся информация заказа может быть доступна третьим лицам.
б) Более того, он должен согласиться, что его это устраивает, или пройти регистрацию.

Например меня-бы вполне могло бы устроить, фамилию свою я не скрываю, всякие мелочи порой покупаю указывая адрес офиса.

2. Ссылки на подтверждение
а) одноразовые (по крайней мере те, по которым мне доводилось подтверждать). Если даже робот узнал о существовании такой ссылки, и сходил туда, то второй переход по этой же ссылке из выдачи даст что-то типа «простите, ссылка протухла».
б) после перехода по ссылке подтверждения e-mail, на грамотно написанных сайтах, никаких автоматических входов не происходит. Переход по ссылке всего-навсего устанавливает поле «e-mail подтвержден» в базе пользователей сайта.
Если подумать трезво, нет никакой разницы, это сделаю я из своего браузера, или робот поисковика это сделает раньше меня.

Если не ошибаюсь, до тех пор, пока человек не открыл письмо в gmail, про эти ссылки в письмах гугля не знает?

Допустим, что:
— всё не так прозрачно у какой-либо почты, и робот поисковика получает ссылки из писем без открытия письма человеком
— ссылка не одноразовая, и по ней можно перейти как минимум два раза (раз работ, второй раз кто-то изх выдачи)
— кто-то постоянно ищет такого рода ссылки в выдаче, с целью получения доступа к чужим учетным записям
— авторизация на сайте недальновидная, и делает автоматических логин тому, что переходит по ссылке, не проверяя куку, которую выставили при регистрации, например.

вам не кажется, что такое сочетание условий довольно редкое уже само по себе?

О чем это говорит? Что механизм подтверждения чего-либо, через отправку ссылки в почту — не идеален, и уже нужно начинать задумываться о том, как бы это место сделать надежнее.

Еще раз (вдруг кто-то не заметил) — я считаю, что если по ссылке отдается контент, без проверок чего-либо еще — это дыра. Каким образом про эту дыру узнали, и в неё пролезли — совершенно не важно.
Дыры нужно затыкать.

Кстати, ссылки для подтверждения довольно легко усиливаются:
1. при регистрации ставят куку, при подтверждении её проверяют, если нет — пп.2
2. В письме присылают контрольный код текстом, и просят ввести на форме, которая открывается по переходу на ссылку. Перед полем ввода пишут «Требуется дополнительно подтверждение. В письме со ссылкой строкой выше есть контрольный код, впишите его в это поле, пожалуйста».

Обращу внимание — это всё нужно, если ссылка не одноразовая И сразу авторизует пользователя.
НЛО прилетело и опубликовало эту надпись здесь
1) вот же оказалась доступной?
2) далеко не всегда дырки затыкают. Понимаю.

FB у меня не вписывается в пример грамотно построенной защиты данных пользователя. Вон, недавно «прорвало» индекс пользовательских видео.

Да может быть что угодно. Мы хотим обсудить, какие проблемы случаются и как их грамотно решать, или какие проблемы классифицировать «это нормально», и заставить решать их Яндекс? (а вместе с ним Гугель, Бинг и прочих).

Я все же сторонник, что за данные отвечает тот, кому я эти данные передаю непосредственно. А поисковик — это «третьи лица». И задача ресурса обеспечить недоступность данных по ссылке для третьих лиц.

В том-то и дело, что авторизации никакой нет. Как я уже где-то тут рядом спрашивал — провайдеры интернет гарантируют отсутствие transparent proxy и/или конфиденциальность тех ссылок, по которым ходит их пользователь?
Я в договоре со своим провайдером такого не припоминаю :))
НЛО прилетело и опубликовало эту надпись здесь
1. тема «я.бар = spyware» — хорошая. Но я не считаю, что ссылки воруют.
Поэтому, это направление без меня, я сбоку постою, понаблюдаю :)
Конечно, сделать в настройках Я.Бар одну заметную птичку «ничего не передавать в Яндекс», я не возражаю. Конечно, пусть сделают.
Но я отдаю себе отчет, кто Я.Бар/Метрика — это далеко не единственное место утечки.

2. еще раз — складывать данные авторизации в url, а потом жаловаться, что они утекли — это бред неграмотных людей. И по этому месту нужно бить всех, невзирая на лица, пока не станут умнее.

Если кто-то считает, что «security trough obscurity» имеет право на существование, это его проблема.

На мой вкус, правильнее заткнуть одну дырку в безопастнотси, нежели бегать за всеми яндексами, гугулами и прочими (кто, возможно, вообще на robots.txt плюёт), и просить их «не ходить по нашим секретным url'ам».

Есть ведь всякие трояны, и специально созданное spyware, авторов которых попробуй найди.
гггггг
НЛО прилетело и опубликовало эту надпись здесь
вы понимаете разницу между URL, и той информацией, которая по этому URL доступна?

И если по HTTP GET сервер ответит «введите имя пользователя и пароль», то никакой контент никуда не попадет?

Эх, жаль, я надеялся, что вы еще не совсем потеряны.

Впрочем, несмотря на то, что моя надежда умерла, у вас есть шанс.
НЛО прилетело и опубликовало эту надпись здесь
простите, я видимо ошибся постом (ветвью каментов)

для меня «правомерность поведения Яндекса» вне обсуждения. С моей точки зрения, Яндекс ведет себя как и должен вести.
Согласен. Яндекс — это в первую очередь поисковик.
И это его главная задача — индексировать все, что только он сможет.
А если владельца сайта это не устраивает — достаточно всего лишь robots.txt написать.
А «секретные ссылки» — чушь какая-то.
Если я пойду и заведу сайт типа superpupermegasecret.com, то что, всерьез можно думать, что поисковик его не найдет и не проиндексирует? И никакие мои желания на сей факт не повлияют.
Можно и другой пример привести — друг пришел к вам, в холле стоит лоток с газетами — он взял одну, почитал, тут набежали жильцы и ну орать, что это приватная газета, только для своих, и что его теперь во дворе повесят на столбе за это.
НЛО прилетело и опубликовало эту надпись здесь
Как робот дожен отличить газету от письма? Или личное письмо от приватного письма? Если это все свалено в холле и никем, и нигде не указано, что это читать нельзя.
НЛО прилетело и опубликовало эту надпись здесь
Вы не ту точку для давления выбираете, лучше бы на магазины давали и сотовых операторов.
НЛО прилетело и опубликовало эту надпись здесь
Прозреваю у вас на груди значок «Почётный танкист».
 
Ещё одно сравнение: побегите по улице с голой жопой и каждому взглянувшему на вас кричите — «Не смотри на меня, ты, извращенец поганый!» Толку-то.
 
Дурак тут не тот, кто сказал прохожим — «Идите, посмотрите на идиота», и не тот, кто посмотрел. Идиот тот, кто бегает.
Когда люди научат роботов разбираться в контексте содержимого, то придет Skynet. И думаю не стоит объяснять сложность построения лексического анализатора с учетом контекста.

[irony]
Представляю поискового робота вчитывающегося в томик Пушкина или Толстого =))
[/irony]
есть другое предложение.
Сайты, у которых найдены и опубликованы дыры в безопасности, в процессе чистки индекса в Яндексе выносятся из выдачи целиком. На год-два.
НЛО прилетело и опубликовало эту надпись здесь
Я перейду на личности — Вы неадекват!
Вам тут уже пол топика написали, что да как. И главная ваша проблема не в том что у вас альтернативная точка зрения. А в том, что вы не слушаете.

В связи с чем, давайте закончим… Сер!!!
НЛО прилетело и опубликовало эту надпись здесь
Так личные данные агрегирует не Яндекс, так что и факап не его.
Не совсем так. Не закрывают страницы от поисковика, Метрики и Бара. А это немного сложнее.
Метрика и бар сливают только ссылку. Контент не защищен разработчиками.
согласен.
если страница открывается get-запросом, и не требует ни наличия куки тривиальной, вообще ничего, это что — нормально?

Какая, простите, метрика и бар?
Насколько я знаю, примерно так же устроены скрытые албюомы в picasa и photos.live.com — при расшаривании добавляется параметр authkey.

Теперь предположим, что кто-то создает поисковый движок, который не учитывает robots.txt, а создает свою новую продвинутую robots.xml
На уровне дата центров его забанят да и все.
Это прогамеры криворукие, такую информацию надо блокировать еще на этапе выдачи движком, т.е. системой управления правами пользователей.
Эту информацию должны видеть только автор и админ. Всё.
И robot.txt и метрика здесь не причем. Если у кого-то в голове не хватает (у криворуких программеров), то не надо винить других.
Из представленного ассортимента ничего не понравилось :(
Поставьте Яндекс.Бар и поделитесь со всеми интересным ассортиментом
Как там добавлять Коментарии?
:-)
скорее с Василисы :)
А девочки с фотографий у них разве не в комплекте?
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
А если я напишу скрипт, который простым перебором скачает все страницы с этого сайта, соберу в один архив и выложу в интернете, то снова будет виноват яндекс?

Помнится была такая история с сервисом обмена картинками для айфонов. Тогда в сеть утекли сотни пикантных фотографий.
НЛО прилетело и опубликовало эту надпись здесь
Есть такой сервис, imhonet
Так вот в нем на почту уведомления приходят со ссылкой. В конце ссылки параметр auth_hash, который позволяет авторизоваться без ввода данных. И эти параметры кучами лежат в индексе гугла и яндекса.
Но переход по ним ничего не дает, т.к. администраторы озаботились безопасностью и после авторизации хэш аннулируется.
Костюм медсестры ничего так
Да там за медсестрой костюма не видно.
Причем, если нажать на квитанцию — можно получить подробнейшие юридические данные фирм, которые оплачивают все «клубничные» аксессуары.

Кажется, sexyz.ru потеряет немножко клиентов :)
Могут быт магазины специализированные. Им все равно
А могут и не быть… -)
Хорошая опечатка «быт магазины», хозяйственные.

— Можно мне две ламочки, клей ПВА, моток проволоки и селиконовый костюм?
— Конечно, все вместе 1856 рублей 52 копейки, пройдите в кассу 3-го отдела.
Интересно, а зачем в отзывах открыто пишут трекеры посылок EMS?
Протыкал наугад десяток результатов поиска. Все покупатели — женщины, занятно :)
Не, есть и мужик с костюмом горничной, чулками с рюшами и париком «Элли из Изумрудного города» :-)
Надеюсь, не для себя.
Конечно, для друга.
Попробовал похожие запросы. Ну и дела.
Не так критично, только email-адреса светятся.
Ммм… да, вот так уже хуже.
Или так
похоже все сайты на одной CMS
это WebAsyst Shop-Script :) Сталкивался с этой cms — архитектура и код ужасны((
«Ужасные» — слишком мягкое слово
На Хабре, помнится, лет здак пару назад уже обсуждали его исключительную кривизну. Тот самый топик, правда, найти не могу.
habrahabr.ru/blogs/php/105887/
вот здесь было про оптимизацию магазина на этой cms
А вспомнил, я еще тогда про рекурсию им втыкал. Я ж говорил, что такими вые… ми можно потерять контроль над ситуацией. Вот — потеряли, хотя и в другой области архитектуры (что еще хуже), в области управления правами пользователей.

Я тогда еще говорил. Ошибки в архитектуре. Вот они и вылезли.
Ну почему не прислушаться. Ведь говорилось то про реальные вещи
Ага, мне тогда за критику влепили минусов по самые уши, а прислушались бы может и не было такого позора.
Жалко, а ведь довольно часто я подымал вопросы спецификаций и стандартов. А вот так опозориться, это просто игнорирование спецификаций программирования в архитектуре проекта (если она еще есть :). Знай мало мальские навыки в этом — не было бы такого. Мне то пофиг те минусы, а вот автору -… я представляю сколько матьков в его честь прозвучало, плюс удар по продукту.
Ну не все так плохо, данный баг вижу впервые, но движок раньше считался довольно неплохим.
Можно еще так:
«Получатель» && inurl:index.php?ukey=order_status&orderID= && title:«Статус заказа»
Блин, мы скоро в яндексе будем sql запросы писать, а он уже сам будет эксплойты делать и в результат нам показывать… по всем сайтам…
НЛО прилетело и опубликовало эту надпись здесь
Ага, а фамилия легко находится в сетях типа майл.ру.
Там сайты не на одном ли движке? Каком, интересно?
движек WebAsyst Shop-Script
Костюм «Медсестричка» 432.0 рубля.

Выдаётся вплоть до полного адреса покупательниц.
Слоган яндекса всё сильнее и сильнее себя оправдывает.
теперь я знаю, к кому пойду в гости ^_^
Боюсь, они вас лечить не будут
Боюсь он не очень-то и болен :)
Боюсь, что лечить придется после похода в гости.
Зато он единственный из всех вас ничего не боится.
Так-то.
Мужские трусики из латекса с полостью для полового члена и внутренней анальной пробочкой Peni Pants (черный, M) clck.ru/HGSu
Боюсь представить, зачем оно вообще надо…
Там же: «Подытог»
Учим:
А чем обусловлено небольшое количество (31 ответ) результатов в выдаче? Индексируются только выборочные страницы?
Некоторые покупатели поставили в заказе галочку «Скрыть мою покупку от Яндекса». Вуаеристы (31 штука) эту галочку не ставили.
Только не вауеристы, а эксгибиционисты.
Точно. Вуаеристы это те, кто сейчас тщательно прочесывает выдачу яндекса. )
А вуаЙеристы подсматривают за безграмотными пользователями Хабра.
Ужас то какой. Да, я безграмотен, попутал как правильно писать этих извращенцев.
Я вот что-то так и не могу понять… Ну мегафон ладно, там авторизации не было. Хотя возникает вопрос зачем смс вообще хранить. Но тут я вообще теряюсь в догадках, каким образом данные без авторизации вылезли. Кривые руки программиста, которые решили сэкономить и не вводить авторизацию. В общем не понятно.

Свои сайты чтоль посканить…
на страницах установлена yandex-metrika
Метрика может выдать в яндекс полный URL страницы, а какого хрена эта страница доступна без авторизации? Не запросом яндекса, а простым кликом по ссылке.
Все данные авторизации в ссылке.
Сдается мне, что это из email подтверждения заказа, чтобы сразу из почты с авторизацией пройти в просмотр инфо.
а как еще посмотреть статус заказа, если он оформлялся без регистрации?
У кого-то накоплены скидки, прикольно )

«Каждый 5ый фалос — бесплатно» =)))
Мне интереснее другое: почему вообще эти страницы с заказами сгенерировались на сайте и лежат вот так открыто?
потому что данные аутентификации (при том не имеющие срока действия и привязки к IP-адресу) передаются через GET параметры вместо куки
Также можно узнать, какое спутниково оборудование приобретают компании…

Ключевая строка для поиска — " статус заказа index.php?ukey=order_status "
После чего берете сайт — и подставляете в соседнее окошко со следующим видом поискового запроса — site:eleciga.ru Статус заказа Получатель и находите кто какой аромат купил себе для электронной сигареты :)
НЛО прилетело и опубликовало эту надпись здесь
Email-ы, айпишники, адреса, и ФИО. Это даже эпичнее, чем у Мегафона. Разве что фотографий покупательниц не хватает.
Виноваты в утечке знамо дело создатели сайта, забывшие про robots.txt, и придумавшие столь «безопасный» интерфейс.
Тут даже не robots.txt виновато. Просто элементарно нужно разрешать просмотр только администратору.
Не администратору, а юзеру с паролем и только свои заказы
НЛО прилетело и опубликовало эту надпись здесь
фотографии найти не сложно. Если ящик на mail.ru, то у них есть мой мир, где можно найти пользователя по email. Если yandex.ru, то там мой круг.
>фотографий покупательниц не хватает.
Вас научить искать в социальных сетях по e-mail?
а также в ICQ, Mail.ru Агенте и Skype :]
Полагаю, у 99,999% сайтов robots.txt не запрещает индексацию областей сайта, требующих аутентификации. Поисковые роботы туда элементарно не могут попасть, даже если будут знать, куда именно.
В данном случае проблема даже не столько в нём, сколько в идиотской реализации аутентификации (через GET параметры).
Совершенно верно. Проблема в сочетании сразу трех факторов:
1. Robots.txt
2. Get с волшебным supersecretpage ключом
3. Метрика == разрешение индексировать все страницы, кроме явно запрещенных
При наличии мыл и ФИО фотографии найти не так сложно =)
Все это и раньше висело, наверно, просто после случая с мегафоном многие начали копать выдачи в яндексе.
Я правильно понимаю, что на всех этих дырявых сайтах стоит тот самый shop-script?
Нет, скорее дырявый роботс.тхт -)
Видимо, сарказм не в моде.
Понятно что не роботс, это ж не директории попадают в поиск.
Или тэг сарказм стоит явно указывать?
На нормальный вопрос — кривляние, обозванное вами сарказмом.
Всё лучшее — на х*й!
Пелевина почитываем? =)
скорее посматриваем, в книге такого выражения не было
Подзабыл книгу… =) А посматриваем тогда уж Гинзбурга =)

Я в таких случаях пишу письмо админу. А выкладывать инфу в общий доступ об уязвимостях связанных с личной информацией — не православно.
Нашёлся один хороший человек…
НЛО прилетело и опубликовало эту надпись здесь
Либо не так хорошо идут дела у магазина ;)
НЛО прилетело и опубликовало эту надпись здесь
Проверил, нашел в соц сети одного покупателя.
И как? Он таки покупал «Юркий щекотунчик»?
Не похоже на вброс, под схожий запрос на другие сайты также выдается информация… скорее просто связано с тем, что именно проверка статуса была сделана с браузером с яндексбаром, к примеру, который и натравил робота.
НЛО прилетело и опубликовало эту надпись здесь
Виноваты все, но создатели дырявых магазинов — в первую очередь. К тулбару вообще меньше всего претензий, что ему дали, то и сожрал.
Оценить по e-mail фотографии на «Моем мире», выбрать наиболее симпатичную, завалиться по адресу и спросить «Так это вы плетку заказывали?» :D.
«Супер-акция: при покупке в нашем магазине плётки — порка в подарок!»
Всероссийская известность в подарок
число ссылок = мощность пересечения множеств «используют fx с я.баром» и «покупают в этом магазине». По-моему, вполне ожидаемое незначительное число.
В данном случае сфейлили разработчики Shop-Script, которые сделали возможность просмотра деталей заказа без логина по специальной ссылке, но забыли закрыть подобные ссылки от индексации.

В результате сотни магазинов раскрыли данные тысяч своих клиентов: yandex.ru/yandsearch?text=ukey%3Dorder_status+%22%D0%9F%D0%BE%D0%BB%D1%83%D1%87%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%3A+%22&lr=195
Скорее всего каждый магазин на Shop-Script у которого данная фича включена подвержен проблеме.
Пора мне уже «Разместить объявление по запросу «ukey=order_status ...»» ;-)
НЛО прилетело и опубликовало эту надпись здесь
что значит «может»?:)
(Я работаю в Вебасисте и занимаюсь проектом Shop-Script.)

Сегодня, конечно, для нас это боле неожиданной новостью… технически все произошло примерно как у Мегафона: проблема возникла только там (у тех магазинов), которые пользуются Яндекс.Метрикой:
1. Shop-Script позволяет оформлять заказы незарегистрированным пользователям.
2. В email-уведомление о заказе покупателю отправляется ссылка на страницу с информацией и статусом его заказа.
3. Покупатель заходит на этой страницу, авторизация не требуется (так как при оформлении заказа покупатель не регистрировался), и Яндекс.Метрики добавляет УРЛ в общую базу индексации…
Конечно, тут необходимо требовать от покупателя вводить какие-то дополнительные идентификационные данные прежде чем показывать ему информацию о заказе — стабильное решение может быть только таким.

Максимально подробно, насколько смог, описал сложившуюся ситуацию в блог-посте на сайте Вебасиста: blog.webasyst.ru/shop-script-private-data-indexed-problem-summer-2011/

Я нисколько не хочу оправдаться — это просто описание сложившейся ситуации.
Учитесь на наших ошибках.
Уважаемый, в google уже тоже появилась вся приватная информация с сайта.
Не в метрике дело…
А в таких случаях, просто пишут «спасибо за заказ» и ничего не показывают.
maxic, а вы не думали, что google-bot зайдя в этот топик прошелся бравым шагом по любезно выложенным ссылкам на выдачу yandex и успешно их сейчас индексирует (при чем, как вы сами заметили выше/ниже, пока там еще не все что выдает яндекс), а? удобство пользователей+Метрика = Я.Колготки.Чулки )
Пробуем в Яндексе запрос: " +'Адрес доставки заказа:' +'История работы с заказом' " и находим еще много подобных магазинов, которые сдают с потрохами своих клиентов.
Если подправить запрос под любой другой движок, можно и по другом магазинам пошерстить.
подавляющее большинство движков не показывают статус заказа неавторизованным пользователям.
Есть куча магазинных движков, которые позволяют делать заказ без регистрации. Как вы думаете как там покупатели статусы смотрят? Заказ без регистрации многим удобен для единичной покупки, поэтому такая фишка есть почти во всех подобных скриптах.
Да ну? Почти во всех подобных — это в каких именно, кроме shop-script?
Как-то с opencart имел дело, там такое тоже есть. Движок один из самых популярных.
С opencart дело не имел, но «одним из самых популярных» или хотя бы просто популярным он точно не является, по крайней мере в рунете. Битрикс, амиро, уми, упомянутый выше шопскрипт, шопцмс, вебассист, виртуемарт, оскоммерс — точно популярнее, чем opencart.
Из них только шопскрипт и, вот не помню, возможно еще вебассист позволяют видеть статусы заказов левым посетителям.
Отказ от регистрации в том числе означает отказ от трекинга заказов — в нормальных движках — и уж точно не дает никакого права публиковать в свободном доступе приватную информацию. За такое программистам нужно отрывать все вторичные половые признаки, начиная с бороды и усов. Я думаю, легко находящийся в яндексе Николай К**ов из Красноярска (домашний адрес и телефон прилагаются), который приобрел себе анальную пробку и в не очень прекрасное сегодняшнее утро ставший звездой рунета, очень даже готов меня поддержать.
С opencart дело не имел, но «одним из самых популярных» или хотя бы просто популярным он точно не является, по крайней мере в рунете

Именно, в рунете. В мире OpenCart входит в top10: trends.builtwith.com/shop
Не представляю, как можно посчитать подобную статистику. В большинстве случаев определить движок магазина сложно или невозможно, особенно если стоит ЧПУ. Потом, по какой выборке показана статистика? «Топ 10000 сайтов» для всего интернета вызывает смех — как они составляли этот топ? По продажам в штате Луизиана? Это не статистика, а бред компании с манией величия.
Не представляю, как можно посчитать подобную статистику.

Видимо вы не работали c разными движками интернет-магазинов. Для коробочных продуктов все достаточно просто определяется.

«Топ 10000 сайтов» для всего интернета вызывает смех — как они составляли этот топ?

Меня удивлияет ваше нежелание нажать на ссылку «FAQ» на той странице и потратить 3 минуты на чтение. Все ваши вопросы там уже отвечены. Они проиндексировали 90 миллионов сайтов, топ взят по статистике от Quantcast
Я работал с достаточным количеством движков, в том числе интернет-магазинов, и хочу сказать что во многих случаях определить CMS невозможно. Есть произвольные ЧПУ, есть ситуации когда был сайт на движке Х, вместо него сделали новый сайт на движке Y, но, чтобы не выпасть из индекса, сделали прозрачное отображение старых урлов через htaccess.

ФАК я просмотрел, они пишут якобы о 90 миллионах сайтов, но нигде не приводят статистику по этим 90 миллионам. Из них они как-то заведомо неслучайно надергали топ миллион, из этого миллиона топ 100к, из топ100к выдрали топ10к — опять же повторю, заведомо неслучайным образом, то есть полностью испортили статистику. Достаточно сравнить данные по топ10к и топ-миллиону, чтобы увидеть что они полностью друг другу не соответствуют. Ну это совершенно базовые, элементарные понятия статистики; если бы выборка делалась правильно, то есть случайно и не предвзято, тогда топ10к соответствовал бы топ миллиону с точностью до десятых процента, и тогда можно было бы экстраполировать результаты на весь интернет. Здесь же этого нет даже близко. Это цифры ни о чем, понимаете? Они никак не описывают реальность. Если я захочу эти цифры проверить, я а) не смогу этого сделать в силу отсутствия внятного описания и б) даже если смогу, я получу очень другие результаты.
Если результаты какого-то эксперимента нельзя проверить, это уже не наука, это или религия, или профанация. Здесь скорее всего второе.
И еще. В рейтинге указана платформа яху.стор, но нет ни амазона, ни ебея, ни таобао, ни алибабы. Каждая из этих платформ крупнее (используется в бОльшем числе магазинов), чем яху.стор, ну или по крайней мере сопоставима. Почему они не учтены? А мы не знаем почему, так как детали сбора статистики не раскрыты.
1. Опеределять движок по URL действительно так еще задача. Поэтому только по URL никто не определяет. Например WordPress опеределяется по одному взгляду на HTML source.

Почему бы вам просто не потестировать их методику самому? builtwith.com/

2.
Достаточно сравнить данные по топ10к и топ-миллиону, чтобы увидеть что они полностью друг другу не соответствуют. Ну это совершенно базовые, элементарные понятия статистики; если бы выборка делалась правильно, то есть случайно и не предвзято, тогда топ10к соответствовал бы топ миллиону с точностью до десятых процента, и тогда можно было бы экстраполировать результаты на весь интернет. Здесь же этого нет даже близко. Это цифры ни о чем, понимаете? Они никак не описывают реальность.


Как раз тот факт, что статистика по top10K и top1M разная полностью очевидно и правильно. Сайты, которые входят в top10K по посещаемости используют другие решения чем обычные малые бизнесы. Например решения от Oracle, IBM и Ebay(все эти решения в топе для top10K сайтов)
Ох как туго-то.
Попробую разжевать в стиле «для идиотов».
Итак, они взяли 10к/100k/1mil сайтов и сказали — это будут топовые сайты, мы в это верим. Ни какой научной базы под их определением топа, ни даже внятного описания что же это за топ такой — нет. То есть это просто вопрос веры — или вы им верите, или не верите. Я не собираюсь спорить с людьми верующими, это бесполезно, просто единственный способ адекватного описания реальности, который даёт повторяемые результаты это «научный подход». Здесь им даже не пахнет. Лично вы можете им верить, но никакого отношения к реальности все их красивые диаграммки не имеют. Если это вам не понятно, то значит у вас просто больше развито не то полушарие мозга и вам просто нечего делать в ИТ. Ну разве что копирайтером подвизаться. Ни в коем случае не в обиду, просто вера и логика увы не совместимы в одном человеке.

Теперь по второй части, про их якобы мощное определение CMS. Да, вордпресс c joomla и textpattern оно определяет. Но я из интереса проверил навскидку — ни битрикс, ни шопцмс, ни вебассист оно не знает. На каждой из этих систем ну по 10к магазинов точно сделано. То есть в табличке они должны быть указаны как минимум во второй десятке, а битрикс так и в первой. Но их там нет.
Что-то мне подсказывает, что китайских CMS там тоже нет как класса, а это главный язык в сети. Равно как и корейских, японский и прочих рассчитанных на иероглифы — там поверьте хватает своей специфики и особенностей ментальности. А это между прочим большая часть интернета. Про амазон с ебеем я уже писал. Короче, в их так сказать статистике просто нет подавляющего числа платформ. Всё, точка, это не статистика, а мусор.

«Чукча не читатель, чукча писатель»…
Вам же по-русски написали, что топ взят по трафику, информация о трафика — от Quantcast. Чего тут непонятного?
Quantcast дает среднепотолочные данные по пользователям в США. Точка. Сверху кто-то что-то заливал про «в мире», ага?
И всё-таки читать полезнее, чем писать. Из www.quantcast.com/how-we-do-it:

«Quantcast provides the most accurate traffic and audience data both on a global and local basis, with audience insights for digital media for every country around the world
Википедия с вами несогласна. Американцы вообще такие люди, что у них если вдруг чуть лучше чем у соседа, то сразу world's best. Культура такая.
Ох, лол. Вы много тут написали, на личности перешли, а так и не удосужились погуглить что такое Quantcast и каковы методики расчета статистики у них.

Вы перед тем как что-то разжевывать, вспомните, что пару комментариев назад вы на полном серьезе утверждали, что тот факт, что статистика по top10K и top1M не совпадает это неправильно и такого быть не должно:

Достаточно сравнить данные по топ10к и топ-миллиону, чтобы увидеть что они полностью друг другу не соответствуют. Ну это совершенно базовые, элементарные понятия статистики; если бы выборка делалась правильно, то есть случайно и не предвзято, тогда топ10к соответствовал бы топ миллиону с точностью до десятых процента, и тогда можно было бы экстраполировать результаты на весь интернет. Здесь же этого нет даже близко. Это цифры ни о чем, понимаете?


Как-то сложно воспринимать вас всерьез после этого. Даже не после этой вашей ошибки(все ошибаются), а того факта, что вы отказываетесь ее признать.

Про амазон с ебеем я уже писал.

Вот еще один пример того, что не нужно всегда думать, что окружающие все идиоты, а вы несете свет истины.
Например ваш eBay сам по себе не дает сделать standalone shopping cart, поэтому его в обзоре и нет. Зато два других решения от eBay: ProStores и GSI Commerce(их недавно купил ebay) там вполне присутсвуют.

Гораздо правильней было бы например придраться к тому, что в списке отсутствует BigCommerce — он достаточно крупный игрок на рынке.

Если честно возникает ощущение, что вы не совсем владеете темой о которой спорите. Это опять же нормально(никто не может знать все, у нас у всех ограниченные уровни компетенции), но зачем тогда спорить?
Ладно, последний аргумент. По их статистике 330 из топ10000 (мировых!) интернет-магазинов используют оскоммерц. Понимаю, что не все в теме, но это а) совершенно никак не масштабируемая CMS, то есть её предел это 1 сервер и б) очень и очень кривая и тормозная система, хотя и бесплатная. Из-за этого её потолок — сотни товаров и десятки пользователей онлайн, при больших цифрах она намертво падает. И никакое железо и никакой программист-хоттабыч не позволят это ограничение обойти.
В одной только Москве больше 10к интернет-магазинов с пиковой посещаемостью, недоступной для оскоммерц.
Но 330 таких сайтов как-то всё-таки пролезли в «мировой топ». Я бы еще понял, если бы их были единицы — ошибки определения, супер-перепиленные уникальные решения и т.п. — но 330 оскоммерцей?! И ни одного сайта на битриксе?

Повторю еще раз: вы можете верить их статистике или не верить, это ваш выбор. Но к реальности она отношения не имеет. Заниматься же демагогией с человеком верующим — извините, у меня нет времени.
А может надо с прямыми руками к ней подходить? Например, 123inkjets.com использует oscommerce, имеет до 19к посетителей в день и огромное кол-во товаров.
Да-да, это из той же серии что, скажем, гугл использует линукс.
Там правда свои драйвера для своего железа, свой стек tcp/ip, своя файловая система, свой менеджер памяти и свой libc — и благодаря багу в GPL гугл ни с кем своими наработками не делится. Но это ведь всё равно линукс, так же? И если у вас сервер с линуксом тормозит, то «может надо к нему с прямыми руками подходить»?
> Заниматься же демагогией с человеком верующим

И главное, ведь сам же демагогию и развёл.
Воопрос «при чём тут вера» также остался открытым.
Заниматься же демагогией с человеком верующим — извините, у меня нет времени.


Было бы здорово, если бы вы нашли время привести хотя бы один вменяемый аргумент. А то все ваши доводы на ссылки и факты имеют вид «этого не бывает, така как я знаю, что этого не бывает».
В «примитивных» интернет-магазинах покупателю сообщают номер трекинга по e-mail. Получается, что чем примитивнее магазин, тем он безопаснее для покупателя.
Сообщать по емейл надо не номер трекинга, а все операции с заказом. Если человек не зарегистрирован — то кроме емейла нигде статус заказа посмотреть нельзя.
Не, примитивные магазин на то и примитивные, что там статус заказа отслеживается только в ручном режиме оператором магазина. Если что-то идет не так покупатель пишет или звонит в магазин и узнает статус заказа. Дико не удобно. Но в Яндекс не попадет =)
Если я правильно понимаю, то даже если адрес на просмотр состояния заказа придет на почту, есть шанс утечки данных через бары и т.п.
Единственный вариант тут в письме сообщать уникальный номер заявки, а в режиме просмотра заявок, просить в поле ввести этот номер и POST запросом отправлять данные на сервер и отображать статус ордера.
Ну и, конечно, правильная настройка robots.txt
Не. В примитивном магазине такой страницы нет. Есть номер трекинга в бумажной накладной. Номер сообщается покупателю по e-mail. Покупатель заходит на сайт Почты России или EMS и смотрит трекинг.
Я не говорю, что это хорошо. Это как раз плохо — куча ни кому не нужной ручной работы и неудобство для покупателя. Но в сложившейся ситуации это оказывается самым дешевым способом инфобезопасности %)
сайты ПР или EMS по крайней мере не раскрывают столько деталей о получателе, максимум ФИО и почтовый индекс
Есть куча магазинных движков, которые позволяют делать заказ без регистрации

ну, назовите что ли эту «кучу» ;)
Если движок это не позволяет делать, то это плохой, негодный движок.
Даешь базу клиентосов.
2 клиента как-то не густо… даже покопаться не в чем =)
Почему сразу жопа, там и другие части тела.
Да, при отправке заказа, мы отправляем Вам сообщение об измене статуса Вашего заказа
image
там уже вы на первой строчке
Рамблер, Бинг — не там ищете. Вот настоящая бомба: www.yaplakal.com/forum2/topic344180.html. И клубничка присутствует.

Напишите топик, мне лениво.
Скушно и боянно. Я с квипа ушел несколько лет назад, как раз когда они новую версию объявили, которая гоняла файлы через их сервер и вела микроблог статусов без ведома пользователя.