Ailpein Sep 10 2020 at 07:01

Расследование: как обезличенные данные становятся персональными и продаются на сторону

14 min

40K

IT-companiesBusiness Models * Internet marketing * Research and forecasts in IT * Cloud services *

+73

Comments 74

Tuker Sep 10 2020 at 08:04

Крутая статья. Даже не имея технического бэкграунда было интересно дочитать до конца.
p.s. Интересна реакция Яндекса на подобные заявления в свою сторону…

Почему об этом честно не сказать своим клиентам, ведь все и так лежит на поверхности?

Вероятно потому что большая часть аудитории, увидя такое «прямое» заявление, постарается заменить все сервисы Яндекса на продукты других компаний. Но проблема в том, что «другие компании», возможно, работают по такой же схеме.

simple_mortal Sep 10 2020 at 17:23

Всмыле

возможно, работают по такой же схеме.

Яндекс что, сам всё придумал что ли? :) Слушайте, вы нигде не найдёте компании, которая будет бесплатно давать крутые штуки. Ну, например, яндекс карты. Я не знаю, что есть лучше в России. Гугл даже близко не стоит к яндексу в этом плане. Ну понятно, что если ты ни за что не платишь, значит товар — ты сам. Можно юзать опенсорс, но мы все понимаем, что там немного не на том уровне всё. Я к тому, что автор не открыл никому никакой тайны. То, что нашими данным банчат там и сям, это не секрет. И никуда юзеры яндекса не уйдут. Просто потому, что яндекс тут лучше, чем гугл или кто-то ещё. Они лучше понимают своего клинта, потому что работают именно на него. Дают фичи, которые нужны ему. И клиенту, будем честны, наплевать куда там его данные продают. Ну тебе не всё равно. Но на одного тебя есть хренова гора людей, которые даже не думали о том, что на них зарабатывают. И потому ничерта тут не изменится. Да, жаль (наверное). Но что есть, то есть. Уже много раз говорили: «хочешь приватности, иди в лес». Да и то, не факт, что и там не достанут.

Wernisag Sep 11 2020 at 06:20

У 2ГИС карты лучше. Маршруты строит точнее, каталог организаций актуализируется быстрее.

Newbilius Sep 11 2020 at 07:01

… но покрыты далеко не все города.

John_Cena Sep 11 2020 at 07:05

Вопрос лишь в том, чьим партнёром является 2гис. Ведь он предоставляет сервис на схожих бесплатных условиях, а соответственно также максимально пытается использовать все каналы монетизации.

Wernisag Sep 11 2020 at 07:20

Они берут деньги с организаций за продвижение на картах и в каталоге. Если не ошибаюсь, то у них оплачиваются клики по форме с контактами, номер телефона, почта, адрес сайта.

playnet Sep 11 2020 at 09:56

И как это мешает продавать «обезличенную» информацию а-ля яндекс и гугл? Много денег не бывает.
Из более безопасного есть OpenStreetMap — открытый формат карт, который правится жителями, и клиенты вроде OSMand. Правда, с яндексом вообще не сравнить удобство, это просто каменный век, плюс нет всяких пробок, радаров… С другой стороны, здание в промзоне только он и знал, яндекс и гугл вообще в другое место отправляли. (и приехал по osm я именно туда, куда мне и надо было, а не в другие места)

sergyalosovetsky Sep 11 2020 at 07:05

Есть некоторые не совсем очевидные проблемы
Во-первых, свобода выбора. То есть это я как пользователь должен решать, хочу ли я продавать свои данные в обмен на доступ к неким сервисам? Яндекс или гугл не являются лучшими во всем, что другого выбора будто нет.
Есть waze или navitel как карты, есть спотифай как музыка, есть различные сервисы доставки или такси, которые не имеют ничего общего с uber или яндекс. Поиск — есть тот же бинг.
Для многих людей было бы гораздо приятнее платить пару долларов в месяц за нужные сервисы и быть свободными от слежки.
Во-вторых, человеческий фактор
Всё более-менее ок, когда вся эта инфа используется, чтобы сделать жизнь пользователю удобней, проще и дешевле.
Но может быть ведб куча способов, когда информация собранная с «твоего» разрешения, при том бесплатно, будет в результате использоваться против тебя же!
Примеров может быть куча — например, зная уровень твоего дохода, подсовывать тебе на первых строках поиска самые дорогие решения, сообщать каким-то Партнерам, что ты багатенький буратино, который очень сильно хочет купить какой-то товар или услугу — чтобы тебе завысили цены или отменили скидки. Или сообщать банкам, что ты неблагонадежный клиент — и ты будешь получать кредиты с гораздо большей процентной ставкой.
Операторы в яндексе тоже люди — и они могут сливать инфу о тебе (совершенно конфиденциальную!) всем остальным за плату
Или просто могут тебе отомстить, используя свое рабочее положение, если ты им насолил в прошлом
В-третьих, если пользователи утрутся сейчас, то что дальше?
Дальше будет еще хуже
Умные дома постепенно приходят в мир
Это камеры, умные колонки с еще более умными микрофонами, многочисленные датчики
Умные машины
тот кто владеет информацией — владеет миром
яндекс, собственно, будет владеть пользователями (и уже владеет многими)
яндекс формирует твои интересы, твое образование, твои политические и религиозные взгляды (разумеется, нынешний политический режим ни как на это не повлияет, два раза), круг твоих друзей, твои ожидания от президента, твое довольство нынешней обстановкой…
если некоторым пользователям такое нормально — то это их личное мнение, я уверен, что многим будет не все равно

John_Cena Sep 11 2020 at 08:52

Агрегация больших объемов данных о человеке, о его решениях и поступках, влечет за собой потенциальную угрозу всем людям.
Довольно хорошо эта идея показана в 2-3 сезоне «мир дикого запада».
Сегодня это возможно кажется фантастикой, но фантастика постепенно приходит в наш мир. То, что казалось недавно удивительным, сегодня является обыденным.
Обладание очень большой выборкой информации о людях, что они делают, когда, как. Это позволит создавать психологические портреты, статистический образ. И уже с помощью этого образа определять рычаги воздействия.
Потому, как просто большая прибыль это хорошо, но у многих компаний она есть. Сегодня она есть, а завтра ее нет. Инструмент контроля вот, то что нужно очень многим в том числе и на государственном уровне.

sergyalosovetsky Sep 13 2020 at 21:45

Ну, в основном, большие данные собираются и используются именно для получения больших денег
либо для власти — как в ситуации с кембридж аналитика — но результатом власти становятся еще большие деньги

Ailpein Sep 11 2020 at 07:20

Давайте приведу простую аллегорию.

Завтра Яндекс представит сервис Яндекс.Холодильник. Это будет программно-аппаратный комплекс, суперсовременный, с интернетом вещей и автоматическим заказом и подвозом продуктов.

Чтобы развить базу клиентов, Яндекс сделает для новых пользователей льготный период — любые продукты будут поступать в холодильник совершенно бесплатно. Но есть нюанс — как только вы будете их брать, чтобы скушать или что-то приготовить, Я.Холодильник будет отчитываться своему «товарищу майору» о вашем поведении. Будет втихую от вас считать время изъятия продуктов, съеденные вами калории, определять полезность заказанных блюд и кулинарную эстетику сочетания тех или иных ингредиентов. На основе всего этого будет рассчитываться некий рейтинг. И, конечно, Я.Холодильник попутно будет делать фотографию вашего лица, каждый раз, когда вы будете открывать дверцу.

Все собранные данные, безусловно, «будут обезличены хэшем MD5», и попадут на хранение и обработку третьей стороне — сети медицинских клиник, которая будет рассчитывать стоимость услуг исходя из вашего «портфолио».

И когда в следующий раз потребуется визит к доктору, будь то плановый или хуже того — внеплановый, клиника будет проводить расчёт стоимости исходя из «данных, полученных из открытых источников». Грубо говоря — полгода пил пиво и ел свиные ребрышки? Окей, для вас, сэр, всего +300% к базовому тарифу на лечение гастрита.

UFO landed and left these words here

victoriously Sep 11 2020 at 08:26

будет втихую от вас считать время изъятия продуктов, съеденные вами калории, определять полезность заказанных блюд и кулинарную эстетику сочетания тех или иных ингредиентов.

Я.Холодильник — теперь с удобным трекером калорий и оценкой полезности пищи!

Yuriks111 Sep 11 2020 at 08:17

Да, распространенное мнение «мне скрывать нечего» и «и так все все знают».
Но, основная проблема тут не в последующей назойливой рекламе. Намного опасней социальная инженерия, когда по собранным о человеке данных можно 1) получить от него недостающие конфиденциальные данные (неожиданный звонок от «родственника» или из «банка») и 2) пройти онлайн идентификацию. Например, в банке.

Newm Sep 10 2020 at 08:07

который заходил на определенный сайт или искал определенный товар, и звонить ему в своих рекламных целях. Или отказать в выдаче страховки или банковского кредита.

Звонить в рекламных целях они не могут. В законе (даже в двух) по этому поводу есть прямой запрет.

А вот отказать в выдаче кредита — это запросто. И полагаю, что даже законно, так как в процессе подачи заявки будет требоваться разрешение на обработку соответствующих ПД. Хотя… Там даже по 152-ФЗ и разрешение спрашивать не надо, т.к. оно подходит под:

5) обработка персональных данных необходима для исполнения договора, стороной которого либо выгодоприобретателем или поручителем по которому является субъект персональных данных, а также для заключения договора по инициативе субъекта персональных данных или договора, по которому субъект персональных данных будет являться выгодоприобретателем или поручителем;

Fr0sT-Brutal Sep 10 2020 at 15:05

Звонить в рекламных целях они не могут. В законе (даже в двух) по этому поводу есть прямой запрет.

Это уже давно придумали как обходить. Бесплатное обследование. Бесплатная кепка при покупке квартиры. Или спецпредложение, о желании прослушать которое предварительно спрашивают. Итог-то один — звонок, отвлечение и трата времени на ненужный шлак.

Newm Sep 10 2020 at 15:37

Бесплатное обследование. Бесплатная кепка при покупке квартиры.

В законе не сказано, что можно рекламировать что-то бесплатное. Там четко сказано, что рекламировать без согласию нельзя ничего.

Или спецпредложение, о желании прослушать которое предварительно спрашивают.

Обзвон без участия человека запрещен. Так что предварительно спрашивать тоже незаконно.

Но… Я согласен, что это заколебешься доказывать, а уж с идиотией от андроида, с которым нельзя записать звонок это становится еще сложнее, т.к. ФАС требует для открытия дела именно запись звонка:(.

Fr0sT-Brutal Sep 10 2020 at 17:03

В законе не сказано, что можно рекламировать что-то бесплатное. Там четко сказано, что рекламировать без согласию нельзя ничего.

Так они не говорят «реклама». Это бесплатная промоутерская акция.

Обзвон без участия человека запрещен. Так что предварительно спрашивать тоже незаконно.

Вот здесь было бы здорово, если б работало.

playnet Sep 11 2020 at 10:30

Ксяоми, реалми — есть кнопки записи. В особо ущербных фирмах — скорее всего можно поставить из магазина другую звонилку. Если же это принудительно блокируется — может, стоит поменять телефон и навсегда забыть данную фирму?

Newm Sep 11 2020 at 14:06

На двух летней ксяоми есть такая кнопка, на однолетней уже нету:(. Из комментария я не понял, предлагается забыть ксяоми?

DonStron Sep 14 2020 at 12:29

На большинстве андроид телефонах физически запись звонков с линии не блокирована. Так что если в родной прошивке нет кнопки — просто попробуйте поставить приложение записи звонков, например такое. На некоторых телефонах, правда, например у Хаувея, нужно будет ещё настроить энергосбережение для подобных программ, чтоб телефон не усыплял приложение и запись стартовала нормально.
А вот телефоны от Эппл однозначно в пролёте с записью звонков (физически заблокирована возможность), впрочем среди всех моих знакомых, пользующихся Эпплом — никто не считает это минусом.

Vodol Sep 15 2020 at 08:18

На сколько мне известно, в Андроиде начиная с 10-й версии запись звонков заблокирована на уровне системы. Об этом можно судить и по отзывам на Google Play к приложению, которое вы порекомендовали. Голос собеседника можно записывать только через микрофон, включив громкую связь.

playnet Sep 17 2020 at 18:05

realme 6i, android 10, запись есть в штатной звонилке.

Lennonenko Sep 15 2020 at 15:06

а уж с идиотией от андроида, с которым нельзя записать звонок это становится еще сложнее

во-первых, рут, магиск и колл рекордер, и не обязательно всё это делать самому (правда, тут тоже вопрос доверия всплывает)
во-вторых, тот же андроид (да и яндекс) нормально блокирует большую часть телефонного спама, я каждый день вижу в списке вызовов пару-тройку заблокированных вызовов от МТС, РТК, банка восточный и телеопросов

lokkersp Sep 17 2020 at 07:14

Обзвон без участия человека запрещен. Так что предварительно спрашивать тоже незаконно.

мммммм, вчера 3 раза IVR от сбера звонил, с предложениями…

Schrodingers_Kater Sep 10 2020 at 09:50

С дешифровкой хэшей вы занимаетесь ерундой — кто сказал, что подсчет производился на данных в бинарном виде, это мог быть юникод, джейсон и много чего ещё. Тут и соль никакая ненужна.
А передача данных сторонним организациям по партнёрскому договору с ними, официально прописана в этом самом договоре…

kolegich Sep 10 2020 at 10:05

Вы наверно не до конца поняли суть: хэшируется только номер телефона в формате, который указан Яндексом в открытом виде. Никаких джейсонов сервис Яндекса не поддерживает, только хэш от числа определенного формата, на сколько понял

tatikom Sep 10 2020 at 15:29

Тогда и дехэшировать ничего не надо.

Храним md5(телефон). Приходит запрос на скоринг телефон — ищем в базе по совпадению md5(телефон)…

Schrodingers_Kater Sep 10 2020 at 19:39

Вынужден с вами не согласиться. Суть я как раз понял, но вы, также, как и ТС, видимо, не совсем представляете принцип хэширования данных. Поясняю: хэш строится на основании последовательности байт, переданных в функцию и именно байт, а не символов. А вот что из себя представляет эта последовательность байт — это большой вопрос.

Наглядный пример

Номер телефона в следующих примерах: 88001234567

Передан в виде текстовой строки, где каждый байт представляет собой символ из таблицы ASCII, соответствующий каждой цифре номера — 2d6895b3050243a6150c87cad8825655
Передан в виде текстовой строки, где каждые два байта представляют собой символ из таблицы UCS-2 BE (Unicode), соответствующий каждой цифре номера — e8c7f423b90a8f01cb02174e5a369c0a
Передан в виде текстовой строки, где каждые два байта представляют собой символ из таблицы UCS-2 LE (Unicode), соответствующий каждой цифре номера — 891b3d0cffe18d8cc22dfbc97878992d
Передан в виде последовательности байт, где каждый байт представляет собой число, соответствующее каждой цифре номера — 804584012e982aa00830a73937b86bf1
А это бонус, здесь каждые полбайта представляют собой число, соответствующее каждой цифре номера — c2d2df9d446ed5e221e577dabde95667

И вот скажите мне пожалуйста, какой из вариантов правильный? Вероятнее всего, вам покажется, что это четвертый пункт. Но это не так. Здесь нет правильных и неправильных вариантов — все они пригодны для хэширования данных. Все зависит от автора кода и техпроцесса, в котором эти данные передаются. Замечу, что четвертый (и тем более пятый) пункт более сложен в реализации, так как данные от пользователя в преобладающем большинстве поступают в текстовом виде и преобразовывать их в числовую последовательность никто специально не будет.
~~Соль~~ суть хэширования в том, что исходные данные знает только то лицо, которое их хэширут и то лицо, для кого эти данные предназначены.
Про джейсон вы не совсем поняли, данные можно представить и так:

{"phone": "88001234567"}

Здесь хэшировать строку можно прямо в таком виде (hash: 1772667c4aa2de4b3ff097903884aa9e).

Следовательно, автору статьи нужно точно знать, что из себя представляли данные на входе хэш-функции, чтобы получить тот же номер, а не случайный набор цифр.
Спасибо за сомнение — заморочился на пример. И не лень ведь было. :D

Ailpein Sep 11 2020 at 07:07

Формат данных, которые должны быть поданы на вход в хэш-функцию, Яндекс зафиксировал и описывает в разделе справка сервиса Яндекс.Аудитория

playnet Sep 11 2020 at 10:38

В любом случае яндекс делает нормализацию. Самое банальное — EMAIL@mail.ru, Email@mail.ru, emaiL@mail.ru — это всё 1 почта, поэтому такие вещи как логины, почта — используют всякие .toLower(). Также в телефонии почти всегда нормализуют +, (), -, пробелы. Так что да, никто не страдает глупостью с расшифровкой хэшей, а ведь можно и sha256 взять. Просто нормализуют, потом хэшируют входные данные и простейшим поиском за миллисекунды получают нужную связанную запись. Тем более ни сама почта, ни номер напрямую не используются (хотя если они нужны — они есть в открытом виде на входе).
Ну и главное. В базе допустим 100млн хэшей. Даже если на «расхэширование» тратить 0.01с, это просто не будет работать на таких объёмах. Так что исключительно сравнение хэшей.

Schrodingers_Kater Sep 11 2020 at 19:42

Перечитал еще раз статью (может быть я что-то упустил; на самом деле по тексту много нюансов, но некритичных), пришлось разобраться с сервисом «Аудитория». Надеюсь этот ответ будет исчерпывающим.
Во первых, БКИ не использует сервис «Аудитория» однозначно, сервис работает по принципу от общего к общему, а БКИ нужно от частного к частному. Между Яндексом и БКИ должен быть договор иного рода. Тем более на выходе у БКИ все равно будет некий «коэффициент лояльности» и им в руки никогда не попадут личные данные, собранные Яндекс. Разговор между ними условно выглядел так: давайте, мы вам мыло или телефон клиента, а вы нам число от 0 до 10, кому можно кредит давать, а кому нет. Как вы там это будете считать, с помощью толпы математиков или шамана с бубном нас не интересует, но чтобы данные были точные (речь про коэффициент, просто число).
Во вторых, сервис «Аудитория» работает иначе — вы загружаете туда телефон одного человека, а он вам возвращает тысячу человек похожих на того, которого вы туда загрузили. И чем конкретней вы будете подбирать клиентов для загрузки, тем точнее вам сервис вернет подходящую аудиторию. И учитывайте, что данные об аудитории вы не получите, Яндекс сам доставит рекламу предполагаемой аудитории. Также замечу, что на скриншоте опущен комментарий к форме: «Файл должен включать не менее 1 000 записей и соответствовать требованиям.», что дает большую ясность картины.
В третьих, частичное хэширование данных (номер, почта) при загрузке файла в сервис предназначено для защиты тех клиентов, которых вы загружаете в сервис. Это, примерно, на тот случай, если у вас в офисе отключили интернет и вы попросили прохожего загрузить данные с флешки в соседнем интернет кафе. Данные сильно короче хэша — просто защита от дурака.
И замечу, что я ни коим образом никого не защищаю, просто при более детальном рассмотрении возникают некоторые несоответствия.
Ошибкой яндекса было указывать в подсказке рабочие хэши, если это, правда не коллизии на номера.
История этой деперсонализации длинная, но это можно сравнить, например, с блюром — по контурам можно определить ту или иную категорию, но точный рисунок уже получить невозможно. И здесь то же самое, вы просите Яндекс показать рекламу тем, кто в блюре похож на квадрат или треугольник. Но вы никогда не узнаете кому он ее показал. По этому рекламодатели проводят свои опросы — как вы о нас узнали, из рекламы в интернете, ага и ставят плюсик. А потом сравнивают цифры рекламных источников и понимают сработала эта таргетированая реклама или нет.

Schrodingers_Kater Sep 11 2020 at 19:58

Хотя… я вот сейчас подумал, а ведь сквозная реклама вполне возможна… если клиент в профиле почты указал еще и свой телефон.
Но, тут речь о другом, все эти базы — абстракция. Вы обращаетесь к сервису и говорите, у нас отоварилось сто человек, вот их номера, подберите нам пожалуйста еще десять тысяч человек, которые точно купят наш товар. И по «шаманским» алгоритмам сервис возвращает, по его мнению, похожих людей. Но часто выходит, что это просто тыканье пальцем в небо.

kolegich Sep 10 2020 at 10:04

Наверняка, по такой же схеме работает и Мейл.ру и другие крупные IT организации?

pvp Sep 10 2020 at 11:38

«Все эти методы, будем говорить прямо, незаконны, так как нарушают положения закона «О персональных данных» (№152-ФЗ)»

Общеизвестные данные могут обрабатываться невозбранно. Так что ничего они не нарушают, если берут данные, сделанные общедоступными самим их обладателем.

mitgard Sep 10 2020 at 12:03

Вы серьезно? Пользователь условно Яндекс.Такси, регистрируясь в приложении и оставляя свой номер, не делал его общедоступным. Он собирался воспользоваться сервисом Такси, а по факту его данные начинают использоваться для прочих целей и передаваться третьим лицам.

pvp Sep 10 2020 at 12:42

Я говорю про данные из профилей соцсеточек.

mitgard Sep 10 2020 at 12:52

это да, но речь в статье о другом

vikarti Sep 11 2020 at 14:15

Даже у ВКонтакта настройка видимости страницы имеет 3 значения: Только пользователям ВКонтакта, Всем, Всем, кроме поисковиков (и комментарий что это сокрытие страницы например от гуглояндексов (видимо).
Если у пользователя стоит что-то кроме варианта «Всем» — почему это считается что он согласился сделать данные общедоступными?

Schrodingers_Kater Sep 10 2020 at 19:47

Есть один нюанс. Как часто вы читаете договор оферты, когда регистрируетесь в том или ином приложении? Чаще всего, в каждом из них прописан пункт на право использования данных организатором или его партнерами (в соответствии с ФЗ конечно). Просто организатор умалчивает, кто являются его партнерами.

Newm Sep 11 2020 at 06:12

Чаще всего, в каждом из них прописан пункт на право использования данных организатором или его партнерами (в соответствии с ФЗ конечно). Просто организатор умалчивает, кто являются его партнерами.

Если речь идет об обработке персональных данных, и не экзотика в виде обезличенных, то передача их кому-либо здорово ограничена и допускается только в конкретных целях, прописанных в 152-ФЗ. В остальных случаях пункт в оферте ни на что не влияет. Должно быть отдельное согласие физлица, причем отсутствие такого согласия не может препятствовать заключению договора (оферты).

alexxz Sep 10 2020 at 12:45

Пара замечаний про взлом md5. Все случаи как такового «взлома» на настоящий момент относятся не к обратимости md5, а к тому, что можно относительно легко сгенерировать пару строк для коллизии. Подобрать колизию к наперед заданному хешу (обратить) на данный момент не удалось никому. Потому говорить о взломе md5 еще очень рано.

Теперь перейдём к хешированию. Необратимо захешировать номер телефона на современных мощостях не представляется возможным. Какой бы алгоритм хеширования вы не выбрали, перебрать все 9ти значные числа — ничего не стоит. Их всего миллиард. Даже не надо иметь для этого видеокарт. Можно просто составить таблицу на миллиард записей. Что интересное длина хеша при этом не играет уже никакой роли. Только сложность алгоритма, вернее время его работы.

Добавление соли — обязательное условие, но даже оно не является достаточным. Знание соли и механизма хеширования достаточно для того чтобы восстановить номер телефона.

Примерно то же самое относится и к хешированию email. email перед хешированием обычно нормализуется (приводится к одному регистру). Популярных доменов для email — десяток. Остаётся только брутфорсом перебрать имена ящиков на довольно ограниченном множетсве символов [a-z0-9]. Хотя гарантированной обратимости тут еще пока нет, но на практике доля обратимых имейлов очень большая.

kolegich Sep 10 2020 at 13:19

Согласен и удивлен почему площадки типа яндекса не придумали схему асинхронным шифрованием, например rsa.

mk2 Sep 10 2020 at 14:46

Если даже не углубляться в конспирологию, при использовании схемы с rsа, если работать честно, то придется каждый номер шифровать ключом каждого заказчика. А если схитрить, то никто не мешает сгенерировать все 10 миллиардов телефонов (меньше, вред ли нам дали не мобильный номер) и установить, каких именно пользователей нам зашифровали.

kolegich Sep 10 2020 at 14:52

Согласен, когда мощность шифруемого множества небольшая — ничего не поможет

alov_i Sep 11 2020 at 07:05

Прошу прощение за занудство, но вы скорее имели в виду асимметричное шифрование

vikarti Sep 11 2020 at 14:29

Примерно то же самое относится и к хешированию email. email перед хешированием обычно нормализуется (приводится к одному регистру). Популярных доменов для email — десяток. Остаётся только брутфорсом перебрать имена ящиков на довольно ограниченном множетсве символов [a-z0-9]. Хотя гарантированной обратимости тут еще пока нет, но на практике доля обратимых имейлов очень большая.

Удачи. (например имена ящиков это НЕ [a-z0-9], там больше допустимых символов (читаем например habr.com/ru/post/274985 а вообще таких статей несколько), и что еще хуже для любителей реверсить — разные сайты по разному проверяют корректность, большинство делают это неправильно(иногда — намеренно), но по разному неправильно).
Насчет «десятка» доменов — ну например у mail.ru у одних 4 штуки в форме регистрации.
У Hotmail/Live.com — 3-5 доменов… и обычно 1-2 — уникальны для каждой из поддерживаемых стран(всякие live.com.pt/live.ru) (см например www.internetearnings.com/how-to-register-live-or-hotmail-e-mail-address )
А если вспомнить почти-бесплатные варианты вроде возможности взять свой домен и бесплатную почту для домена от Яндекса например?

alexxz Sep 14 2020 at 07:07

Все верно. Я так и сказал, что прямого способа расшифровки нет и пока не предвидится. Но если сосредоточиться не на 100% расшифровке, а на расшифровке самого простого или популярного, то обнаружится много классных статистических особенностей, которые позволяют расшифровать довольно много. И особенности довольно простые.
Отвечая на ваши замечания.
Допустимое разнообразие почтовых адресов, конечно, шире, чем я написал. Только вот реальные пользователи используют эти адреса на тех самых сайтах, которые валидируют их неправильно, сами же пользователи диктуют эти адреса голосом. Вобщем, пользователи делают достаточно простые или короткие адреса для своего удобства.
Касательно же доменов почтовых сервисов — да, их довольно много. Но если мы будем говорить про какую-нибудь конкретную страну, то обнаружится, что подавляющее большинство адресов представлено с небольшого ограниченного числа доменов специфичных для конкретной страны или даже группы стран.

alexxz Sep 10 2020 at 12:59

Дополню статью, относительно недавно узнал, что даже не на чёрном рынке, а весьма открыто есть сервисы по опрделению номера телефона посетителя сайта (гугл в помощь). Вот едешь в автобусе, видишь автосалон известной марки, заходишь к ним на сайт посмотреть цены, а они тебе сами уже названивают. Это не фантастический фильм. Это — реальный пример. У меня есть догадки как именно они определяют номер телефона, но ни одна из этих догадок не связана с законностью или профессионализмом.

hatari90 Sep 10 2020 at 13:42

Как-то лазал по сайту одного застройщика, и через 5 минут звонок от тинькофф с предложением их партнерки по ипотеке (тогда она еще была).

tatikom Sep 10 2020 at 15:31

С телефона лазали? — Тогда это скорее всего сам мобильный оператор слил… На хабре была статья, как операторы телефон в трафик прокидывают в http-заголовки…

hatari90 Sep 10 2020 at 23:06

Нет, с пк.

ianbrode Sep 10 2020 at 17:40

С wi-fi мгтсовского заходил на Я.Недвижимость, почти сразу начал звонить Тинёк, предлагать ипотеку

vikarti Sep 11 2020 at 14:38

Некоторые сервисы такого типа даже не особо скрывают

Основной вопрос, который нам постоянно задают – «как сайт узнает номер»? Наша технология легальная, запатентована, имеется аккредитация в РосКомНадзор.

На ваш ресурс ставится специальный счетчик, внешне похожий на Яндекс.Метрику или Google Analitics. Данный счетчик считывает цифровой след посетителя, а именно — его IP, данные браузера, операционной системой, параметрами монитора и т.д. Далее, эти данные сопоставляются с отпечатками пользователей, которые имеются в нашей базе. По тем записям, где произошло совпадение — мы предоставляем вам телефон посетителя.

Читать — мы достаем базы. Где — не скажем (может и у яндекса). И отслеживаем клиента везде где можем.

support_alteros Sep 16 2020 at 07:10

Возможно технологии WantResult :)

vanxant Sep 10 2020 at 21:59

Раньше соцсети сливали вас с потрохами через все эти виджеты и пиксели. Сейчас не знаю

Sabubu Sep 18 2020 at 21:05

А вы хотя бы раз оставляли в Интернете (например, при оформлении заказа в интернет-магазине) свой номер телефона и данные о себе? Если так, то зря, так как многие сайты интегрированы с системами аналитики, которым передаются данные о клиенте. Получается, что возможна такая схема:

вы оформляете заказ
магазин сливает данные о вас 10 разным системам аналитики, которые собирают "отпечаток" вашего браузера, ваш IP и привязывают к ним ваши данные
спустя месяц вы заходите на какой-то другой сайт, где стоят эти системы аналитики, они вас узнают по "отпечатку" браузера, кукам или чему-нибудь еще и передают ваш номер владельцу сайта

Тут, по моему, 100% незаконная схема, но в нашей стране законы о ПД все равно не работают, потому их никто не наказывает.

Вторая схема сбора — кликджекинг. Вы заходите на сайт, вам под мышку подводится прозрачная кнопка вступления в группу вконтакте, вы на нее жмете, и сайт знает ваш профиль в соцсети. Это, правда, больше не для сбора телефонов, а профилей в соцсети.

Fr0sT-Brutal Sep 25 2020 at 15:04

Если так, то зря

А как иначе-то? Сейчас ни одна собака не примет заказ без подтверждения звонком. Даже смс уже не котируется. Вот разве что Ситилинк исключение. Интересно, а если заказывает глухой или немой — как быть?

61brg Sep 10 2020 at 17:10

ИМХО, закрыть персональные данные не удастся. Остаётся только их замусорить

Alexwoodmaker Sep 10 2020 at 17:14

Когда-то работал в Яндексе в группе админов внутренних сервисов. Рядом за закрытой стеклянной дверью сидели безопасники. Неоднократно был свидетелем того, как ребята, невзирая на должности, футболили спецпосетителей на предмет доступа к почте клиентов. Увы, времена меняются: money talks!

Fr0sT-Brutal Sep 11 2020 at 10:40

Конечно)) «Это наша корова, и мы её доим»!

miruzzy Sep 10 2020 at 17:14

Я вот поигрался с хэшкотом в РБ… сейчас на мне за него висит статья за использование вредоностного ПО )))
Сорь, что не по теме

denisshabr Sep 11 2020 at 12:53

Очень интересно почитать об этом подробнее.

alunyaka Sep 10 2020 at 17:14

Кстати, давно хотел узнать — есть ли возможность где-то посмотреть как Яндекс, кхм, «видит тебя»?
По аналогии как у Гугла: adssettings.google.com/authenticated?pli=1

Xobotun Sep 10 2020 at 19:24

Когда-то был Яндекс.Робот, но его, кажется, вскоре после релиза прикрыли. Там были ползунки, что вы "на 15% холостяк", на "80% программист", "на 20% зоолог" и т.п.

Кстати, а что у вас по гугловой ссылке? Я, похоже, когда-то отключил себе персонализацию рекламы, и там нет ничего интересного, даже если включить её обратно. :/

alunyaka Sep 15 2020 at 07:43

Извините за долгий ответ, как-то пропустил ваш комментарий.
По ссылке у меня отображается очень длинный перечень как бы тегов, которые Гугл связывает со мной. Какие-то просто указывают на вещи, которые я часто гуглю («Аудиотехника», «Linux», «Ozon» и т.п.), другие же показывают его непойми с чего взятые предположения обо мне (например «Высокий доход» — вот уж где, к сожалению, он ошибся) :)
Если считаешь, что какая-то информация о тебе ошибочна, то можно кликнуть на тег и убрать его.
Вот скрин кусочка этих данных i.imgur.com/n8wtcUl.png

Kib0rg Sep 11 2020 at 01:58

Конспирология такая конспирология.

Иначе в интерфейсе для рекламодателей должно было бы присутствовать поле для указания соли. А его там нет!

А для чего нужно было бы знать Яндексу соль, с которой телефоны хэшируются на другой стороне? Как раз если бы там было поле для ввода соли, это было бы подозрительно.

Очевидно, что самый быстрый и простой вариант — использование радужных таблиц

Неправда. Если телефоны несолёные (хотя как мы выяснили выше, это совершенно необязательно так), то самый быстрый вариант — предпосчитать и хранить несколько миллиардов и даже триллионов хэшей md5 от всех потенциально возможных номеров телефонов. А если используется соль (неизвестного формата и длины), то и радужные таблицы не сильно помогут.
А вообще, в статье домыслы на домыслах и домыслами погоняют: «разумно предположить», «веры нет никакой», «скажем прямо» и остальное, ну куда это годится. Хотел почитать про «слежку от яндекса», а оказалось, там всего лишь выкатили недотестированный релиз. Ну это что получается, шпион все собираемые данные ещё и на устройстве жертвы сохраняет? Для бэкапа что ли, чтоб не потерять, или чтобы его обнаружили побыстрее?
Не факты, а одни лишь предположения, местами ещё и необоснованные выводы, ну на троечку с минусом, я бы сказал.

bonta Sep 11 2020 at 07:05

Немного странно осознавать то что твои персональные данные (их деобезличивание на вычислительных мощностях Яндекса) подогревает воду в системе отопления твоего дома, как это происходит в финском городке Мянтсяля, где система охлаждения ЦОД Яндекса соединена с теплосетью города.

alexey_c Sep 11 2020 at 09:25

Автор топит за защиту своих данных, но в расследовании использует ПО, в пользовательском соглашении которого написано (примерно) "… соглашается с тем… все контакты с устройства пользователя будут по умолчанию и без вариантов, полностью переданы неизвестно куда для использования сервисом..".
Странно это.

А по поводу описанного использования данных — так да, что в этом такого?
Сервис использует эти данные.

Я собственными глазами видел систему, которая держит у себя в базе хэши телефонов клиентов и обменивается ими с яндексом.
При этом никакая информация, _по закону_ относящаяся к ПД, не передаётся.

Цели -в основном сэкономить кучу денег на затратах на нерелевантную рекламу.

denisshabr Sep 11 2020 at 12:59

рассылку по вашей базе клиентов, проходящих в определённом месте. Более того, они все давно сотрудничают с операторами наружной рекламы, и трекают, что вы проезжали/проходили мимо конкретного рекламного щита, и таким образом считают CPM, и всё это видно у них в личном кабинете.
Ничего поделать с этим нельзя, просто знать и жить дальше.

2. Не совсем понятно, зачем в начале статьи очень многообещающее начало про телефонных спамеров, и причём тут яндекс, если эта тема не раскрыта совсем. Мне тоже бывает по 10 спам звонков в день идут, и здесь виноваты обычно банки, которые продают номер партнёрам, да и сами постоянно названивают с предложением кредита. Яндекс то тут причём и БКИ? Из БКИ пока никто не звонил :)

p.s. rainbow таблицами люди уже как лет 10 не пользуются.

denisshabr Sep 11 2020 at 14:41

Не целиком комментарий отправился.

1. Данные о перемещаниях продают все, у кого они есть. Сотовые операторы тоже на каждой конференции это рекламируют например, и предлагают делать смс рассылку по вашей базе клиентов, проходящих в определённом месте. Более того, они все давно сотрудничают с операторами наружной рекламы, и трекают, что вы проезжали/проходили мимо конкретного рекламного щита, и таким образом считают CPM, и всё это видно у них в личном кабинете.
Ничего поделать с этим нельзя, просто знать и жить дальше.

2. Не совсем понятно, зачем в начале статьи очень многообещающее начало про телефонных спамеров, и причём тут яндекс, если эта тема не раскрыта совсем. Мне тоже бывает по 10 спам звонков в день идут, и здесь виноваты обычно банки, которые продают номер партнёрам, да и сами постоянно названивают с предложением кредита. Яндекс то тут причём и БКИ? Из БКИ пока никто не звонил :)

p.s. rainbow таблицами люди уже как лет 10 не пользуются.

Sly_tom_cat Sep 14 2020 at 07:56

Совершенно не понял зачем яндексу взламывать хеши.

У яндекса есть телефон в открытом виде. Он получил хеш этого номера и знает ка этот хеш был сформирован. Что мешает просто сформировать от своего открытого представления хеш и сравнить их?

Вот если ко-то со стороны получит эти хеши — то да тут встает задача именно взлома хешей.

support_alteros Sep 15 2020 at 09:44

Занимательная статья! Спасибо.

gregoryawesoman Sep 18 2020 at 19:26

ailpein, к слову о Яндексе — проект прикрыли без объяснения причин) видимо осознали.
rb.ru/news/yandex-scoring
может стоит добавить апдейт в пост?