Расследование: как обезличенные данные становятся персональными и продаются на сторону

    Неделю назад мне в очередной раз позвонили и предложили купить какой-то новый автомобиль в салоне, где я точно никогда не бывал. На простой вопрос о том, откуда звонивший взял мой номер телефона и мои имя и отчество, последовал прямой ответ — мы выбрали ваш номер случайным образом из номерной емкости. В это объяснение я не поверил, и решил поинтересоваться тем, как устроен рынок данных и понять, кто может сливать информацию о пользователях и как легко и виртуозно интернет-монополисты обходят стороной закон «О персональных данных» (№152-ФЗ).

    Читайте под катом о том, кто монетизирует мои данные и как они попадают в руки компаний, услугами которых я никогда не пользовался — банков, страховых компаний, медицинских центров, застройщиков и прочих организаций с надоедливыми рекламными звонками. И да, это лонгрид, всё как вы любите.

    Весну и начало лета 2020 года наша прекрасная страна провела на самоизоляции. Помимо очевидного роста финансовой нагрузки на бизнес, необходимости людям носить повсюду маски и вынужденно работать из дома, этот временной период наглядно показал, насколько легко и просто некоторые участники рынка обращаются с персональными данными россиян.

    Предыстория


    К написанию этой статьи меня подтолкнуло интервью Тиграна Оганесовича Худаверяна в СМИ (TheBell, Roem) о работе сервиса Яндекса по оценке индекса самоизоляции.

    Напомню кратко в чем суть: практически одновременно с объявлением режима «как бы нерабочих дней по всей стране», интернет-гигант Яндекс стал регулярно рапортовать о соблюдении мер по самоизоляции гражданами. Чиновники и СМИ ежедневно обращались к этим данным. И хотя сейчас эта тема плавно уходит на второй план, но вопросы к первоисточнику таких данных никуда не делись.

    Поскольку Яндекс и ранее был замешан в скажем так вольготном отношении к пользователям — вспомним хотя бы историю слежки через приложения — то разумно предположить, что данные о текущем местоположении граждан при самоизоляции собирались с помощью мобильных приложений с геолокацией. Да и сам по себе метод слежки через умные гаджеты — очевидный. В столице, например, вообще была вопиющая история — несмотря на обилие нарушений действующего законодательства, ДИТ Москвы заставлял людей подписывать кабальный договор с другим подобным «товарищем майором».

    И хотя в своем интервью управляющий директор Яндекса заявляет:

    «Мы ни в чем из этого не участвуем. Признаюсь, для нас это больное место, потому что нас постоянно подозревают, что мы в этой слежке участвуем. Но у нас внутри компании есть свой принцип: ни в коем случае, даже в сложной ситуации, не нарушать принципы, которыми «Яндекс» руководствуется со дня основания»

    — веры в это нет никакой. Журналисты не задали самый главный вопрос – а на основе каких данных, Яндекс формировал свой «конфиденциальный» рейтинг? Это важно, ведь свободном доступе ответа нет — интернет-гигант просто не раскрывает свою методологию:



    Разумно предположить, что под термином «данные об использовании различных приложений и сервисов Яндекса» имеется ввиду именно мониторинг перемещений граждан. Вот только вряд ли кто-то из нас с вами давал прямое согласие на такую слежку.

    Как устроен рынок данных


    В 90-х продавали базы данных на рыночных развалах с компакт-дисками. В наше время получить список нужных контактов можно еще быстрее — даже ехать никуда не надо.

    Очевидные, но нелегальные способы


    Чужие данные можно поискать в соцсетях, или в специальных телеграм-каналах, названия пабликов я приводить не буду, уверен, вы и сами их найдете при желании.



    Некоторые более продвинутые граждане поступают немного иначе — они размещают на своих сайтах договор-оферту, из которой следует, что данные собираются из публичных источников и даже приводят отсылки на статьи закона, которые как бы разрешают им это делать:



    Нюанс только в том, что в документах на сайте «Авито» сказано, что самостоятельно парсить базу контактов интернет-площадки avito.ru прямо запрещено правилами.

    Подобным образом продавцы баз в интернете собирают информацию изо всех возможных источников. Все эти методы, будем говорить прямо, незаконны, так как нарушают положения закона «О персональных данных» (№152-ФЗ). Уверен на 100%, что ни один здравомыслящий человек из вот таких баз данных не давал своего согласия на публичное распространение подобными компаниями информации о себе через интернет.

    Man-in-the-middle attack


    Способ слива информации через сотрудников предприятий, имеющих доступ к базе клиентов тоже очевиден. Не будем уделять слишком много внимания этому аспекту.

    Единственный способ борьбы с такими людьми — контроль доступа, грамотное проектирование базы контактов и применение механизмов борьбы со фродом, которые разрабатывают сотрудники информационной безопасности. Последние, к слову, регулярно ловят «продавцов» и передают их правоохранителям.

    Завуалированные способы сбора данных


    Интернет-компании, скажем прямо, совсем обнаглели и придумали новую методику свободного обращения с данными пользователей. Сегодня все крупнейшие игроки этого рынка собирают про нас, бедных пользователей, такое досье, что им позавидуют Джеймс Бонд, Рихард Зорге, Мата Хари и Остин Пауэрс вместе взятые. Причем, никто из пользователей и не уполномачивал интернет-компании собирать такую фактуру.

    У всех на слуху история с американскими выборами, в которых победу республиканцев обеспечил таргетинг рекламы на пользователей Google и Facebook. Причем, эти компании делились данными со сторонней организацией Сambridge Analytics, которая и формировала «целевую аудиторию» рекламных объявлений. Сбором данных промышляют и в Китае — популярная ныне соцсеть тоже недавно прославилась использованием нелегальных методов слежки, которые запрещены даже правилами Google.

    Должен сказать, что российский Яндекс внимательно следит за действиями иностранных коллег, и применяет схожие методы — компания прячется за ширмой «обезличенных данных», которая, как показал мой личный опыт непрограммиста, при должной сноровке расшифровывается даже сидя дома на диване.

    В декабре прошлого года на РБК появилась интересная статья, в которой рассказывалось про совместный проект Яндекса и Бюро Кредитных Историй (БКИ) по передаче данных о пользовательском поведении в сети. По задумке авторов этого решения, банки смогут получать дополнительную информацию по нужным им персонам от Яндекса, обладая при этом лишь адресом электронной почты и номером мобильного телефона клиента.

    Неназванный в статье источник сообщил, что Яндекс получает данные в хэшированном виде, после чего внутренние алгоритмы определяют некую оценку для конкретного человека, и именно эта оценка и возвращается в БКИ. Все это выглядит довольно складно, однако есть нюанс — в статье приводится мнение управляющего партнера УК «Право и бизнес» Александра Пахомова, который также как и я считает, что при выполнении этой процедуры обезличенные данные вновь становятся персональными:



    Как обезличенные данные становятся персональными


    Попробуем разобраться в том, что происходит «под капотом» у этого сервиса. Сразу скажу, что мне сделать это сложно, так как я часто наслаждаюсь грациозностью великой и прекрасной России, а не провожу рабочие дни на митингах в переговорках современного московского офиса Яндекса. Поэтому, призываю вас поделиться информацией и подправить меня, если я ошибаюсь или в чем-то не прав.

    Шаг 1. Хэширование данных


    Начнем с изучения того, что именно сам Яндекс вкладывает в понятие «зашифрованные», «хэшированные» или «обезличенные» данные. И поможет нам в этом публичный сервис Яндекс.Аудитория.

    Из его описания следует, что сервис позволяет рекламодателям достучаться до своих клиентов. Причем, чтобы добиться этой цели потребуется всего лишь сообщить Яндексу некие идентификаторы клиентов — номера телефонов или адреса электронной почты. Эти данные можно сгрузить в явном виде, например, в виде текстового или табличного файла. А можно — также и в обезличенном виде. Для этого применяется алгоритм хэширования MD5.

    Далее сервис работает следующим образом: Яндекс вычисляет конкретного пользователя, зная его персональные данные, и показывает ему таргетированные рекламные сообщения на различных сервисах и порталах Яндекса.

    Что мы знаем про MD5?
    Алгоритм MD5 представляет собой 128-битный алгоритм хеширования. Это значит, что он вычисляет 128-битный хеш для произвольного набора данных, поступающих на его вход. 
    Детальное описание алгоритма можно найти на Хабре. Нам важно знать, что он был разработан и предназначался для создания и проверки отпечатков сообщений произвольной длины — например, пользовательских паролей или контактов.

    Алгоритм MD5 создали в далеком 1991 году, и до 1993 он точно считался криптостойким. Именно тогда исследователи Берт ден Боер и Антон Боссиларис предположили, что в алгоритме возможны псевдоколлизии. Дальше было проведено несколько научных работ на эту тему, которые показали возможность «взлома» MD5. Практическая же реализация была продемонстрирована в 2008 году.

    Шаг 2. Расшифровка MD5-хэшей


    Технически, взлом MD5 может быть осуществлен одним из четырех способов:

    • Перебор по словарю
    • Brute-force
    • Rainbow-crack
    • Коллизия хэш-функций

    Очевидно, что самый быстрый и простой вариант — использование радужных таблиц. По сути, для реализации этого способа потребуется лишь знать хэш и сделать свою таблицу под определенные критерии.

    Как работают радужные таблицы
    Возьмем, например, любой телефонный номер. Мы точно знаем, что в нем может быть фиксированное число символов, и мы точно знаем, что все эти символы — цифры от нуля до 9. Предположим, что число символов в телефонном номере не превышает 11.

    Знание этих критериев позволит быстро получить искомую таблицу с помощью специального программного обеспечения. Типичное содержание такого файла будет выглядеть примерно так:



    Далее, вам потребуется взять в качестве референсного значения какой-нибудь условный телефонный номер. Возьмем для примера абстрактный номер 83910123456. Его MD5 хэш будет выглядеть так — fba55dd11f758ab4f03fad3c5f19ba75.

    Подставляем этот хэш в софт, указываем расположение таблицы… пара секунд, и вуаля — видим исходный телефонный номер в поле Plaintext!



    С адресами электронной почты, как вы уже догадались, дело обстоит ровно так же. Единственная лишь разница в том, что для определения имени почты используется больше данных — в набор символов должны входить буквы, цифры, средства пунктуации и спецсимволы.

    В приведённом примере я сознательно не использую «соль» — понятно, что подсоливание хэшей усложняет их взлом. Но об этом немного позже.

    Шаг 3. Сопоставление данных


    Нет ни малейших сомнений в том, что Яндекс хранит данные в зашифрованном виде. Условно говоря, у поисковика есть профиль каждого зарегистрированного пользователя, где помимо прочего указаны адреса его электронной почты и номер телефона. Такие данные легко хэшируются и, при необходимости (как мы уже убедились выше) — дехешируются.

    Далее, получив от рекламодателей в любом виде список контактов, Яндексу не составляет труда сопоставить их со своей внутренней базой, которая содержит эти же идентификаторы. Говоря проще, Яндекс делает кросс-матчинг идентификатора из профиля своего пользователя на соответствие запрашиваемым данным рекламодателя. Это и позволяет таргетированно показывать рекламу конкретному пользователю при заходе на страницу того или иного сервиса Яндекса.

    Однозначная идентификация пользователей


    Ни о каком обезличенном обмене данными при работе по такой схеме и речи идти не может. Все стороны однозначно идентифицируют конкретного пользователя в процессе оказания услуг. С кредитными бюро, судя по комментариям и описанию, применяется ровно эта же схема. И по всей видимости, на стороне Яндекса используется решение, подозрительно похожее на платформу Крипта.

    Однако Яндекс публично никогда не заявлял о возможности сопоставления таких профилей с номерами мобильных телефонов или e-mail своих пользователей. Но, как нам стало известно из материалов СМИ, Яндекс именно это и делает как минимум при работе с Объединенным Кредитным Бюро.

    Почему об этом честно не сказать своим клиентам, ведь все и так лежит на поверхности? Вместо этого спикеры Яндекса стыдливо говорят об отсутствии “личной информации" и приводят прочие выдуманные термины, которые отсутствуют в законодательстве РФ и позволяют обойти некоторые вопросы оборота и защиты данных граждан.

    Немного практики: Яндекс, я нашел у тебя нарушение 152-ФЗ!


    Солит ли Яндекс хэши? Я не могу однозначно ответить на этот вопрос, в конце концов, я не работаю в этой компании и не знаю внутренней кухни. Однако я могу сделать два допущения:

    • серверные мощности Яндекса позволяют довольно быстро провести дехэширование несоленых MD5-хэшей;
    • для работы с солеными хэшами обе стороны должны знать соль.

    Очевидно, что в случае с сервисом для рекламодателей применяются несоленые хэши. Иначе в интерфейсе для рекламодателей должно было бы присутствовать поле для указания соли. А его там нет! Давайте внимательно посмотрим на скриншот в описании Яндекс.Аудитории:



    Обратите внимание на вопросительный знак у чекбокса «Хэшированные данные». Давайте перейдем в сам сервис и подведем указатель мыши к этому вопросу.



    Видим три хэша: a31259d185ad013e0a663437c60b5d0, 78ee6d68f49d2c90397d9fbffc3814d1 и 702e8494aeb560dff987e623e71bccf8. Причем, в первом явно чего-то не хватает: там всего 31 символ, а должно быть 32! Поэтому, этот хэш отбросим сразу.

    Расшифровать вторые два хэша через ранее созданную радужную таблицу я тоже не смог. Но решил попробовать пройтись по ним брутфорсом. Для этого мне потребовалось перенастроить майнинг-ферму из 6 видеокарт класса GeForce GTX1060 с добычи эфира на работу с программой hashcat.



    Я указал программе поиск по маске из 11 цифр (см на верхнюю стрелку на скриншоте). В результате, моя вполне обычная ферма произвела дехэширование номера телефона в одном из хэшей всего за 22 секунды. Просто представьте, с какой скоростью можно брутфорсить хэши на мощностях Яндекса!

    Теперь давайте определим кому принадлежит этот номер, просто пробьем его через мобильное приложение Numbuster:



    Теперь идем в поисковик, и за считанные мгновения получаем всю нужную нам информацию:



    Шах и мат, Яндекс, благодаря открытой информации с твоего же сайта, я только что в пару кликов мышью узнал, кто именно делал твой сервис! Надо ли говорить, что такое же действие может легко повторить любой из тех, кто сейчас читает эту статью? За что же вы так с Ярославом-то поступили?

    Какие данные могут быть в профиле каждого пользователя


    Для использования сервисов Яндекса необходимо указать номер мобильного телефона и электронной почты. Через свои приложения и сервисы Яндекс знает обо мне практически все: от сайтов, которые я посещаю (где стоит Яндекс.Метрика, а таковых в Рунете более 54%), до номера телефона, который я указываю в приложениях. Ему известны мои маршруты из супераппа Яндекс.Go, мои заболевания, предпочтения в музыке. Яндекс знает, в какие театры я хожу, какие фильмы смотрю, какие товары покупаю в магазине и какую еду заказываю.

    Эта информация, как утверждают в компании, «используется, в основном, для собственных нужд и размещения таргетированной рекламы за счет знаний о клиентских предпочтениях». Ключевое здесь – «в основном». Раньше считалось, что Яндекс – инновационная компания, которая предоставляет пользователям бесплатные сервисы и зарабатывает на рекламе в Интернете. Но как мы знаем из СМИ, теперь Яндекс как минимум продает данные через Бюро Кредитных Историй — работу самого механизма трансфера данных я покажу чуть ниже. Разумно предположить, что желающих купить у интернет-гиганта информацию о пользователях в привязке к номерам телефонов и адресам электронной почты, будет довольно много.

    Другими словами — теперь банки, страховые и юридические компании, медицинские центры, застройщики могут получить номер человека, который заходил на определенный сайт или искал определенный товар, и звонить ему в своих рекламных целях. Или отказать в выдаче страховки или банковского кредита.

    Кому Бюро Кредитных Историй продает данные


    Не требуется быть особым аналитиком, чтобы понять, что БКИ консолидирует данные о конкретных людях не только для банков. На сайте той структуры, с которой работает Яндекс, можно увидеть, что кроме банковского скоринга клиентам также доступны и другие сервисы:

    Сервис «Триггеры Бюро»


    В Банки и Страховые компании передается информация о ваших действиях в триггерном режиме:



    Обратите внимание на логику работы этого сервиса — вы ставите на мониторинг номера телефонов ваших клиентов, и как только они делают какое-либо действие, которое вас интересует, вы получаете об этом уведомление. При этом данные о конкретных действиях клиента не передаются. Просто факт целевого действия – подача или оформление полиса автострахования, заказ такси и прочее.

    Удобно, правда? Особенно с точки зрения объяснения позиции «данные о клиентах не передаются и обрабатываются в Яндексе»? Ведь информацию о действии в виде захода на конкретный web-сайт, можно сообщить, просто передав захэшированный мобильный номер, без каких-либо данных о посещении сайта. А хэш, о чем я говорил выше, можно элементарно сопоставить с хэшами базы пользователей. Можно даже, для упрощения, взять базу всех возможных комбинаций мобильных номеров в России — она доступна на сайте Федерального агентства связи.

    Опять получается, что «зашифрованные», «хэшированные», «обезличенные» данные в терминах Яндекса таковыми не очень-то и являются. И уж точно описанная Яндексом схема не мешает продавать эти данные в рамках рассмотренных сервисов кредитных бюро, которые как раз и могут быть тем самым источником спам-звонков на мой телефон.



    Страховые компании, получив доступ к данным из картографических сервисов Яндекса и его шедеврального супераппа Яндекс.Go, могут определять:

    • где я живу и работаю;
    • как часто езжу на автомобиле;
    • по каким маршрутам я езжу;
    • с какой скоростью я езжу;
    • какой у меня стиль вождения – резко я торможу, лихачу или езжу плавно.

    И это не домыслы, факт сбора этих данных Яндексом стал известен в 2019 году, благодаря вводу в действие Европейского законодательства о защите данных граждан, так называемого GDPR. По нему любая компания обязана предоставлять гражданам Евросоюза информацию о том, какие данные она собирает и анализирует о нем.

    Законом о GDPR воспользовались журналисты издания Meduza, которые из Литвы запросили данные по одному из своих сотрудников.

    В статье Meduza говорится, что журналист получил от сотрудников Яндекса архив, в котором помимо прочего был файл со всей историей перемещений. Информация отслеживалась в тот момент, когда приложение было запущено на смартфоне, в том числе в фоновом режиме. Журналист это называет «историей запуска приложения «Карт» на айфоне с точными координатами, где это происходило» (файл traffic_sessions.csv).

    Интересно, что гражданам РФ такая информация компанией Яндекс не предоставляется. Более того, до сего момента Яндекса даже не представил сервис, который позволил бы понять, кто и когда запрашивал накопленные данные о пользователе. Такой сервис есть даже у Facebook — и сам пользователь может запросить и просмотреть всю информацию о себе.

    Какую персональную информацию точно собирает Яндекс?


    Обратимся к правовым документам на сайте Яндекса. Из пункта 4 мы узнаем, что интернет-гигант может собирать следующие категории персональной информации пользователей во время использования сайтов и сервисов Яндекса:

    • Персональная информация: имя, номер телефона, адрес и возраст;
    • электронные данные (HTTP-заголовки, IP-адрес, файлы cookie, веб-маяки/пиксельные теги, данные об идентификаторе браузера, информация об аппаратном и программном обеспечении);
    • дата и время осуществления доступа к сайтам и/или сервисам;
    • информация об активности пользователя во время использования сайтов и/или сервисов: история поисковых запросов; адреса электронной почты тех, с кем пользователь ведёт переписку; содержание электронной почты и вложения, а также файлы, хранящиеся в системах Яндекса;
    • информация о геолокации;
    • иная информация о пользователях, необходимая для обработки в соответствии с условиями, регулирующими использование конкретных сайтов или сервисов Яндекса;
    • информация, которую Яндекс получает от Партнеров в соответствии с условиями соглашений — заключенных между Яндексом и Партнером.

    С какой целью Яндекс собирает все эти данные?


    Ответ на этот вопрос можно найти в том же документе, внимательно смотрим пункт №5. Помимо понятных целей, таких как:

    предоставление пользователям результатов поиска по поисковым запросам;
    соблюдения установленных законодательством обязательств;
    чтобы лучше понимать, как пользователи взаимодействуют с сайтами и сервисами,

    Яндекс отдельно отмечает, что сбор персональных данных необходим для того, чтобы чтобы предлагать вам другие продукты и сервисы Яндекса или других компаний, которые, по нашему мнению, могут Вас заинтересовать (подпункт пункт «с» пункта 5).

    Однако закон «О персональных данных» (№152-ФЗ) категоричен: статья 15 гласит, что «обработка персональных данных в целях продвижения товаров, работ, услуг на рынке путем осуществления прямых контактов с потенциальным потребителем допускается только при условии предварительного согласия субъекта персональных данных». На стороне пользователей контролирующие органы – ФАС, Роспотребнадзор и Роскомнадзор.

    При этом интернет-гигант свободно передает другим компаниям базы данных с якобы обезличенными персональными идентификаторами, которые по мнению интернет-гиганта перестали быть персональными данными. И Яндекс обеспечил себе это право «делиться» за счет малозаметной строчки во внушительном тексте собственной политики конфиденциальности.

    Вместо заключения


    Законно ли всё это? Ведь я не давал права Яндексу разглашать информацию обо мне кому-либо. Знакомые юристы говорят, интернет-данные и интернет идентификаторы – это «серое» поле нашего законодательства и привлечь Яндекс к ответственности за продажу таких данных о вас невозможно.

    И насколько справедливо, что Яндекс зарабатывает на моих данных, не объясняя мне как именно это происходит и за счет чего формируется этот заработок, ведь это уже давно не только пресловутая реклама утюгов, которая после поиска «утюга» догоняет тебя еще 2 недели на всех сайтах. Это и прямое влияние на качество моей жизни и доступность социальных сервисов и услуг – таких как кредитование, страховки, медицинская помощь.

    Согласитесь, оценка меня как заемщика или страхователя на основе информации о моем поведении в интернете, которая к тому же происходит «в темную» и опирается только на завуалированные термины и оферты, скрытые в подвалах – выглядит абсолютно неэтично и непрозрачно. Это очень напрягает.

    Несмотря на GDPR и ужесточение законов по использованию персональных данных граждан в России, интернет-гигант продолжает монетизировать информацию о нас и абсолютно открыто следит за всеми нашими действиями через свои сервисы. Пусть даже и прикрываясь социально важной темой информирования населения и властей о соблюдении режима изоляции, как в случае с коронавирусом. Возникает разумный вопрос – а кто ещё использует наши данные помимо Яндекса и его коммерческих клиентов?
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 74

      +6
      Крутая статья. Даже не имея технического бэкграунда было интересно дочитать до конца.
      p.s. Интересна реакция Яндекса на подобные заявления в свою сторону…
      Почему об этом честно не сказать своим клиентам, ведь все и так лежит на поверхности?

      Вероятно потому что большая часть аудитории, увидя такое «прямое» заявление, постарается заменить все сервисы Яндекса на продукты других компаний. Но проблема в том, что «другие компании», возможно, работают по такой же схеме.
        +5
        Всмыле
        возможно, работают по такой же схеме.

        Яндекс что, сам всё придумал что ли? :) Слушайте, вы нигде не найдёте компании, которая будет бесплатно давать крутые штуки. Ну, например, яндекс карты. Я не знаю, что есть лучше в России. Гугл даже близко не стоит к яндексу в этом плане. Ну понятно, что если ты ни за что не платишь, значит товар — ты сам. Можно юзать опенсорс, но мы все понимаем, что там немного не на том уровне всё. Я к тому, что автор не открыл никому никакой тайны. То, что нашими данным банчат там и сям, это не секрет. И никуда юзеры яндекса не уйдут. Просто потому, что яндекс тут лучше, чем гугл или кто-то ещё. Они лучше понимают своего клинта, потому что работают именно на него. Дают фичи, которые нужны ему. И клиенту, будем честны, наплевать куда там его данные продают. Ну тебе не всё равно. Но на одного тебя есть хренова гора людей, которые даже не думали о том, что на них зарабатывают. И потому ничерта тут не изменится. Да, жаль (наверное). Но что есть, то есть. Уже много раз говорили: «хочешь приватности, иди в лес». Да и то, не факт, что и там не достанут.
          +1
          У 2ГИС карты лучше. Маршруты строит точнее, каталог организаций актуализируется быстрее.
            0

            … но покрыты далеко не все города.

              0

              Вопрос лишь в том, чьим партнёром является 2гис. Ведь он предоставляет сервис на схожих бесплатных условиях, а соответственно также максимально пытается использовать все каналы монетизации.

                0
                Они берут деньги с организаций за продвижение на картах и в каталоге. Если не ошибаюсь, то у них оплачиваются клики по форме с контактами, номер телефона, почта, адрес сайта.
                  0
                  И как это мешает продавать «обезличенную» информацию а-ля яндекс и гугл? Много денег не бывает.
                  Из более безопасного есть OpenStreetMap — открытый формат карт, который правится жителями, и клиенты вроде OSMand. Правда, с яндексом вообще не сравнить удобство, это просто каменный век, плюс нет всяких пробок, радаров… С другой стороны, здание в промзоне только он и знал, яндекс и гугл вообще в другое место отправляли. (и приехал по osm я именно туда, куда мне и надо было, а не в другие места)
              +1
              Есть некоторые не совсем очевидные проблемы
              Во-первых, свобода выбора. То есть это я как пользователь должен решать, хочу ли я продавать свои данные в обмен на доступ к неким сервисам? Яндекс или гугл не являются лучшими во всем, что другого выбора будто нет.
              Есть waze или navitel как карты, есть спотифай как музыка, есть различные сервисы доставки или такси, которые не имеют ничего общего с uber или яндекс. Поиск — есть тот же бинг.
              Для многих людей было бы гораздо приятнее платить пару долларов в месяц за нужные сервисы и быть свободными от слежки.
              Во-вторых, человеческий фактор
              Всё более-менее ок, когда вся эта инфа используется, чтобы сделать жизнь пользователю удобней, проще и дешевле.
              Но может быть ведб куча способов, когда информация собранная с «твоего» разрешения, при том бесплатно, будет в результате использоваться против тебя же!
              Примеров может быть куча — например, зная уровень твоего дохода, подсовывать тебе на первых строках поиска самые дорогие решения, сообщать каким-то Партнерам, что ты багатенький буратино, который очень сильно хочет купить какой-то товар или услугу — чтобы тебе завысили цены или отменили скидки. Или сообщать банкам, что ты неблагонадежный клиент — и ты будешь получать кредиты с гораздо большей процентной ставкой.
              Операторы в яндексе тоже люди — и они могут сливать инфу о тебе (совершенно конфиденциальную!) всем остальным за плату
              Или просто могут тебе отомстить, используя свое рабочее положение, если ты им насолил в прошлом
              В-третьих, если пользователи утрутся сейчас, то что дальше?
              Дальше будет еще хуже
              Умные дома постепенно приходят в мир
              Это камеры, умные колонки с еще более умными микрофонами, многочисленные датчики
              Умные машины
              тот кто владеет информацией — владеет миром
              яндекс, собственно, будет владеть пользователями (и уже владеет многими)
              яндекс формирует твои интересы, твое образование, твои политические и религиозные взгляды (разумеется, нынешний политический режим ни как на это не повлияет, два раза), круг твоих друзей, твои ожидания от президента, твое довольство нынешней обстановкой…
              если некоторым пользователям такое нормально — то это их личное мнение, я уверен, что многим будет не все равно

                +1
                Агрегация больших объемов данных о человеке, о его решениях и поступках, влечет за собой потенциальную угрозу всем людям.
                Довольно хорошо эта идея показана в 2-3 сезоне «мир дикого запада».
                Сегодня это возможно кажется фантастикой, но фантастика постепенно приходит в наш мир. То, что казалось недавно удивительным, сегодня является обыденным.
                Обладание очень большой выборкой информации о людях, что они делают, когда, как. Это позволит создавать психологические портреты, статистический образ. И уже с помощью этого образа определять рычаги воздействия.
                Потому, как просто большая прибыль это хорошо, но у многих компаний она есть. Сегодня она есть, а завтра ее нет. Инструмент контроля вот, то что нужно очень многим в том числе и на государственном уровне.
                  0
                  Ну, в основном, большие данные собираются и используются именно для получения больших денег
                  либо для власти — как в ситуации с кембридж аналитика — но результатом власти становятся еще большие деньги
                +6
                Давайте приведу простую аллегорию.

                Завтра Яндекс представит сервис Яндекс.Холодильник. Это будет программно-аппаратный комплекс, суперсовременный, с интернетом вещей и автоматическим заказом и подвозом продуктов.

                Чтобы развить базу клиентов, Яндекс сделает для новых пользователей льготный период — любые продукты будут поступать в холодильник совершенно бесплатно. Но есть нюанс — как только вы будете их брать, чтобы скушать или что-то приготовить, Я.Холодильник будет отчитываться своему «товарищу майору» о вашем поведении. Будет втихую от вас считать время изъятия продуктов, съеденные вами калории, определять полезность заказанных блюд и кулинарную эстетику сочетания тех или иных ингредиентов. На основе всего этого будет рассчитываться некий рейтинг. И, конечно, Я.Холодильник попутно будет делать фотографию вашего лица, каждый раз, когда вы будете открывать дверцу.

                Все собранные данные, безусловно, «будут обезличены хэшем MD5», и попадут на хранение и обработку третьей стороне — сети медицинских клиник, которая будет рассчитывать стоимость услуг исходя из вашего «портфолио».

                И когда в следующий раз потребуется визит к доктору, будь то плановый или хуже того — внеплановый, клиника будет проводить расчёт стоимости исходя из «данных, полученных из открытых источников». Грубо говоря — полгода пил пиво и ел свиные ребрышки? Окей, для вас, сэр, всего +300% к базовому тарифу на лечение гастрита.
                  +6
                  И когда в следующий раз потребуется визит к доктору, будь то плановый или хуже того — внеплановый, клиника будет проводить расчёт стоимости исходя из «данных, полученных из открытых источников». Грубо говоря — полгода пил пиво и ел свиные ребрышки? Окей, для вас, сэр, всего +300% к базовому тарифу на лечение гастрита.

                  Это хорошо ещё если так. Ну то есть такой подход хотя бы будет подвигать людей питаться более правильно.

                  А вот если скажем вы приходите к окулисту, а он вам даёт наценку в 300% потому что вы себе можете позволить условные «пиво и свиные рёбрышки» два раза в неделю, то тут всё это дело начинает играть ещё более яркими красками…
                    +2
                    будет втихую от вас считать время изъятия продуктов, съеденные вами калории, определять полезность заказанных блюд и кулинарную эстетику сочетания тех или иных ингредиентов.

                    Я.Холодильник — теперь с удобным трекером калорий и оценкой полезности пищи!
                    +3
                    Да, распространенное мнение «мне скрывать нечего» и «и так все все знают».
                    Но, основная проблема тут не в последующей назойливой рекламе. Намного опасней социальная инженерия, когда по собранным о человеке данных можно 1) получить от него недостающие конфиденциальные данные (неожиданный звонок от «родственника» или из «банка») и 2) пройти онлайн идентификацию. Например, в банке.
                  +5
                  который заходил на определенный сайт или искал определенный товар, и звонить ему в своих рекламных целях. Или отказать в выдаче страховки или банковского кредита.

                  Звонить в рекламных целях они не могут. В законе (даже в двух) по этому поводу есть прямой запрет.

                  А вот отказать в выдаче кредита — это запросто. И полагаю, что даже законно, так как в процессе подачи заявки будет требоваться разрешение на обработку соответствующих ПД. Хотя… Там даже по 152-ФЗ и разрешение спрашивать не надо, т.к. оно подходит под:
                  5) обработка персональных данных необходима для исполнения договора, стороной которого либо выгодоприобретателем или поручителем по которому является субъект персональных данных, а также для заключения договора по инициативе субъекта персональных данных или договора, по которому субъект персональных данных будет являться выгодоприобретателем или поручителем;
                    +1
                    Звонить в рекламных целях они не могут. В законе (даже в двух) по этому поводу есть прямой запрет.

                    Это уже давно придумали как обходить. Бесплатное обследование. Бесплатная кепка при покупке квартиры. Или спецпредложение, о желании прослушать которое предварительно спрашивают. Итог-то один — звонок, отвлечение и трата времени на ненужный шлак.
                      0
                      Бесплатное обследование. Бесплатная кепка при покупке квартиры.

                      В законе не сказано, что можно рекламировать что-то бесплатное. Там четко сказано, что рекламировать без согласию нельзя ничего.

                      Или спецпредложение, о желании прослушать которое предварительно спрашивают.

                      Обзвон без участия человека запрещен. Так что предварительно спрашивать тоже незаконно.

                      Но… Я согласен, что это заколебешься доказывать, а уж с идиотией от андроида, с которым нельзя записать звонок это становится еще сложнее, т.к. ФАС требует для открытия дела именно запись звонка:(.
                        +2
                        В законе не сказано, что можно рекламировать что-то бесплатное. Там четко сказано, что рекламировать без согласию нельзя ничего.

                        Так они не говорят «реклама». Это бесплатная промоутерская акция.
                        Обзвон без участия человека запрещен. Так что предварительно спрашивать тоже незаконно.

                        Вот здесь было бы здорово, если б работало.
                          0
                          Ксяоми, реалми — есть кнопки записи. В особо ущербных фирмах — скорее всего можно поставить из магазина другую звонилку. Если же это принудительно блокируется — может, стоит поменять телефон и навсегда забыть данную фирму?
                            0
                            На двух летней ксяоми есть такая кнопка, на однолетней уже нету:(. Из комментария я не понял, предлагается забыть ксяоми?
                              0
                              На большинстве андроид телефонах физически запись звонков с линии не блокирована. Так что если в родной прошивке нет кнопки — просто попробуйте поставить приложение записи звонков, например такое. На некоторых телефонах, правда, например у Хаувея, нужно будет ещё настроить энергосбережение для подобных программ, чтоб телефон не усыплял приложение и запись стартовала нормально.
                              А вот телефоны от Эппл однозначно в пролёте с записью звонков (физически заблокирована возможность), впрочем среди всех моих знакомых, пользующихся Эпплом — никто не считает это минусом.
                                0
                                На сколько мне известно, в Андроиде начиная с 10-й версии запись звонков заблокирована на уровне системы. Об этом можно судить и по отзывам на Google Play к приложению, которое вы порекомендовали. Голос собеседника можно записывать только через микрофон, включив громкую связь.
                                  0
                                  realme 6i, android 10, запись есть в штатной звонилке.
                            0
                            а уж с идиотией от андроида, с которым нельзя записать звонок это становится еще сложнее

                            во-первых, рут, магиск и колл рекордер, и не обязательно всё это делать самому (правда, тут тоже вопрос доверия всплывает)
                            во-вторых, тот же андроид (да и яндекс) нормально блокирует большую часть телефонного спама, я каждый день вижу в списке вызовов пару-тройку заблокированных вызовов от МТС, РТК, банка восточный и телеопросов
                              0
                              Обзвон без участия человека запрещен. Так что предварительно спрашивать тоже незаконно.

                              мммммм, вчера 3 раза IVR от сбера звонил, с предложениями…
                          –4
                          С дешифровкой хэшей вы занимаетесь ерундой — кто сказал, что подсчет производился на данных в бинарном виде, это мог быть юникод, джейсон и много чего ещё. Тут и соль никакая ненужна.
                          А передача данных сторонним организациям по партнёрскому договору с ними, официально прописана в этом самом договоре…
                            +4
                            Вы наверно не до конца поняли суть: хэшируется только номер телефона в формате, который указан Яндексом в открытом виде. Никаких джейсонов сервис Яндекса не поддерживает, только хэш от числа определенного формата, на сколько понял
                              +1
                              Тогда и дехэшировать ничего не надо.

                              Храним md5(телефон). Приходит запрос на скоринг телефон — ищем в базе по совпадению md5(телефон)…
                                +2
                                Вынужден с вами не согласиться. Суть я как раз понял, но вы, также, как и ТС, видимо, не совсем представляете принцип хэширования данных. Поясняю: хэш строится на основании последовательности байт, переданных в функцию и именно байт, а не символов. А вот что из себя представляет эта последовательность байт — это большой вопрос.

                                Наглядный пример
                                Номер телефона в следующих примерах: 88001234567

                                1. Передан в виде текстовой строки, где каждый байт представляет собой символ из таблицы ASCII, соответствующий каждой цифре номера — 2d6895b3050243a6150c87cad8825655
                                2. Передан в виде текстовой строки, где каждые два байта представляют собой символ из таблицы UCS-2 BE (Unicode), соответствующий каждой цифре номера — e8c7f423b90a8f01cb02174e5a369c0a
                                3. Передан в виде текстовой строки, где каждые два байта представляют собой символ из таблицы UCS-2 LE (Unicode), соответствующий каждой цифре номера — 891b3d0cffe18d8cc22dfbc97878992d
                                4. Передан в виде последовательности байт, где каждый байт представляет собой число, соответствующее каждой цифре номера — 804584012e982aa00830a73937b86bf1
                                5. А это бонус, здесь каждые полбайта представляют собой число, соответствующее каждой цифре номера — c2d2df9d446ed5e221e577dabde95667

                                И вот скажите мне пожалуйста, какой из вариантов правильный? Вероятнее всего, вам покажется, что это четвертый пункт. Но это не так. Здесь нет правильных и неправильных вариантов — все они пригодны для хэширования данных. Все зависит от автора кода и техпроцесса, в котором эти данные передаются. Замечу, что четвертый (и тем более пятый) пункт более сложен в реализации, так как данные от пользователя в преобладающем большинстве поступают в текстовом виде и преобразовывать их в числовую последовательность никто специально не будет.
                                Соль суть хэширования в том, что исходные данные знает только то лицо, которое их хэширут и то лицо, для кого эти данные предназначены.
                                Про джейсон вы не совсем поняли, данные можно представить и так:
                                {"phone": "88001234567"}

                                Здесь хэшировать строку можно прямо в таком виде (hash: 1772667c4aa2de4b3ff097903884aa9e).

                                Следовательно, автору статьи нужно точно знать, что из себя представляли данные на входе хэш-функции, чтобы получить тот же номер, а не случайный набор цифр.
                                Спасибо за сомнение — заморочился на пример. И не лень ведь было. :D
                                  +2
                                  Формат данных, которые должны быть поданы на вход в хэш-функцию, Яндекс зафиксировал и описывает в разделе справка сервиса Яндекс.Аудитория
                                    0
                                    В любом случае яндекс делает нормализацию. Самое банальное — EMAIL@mail.ru, Email@mail.ru, emaiL@mail.ru — это всё 1 почта, поэтому такие вещи как логины, почта — используют всякие .toLower(). Также в телефонии почти всегда нормализуют +, (), -, пробелы. Так что да, никто не страдает глупостью с расшифровкой хэшей, а ведь можно и sha256 взять. Просто нормализуют, потом хэшируют входные данные и простейшим поиском за миллисекунды получают нужную связанную запись. Тем более ни сама почта, ни номер напрямую не используются (хотя если они нужны — они есть в открытом виде на входе).
                                    Ну и главное. В базе допустим 100млн хэшей. Даже если на «расхэширование» тратить 0.01с, это просто не будет работать на таких объёмах. Так что исключительно сравнение хэшей.
                                      0
                                      Перечитал еще раз статью (может быть я что-то упустил; на самом деле по тексту много нюансов, но некритичных), пришлось разобраться с сервисом «Аудитория». Надеюсь этот ответ будет исчерпывающим.
                                      Во первых, БКИ не использует сервис «Аудитория» однозначно, сервис работает по принципу от общего к общему, а БКИ нужно от частного к частному. Между Яндексом и БКИ должен быть договор иного рода. Тем более на выходе у БКИ все равно будет некий «коэффициент лояльности» и им в руки никогда не попадут личные данные, собранные Яндекс. Разговор между ними условно выглядел так: давайте, мы вам мыло или телефон клиента, а вы нам число от 0 до 10, кому можно кредит давать, а кому нет. Как вы там это будете считать, с помощью толпы математиков или шамана с бубном нас не интересует, но чтобы данные были точные (речь про коэффициент, просто число).
                                      Во вторых, сервис «Аудитория» работает иначе — вы загружаете туда телефон одного человека, а он вам возвращает тысячу человек похожих на того, которого вы туда загрузили. И чем конкретней вы будете подбирать клиентов для загрузки, тем точнее вам сервис вернет подходящую аудиторию. И учитывайте, что данные об аудитории вы не получите, Яндекс сам доставит рекламу предполагаемой аудитории. Также замечу, что на скриншоте опущен комментарий к форме: «Файл должен включать не менее 1 000 записей и соответствовать требованиям.», что дает большую ясность картины.
                                      В третьих, частичное хэширование данных (номер, почта) при загрузке файла в сервис предназначено для защиты тех клиентов, которых вы загружаете в сервис. Это, примерно, на тот случай, если у вас в офисе отключили интернет и вы попросили прохожего загрузить данные с флешки в соседнем интернет кафе. Данные сильно короче хэша — просто защита от дурака.
                                      И замечу, что я ни коим образом никого не защищаю, просто при более детальном рассмотрении возникают некоторые несоответствия.
                                      Ошибкой яндекса было указывать в подсказке рабочие хэши, если это, правда не коллизии на номера.
                                      История этой деперсонализации длинная, но это можно сравнить, например, с блюром — по контурам можно определить ту или иную категорию, но точный рисунок уже получить невозможно. И здесь то же самое, вы просите Яндекс показать рекламу тем, кто в блюре похож на квадрат или треугольник. Но вы никогда не узнаете кому он ее показал. По этому рекламодатели проводят свои опросы — как вы о нас узнали, из рекламы в интернете, ага и ставят плюсик. А потом сравнивают цифры рекламных источников и понимают сработала эта таргетированая реклама или нет.
                                        0
                                        Хотя… я вот сейчас подумал, а ведь сквозная реклама вполне возможна… если клиент в профиле почты указал еще и свой телефон.
                                        Но, тут речь о другом, все эти базы — абстракция. Вы обращаетесь к сервису и говорите, у нас отоварилось сто человек, вот их номера, подберите нам пожалуйста еще десять тысяч человек, которые точно купят наш товар. И по «шаманским» алгоритмам сервис возвращает, по его мнению, похожих людей. Но часто выходит, что это просто тыканье пальцем в небо.
                                0
                                Наверняка, по такой же схеме работает и Мейл.ру и другие крупные IT организации?
                                  –9
                                  «Все эти методы, будем говорить прямо, незаконны, так как нарушают положения закона «О персональных данных» (№152-ФЗ)»

                                  Общеизвестные данные могут обрабатываться невозбранно. Так что ничего они не нарушают, если берут данные, сделанные общедоступными самим их обладателем.
                                    +2
                                    Вы серьезно? Пользователь условно Яндекс.Такси, регистрируясь в приложении и оставляя свой номер, не делал его общедоступным. Он собирался воспользоваться сервисом Такси, а по факту его данные начинают использоваться для прочих целей и передаваться третьим лицам.
                                      –4
                                      Я говорю про данные из профилей соцсеточек.
                                        +3
                                        это да, но речь в статье о другом
                                          0
                                          Даже у ВКонтакта настройка видимости страницы имеет 3 значения: Только пользователям ВКонтакта, Всем, Всем, кроме поисковиков (и комментарий что это сокрытие страницы например от гуглояндексов (видимо).
                                          Если у пользователя стоит что-то кроме варианта «Всем» — почему это считается что он согласился сделать данные общедоступными?
                                          0
                                          Есть один нюанс. Как часто вы читаете договор оферты, когда регистрируетесь в том или ином приложении? Чаще всего, в каждом из них прописан пункт на право использования данных организатором или его партнерами (в соответствии с ФЗ конечно). Просто организатор умалчивает, кто являются его партнерами.
                                            +1
                                            Чаще всего, в каждом из них прописан пункт на право использования данных организатором или его партнерами (в соответствии с ФЗ конечно). Просто организатор умалчивает, кто являются его партнерами.

                                            Если речь идет об обработке персональных данных, и не экзотика в виде обезличенных, то передача их кому-либо здорово ограничена и допускается только в конкретных целях, прописанных в 152-ФЗ. В остальных случаях пункт в оферте ни на что не влияет. Должно быть отдельное согласие физлица, причем отсутствие такого согласия не может препятствовать заключению договора (оферты).
                                        +8
                                        Пара замечаний про взлом md5. Все случаи как такового «взлома» на настоящий момент относятся не к обратимости md5, а к тому, что можно относительно легко сгенерировать пару строк для коллизии. Подобрать колизию к наперед заданному хешу (обратить) на данный момент не удалось никому. Потому говорить о взломе md5 еще очень рано.

                                        Теперь перейдём к хешированию. Необратимо захешировать номер телефона на современных мощостях не представляется возможным. Какой бы алгоритм хеширования вы не выбрали, перебрать все 9ти значные числа — ничего не стоит. Их всего миллиард. Даже не надо иметь для этого видеокарт. Можно просто составить таблицу на миллиард записей. Что интересное длина хеша при этом не играет уже никакой роли. Только сложность алгоритма, вернее время его работы.

                                        Добавление соли — обязательное условие, но даже оно не является достаточным. Знание соли и механизма хеширования достаточно для того чтобы восстановить номер телефона.

                                        Примерно то же самое относится и к хешированию email. email перед хешированием обычно нормализуется (приводится к одному регистру). Популярных доменов для email — десяток. Остаётся только брутфорсом перебрать имена ящиков на довольно ограниченном множетсве символов [a-z0-9]. Хотя гарантированной обратимости тут еще пока нет, но на практике доля обратимых имейлов очень большая.
                                          0
                                          Согласен и удивлен почему площадки типа яндекса не придумали схему асинхронным шифрованием, например rsa.
                                            0

                                            Если даже не углубляться в конспирологию, при использовании схемы с rsа, если работать честно, то придется каждый номер шифровать ключом каждого заказчика. А если схитрить, то никто не мешает сгенерировать все 10 миллиардов телефонов (меньше, вред ли нам дали не мобильный номер) и установить, каких именно пользователей нам зашифровали.

                                              +2
                                              Согласен, когда мощность шифруемого множества небольшая — ничего не поможет
                                              0
                                              Прошу прощение за занудство, но вы скорее имели в виду асимметричное шифрование
                                              0
                                              Примерно то же самое относится и к хешированию email. email перед хешированием обычно нормализуется (приводится к одному регистру). Популярных доменов для email — десяток. Остаётся только брутфорсом перебрать имена ящиков на довольно ограниченном множетсве символов [a-z0-9]. Хотя гарантированной обратимости тут еще пока нет, но на практике доля обратимых имейлов очень большая.

                                              Удачи. (например имена ящиков это НЕ [a-z0-9], там больше допустимых символов (читаем например habr.com/ru/post/274985 а вообще таких статей несколько), и что еще хуже для любителей реверсить — разные сайты по разному проверяют корректность, большинство делают это неправильно(иногда — намеренно), но по разному неправильно).
                                              Насчет «десятка» доменов — ну например у mail.ru у одних 4 штуки в форме регистрации.
                                              У Hotmail/Live.com — 3-5 доменов… и обычно 1-2 — уникальны для каждой из поддерживаемых стран(всякие live.com.pt/live.ru) (см например www.internetearnings.com/how-to-register-live-or-hotmail-e-mail-address )
                                              А если вспомнить почти-бесплатные варианты вроде возможности взять свой домен и бесплатную почту для домена от Яндекса например?
                                                0
                                                Все верно. Я так и сказал, что прямого способа расшифровки нет и пока не предвидится. Но если сосредоточиться не на 100% расшифровке, а на расшифровке самого простого или популярного, то обнаружится много классных статистических особенностей, которые позволяют расшифровать довольно много. И особенности довольно простые.
                                                Отвечая на ваши замечания.
                                                Допустимое разнообразие почтовых адресов, конечно, шире, чем я написал. Только вот реальные пользователи используют эти адреса на тех самых сайтах, которые валидируют их неправильно, сами же пользователи диктуют эти адреса голосом. Вобщем, пользователи делают достаточно простые или короткие адреса для своего удобства.
                                                Касательно же доменов почтовых сервисов — да, их довольно много. Но если мы будем говорить про какую-нибудь конкретную страну, то обнаружится, что подавляющее большинство адресов представлено с небольшого ограниченного числа доменов специфичных для конкретной страны или даже группы стран.
                                              +9
                                              Дополню статью, относительно недавно узнал, что даже не на чёрном рынке, а весьма открыто есть сервисы по опрделению номера телефона посетителя сайта (гугл в помощь). Вот едешь в автобусе, видишь автосалон известной марки, заходишь к ним на сайт посмотреть цены, а они тебе сами уже названивают. Это не фантастический фильм. Это — реальный пример. У меня есть догадки как именно они определяют номер телефона, но ни одна из этих догадок не связана с законностью или профессионализмом.
                                                0
                                                Как-то лазал по сайту одного застройщика, и через 5 минут звонок от тинькофф с предложением их партнерки по ипотеке (тогда она еще была).
                                                  0
                                                  С телефона лазали? — Тогда это скорее всего сам мобильный оператор слил… На хабре была статья, как операторы телефон в трафик прокидывают в http-заголовки…
                                                    0
                                                    Нет, с пк.
                                                    0

                                                    С wi-fi мгтсовского заходил на Я.Недвижимость, почти сразу начал звонить Тинёк, предлагать ипотеку

                                                      0
                                                      Некоторые сервисы такого типа даже не особо скрывают
                                                      Основной вопрос, который нам постоянно задают – «как сайт узнает номер»? Наша технология легальная, запатентована, имеется аккредитация в РосКомНадзор.

                                                      На ваш ресурс ставится специальный счетчик, внешне похожий на Яндекс.Метрику или Google Analitics. Данный счетчик считывает цифровой след посетителя, а именно — его IP, данные браузера, операционной системой, параметрами монитора и т.д. Далее, эти данные сопоставляются с отпечатками пользователей, которые имеются в нашей базе. По тем записям, где произошло совпадение — мы предоставляем вам телефон посетителя.

                                                      Читать — мы достаем базы. Где — не скажем (может и у яндекса). И отслеживаем клиента везде где можем.
                                                        0
                                                        Возможно технологии WantResult :)
                                                        0
                                                        Раньше соцсети сливали вас с потрохами через все эти виджеты и пиксели. Сейчас не знаю
                                                          0

                                                          А вы хотя бы раз оставляли в Интернете (например, при оформлении заказа в интернет-магазине) свой номер телефона и данные о себе? Если так, то зря, так как многие сайты интегрированы с системами аналитики, которым передаются данные о клиенте. Получается, что возможна такая схема:


                                                          • вы оформляете заказ
                                                          • магазин сливает данные о вас 10 разным системам аналитики, которые собирают "отпечаток" вашего браузера, ваш IP и привязывают к ним ваши данные
                                                          • спустя месяц вы заходите на какой-то другой сайт, где стоят эти системы аналитики, они вас узнают по "отпечатку" браузера, кукам или чему-нибудь еще и передают ваш номер владельцу сайта

                                                          Тут, по моему, 100% незаконная схема, но в нашей стране законы о ПД все равно не работают, потому их никто не наказывает.


                                                          Вторая схема сбора — кликджекинг. Вы заходите на сайт, вам под мышку подводится прозрачная кнопка вступления в группу вконтакте, вы на нее жмете, и сайт знает ваш профиль в соцсети. Это, правда, больше не для сбора телефонов, а профилей в соцсети.

                                                            0
                                                            Если так, то зря

                                                            А как иначе-то? Сейчас ни одна собака не примет заказ без подтверждения звонком. Даже смс уже не котируется. Вот разве что Ситилинк исключение. Интересно, а если заказывает глухой или немой — как быть?
                                                          +3
                                                          ИМХО, закрыть персональные данные не удастся. Остаётся только их замусорить
                                                            0
                                                            Когда-то работал в Яндексе в группе админов внутренних сервисов. Рядом за закрытой стеклянной дверью сидели безопасники. Неоднократно был свидетелем того, как ребята, невзирая на должности, футболили спецпосетителей на предмет доступа к почте клиентов. Увы, времена меняются: money talks!
                                                              0
                                                              Конечно)) «Это наша корова, и мы её доим»!
                                                              0
                                                              Я вот поигрался с хэшкотом в РБ… сейчас на мне за него висит статья за использование вредоностного ПО )))
                                                              Сорь, что не по теме
                                                                0
                                                                Очень интересно почитать об этом подробнее.
                                                                +4
                                                                Кстати, давно хотел узнать — есть ли возможность где-то посмотреть как Яндекс, кхм, «видит тебя»?
                                                                По аналогии как у Гугла: adssettings.google.com/authenticated?pli=1
                                                                  +3

                                                                  Когда-то был Яндекс.Робот, но его, кажется, вскоре после релиза прикрыли. Там были ползунки, что вы "на 15% холостяк", на "80% программист", "на 20% зоолог" и т.п.


                                                                  Кстати, а что у вас по гугловой ссылке? Я, похоже, когда-то отключил себе персонализацию рекламы, и там нет ничего интересного, даже если включить её обратно. :/

                                                                    0
                                                                    Извините за долгий ответ, как-то пропустил ваш комментарий.
                                                                    По ссылке у меня отображается очень длинный перечень как бы тегов, которые Гугл связывает со мной. Какие-то просто указывают на вещи, которые я часто гуглю («Аудиотехника», «Linux», «Ozon» и т.п.), другие же показывают его непойми с чего взятые предположения обо мне (например «Высокий доход» — вот уж где, к сожалению, он ошибся) :)
                                                                    Если считаешь, что какая-то информация о тебе ошибочна, то можно кликнуть на тег и убрать его.
                                                                    Вот скрин кусочка этих данных i.imgur.com/n8wtcUl.png
                                                                  –5
                                                                  Конспирология такая конспирология.
                                                                  Иначе в интерфейсе для рекламодателей должно было бы присутствовать поле для указания соли. А его там нет!

                                                                  А для чего нужно было бы знать Яндексу соль, с которой телефоны хэшируются на другой стороне? Как раз если бы там было поле для ввода соли, это было бы подозрительно.
                                                                  Очевидно, что самый быстрый и простой вариант — использование радужных таблиц

                                                                  Неправда. Если телефоны несолёные (хотя как мы выяснили выше, это совершенно необязательно так), то самый быстрый вариант — предпосчитать и хранить несколько миллиардов и даже триллионов хэшей md5 от всех потенциально возможных номеров телефонов. А если используется соль (неизвестного формата и длины), то и радужные таблицы не сильно помогут.
                                                                  А вообще, в статье домыслы на домыслах и домыслами погоняют: «разумно предположить», «веры нет никакой», «скажем прямо» и остальное, ну куда это годится. Хотел почитать про «слежку от яндекса», а оказалось, там всего лишь выкатили недотестированный релиз. Ну это что получается, шпион все собираемые данные ещё и на устройстве жертвы сохраняет? Для бэкапа что ли, чтоб не потерять, или чтобы его обнаружили побыстрее?
                                                                  Не факты, а одни лишь предположения, местами ещё и необоснованные выводы, ну на троечку с минусом, я бы сказал.
                                                                    0
                                                                    Немного странно осознавать то что твои персональные данные (их деобезличивание на вычислительных мощностях Яндекса) подогревает воду в системе отопления твоего дома, как это происходит в финском городке Мянтсяля, где система охлаждения ЦОД Яндекса соединена с теплосетью города.
                                                                      +1
                                                                      Автор топит за защиту своих данных, но в расследовании использует ПО, в пользовательском соглашении которого написано (примерно) "… соглашается с тем… все контакты с устройства пользователя будут по умолчанию и без вариантов, полностью переданы неизвестно куда для использования сервисом..".
                                                                      Странно это.

                                                                      А по поводу описанного использования данных — так да, что в этом такого?
                                                                      Сервис использует эти данные.

                                                                      Я собственными глазами видел систему, которая держит у себя в базе хэши телефонов клиентов и обменивается ими с яндексом.
                                                                      При этом никакая информация, _по закону_ относящаяся к ПД, не передаётся.

                                                                      Цели -в основном сэкономить кучу денег на затратах на нерелевантную рекламу.
                                                                        0
                                                                        рассылку по вашей базе клиентов, проходящих в определённом месте. Более того, они все давно сотрудничают с операторами наружной рекламы, и трекают, что вы проезжали/проходили мимо конкретного рекламного щита, и таким образом считают CPM, и всё это видно у них в личном кабинете.
                                                                        Ничего поделать с этим нельзя, просто знать и жить дальше.

                                                                        2. Не совсем понятно, зачем в начале статьи очень многообещающее начало про телефонных спамеров, и причём тут яндекс, если эта тема не раскрыта совсем. Мне тоже бывает по 10 спам звонков в день идут, и здесь виноваты обычно банки, которые продают номер партнёрам, да и сами постоянно названивают с предложением кредита. Яндекс то тут причём и БКИ? Из БКИ пока никто не звонил :)

                                                                        p.s. rainbow таблицами люди уже как лет 10 не пользуются.
                                                                          0
                                                                          Не целиком комментарий отправился.

                                                                          1. Данные о перемещаниях продают все, у кого они есть. Сотовые операторы тоже на каждой конференции это рекламируют например, и предлагают делать смс рассылку по вашей базе клиентов, проходящих в определённом месте. Более того, они все давно сотрудничают с операторами наружной рекламы, и трекают, что вы проезжали/проходили мимо конкретного рекламного щита, и таким образом считают CPM, и всё это видно у них в личном кабинете.
                                                                          Ничего поделать с этим нельзя, просто знать и жить дальше.

                                                                          2. Не совсем понятно, зачем в начале статьи очень многообещающее начало про телефонных спамеров, и причём тут яндекс, если эта тема не раскрыта совсем. Мне тоже бывает по 10 спам звонков в день идут, и здесь виноваты обычно банки, которые продают номер партнёрам, да и сами постоянно названивают с предложением кредита. Яндекс то тут причём и БКИ? Из БКИ пока никто не звонил :)

                                                                          p.s. rainbow таблицами люди уже как лет 10 не пользуются.
                                                                          0
                                                                          Совершенно не понял зачем яндексу взламывать хеши.

                                                                          У яндекса есть телефон в открытом виде. Он получил хеш этого номера и знает ка этот хеш был сформирован. Что мешает просто сформировать от своего открытого представления хеш и сравнить их?

                                                                          Вот если ко-то со стороны получит эти хеши — то да тут встает задача именно взлома хешей.
                                                                            0
                                                                            Занимательная статья! Спасибо.
                                                                              +1
                                                                              ailpein, к слову о Яндексе — проект прикрыли без объяснения причин) видимо осознали.
                                                                              rb.ru/news/yandex-scoring
                                                                              может стоит добавить апдейт в пост?

                                                                              Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                                              Самое читаемое