Comments 74
p.s. Интересна реакция Яндекса на подобные заявления в свою сторону…
Почему об этом честно не сказать своим клиентам, ведь все и так лежит на поверхности?
Вероятно потому что большая часть аудитории, увидя такое «прямое» заявление, постарается заменить все сервисы Яндекса на продукты других компаний. Но проблема в том, что «другие компании», возможно, работают по такой же схеме.
возможно, работают по такой же схеме.
Яндекс что, сам всё придумал что ли? :) Слушайте, вы нигде не найдёте компании, которая будет бесплатно давать крутые штуки. Ну, например, яндекс карты. Я не знаю, что есть лучше в России. Гугл даже близко не стоит к яндексу в этом плане. Ну понятно, что если ты ни за что не платишь, значит товар — ты сам. Можно юзать опенсорс, но мы все понимаем, что там немного не на том уровне всё. Я к тому, что автор не открыл никому никакой тайны. То, что нашими данным банчат там и сям, это не секрет. И никуда юзеры яндекса не уйдут. Просто потому, что яндекс тут лучше, чем гугл или кто-то ещё. Они лучше понимают своего клинта, потому что работают именно на него. Дают фичи, которые нужны ему. И клиенту, будем честны, наплевать куда там его данные продают. Ну тебе не всё равно. Но на одного тебя есть хренова гора людей, которые даже не думали о том, что на них зарабатывают. И потому ничерта тут не изменится. Да, жаль (наверное). Но что есть, то есть. Уже много раз говорили: «хочешь приватности, иди в лес». Да и то, не факт, что и там не достанут.
… но покрыты далеко не все города.
Вопрос лишь в том, чьим партнёром является 2гис. Ведь он предоставляет сервис на схожих бесплатных условиях, а соответственно также максимально пытается использовать все каналы монетизации.
Из более безопасного есть OpenStreetMap — открытый формат карт, который правится жителями, и клиенты вроде OSMand. Правда, с яндексом вообще не сравнить удобство, это просто каменный век, плюс нет всяких пробок, радаров… С другой стороны, здание в промзоне только он и знал, яндекс и гугл вообще в другое место отправляли. (и приехал по osm я именно туда, куда мне и надо было, а не в другие места)
Во-первых, свобода выбора. То есть это я как пользователь должен решать, хочу ли я продавать свои данные в обмен на доступ к неким сервисам? Яндекс или гугл не являются лучшими во всем, что другого выбора будто нет.
Есть waze или navitel как карты, есть спотифай как музыка, есть различные сервисы доставки или такси, которые не имеют ничего общего с uber или яндекс. Поиск — есть тот же бинг.
Для многих людей было бы гораздо приятнее платить пару долларов в месяц за нужные сервисы и быть свободными от слежки.
Во-вторых, человеческий фактор
Всё более-менее ок, когда вся эта инфа используется, чтобы сделать жизнь пользователю удобней, проще и дешевле.
Но может быть ведб куча способов, когда информация собранная с «твоего» разрешения, при том бесплатно, будет в результате использоваться против тебя же!
Примеров может быть куча — например, зная уровень твоего дохода, подсовывать тебе на первых строках поиска самые дорогие решения, сообщать каким-то Партнерам, что ты багатенький буратино, который очень сильно хочет купить какой-то товар или услугу — чтобы тебе завысили цены или отменили скидки. Или сообщать банкам, что ты неблагонадежный клиент — и ты будешь получать кредиты с гораздо большей процентной ставкой.
Операторы в яндексе тоже люди — и они могут сливать инфу о тебе (совершенно конфиденциальную!) всем остальным за плату
Или просто могут тебе отомстить, используя свое рабочее положение, если ты им насолил в прошлом
В-третьих, если пользователи утрутся сейчас, то что дальше?
Дальше будет еще хуже
Умные дома постепенно приходят в мир
Это камеры, умные колонки с еще более умными микрофонами, многочисленные датчики
Умные машины
тот кто владеет информацией — владеет миром
яндекс, собственно, будет владеть пользователями (и уже владеет многими)
яндекс формирует твои интересы, твое образование, твои политические и религиозные взгляды (разумеется, нынешний политический режим ни как на это не повлияет, два раза), круг твоих друзей, твои ожидания от президента, твое довольство нынешней обстановкой…
если некоторым пользователям такое нормально — то это их личное мнение, я уверен, что многим будет не все равно
Довольно хорошо эта идея показана в 2-3 сезоне «мир дикого запада».
Сегодня это возможно кажется фантастикой, но фантастика постепенно приходит в наш мир. То, что казалось недавно удивительным, сегодня является обыденным.
Обладание очень большой выборкой информации о людях, что они делают, когда, как. Это позволит создавать психологические портреты, статистический образ. И уже с помощью этого образа определять рычаги воздействия.
Потому, как просто большая прибыль это хорошо, но у многих компаний она есть. Сегодня она есть, а завтра ее нет. Инструмент контроля вот, то что нужно очень многим в том числе и на государственном уровне.
Завтра Яндекс представит сервис Яндекс.Холодильник. Это будет программно-аппаратный комплекс, суперсовременный, с интернетом вещей и автоматическим заказом и подвозом продуктов.
Чтобы развить базу клиентов, Яндекс сделает для новых пользователей льготный период — любые продукты будут поступать в холодильник совершенно бесплатно. Но есть нюанс — как только вы будете их брать, чтобы скушать или что-то приготовить, Я.Холодильник будет отчитываться своему «товарищу майору» о вашем поведении. Будет втихую от вас считать время изъятия продуктов, съеденные вами калории, определять полезность заказанных блюд и кулинарную эстетику сочетания тех или иных ингредиентов. На основе всего этого будет рассчитываться некий рейтинг. И, конечно, Я.Холодильник попутно будет делать фотографию вашего лица, каждый раз, когда вы будете открывать дверцу.
Все собранные данные, безусловно, «будут обезличены хэшем MD5», и попадут на хранение и обработку третьей стороне — сети медицинских клиник, которая будет рассчитывать стоимость услуг исходя из вашего «портфолио».
И когда в следующий раз потребуется визит к доктору, будь то плановый или хуже того — внеплановый, клиника будет проводить расчёт стоимости исходя из «данных, полученных из открытых источников». Грубо говоря — полгода пил пиво и ел свиные ребрышки? Окей, для вас, сэр, всего +300% к базовому тарифу на лечение гастрита.
Но, основная проблема тут не в последующей назойливой рекламе. Намного опасней социальная инженерия, когда по собранным о человеке данных можно 1) получить от него недостающие конфиденциальные данные (неожиданный звонок от «родственника» или из «банка») и 2) пройти онлайн идентификацию. Например, в банке.
который заходил на определенный сайт или искал определенный товар, и звонить ему в своих рекламных целях. Или отказать в выдаче страховки или банковского кредита.
Звонить в рекламных целях они не могут. В законе (даже в двух) по этому поводу есть прямой запрет.
А вот отказать в выдаче кредита — это запросто. И полагаю, что даже законно, так как в процессе подачи заявки будет требоваться разрешение на обработку соответствующих ПД. Хотя… Там даже по 152-ФЗ и разрешение спрашивать не надо, т.к. оно подходит под:
5) обработка персональных данных необходима для исполнения договора, стороной которого либо выгодоприобретателем или поручителем по которому является субъект персональных данных, а также для заключения договора по инициативе субъекта персональных данных или договора, по которому субъект персональных данных будет являться выгодоприобретателем или поручителем;
Звонить в рекламных целях они не могут. В законе (даже в двух) по этому поводу есть прямой запрет.
Это уже давно придумали как обходить. Бесплатное обследование. Бесплатная кепка при покупке квартиры. Или спецпредложение, о желании прослушать которое предварительно спрашивают. Итог-то один — звонок, отвлечение и трата времени на ненужный шлак.
Бесплатное обследование. Бесплатная кепка при покупке квартиры.
В законе не сказано, что можно рекламировать что-то бесплатное. Там четко сказано, что рекламировать без согласию нельзя ничего.
Или спецпредложение, о желании прослушать которое предварительно спрашивают.
Обзвон без участия человека запрещен. Так что предварительно спрашивать тоже незаконно.
Но… Я согласен, что это заколебешься доказывать, а уж с идиотией от андроида, с которым нельзя записать звонок это становится еще сложнее, т.к. ФАС требует для открытия дела именно запись звонка:(.
В законе не сказано, что можно рекламировать что-то бесплатное. Там четко сказано, что рекламировать без согласию нельзя ничего.
Так они не говорят «реклама». Это бесплатная промоутерская акция.
Обзвон без участия человека запрещен. Так что предварительно спрашивать тоже незаконно.
Вот здесь было бы здорово, если б работало.
А вот телефоны от Эппл однозначно в пролёте с записью звонков (физически заблокирована возможность), впрочем среди всех моих знакомых, пользующихся Эпплом — никто не считает это минусом.
а уж с идиотией от андроида, с которым нельзя записать звонок это становится еще сложнее
во-первых, рут, магиск и колл рекордер, и не обязательно всё это делать самому (правда, тут тоже вопрос доверия всплывает)
во-вторых, тот же андроид (да и яндекс) нормально блокирует большую часть телефонного спама, я каждый день вижу в списке вызовов пару-тройку заблокированных вызовов от МТС, РТК, банка восточный и телеопросов
Обзвон без участия человека запрещен. Так что предварительно спрашивать тоже незаконно.
мммммм, вчера 3 раза IVR от сбера звонил, с предложениями…
А передача данных сторонним организациям по партнёрскому договору с ними, официально прописана в этом самом договоре…
Храним md5(телефон). Приходит запрос на скоринг телефон — ищем в базе по совпадению md5(телефон)…
- Передан в виде текстовой строки, где каждый байт представляет собой символ из таблицы ASCII, соответствующий каждой цифре номера — 2d6895b3050243a6150c87cad8825655
- Передан в виде текстовой строки, где каждые два байта представляют собой символ из таблицы UCS-2 BE (Unicode), соответствующий каждой цифре номера — e8c7f423b90a8f01cb02174e5a369c0a
- Передан в виде текстовой строки, где каждые два байта представляют собой символ из таблицы UCS-2 LE (Unicode), соответствующий каждой цифре номера — 891b3d0cffe18d8cc22dfbc97878992d
- Передан в виде последовательности байт, где каждый байт представляет собой число, соответствующее каждой цифре номера — 804584012e982aa00830a73937b86bf1
- А это бонус, здесь каждые полбайта представляют собой число, соответствующее каждой цифре номера — c2d2df9d446ed5e221e577dabde95667
И вот скажите мне пожалуйста, какой из вариантов правильный? Вероятнее всего, вам покажется, что это четвертый пункт. Но это не так. Здесь нет правильных и неправильных вариантов — все они пригодны для хэширования данных. Все зависит от автора кода и техпроцесса, в котором эти данные передаются. Замечу, что четвертый (и тем более пятый) пункт более сложен в реализации, так как данные от пользователя в преобладающем большинстве поступают в текстовом виде и преобразовывать их в числовую последовательность никто специально не будет.
Про джейсон вы не совсем поняли, данные можно представить и так:
{"phone": "88001234567"}
Здесь хэшировать строку можно прямо в таком виде (hash: 1772667c4aa2de4b3ff097903884aa9e).
Следовательно, автору статьи нужно точно знать, что из себя представляли данные на входе хэш-функции, чтобы получить тот же номер, а не случайный набор цифр.
Спасибо за сомнение — заморочился на пример. И не лень ведь было. :D
Ну и главное. В базе допустим 100млн хэшей. Даже если на «расхэширование» тратить 0.01с, это просто не будет работать на таких объёмах. Так что исключительно сравнение хэшей.
Во первых, БКИ не использует сервис «Аудитория» однозначно, сервис работает по принципу от общего к общему, а БКИ нужно от частного к частному. Между Яндексом и БКИ должен быть договор иного рода. Тем более на выходе у БКИ все равно будет некий «коэффициент лояльности» и им в руки никогда не попадут личные данные, собранные Яндекс. Разговор между ними условно выглядел так: давайте, мы вам мыло или телефон клиента, а вы нам число от 0 до 10, кому можно кредит давать, а кому нет. Как вы там это будете считать, с помощью толпы математиков или шамана с бубном нас не интересует, но чтобы данные были точные (речь про коэффициент, просто число).
Во вторых, сервис «Аудитория» работает иначе — вы загружаете туда телефон одного человека, а он вам возвращает тысячу человек похожих на того, которого вы туда загрузили. И чем конкретней вы будете подбирать клиентов для загрузки, тем точнее вам сервис вернет подходящую аудиторию. И учитывайте, что данные об аудитории вы не получите, Яндекс сам доставит рекламу предполагаемой аудитории. Также замечу, что на скриншоте опущен комментарий к форме: «Файл должен включать не менее 1 000 записей и соответствовать требованиям.», что дает большую ясность картины.
В третьих, частичное хэширование данных (номер, почта) при загрузке файла в сервис предназначено для защиты тех клиентов, которых вы загружаете в сервис. Это, примерно, на тот случай, если у вас в офисе отключили интернет и вы попросили прохожего загрузить данные с флешки в соседнем интернет кафе. Данные сильно короче хэша — просто защита от дурака.
И замечу, что я ни коим образом никого не защищаю, просто при более детальном рассмотрении возникают некоторые несоответствия.
Ошибкой яндекса было указывать в подсказке рабочие хэши, если это, правда не коллизии на номера.
История этой деперсонализации длинная, но это можно сравнить, например, с блюром — по контурам можно определить ту или иную категорию, но точный рисунок уже получить невозможно. И здесь то же самое, вы просите Яндекс показать рекламу тем, кто в блюре похож на квадрат или треугольник. Но вы никогда не узнаете кому он ее показал. По этому рекламодатели проводят свои опросы — как вы о нас узнали, из рекламы в интернете, ага и ставят плюсик. А потом сравнивают цифры рекламных источников и понимают сработала эта таргетированая реклама или нет.
Но, тут речь о другом, все эти базы — абстракция. Вы обращаетесь к сервису и говорите, у нас отоварилось сто человек, вот их номера, подберите нам пожалуйста еще десять тысяч человек, которые точно купят наш товар. И по «шаманским» алгоритмам сервис возвращает, по его мнению, похожих людей. Но часто выходит, что это просто тыканье пальцем в небо.
Общеизвестные данные могут обрабатываться невозбранно. Так что ничего они не нарушают, если берут данные, сделанные общедоступными самим их обладателем.
Если у пользователя стоит что-то кроме варианта «Всем» — почему это считается что он согласился сделать данные общедоступными?
Чаще всего, в каждом из них прописан пункт на право использования данных организатором или его партнерами (в соответствии с ФЗ конечно). Просто организатор умалчивает, кто являются его партнерами.
Если речь идет об обработке персональных данных, и не экзотика в виде обезличенных, то передача их кому-либо здорово ограничена и допускается только в конкретных целях, прописанных в 152-ФЗ. В остальных случаях пункт в оферте ни на что не влияет. Должно быть отдельное согласие физлица, причем отсутствие такого согласия не может препятствовать заключению договора (оферты).
Теперь перейдём к хешированию. Необратимо захешировать номер телефона на современных мощостях не представляется возможным. Какой бы алгоритм хеширования вы не выбрали, перебрать все 9ти значные числа — ничего не стоит. Их всего миллиард. Даже не надо иметь для этого видеокарт. Можно просто составить таблицу на миллиард записей. Что интересное длина хеша при этом не играет уже никакой роли. Только сложность алгоритма, вернее время его работы.
Добавление соли — обязательное условие, но даже оно не является достаточным. Знание соли и механизма хеширования достаточно для того чтобы восстановить номер телефона.
Примерно то же самое относится и к хешированию email. email перед хешированием обычно нормализуется (приводится к одному регистру). Популярных доменов для email — десяток. Остаётся только брутфорсом перебрать имена ящиков на довольно ограниченном множетсве символов [a-z0-9]. Хотя гарантированной обратимости тут еще пока нет, но на практике доля обратимых имейлов очень большая.
Если даже не углубляться в конспирологию, при использовании схемы с rsа, если работать честно, то придется каждый номер шифровать ключом каждого заказчика. А если схитрить, то никто не мешает сгенерировать все 10 миллиардов телефонов (меньше, вред ли нам дали не мобильный номер) и установить, каких именно пользователей нам зашифровали.
Примерно то же самое относится и к хешированию email. email перед хешированием обычно нормализуется (приводится к одному регистру). Популярных доменов для email — десяток. Остаётся только брутфорсом перебрать имена ящиков на довольно ограниченном множетсве символов [a-z0-9]. Хотя гарантированной обратимости тут еще пока нет, но на практике доля обратимых имейлов очень большая.
Удачи. (например имена ящиков это НЕ [a-z0-9], там больше допустимых символов (читаем например habr.com/ru/post/274985 а вообще таких статей несколько), и что еще хуже для любителей реверсить — разные сайты по разному проверяют корректность, большинство делают это неправильно(иногда — намеренно), но по разному неправильно).
Насчет «десятка» доменов — ну например у mail.ru у одних 4 штуки в форме регистрации.
У Hotmail/Live.com — 3-5 доменов… и обычно 1-2 — уникальны для каждой из поддерживаемых стран(всякие live.com.pt/live.ru) (см например www.internetearnings.com/how-to-register-live-or-hotmail-e-mail-address )
А если вспомнить почти-бесплатные варианты вроде возможности взять свой домен и бесплатную почту для домена от Яндекса например?
Отвечая на ваши замечания.
Допустимое разнообразие почтовых адресов, конечно, шире, чем я написал. Только вот реальные пользователи используют эти адреса на тех самых сайтах, которые валидируют их неправильно, сами же пользователи диктуют эти адреса голосом. Вобщем, пользователи делают достаточно простые или короткие адреса для своего удобства.
Касательно же доменов почтовых сервисов — да, их довольно много. Но если мы будем говорить про какую-нибудь конкретную страну, то обнаружится, что подавляющее большинство адресов представлено с небольшого ограниченного числа доменов специфичных для конкретной страны или даже группы стран.
С wi-fi мгтсовского заходил на Я.Недвижимость, почти сразу начал звонить Тинёк, предлагать ипотеку
Основной вопрос, который нам постоянно задают – «как сайт узнает номер»? Наша технология легальная, запатентована, имеется аккредитация в РосКомНадзор.
На ваш ресурс ставится специальный счетчик, внешне похожий на Яндекс.Метрику или Google Analitics. Данный счетчик считывает цифровой след посетителя, а именно — его IP, данные браузера, операционной системой, параметрами монитора и т.д. Далее, эти данные сопоставляются с отпечатками пользователей, которые имеются в нашей базе. По тем записям, где произошло совпадение — мы предоставляем вам телефон посетителя.
Читать — мы достаем базы. Где — не скажем (может и у яндекса). И отслеживаем клиента везде где можем.
А вы хотя бы раз оставляли в Интернете (например, при оформлении заказа в интернет-магазине) свой номер телефона и данные о себе? Если так, то зря, так как многие сайты интегрированы с системами аналитики, которым передаются данные о клиенте. Получается, что возможна такая схема:
- вы оформляете заказ
- магазин сливает данные о вас 10 разным системам аналитики, которые собирают "отпечаток" вашего браузера, ваш IP и привязывают к ним ваши данные
- спустя месяц вы заходите на какой-то другой сайт, где стоят эти системы аналитики, они вас узнают по "отпечатку" браузера, кукам или чему-нибудь еще и передают ваш номер владельцу сайта
Тут, по моему, 100% незаконная схема, но в нашей стране законы о ПД все равно не работают, потому их никто не наказывает.
Вторая схема сбора — кликджекинг. Вы заходите на сайт, вам под мышку подводится прозрачная кнопка вступления в группу вконтакте, вы на нее жмете, и сайт знает ваш профиль в соцсети. Это, правда, больше не для сбора телефонов, а профилей в соцсети.
Сорь, что не по теме
По аналогии как у Гугла: adssettings.google.com/authenticated?pli=1
Когда-то был Яндекс.Робот, но его, кажется, вскоре после релиза прикрыли. Там были ползунки, что вы "на 15% холостяк", на "80% программист", "на 20% зоолог" и т.п.
Кстати, а что у вас по гугловой ссылке? Я, похоже, когда-то отключил себе персонализацию рекламы, и там нет ничего интересного, даже если включить её обратно. :/
По ссылке у меня отображается очень длинный перечень как бы тегов, которые Гугл связывает со мной. Какие-то просто указывают на вещи, которые я часто гуглю («Аудиотехника», «Linux», «Ozon» и т.п.), другие же показывают его непойми с чего взятые предположения обо мне (например «Высокий доход» — вот уж где, к сожалению, он ошибся) :)
Если считаешь, что какая-то информация о тебе ошибочна, то можно кликнуть на тег и убрать его.
Вот скрин кусочка этих данных i.imgur.com/n8wtcUl.png
Иначе в интерфейсе для рекламодателей должно было бы присутствовать поле для указания соли. А его там нет!
А для чего нужно было бы знать Яндексу соль, с которой телефоны хэшируются на другой стороне? Как раз если бы там было поле для ввода соли, это было бы подозрительно.
Очевидно, что самый быстрый и простой вариант — использование радужных таблиц
Неправда. Если телефоны несолёные (хотя как мы выяснили выше, это совершенно необязательно так), то самый быстрый вариант — предпосчитать и хранить несколько миллиардов и даже триллионов хэшей md5 от всех потенциально возможных номеров телефонов. А если используется соль (неизвестного формата и длины), то и радужные таблицы не сильно помогут.
А вообще, в статье домыслы на домыслах и домыслами погоняют: «разумно предположить», «веры нет никакой», «скажем прямо» и остальное, ну куда это годится. Хотел почитать про «слежку от яндекса», а оказалось, там всего лишь выкатили недотестированный релиз. Ну это что получается, шпион все собираемые данные ещё и на устройстве жертвы сохраняет? Для бэкапа что ли, чтоб не потерять, или чтобы его обнаружили побыстрее?
Не факты, а одни лишь предположения, местами ещё и необоснованные выводы, ну на троечку с минусом, я бы сказал.
Странно это.
А по поводу описанного использования данных — так да, что в этом такого?
Сервис использует эти данные.
Я собственными глазами видел систему, которая держит у себя в базе хэши телефонов клиентов и обменивается ими с яндексом.
При этом никакая информация, _по закону_ относящаяся к ПД, не передаётся.
Цели -в основном сэкономить кучу денег на затратах на нерелевантную рекламу.
Ничего поделать с этим нельзя, просто знать и жить дальше.
2. Не совсем понятно, зачем в начале статьи очень многообещающее начало про телефонных спамеров, и причём тут яндекс, если эта тема не раскрыта совсем. Мне тоже бывает по 10 спам звонков в день идут, и здесь виноваты обычно банки, которые продают номер партнёрам, да и сами постоянно названивают с предложением кредита. Яндекс то тут причём и БКИ? Из БКИ пока никто не звонил :)
p.s. rainbow таблицами люди уже как лет 10 не пользуются.
1. Данные о перемещаниях продают все, у кого они есть. Сотовые операторы тоже на каждой конференции это рекламируют например, и предлагают делать смс рассылку по вашей базе клиентов, проходящих в определённом месте. Более того, они все давно сотрудничают с операторами наружной рекламы, и трекают, что вы проезжали/проходили мимо конкретного рекламного щита, и таким образом считают CPM, и всё это видно у них в личном кабинете.
Ничего поделать с этим нельзя, просто знать и жить дальше.
2. Не совсем понятно, зачем в начале статьи очень многообещающее начало про телефонных спамеров, и причём тут яндекс, если эта тема не раскрыта совсем. Мне тоже бывает по 10 спам звонков в день идут, и здесь виноваты обычно банки, которые продают номер партнёрам, да и сами постоянно названивают с предложением кредита. Яндекс то тут причём и БКИ? Из БКИ пока никто не звонил :)
p.s. rainbow таблицами люди уже как лет 10 не пользуются.
У яндекса есть телефон в открытом виде. Он получил хеш этого номера и знает ка этот хеш был сформирован. Что мешает просто сформировать от своего открытого представления хеш и сравнить их?
Вот если ко-то со стороны получит эти хеши — то да тут встает задача именно взлома хешей.
rb.ru/news/yandex-scoring
может стоит добавить апдейт в пост?
Расследование: как обезличенные данные становятся персональными и продаются на сторону