Об идентификации пользователя / Хабр

Сейчас каждый человек проводит большую часть своего времени в интернете. Потому компании готовы вкладывать огромные деньги в рекламу в интернете. Чтобы реклама в интернете была эффективной, необходимо уметь идентифицировать одного и того же пользователя на разных сайтах, браузерах, устройствах. Без идентификации невозможно ответить на такие важные для рекламы вопросы, как:

Кликнул ли пользователь на рекламу, которую только что посмотрел;
Является ли пользователь, который сегодня просматривал продукт, тем же самым пользователем, который пару дней назад увидел рекламу;
Какие интересы у пользователя, который сейчас сидит за компьютером и смотрит рекламу;
Сколько раз мы показали рекламу одному и тому же пользователю.

В этой статье я расскажу о том, какие сегодня существуют основные способы идентификации ~~Борна~~ пользователя в бесконечном интернет-пространстве, и какие преимущества и недостатки у каждого из них.

Основные способы идентификации пользователя

Большая часть существующих идентификаторов пользователя – это либо device-level, либо browser-level идентификаторы. Это означает, что они идентифицируют не самого человека, а устройство или браузер, через которые он сидит в интернете. Это логично, так как из интернета проще “дотянуться” до устройства или браузера, чем до самого человека.

Основные device-level и browser-level идентификаторы, которые сейчас используются рекламными платформами для повышения эффективности рекламы:

Куки (first party и third party)
Характеристики устройства и браузера
HTTP entity tag (ETag)
Рекламные идентификаторы мобильных устройств (IDFA, Google’s AID, Microsoft’s Advertising ID и т. д.)

Кроме browser- и device-level идентификаторов компании могут строить свои person-level идентификаторы.

Рассмотрим далее подробнее каждый из browser- и device-level идентификаторов, а также два основных подхода, используемых рекламными агентствами для построения person-level идентификаторов.

Куки

Когда вы посещаете какой-то сайт, вас часто спрашивают, принимаете ли вы куки? Так вот, кука – это один из самых популярных browser-level идентификаторов пользователя. Если вы принимаете куки, то веб-сайт, на который вы зашли, вас запоминает.

Технически это реализовано так:

Когда вы принимаете куки, веб-сервер размещает на вашем устройстве небольшой файл. Этот файл может содержать id пользователя, некоторые его характеристики и настройки.
Через какое-то время вы снова посещаете тот же самый сайт.
Веб-сервер видит файл-куку с id пользователя на вашем компьютере, который он разместил ранее, и опознает вас как пользователя, который ранее уже посещал сайт.

Куки бывают двух видов – first-party и third-party.

First-party Куки

Отличие first-party кук от third-party в том, кем они создаются и как используются.

First-party куки создаются тем веб-сайтом, который пользователь посещает. То есть, если вы посещаете, например, сайт edx.com, то first-party куку на вашем компьютере разместит именно этот сайт.

First-party куки используются для улучшения пользовательского опыта. То есть сайт запоминает пользователя, чтобы запомнить его настройки на сайте. Потом, когда вы второй раз заходите на сайт, то у сайта тот язык, который вы ранее выбирали, а в корзине находятся те товары, которые вы ранее туда положили.

Third-party Куки

Third-party куки размещаются доменом, который отличен от того сайта, который пользователь посещает.

Например, вы посещаете сайт bbc.com. На этом сайте вам показывается реклама от некоторого bestdsp.com. Тогда bbc.com разместит на вашем компьютере first-party куку, а bestdsp.com – third-party куку.

Third-party куки используются для повышения качества интернет рекламы, именно они помогают опознавать одного и того же пользователя на разных веб-доменах.

Допустим, один и тот же пользователь зашел сначала на сайт bbc.com, а потом на сайт edx.com. На обоих этих сайтах bestdsp.com показал рекламу и создал свою third-party куку на устройстве пользователя. Тогда, bestdsp.com поймет, что на обоих этих веб-доменах был один и тот же пользователь.

First-party куки так не умеют, если какой-то домен создал first-party куку на устройстве пользователя, то впоследствии пользователя можно опознать только на сайтах этого домена.

Синхронизация third-party кук

Для того, чтоб одного и того же пользователя можно было опознавать на еще большем количестве доменов, используется синхронизация third-party кук.

Допустим, есть две технологические рекламные платформы – dsp1 и dmp1. Каждая из этих платформ имеет на разных устройствах свои third-party куки с id и характеристиками пользователя.

Чтобы эти две платформы могли опознавать пользователей на еще большем количестве доменов, платформы могут договориться и синхронизировать свои пользовательские id и характеристики. Результатом такой синхронизации станет таблица, в которой для каждого id и характеристик пользователя от dsp1 есть соответствующее id и характеристики пользователя от dmp1.

Теперь, если dsp1 видит какого-то незнакомого для себя, но знакомого для dmp1 пользователя, то dsp1 может получить информацию об этом пользователе из таблицы с синхронизированными данными.

Недостатки Кук

Основной недостаток кук в том, что их эффективность постепенно снижается. Связано это с тем, что обществом все чаще поднимаются вопросы приватности пользователя в сети. Потому различные страны и крупные компании устанавливают правила, которые ограничивают использование кук.

Например, браузер Safari пару лет назад начал по умолчанию блокировать third-party куки, Firefox тоже по умолчанию блокирует third-party куки, а Google обещает заблокировать куки для Chrome во второй половине 2024 года.

Характеристики устройства

Пользователя также можно опознавать в интернет-пространстве по характеристикам и настройкам устройства, которые обычно можно получить из заголовка http-запроса.

Характеристики устройства, которые обычно бывают доступны:

Операционная система и ее версия
Браузер и версия браузера
Установленные plugin-ы
Язык
Разрешение экрана
Часовой пояс и т. д.

Основной недостаток идентификации пользователя по характеристикам устройства в том, что, несмотря на большое их разнообразие, пользователей часто гораздо больше. Потому большое количество пользователей могут иметь одни и те же характеристики и настройки своих устройств.

Другой недостаток в том, что характеристики устройства часто меняются.

ETag

Еще одним способом идентификации юзера является ETag. ETag – это параметр в HTTP запросе, который используется для повышения скорости загрузки страницы.

Во время загрузки веб страницы браузер может отправлять запросы на разные веб-серверы. Если в url запроса содержится ETag для какого-то загружаемого объекта, например, для изображения на рекламе, то веб-сервер сравнивает ETag из url с ETag в своем кэше. Если они совпадают, это означает, что изображение не изменилось. Веб-сервер сообщает это браузеру, браузер понимает, что изображение в кеше все еще актуально, и загружает изображение оттуда.

Рекламные платформы могут идентифицировать пользователя по этим ETag, сравнивая получаемый от браузера ETag со своими.

Минус использования ETag в том, что они недолговечны и у них не очень большой охват. ETag-и удаляются каждый раз, когда пользователь стирает кеш браузера.

Рекламные идентификаторы в приложении

Выше мы рассказали, какими способами можно идентифицировать юзера в браузере. При этом, способы идентификации, которые мы обсудили выше, касаются не только браузера на компьютере, но и браузера в мобильном приложении.

Теперь обсудим идентификаторы, которые используются в мобильных приложениях:

IDFA (Apple’s advertising id)
AID (Google’s advertising id)
Microsoft’s Advertising ID

Большой плюс мобильных идентификаторов в том, что они более долговечные, чем все идентификаторы, используемые в веб браузерах. Это связано с тем, что их сложно выключить или стереть, как, например, можно сделать с куками или ETag-ами. Их можно только изменить, но пользователи редко этим занимаются.

Исключением является IDFA, на передачу которого рекламным платформам пользователи должны согласиться. Вы, скорее всего, видели на айфонах, когда заходите в только что скачанное приложение, то там появляется “Ask app not to track”. Если вы соглашаетесь, то даете разрешение Apple дать доступ рекламным платформам к вашему IDFA.

Person-level идентификаторы

Все перечисленные выше идентификаторы пользователя являются либо device-level, либо browser-level. Это означает, что один и тот же человек, если будет использовать разные устройства или разные браузеры, то он будет считаться несколько раз. Чаще всего, для рекламных кампаний это не создает большие сложности. Тем не менее, рекламные кампании будут работать эффективнее, если будет идентификация именно человека, а не устройства или браузера.

Существуют разные способы определения пользователя на person-level. Эти способы можно разделить на детерминированные и вероятностные.

Детерминированные определение

Детерминированные определение пользователя на уровне person можно производить с помощью разных персональных характеристик, которые обычно уникальны для одного и того же человека и не меняются от устройства к устройству:

ФИО
Номер телефона
Почта и т. д.

Многие сайты собирают эту информацию с пользователей. Например, чтоб залогиниться в социальные сети, надо ввести номер телефона, а, чтоб прочитать статью на некотором сайте, надо ввести почту.

Минус детерминированного определения пользователя в том, что сайтов, которые собирают персональные характеристики, очень мало. Потому данный способ определения пользователя сложно масштабировать.

Вероятностное определение

Вероятностное определение пользователя осуществляется с помощью многих разных кусков информации о пользователе, которые сопоставляются друг с другом с помощью различных вероятностных моделей.

Для вероятностного определения пользователя на person-level можно использовать такую информацию как IP, страна, город, интересы, поведение и т. д.

То есть, допустим есть два устройства – телефон и ноутбук – с одним и тем же ip и с похожей поисковой историей, то с какой-то вероятностью можно предположить, что эти два устройства принадлежат одному и тому же человеку.

Можно догадаться, что основной недостаток вероятностной идентификации человека в неточности выводов. Однако, информация, необходимая для вероятностной идентификации гораздо более легко-доступна, чем информация, необходимая для детерминированной идентификации.

This is the end

В этой статье мы рассмотрели наиболее популярные способы идентификации пользователя в интернет-пространстве.

У каждого из этих способов есть плюсы и минусы. Потому рекламные агентства часто используют комбинацию всех этих идентификаторов, опираясь на сильные стороны каждого.

Об идентификации пользователя