Pull to refresh

Бизнес на Слитых Данных — это Аналитика от SimilarWeb

Level of difficultyEasy
Reading time3 min
Views2.8K

Представьте, вы написали свой сервис веб-почты, или классное расширение, которое стилизует браузер. Такие сервисы могут набирать миллионную аудиторию, но только если они бесплатны.
Так кто же готов платить за такой сервис? Только тот, кому нужен контроль над пользователями - тот, кто хочет знать о них все.

Как создать бизнес на слитых данных - рассказываю на примере компании SimilarWeb.

Я, Григорий Мельников, автор онлайн сервиса по выявлению ботов KillBot, рассказываю как работает антифрод и сливы данных для некоторых сервисов.

Справка.
SimilarWeb — это компания, которая предоставляет аналитику о посещаемости сайтов. На сайтах нет скриптов учёта посещаемости от SimilarWeb, но это не мешает им предсказать посещаемость каждого сайта в интернете.

Как SimilarWeb Получает Данные

Одним из ярких примеров слива данных является покупка компанией SimilarWeb популярного расширения для браузера Stylish. После его приобретения в расширение было встроено шпионское ПО. Это ПО, как минимум, отслеживало посещаемые пользователями сайты.

В Stylish не скрывают, что собирают 'обезличенные' данные. Но так не везде.
В Stylish не скрывают, что собирают 'обезличенные' данные. Но так не везде.

Кто Еще Сливает Данные в SimilarWeb?

До июля 2023 года для русскоязычного сегмента интернета компания использовала как минимум три источника данных о трафике сайта:

  • Браузерное расширение Stylish

  • Браузерное Расширение FriGate

  • Некоторые DNS-серверы.

Как примерно работает эмпирическая система учёта трафика SimilarWeb?

Для того, чтобы эмпирическая система SimilarWeb сделала прогноз, необходимо присутствие данных из всех 3-х источников, что представлены выше. Например, если вы посещаете сайт habr.com с расширением FriGate, а ваш друг посещает этот же сайт с установленным расширением Stylish, и есть запросы через DNS-серверы, которые сотрудничают с SimilarWeb, то этот факт даст к росту трафика. Однако, если я прогоню запросы через DNS-серверы, которые с SimilarWeb не делятся (например Билайн), то визиты будут проигнорированы несмотря на наличие визитов с Stylish и FriGate.

Справка:
DNS (Domain Name System) – это система, которая переводит доменные имена сайтов в IP-адреса.
Утечка данных через DNS происходит, когда запросы на перевод доменных имен в IP-адреса, попадают в ненадежные руки. В результате, даже если ваш интернет-трафик зашифрован, сторонние наблюдатели могут увидеть, какие сайты вы посещаете.

Антифрод SimilarWeb (т.е. защита от накрутки)

Таким образом, антифрод SimilarWeb устойчив к накрутке. Чтобы накрутить SimilarWeb нужно знать адреса тех, кто им данные сливает. И второй момент - их основа предполагает использование количественных характеристик для идентификации подлинности трафика.

Привожу примеры:

  • Допустим, 100 визитов из 100 осуществлены через одни и те же ДНС.

  • Или для 100 заходов ни у одного не установлен AdBlock (это можно проверить и без слива).

  • Или все 100 заходов от одного интернет провайдера.

  • Или все 100 заходов новые, без истории навигации в интернете.

Пересечение подобных характеристик - это и есть накрученный трафик или трафик ботов. Характеристики выше - это просто примеры, это идея.

В любом трафике ботов можно выделить одинаковые характеристики несмотря на подмену фингерпринта, IP адресов, DNS и так далее. Нужно знать как работают боты и понимать где искать эти характеристики.

Рекомендую к прочтению.
Кто генерирует ботов, каким софтом и для каких целей: https://habr.com/ru/articles/813545/

До слива персональных данных один шаг

Вот, допустим, директор крупной кампании - всё у него честно. Но тут к нему приходят "друзья": демонстрируют интим-фото, намекают что жена и дети, предлагают деньги. И всё - с этого момента он завербован и обезличенный сбор данных превращается в персональный.

Можно ли защитится от утечки данных?
Наверно нет: источников слива много: кого-то взломают, кто-то сам сольет. Да, можно использовать свой личный ВПН сервер, можно не использовать браузерные расширения, можно выпиливать с сайтов метрику, аналитику и другие пикселы. Но даже если это сделать, то, все равно, у нас дырявая операционная система, дырявый браузер и т.п. Поэтому я не парюсь)

Переходите в мой телеграмм канал: https://t.me/KillBotRus . В следующей статье я расскажу как работает роботность в Яндекс Метрике. Подписывайтесь, чтобы не пропустить этот пост.

Tags:
Hubs:
+16
Comments6

Articles