Как у нас устроено A/Б-тестирование. Лекция Яндекса / Комментарии / Хабр

wildraid 19 ноя 2017 в 22:57

Любопытно. Какой хеш используется для разделения юзеров на сегменты? Сталкивались ли с тем, что User ID исторически распределены неравномерно в силу разных причин?

Мы в своё время настрадались от подхода с хешами и пошли немного другим путём. Отдельной колонкой раздали всем юзерам true random номер сегмента, который никогда не меняется. Общее кол-во сегментов выбрали таким образом, чтобы оно делилось без остатка на 2,3,4,5,6. Это самое частое количество вариантов в тесте.

При создании каждого нового теста генерируем маленькую случайную карту для перемешивания сегментов (статичный сегмент юзера => случайный сегмент теста), чтобы один и тот же юзер не попадал постоянно в один и тот же вариант.

В результате получили схему, при которой:

Вообще нет односторонних хешей нигде;
В случае параллельных тестов можно заранее оценить % пересечений и даже найти отдельные user_id при помощи простого JOIN в СУБД;