Как в Учи.ру построили платформу для анализа A/B-тестов на ClickHouse / Комментарии / Хабр

uchitel 24 янв 2023 в 09:30

Если честно, создается очень странное впечатление. Например, почему вы не используете последовательный анализ если хотите быть быстрее? Ну или быть точнее в оценках при той же скорости? Как будто критерий Вальда до сих пор засекречен.

fedortyurin 30 янв 2023 в 10:29

Привет! Мы действительно хотим быть быстрее, но не в сроках проведения тестов, а во времени расчёта необходимой статистики. Именно по этому мы и перешли на ClickHouse, а сейчас работаем над оптимизацией этого решения (как с точки зрения железа кластера, так и с точки зрения оптимальности запросов и архитектуры данных). Что касается сроков проведения тестов, они нас устраивают, у нас нет потребности закрывать тесты как можно быстрее, так как у нас есть естественный бизнес-цикл (мы подписочный бизнес с регулярными промо-акциями) и желание учитывать долгосрочные эффекты (почти все тесты со временем затухают, и обнаруженный в изначальные сроки эффект мы не можем считать финальным). Что касается последовательного тестирования, то, как я и написал, мы не привязываемся к конкретному сроку, а стараемся увидеть стабильный положительный эффект. Для этого наблюдаем за сходимостью кумулятивного p-value и его динамикой во времени. По сути, тот же sequential testing, только без математической формализации.

uchitel 31 янв 2023 в 16:33

Вот в этом и есть большая странность, которая к слову касается не только вашей компании. Вальд в своей работе показал, что критерий Неймана-Пирсона является частным случаем его критерия. Там же он показал, как создавать последовательные тесты. По сути, все тесты должны именно так и выполняться - последовательно. Это действительно в два раза быстрее (в среднем) и точно так же позволяет отслеживать динамику статистик. Я не понимаю почему компании вцепились мертвой хваткой в критерий Неймана-Пирсона.