Демократизация данных в убере / Habr

Всем привет!

Под хеллоувин я побывал на конференции в Будапеште (Data Crunch) и послушал там ряд интересных докладов. Один из них был от Uber, которые рассказывали о том, на каких подходах они организовали свою платформу управления данными. Этот доклад был не столько технический, сколько менеджерский и продуктовый.

Uber обширно используется данные, которые собирает в результате взаимодействия с пассажирами и водителями. Они рассчитывают стоимость поездки, оценивают потоки людей, меняют алгоритмы цены, дают рекомендации водителям, как им больше заработать и все это основываясь на собранных данных. В такой компании вся работа с данными не может быть сконцентрирована в руках группы аналитиков и DS, т.к. иначе придется нанять их слишком много, да к тому же они не всегда погружены в бизнес контекст.

С самого начала компания пошла по пути построения платформы управления данными, которая позволила бы использовать достаточно продвинутые аналитические инструменты широкому кругу пользователей. Они выделили у себя 4 основные группы:

Обычные пользователи — знают базовый SQL, в основном нужны просто таблицы с данными, дашборды)
Региональные менеджеры — знают чуть больше SQL, смотрят на данные в разных разрезах, большая потребность в slice&dice
Аналитики данных — продвинутый SQL, строят дашборды, делают исследования, ищут инсайты в данных
Data Science — максимальный уровень понимания работы с данными, строят модели, ведут эксперименты, А/Б тесты и т.п.
В кулуарах еще у них узнал, что на самом деле есть 5 уровень — топ менеджеры, которые в основном пользуются верхнеуровневыми отчетами и дашбордами.

Интересно, что в Uber люди, кто работает как-то с данными должен знать SQL хотя бы на минимальном уровне.

В качестве примор продукта, которые они создали на базе своей платформы они привели автоматизацию А/Б тестов. Компания проводит огромное кол-во А/Б и выделять под каждую Data Scientist, чтобы он организовал эксперимент и потом дал оценку тестов — опять же не позволительная роскошь. Поэтому они хотели бы дать обычным пользователям возможность интерпретировать и использовать А/Б верно и без ошибок, при этом не нагружая Data Scientist.

Их строительство этого продукта началось с глубокой работы с Data Scientist, т.к. если эти ребята не будут уверены, что все считается верно, то никакого Data product не выйдет. По сути они начали автоматизировать запуск и оценку А/Б тестов, дав Data Scientist инструмент, облегчающий им жизнь. После чего они нарастили на этот инструмент интерфейс, который бы в простой форме показывал результаты теста (что запустили, какое различие, значимо ли различие). При этом они спрятали "под капот" максимальное кол-во нюансов, свойственных А/Б тестам, чтобы пользователю не нужно было глубоко погружаться в математику и статистику.

Что интересно, большинство людей, с кем я общался на кофе-брейках говорили, что у них нет никаких А/Б тестов в их практике, что они использует во многом качественные исследования и интуицию при принятии решений. Так что как и везде, некогда думать, надо пилить!