Обновить

Комментарии 4

Привет.

Спасибо за статью. Интересно было читать.

  • Уточните пожалуйста есть ли какие-то SLA по дашбордам/датасетам/витринам? Если есть то участвовуют ли они в сертификации дашбордов?

  • Также про Data Quality, явным образом про это ничего нет в статье, участвует ли оно в сертификации дашбордов?

  • Транслируется ли эта информация на потребителей дашбордов и как они инструктированы в случае если их любимый дашборд перестал быть сертифицирован? Что вообще планируется делать с красными/желтыми дашиками которые продолжат пользоваться популярностью?

  • Есть ли какие-то идеи по приоритизации обновления датасетов на основе сертификации дашбордов?

Привет! Спасибо за ваш отзыв и вопросы

  • На текущий момент SLA никак не участвуют в автосертификации. Пока что у нас нет возможности напрямую влиять на скорость и сроки поставки данных. Кроме того, мы сильно зависим от производительности и доступности инфраструктуры Redash (позже к этому обязательно придем :))

  • Сейчас DQ явным образом не участвует в процессе автосертификации дешей. Нам не хватает главного компонента - автопроверки апстрима деша, тему только начали развивать, поделимся опытом чуть позже.

  • Да, мы агитируем юзеров пользоваться в первую очередь ключевыми/зелеными отчетами. По поводу красных и популярных - тут основная стратегия работа через BI команды. Мы транслируем в BI-сообщество принцип: если популярный деш имеет "красный" статус, его необходимо отрефачить. Это ответственность владельцев. Плюс мы ставим себе цели, которые влияют на общее здоровье BI в Авито, как вы понимаете, сертификации тоже в них включена.

  • Да, такие идеи есть. Мы рассматриваем механизмы позитивного подкрепления. В частности, "зеленые" и ключевые деши могут получать приоритет в очереди на обновление и вычислительные ресурсы, в отличие от "красных". По этому пункту мы тоже находимся пока в начале пути.

HealthScore = 0.3 Техническое cостояние + 0.25 Архитектурная чистота + 0.25 Актуальность источника + 0.1 Гигиена кода + 0.1 * Бизнес‑значимость

а можно подробнее как это все считается??? На глаз, чтоли??

Привет! Спасибо за вопрос.

Как я написал в статье - это наша внутренняя метрика качества. Если кратко, то каждый пункт мы считаем по своим правилам.

  • Техническое cостояние - берём % ошибок по датасету за месяц и среднюю длительность его расчёта за последние 3 месяца.

  • Архитектурная чистота - проверяем, что датасет построен на правильной БД и что у него нет дублей или очень близких по структуре копий.

  • Актуальность источника - смотрим на актуального владельца, дату последнего обновления самого датасета и дату обновления апстрима.

  • Гигиена кода - проверяем код датасета на наличие tmp/public схем и других антипаттернов.

  • Бизнес‑значимость - оцениваем, используется ли датасет в отчётах, дашбордах или регулярных запросах.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
avito.tech
Дата регистрации
Дата основания
2007
Численность
5 001–10 000 человек
Местоположение
Россия
Представитель
vvroschin