ITSumma Feb 1 at 11:53

Как проводят оценку качества данных в Airbnb

Easy

9 min

2.5K

ITSumma corporate blogBig Data*Community management*DevOps*Statistics in IT

Case

Translation

Original author: Clark Wright

Сегодня, когда объем собираемых компаниями данных растет в геометрической прогрессии, мы понимаем, что больше данных — не всегда лучше. На самом деле слишком большой объем информации, особенно если вы не можете гарантировать ее качество, может помешать компании и замедлить процесс принятия решений. Или это приведет к принятию неправильных решений.

Рост показателей Airbnb до 1,4 миллиарда гостей на конец 2022 года привел нас в точку, когда снижение качества данных стало мешать нашим специалистам по работе с этими самыми данными. Еженедельные отчеты по метрикам стало сложно предоставлять вовремя, такие базовые показатели как «Активные объявления» стали иметь целую паутину зависимостей. Для полноценной работы с данными стали требоваться значительные институциональные знания, просто чтобы преодолеть все «подводные камни» в нашем информационном потоке.

Чтобы решить эту проблему, мы внедрили процесс под кодовым названием «Мидас» (Midas), который предназначался для сертификации наших данных. Начиная с 2020 года, процесс Midas, а также работа по реорганизации наших наиболее важных моделей позволили значительно повысить качество и оперативность получения важнейших данных Airbnb. Однако достижение всех критериев качества данных требует значительных межфункциональных инвестиций в такие вещи как проектирование, разработка, проверка и поддержка необходимых информационных ассетов и документации.

Примечание переводчика: это довольно интересный текст о том, как Airbnb сортирует и обрабатывает данные. В нем встречаются специфические термины «потребители» и «производители» данных, и их стоит немного расшифровать. С потребителями данных все более-менее понятно, под ними имеется в виду все, кто работает с уже очищенными и обработанными данными в Airbnb: аналитики и клиенты платформы. А вот с производителями (data producers) может возникнуть путаница. В этом тексте под ними стоит понимать инженеров, которые работают с «сырыми» данными: очищают, проверяют качество и записывают их в хранилище.

Хотя для наиболее важных наших данных это имело смысл, соблюдение таких строгих стандартов, которые задавал Midas, в масштабах компании вызывало ряд проблем. Мы стали приближаться к точке нулевой отдачи от инвестиций в повышение качества дата-ассетов, т.е. затраченные усилия того уже почти не стоили. Мы сертифицировали наши наиболее важные ассеты, гарантировав тем самым их надежность. Однако в случае наших несертифицированных данных, которые по-прежнему составляли большую часть информации, мы не могли оценить их качество и при этом мы не имели четких механизмов повышения их уровня.

Эта ситуация породила вопрос: можем ли мы распространить лучшие практики Midas на все наши данные без исключения?

Далее речь пойдет о нашем инновационном подходе к оценке качества данных — Airbnb's Data Quality Score («DQ Score»). Ниже мы расскажем о том, как велась разработка DQ Score, как он используется сегодня и как он станет основой следующего этапа повышения качества данных в Airbnb.

Масштабирование качества данных

В 2022 году мы начали изучать возможность расширения подхода по повышению качества данных за пределы сертификации Midas. Дата-инженеры просили облегчить процесс обработки и одновременно обеспечить некоторые стандарты качества Midas, но с меньшей строгостью и временными затратами. Тем временем потребители продолжали буквально вслепую пользоваться теми данными, которые не прошли сертификацию Midas. Бренд сертификации Midas при этом был настолько силен, что потребители начали сомневаться, стоит ли им доверять простым несертифицированным данным. Не желая ослаблять бренд Midas, мы хотели избежать введения облегченной версии сертификации, ведь это бы привело к еще большему расслоению в плане качества, не обеспечив при этом долгосрочной масштабируемости.

Учитывая все эти проблемы, мы решили перейти к стратегии, в рамках которой повышение привлекательности данных в плане качества перекладываются непосредственно на их производителей и потребителей. Мы решили, что больше не можем полагаться на принудительную оценку качества данных в Airbnb, и вместо этого нам нужно переключиться на стимулирование всех сторон процесса давать более качественную информацию.

Чтобы в полной мере реализовать такой подход к стимулированию, мы посчитали необходимым ввести концепцию оценки качества данных, напрямую связанную с дата-массивами.

Мы определили следующие критерии оценки:

развивать понимание качества данных, не ограничиваясь простым бинарным определением (сертифицированные и несертифицированные);
согласовать входные компоненты для оценки качества данных;
обеспечить полную прозрачность всего, что касается качества данных в нашем автономном хранилище и отдельных ассетах. Такая прозрачность должна 1) создать естественные стимулы для производителей к повышению качества данных, которыми они владеют, и 2) стимулировать спрос на высококачественные данные со стороны потребителей и позволить им решать, соответствует ли качество их потребностям.

Составление оценки

Прежде чем погрузиться в тонкости измерения качества данных, мы добились единого видения вопроса, определив основные принципы DQ Score. С помощью межфункциональной группы специалистов-практиков по работе с данными мы согласовали следующие пункты:

Полный охват — оценка может быть применена к любым данным из всего массива.
Автоматизированность — сбор вводных, определяющих оценку, на 100% автоматизирован.
Действенность — оценку качества данных легко получить и она одинаково доступна как производителями, так и потребителями.
Многомерность — оценка может быть разложена на базовые составляющие качества данных.
Возможность эволюции — критерии оценки и их определения могут меняться с течением времени

Хотя все эти принципы могут показаться на первый взгляд простыми и очевидными, но их фиксация на уровне глобального видения была крайне важна, поскольку они определяли каждое решение, принятое потом при разработке самой методики оценки. И вопросы, которые раньше могли бы помешать нашему развитию, теперь подвергались анализу через призму оглашенных выше принципов.

Например, наши принципы были критически важны при определении того, какие метрики из списка критериев качества данных следует учитывать в первую очередь. У нас было несколько вводных, которые, безусловно, могли бы помочь нам измерить качество данных, но если их нельзя было измерить автоматически (Automated) или если они были настолько запутанными, что специалисты по работе с данными не могли понять, что означает критерий и как его можно улучшить (Actionable), то они отбрасывались.

У нас также был набор вводных, которые более очевидно измеряли качество (сертификация Midas, проверка данных, ошибки, SLA, автоматические проверки DQ и т. д.), и те, которые были скорее косвенными индикаторами качества (например, право собственности, гигиена управления, использование дополнительно инструментария).

Но были ли более явные и прямые измерения качества более ценными, нежели косвенные?

Руководствуясь нашими принципами, мы в итоге остановились на четырех параметрах качества: Точность, Достоверность (актуальность), Управление и Удобство использования. Мы рассматривали еще несколько возможных измерений, но эти четыре оказались наиболее значимыми и полезными для наших потребителей и практиков, и их можно было использовать в качестве осей для улучшений, в которые мы готовы инвестировать.

В каждом упомянутом параметре могут сочетаться явные и неявные показатели качества, при этом ключевым моментом является следующее:

«Не каждый потребитель данных должен полностью понимать каждый отдельный компонент оценки, но он поймет, что набор данных, получивший низкие оценки по надежности и удобству использования, испытывает сложности с прикладным применением.»

Мы также можем взвесить каждый параметр в соответствии с нашим восприятием его важности для определения его качества. Чтобы распределить 100 баллов между параметрами, мы учитывали: 1) сколько компонентов оценки относится к каждому из них; 2) возможность быстро посчитать в уме; 3) какие именно элементы больше всего волнуют наших специалистов.

Итого мы получили нечто подобное:

Шкала качества данных и весовые коэффициенты

При этом, если необходимо, измерения можно «распаковать», чтобы получить более детальное представление о проблемах. Например, параметр Stewardship оценивает ассет по таким показателям качества, как совместимость с нашими инструментами проектирования, гигиена управления и соответствие действующим стандартам со стороны владельца этих данных.

Развернутые показатели Stewardship

Пусть оценивают практики

Мы знали, что представление DQ Score в формате, удобном для изучения и практического применения, имеет решающее значение для его принятия и успешного использования. Более того, мы должны были представить информацию о качестве данных непосредственно там, где пользователи хотят их исследовать.

К счастью, у нас было два существующих инструмента, которые значительно упростили эту задачу: Dataportal (каталог данных и пользовательский интерфейс Airbnb) и Единый сервис метаданных (UMS). Сам показатель вычисляется в ежедневном автономном конвейере данных, который собирает и преобразует различные элементы метаданных из наших систем. Последняя задача конвейера — загрузить оценку для каждого ассета данных в UMS. Загрузив DQ Score в UMS, мы можем отобразить его самого и его компоненты рядом с каждым ассетом данных в Dataportal — т.е. в отправной точке для всех данных в Airbnb. Оставалось только задезайнить и реализовать это на практике.

Одной из наших целей было донести концепцию качества до специалистов по работе с данными с разным опытом и потребностями. Наша пользовательская база уже полностью перешла на модель «сертифицированный — несертифицированный», но мы впервые представляли концепцию спектра качества, а также критерии для его определения.

Какой должна быть наиболее интерпретируемая версия DQ Score? Нам нужно было представить единый балл качества данных, который был бы понятен с первого взгляда, но в то же время позволял бы изучить его составляющие более подробно.

Наш окончательный дизайн представляет качество данных тремя способами, каждый из которых учитывает различные сценарии использования:

Единый, высокоуровневый балл от 0 до 100. Мы присвоили категориальные пороги «Плохо», «Нормально», «Хорошо» и «Отлично» на основе профилирующего анализа нашего хранилища данных, в ходе которого было изучено существующее распределение баллов DQ. Лучше всего подходит для быстрой высокоуровневой оценки общего качества набора параметров.
Многомерные оценки, когда ассет может иметь отличные показатели точности, но низкие по надежности. Полезно, когда конкретная область недостатков не вызывает проблем (например, потребитель хочет, чтобы данные были очень точными, но не беспокоится о том, что они будут загружаться каждый день).
Полная детализация оценки + шаги по улучшению, когда потребители могут увидеть, в чем именно недостатки ассета, а производители могут принять меры по улучшению качества ассета.

Все три варианта показаны на скриншотах ниже. В презентации по умолчанию представлены размерные оценки «Баллы по категориям», категориальный дескриптор «Плохо» с 40 баллами и шаги по улучшению.

Полная страница оценки качества в Dataportal

Если пользователь изучит полную информацию в виде баллов, он сможет рассмотреть конкретные недостатки качества и просмотреть информативные подсказки, предоставляющие более подробную информацию о методах определения и достоинствах компонента.

Полная детализация оценок

Как баллы используются сегодня

Производителям данных оценка позволяет видеть:

четкие, выполнимые шаги по улучшению DQ своих ассетов;
количественную оценку DQ, измеряющую их работу;
четкие ожидания в отношении DQ;
цели для устранения технического долга;

Для потребителей показатель DQ Score:

повышает удобство поиска данных;
служит сигналом достоверности информации (подобно тому, как работает система отзывов для гостей и хозяев Airbnb);
информирует о точных недостатках качества, чтобы они могли быть уверены в том, как используют их данные;
позволяет потребителям искать и требовать качество предоставляемой информации.

С точки зрения стратегии работы с данными, мы используем информацию внутренних запросов в сочетании с DQ Score. Это позволяет обеспечивать качество данных в нашем хранилище. Учитывая как объем, так и тип потребления данных (например, отображается ли та или иная метрика в нашей отчетности для руководителей), мы можем направить действия команды разработки на наиболее значимые направления для повышения качества выдачи. Такая наглядность оказалась очень полезной для команд, которые не знали о длинном хвосте низкокачественных ассетов, и позволила нам удвоить инвестиции в качество тяжелых моделей данных, которые обеспечивают значительную долю нашего потребления информации.

Наконец, разработав DQ Score, мы смогли предоставить единообразное руководство для наших производителей по созданию высококачественных, хотя и несертифицированных ассетов. Оценка DQ Score не заменила сертификацию (например, только сертифицированные Midas данные могут получить оценку DQ Score > 90). Мы продолжаем сертифицировать наиболее важные подгруппы данных и считаем, что сценарии использования этих ассетов всегда будут оправдывать ручную проверку, строгость и поддержание сертификации. Но для всего остального DQ Score усиливает и масштабирует принципы Midas по всему нашему хранилищу.

Что дальше

Мы рады, что теперь можем измерять и наблюдать количественные улучшения качества наших данных, но мы только в начале пути. Недавно мы расширили первоначальную версию DQ Score для оценки наших метрик и измерений под названием Minerva. Аналогичным образом мы планируем привнести ту же концепцию DQ Score в другие ассеты данных, такие как журналы событий и функции ML.

По мере того как требования и запросы к нашим данным будут развиваться, будут развиваться и наши ожидания качества. Мы продолжим совершенствовать способы определения и измерения, а благодаря стремительному росту таких областей, как управление метаданными и классификация данных, мы ожидаем дальнейшего повышения эффективности и производительности для всех специалистов по работе с данными в Airbnb.

Самое важное в нашем ТГ-канале. Без лишнего спама.

Tags:

Hubs: