Demin_Konstantin 2 июн 2023 в 12:12

О несоответствии в AdTech, и как мы с ним боролись

Средний

8 мин

1.2K

Блог компании SmartupАнализ и проектирование систем * Amazon Web Services *

Кейс

Комментарии 4

mv28jam 6 июн 2023 в 09:19

Это несоответствие не должно превышать 5%.

Написано так, как будто это константа, установленная верховным советом adtech индустрии. Такое утверждение может ввести в заблуждение. Эта величина зависит от многих факторов: условия договора, механизм фиксации показа, механизмы учёта фрода про показе, механизм работы стороннего счётчика, есть ли потеря в деньгах и тд.

Фактически, с точки зрения бизнеса, наша система дала общее расхождение менее 5%, и 7 из 10 веб-сайтов работали должным образом. Это соответствует отраслевым стандартам для систем AdTech и считается хорошим результатом.

То же самое. Если с конкретным партнёром играете на 4х процентах, расхождение в 5% - это потенциально убыток.

Отчеты от DSP поступали на почту

О да, эти почтовые отчёты в 2023 году...

автоматизации процесса обработки отчетов внедрили SES+Lambda

Вас как-то штормит, от руками в табличке эксель к сразу решения от Амазона.

Информационные панели в Grafana

Специального инструмента нет? Или Графаны хвтатает?

Показы и данные о показах куда собираете?

В статье знакомая мне боль.

Demin_Konstantin 7 июн 2023 в 14:16

Все верно говорите о проценте несоответствия, он зависит от многих факторов. В большинстве проектов, с которыми мы работали, договор был на 5%.

Использовали сервисы AWS для автоматизации отчетов из почты и API, т.к. у нас весь проект на AWS и затраты по сравнению с исходящим трафиком незначительные.

Специального инструмента нет? Или Графаны хватает?

Был успешный опыт использования Grafana на других AdTech проектах. И в этом проекте решили использовать Prometheus + Grafana. Пока их хватало.

Показы и данные о показах куда собираете?

Трекер отправляет данные в AWS Kinesis Firehose и сохраняет их в S3 с разбивкой по часам.
При помощи ETL (AWS Glue) считаем предагрегаты и пишем в postgreSQL. Отчеты формируются из данных в postgreSQL.

Для тестового трекера разворачивали Snowplow трекер на AWS. Тут тоже решение пишет через стрим в S3 и обработанный результат пишет в postgreSQL.

Трекеры показали похожий результат. Оставили свой.

mv28jam 7 июн 2023 в 14:39

Не понял. Исходные данные не храните? Только агрегаты?

Demin_Konstantin 7 июн 2023 в 15:27

Все данные сохраняются в файл json в S3 хранилище и остаются там. А из них ETL pySpark job-а собирает агрегаты.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий