До конференции SmartData осталось меньше недели, и мы делимся с Хабром её полной программой. В ней — доклады об архитектуре дата-платформ, обработке данных, хранилищах больших данных и не только. Спикеры как сравнивают уже готовые решения, так и рассказывают о собственных разработках.
Конференция пройдёт в два этапа. 17 и 18 октября будут полностью онлайновыми. А вот 29 октября офлайново соберёмся в Санкт-Петербурге — но если не готовы туда добираться, то и в этот день сможете посмотреть доклады удалённо.
Подробности и билеты — на сайте.
Оглавление
Архитектура дата-платформ
Распределенный высоконагруженный feature store ОК
Андрей Кузнецов
Одноклассники
Андрей расскажет об архитектуре feature store в ОК (где система строилась несколько лет с нуля) и выученным урокам по эксплуатации многокластерного feature store в высоконагруженном продакшене. Рассмотрит feature store как нечто большее, чем просто каталог фич для дата-сайентистов. Вы узнаете, что не так с открытыми решениями и почему они не подходят для больших проектов.
Доклад будет полезен командам, пытающимся выстроить внутри себя воркфлоу работы с данными и упростить выведение моделей в продакшен.
Надежные и масштабируемые пайплайны в OK
Михаил Марюфич
Одноклассники
В Одноклассниках есть множество рекомендательных систем, которые в реальном времени обрабатывают запросы от миллионов пользователей каждый день. Чтобы поддерживать их качество, ежедневно исполняются сотни пайплайнов, которые собирают датасеты и признаки, обучают модели и выкатывают их на прод и делают еще много чего. Но что будет, если какие-то из пайплайнов перестанут работать?..
В докладе Михаил рассмотрит:
Требования к системе исполнения пайплайнов (по возможностям, масштабируемости и надежности).
Развитие собственных систем и связанные сложности.
Замену старых систем на Airflow и причины.
Конфигурацию кластера Airflow (и запуска задач в нем), устойчивую к выводу дата-центра.
Вопросы инцидент-менеджмента.
Устройство dev-контура, позволяющего быстро отлаживать новые решения.
Процессор метаданных для сбора и анализа данных
Александр Нозик
МФТИ
Как конфигурировать автоматический пайплайн, не копируя код на все узлы? Как уследить за версионированием? А если задача еще сложнее — и вычисления гетерогенные?
Александр расскажет, как правильно конфигурировать пайплайны, а также разберет концепцию «процессора метаданных» в фреймворке DataForge. Вы узнаете о том, как избежать проблем с валидацией конфигурации и делать вычисления при помощи разного кода — даже на разных языках. Автоматизированно, параллельно и с кэшированием результатов.
Сказ про то, как Toloka Ai мигрировала на Modern Data Stack
Евгений Ермаков
Toloka Ai Inc
Леонид Кожинов
Toloka AI Inc
Хотя у Яндекса обычно есть собственные готовые инструменты, команда платформы данных Toloka Ai столкнулась с задачей перейти на Modern Data Stack. Евгений и Леонид расскажут о причинах перехода, стадиях работы с Modern Data Stack и ответят на вопросы:
Что такое современная платформа данных и на каких китах она держится?
Как не утонуть в мире Modern Data Stack решений?
Есть ли аналоги инструментам Яндекса в большом мире?
Какие инструменты (из тех, что попробовали в команде) must have, а что можно заменить?
Какие подводные камни интеграции разных систем вас ожидают?
Что стоит, а что не стоит повторять, если вы пойдете по той же дорожке?
Путь к модели данных для ежедневного апдейта 100 прошлых дней
Татьяна Колмакова
Яндекс
Максим Стаценко
Яндекс
Еще один доклад из Яндекса, от команды, которая готовит в Яндексе данные рекламы и поиска. Максим и Таня расскажут, какой путь прошли, когда выбирали архитектуру, что считали, какую разницу получили между разными подходами, почему отмели популярный Data Vault и как ради экономии отказывались от красивых решений.
Вводные: каждый день с десяток терабайт новых данных после обработки, сжатия и упаковки. Обновления приходят на данные до 100 дней в прошлое. Больше сотни потребителей — как автоматических скриптов, так и внутренних пользователей.
Два года назад Максим выступил на SmartData с обзором технологий хранения больших данных, который настолько понравился зрителям, что мы сделали его расшифровку на Хабре.
Ольга Татаринова
AGIMA.AI
Алексей Махоткин
MinimalModeling.com
В современных рассуждениях про аналитический стек много времени уделяется инструментированию: ETL, визуализация данных и т. д. Однако практически не затрагиваются вопросы создания хорошей модели данных и, главное, ее документирования.
Алексей и Ольга расскажут про эволюцию подхода к разработке клиентских аналитических проектов и про моделирование данных. Вы узнаете, как пришли к тому, что этап создания модели данных стал ключевым для проектов. Также узнаете, какие бонусы получает проект, если начинать разработку с создания модели данных:
весь датасет документирован «по построению», и документация поддерживается в актуальном состоянии, как часть процесса работы с данными;
новый аналитик подключается к проекту и выходит на эффективность за полдня;
data lineage из коробки без дополнительных заморочек;
к проекту можно подключить (почти) любое количество аналитиков, и скорость разработки проекта от этого линейно возрастет.
Разнообразие требований к Data Warehouse. Как говорить с заказчиком, чтобы ничего не пропустить
Артем Дайнеко
Авиасейлс
Артем рассмотрит разные группы требований к Data Warehouse и то, как их учесть в реализации. В результате вы получите список вопросов к заказчику, которые хорошо бы прояснить до того, как вы начнете строительство нового DWH. Для уже существующего DWH вы сможете изолировать проблемные группы запросов, для которых стоит выделить отдельные подсистемы.
Доклад без привязки к определенной технологии. Будут примеры на Impala/Hive, ClickHouse, ScyllaDB/Cassandra, PostgreSQL.
Инжиниринг данных в «Майкрософт»
Дмитрий Аношин
Microsoft
Дмитрий расскажет про особенности работы инженером данных в «Майкрософт» и про свой двухлетний опыт там. Среди тем доклада:
собеседование и начало работы;
создание Delta Lake с нуля и модернизация аналитического решения;
software engineering в работе инженера данных;
специфика компании;
плюсы и минусы работы в «Майкрософт»;
отличие культур Amazon и «Майкрософт» по мнению Дмитрия;
типовые аналитические решения.
Data Vault на Greenplum c помощью DBT
Марк Порошин
Smart Prediction Technologies
Из доклада Марка вы узнаете, как в SPT делают Data Vault на Greenplum с помощью DBT и про оркестровку ELT-пайплайна с помощью Dagster. Марк уделит внимание тонкостям работы с DBT и тому, как использовать его в связке с Greenplum. Также он затронет реализованный адаптер и патч для пакета dbtvault.
Марк расскажет доклад в контексте построения Data Vault на тестовых данных. Он выделит из плоских данных хабы, линки и сателлиты и настроит пакетное наполнение хранилища с помощью указанного стека.
Что такое Data Mesh и примеры реализации
Александр Ермаков
Arenadata
Александр рассмотрит методологию Data Mesh в сравнении с другими подходами, проблематику построения классических команд и Data Pipelines.
Вторая часть доклада посвящена прикладной реализации концепции с использованием подходов Data Infra as a Platform, DataOps и технологическому стеку, который может быть использован для построения архитектуры Data Mesh в компании.
Ольга Татаринова
AGIMA.AI
В современных рассуждениях про аналитический стек много времени уделяется инструментированию: ETL, визуализация данных и т. д. Однако практически не затрагиваются вопросы создания хорошей модели данных и, главное, ее документирования.
Ольга расскажет про эволюцию подхода к разработке клиентских аналитических проектов и про моделирование данных. Вы узнаете, как в её команде пришли к тому, что этап создания модели данных стал ключевым для проектов. Также увидите, какие бонусы получает проект, если начинать разработку с создания модели данных:
весь датасет документирован «по построению», и документация поддерживается в актуальном состоянии, как часть процесса работы с данными;
новый аналитик подключается к проекту и выходит на эффективность за полдня;
data lineage из коробки без дополнительных заморочек;
к проекту можно подключить (почти) любое количество аналитиков, и скорость разработки проекта от этого линейно возрастет.
Свой ETL-инструмент — это реально
Михаил Иванов
Тинькофф
Из доклада вы узнаете, зачем в Тинькофф понадобился свой ETL-инструмент, чем не подошли существующие и что в итоге получилось.
Михаил расскажет, почему выбрали Airflow и как на его основе сделали фреймворк. Доклад будет интересен ETL-разработчикам, дата-инженерам, аналитикам, дата-архитекторам и всем причастным кв обработке и трансформации данных.
Эволюция ETL-инструментов на примере отдельно взятой Big Data
Саттар Гюльмамедов
МТС Digital
Максим Мартынов
МТС Digital
Саттар и Максим расскажут, как менялись пользовательские подходы к организации и реализации ETL-процессов, и как вслед за ними менялись инструменты для лучшего ответа на изменившиеся требования и условия работы. Один из интересных моментов доклада — рассказ о том, как в команде стали отказываться от использования нестандартных собственных инструментов Hadoop в пользу более стандартного Spark, что к этому подвигло и к каким результатам привело.
Доклад будет интересен дата-инженерам, специалистам по ETL, дата-сайентистам и всем, кому важно расширить свой кругозор или узнать об опыте других.
СУБД и хранилища для больших данных
Как устроено выполнение SQL-запросов в Trino
Владимир Озеров
Querify Labs
Trino — это распределенный SQL-движок с serverless-архитектурой, который позволяет выполнять федеративные запросы по данным произвольного объема.
Владимир рассмотрит, как устроено выполнение запросов в Trino — от получения запроса на узле-координаторе до выдачи результата пользователю. Он затронет темы оптимизации запросов, pushdown-вычислений в целевые системы, распределения работы между узлами в кластере, архитектуры операторов, JIT-компиляции, управления памятью, работы с диском.
Кстати, на прошлой SmartData Владимир вместе с коллегой Алексеем Гончаруком рассказал доклад об архитектуре высокопроизводительных распределенных SQL-движков. Зрители высоко оценили выступление, посмотрите, если ещё не видели.
Восстановление распределенной базы данных после аварии
Антон Виноградов
Apache Software Foundation
Представьте, что тысячи людей редактировали миллионы документов на сотнях серверов с асинхронной репликацией в запасной кластер, но ошибка в коде привела к потере каждого миллионного изменения в рамках каждого из кластеров. Есть ли решение у такой проблемы? Спикер расскажет, что делать, когда код-ревью, failover и сертификация не помогли избежать аварии распределенной базы данных.
Изменить неизменяемое. Опыт наката мутаций на данные HDFS при помощи Spark
Никита Благодарный
Центр развития перспективных технологий
Никита расскажет об опыте использования Delta, Apache Hudi и внутренних разработок для решения проблемы обновлений строк, хранящихся в Parquet на HDFS.
Попробовав несколько инструментов для мутации данных в хранилище, команда Никиты придумала, как допилить тот, что подходит больше всего.
Доклад будет интересен дата-инженерам, использующим Spark и immutable storage.
Datа processing
Павел Филонов
Независимый консультант
Здесь будет не просто доклад, а мастер-класс, где при желании вы сможете повторить за Павлом всё, что он будет творить при помощи библиотеки pandas.
По мере роста масштабов стандартных средств становится недостаточно, и на помощь приходят новые — но оказывается, что и там мы имеем дело с pandas API. Вместе с Павлом вы пройдёте путь от начинающего DS, который может просто крутить небольшие данные с помощью pandas через параллельную обработку и использование Dask, до распределенной обработки средствами Spark.
Константин Сергеев
СМП Банк
Константин расскажет, какие задачи решаются с помощью ETL Pentaho. Вы узнаете, как быстро решить задачи по загрузке данных и провести аналитику данных. А ещё — какие фишки Pentaho помогают перегружать большое количество таблиц в DWH.
100 миллиардов сообщений в Kafka: загрузил и забыл
Денис Ефаров
Одноклассники
Apache Kafka — прекрасный инструмент для надежной передачи сообщений между сервисами, но выгрузить его содержимое для офлайн-аналитики оказалось не такой простой задачей. Особенно когда речь идет о сотне миллиардов сообщений ежедневно. На помощь приходит Apache Spark, но, к сожалению, его возможностей недостаточно для надежной и полностью автоматизированной работы на действительно больших объемах данных.
Денис расскажет, как выгружать из Apache Kafka в HDFS 100 миллиардов сообщений в день и перестать думать об этом.
Доклад будет интересен разработчикам в Big Data, использующим Kafka для передачи больших объемов данных в Hadoop.
Любовь и ненависть к Prefect 2.0 после Apache Airflow
Юлия Волкова
Независимый консультант
Доклад про то, как создатели Prefect хотели (или не хотели) сделать лучшую версию Apache Airflow, а создали совсем другой инструмент. Что произошло с Prefect в версии 2.0?
Юлия (много работавшая с Apache Airflow и даже контрибьютившая туда) расскажет, чего не хватает в Prefect, но есть в Apache Airflow, рассмотрит разные парадигмы, стоящие за инструментами, объяснит, почему нельзя просто взять и переехать с одного инструмента на другой без переосмысления пайплайнов. Вы узнаете, что отвалилось от Prefect при разработке версии 2.0, что появилось нового и что общего между storage и engine по мнению мейнтейнеров Prefect.
Ingest-слой платформы данных: смешать, но не взбалтывать
Олег Кочергин
СберЗдоровье
Рассказ о том, как в рамках платформы данных СберЗдоровья команда Олега построила Ingest-слой для внутренних и внешних источников и не забыла про работу с чувствительными данными и дата-каталог. Поскольку платформа должна абстрагировать компоненты под собой, то речь пойдет и про DSL, с помощью которого этим всем управляют.
Автоматический тюнинг Spark-приложений
Валерия Дымбицкая
oneFactor
Валерия расскажет про Hadoop-кластер, где запускаются сотни ежедневных и тысячи ежечасных Spark-расчётов. Все расчёты очень разные и со своим SLA. В такой ситуации тюнить силами инженеров нереально. Поэтому они построили и внедрили полностью автоматическую систему тюнинга, основанную на логах, которые пишет сам Spark.
Вы увидите, как удобно в офлайн-режиме извлечь море информации из этих логов и на что смотреть при автоматическом тюнинге spark.executor.memory. Валерия также подробно расскажет, как устроена их система тюнинга и что позволяет им постоянно подстраиваться под изменения. Доклад будет интересен тем, кто уже имеет дело со Spark и представляет себе его устройство.
NiFi-скрипты как элемент Less Code ETL
Бронислав Житников
Тинькофф
В NiFi есть множество трансформаций, которые не требуют кодирования. Но далеко не все можно сделать с помощью коробочных трансформаций. Разрабатывать на каждую уникальную трансформацию процессор — это интересный, но дорогой вариант. В NiFi можно использовать scripting и получить более гибкий инструмент трансформации данных.
Бронислав расскажет, когда следует выбрать скрипт и как это сделать наиболее эффективно. Этот доклад для активных пользователей NiFi, а так же для тех, кто рассматривает NiFi в качестве ETL-инструмента для своих задач.
Как мы пустили пользователей строить свой ETL
Алексей Полянский
Тинькофф
И ещё один доклад, связанный с ETL. Он будет о SelfServiceETL — фреймворке, позволяющем пользователям КХД самостоятельно создавать и изменять ETL-процессы. В докладе пойдет речь про предпосылки и историю развития SSETL, про сам продукт и немного про архитектурный контекст. Особое внимание спикер уделит зайцам, которых убили, и граблям, на которые уже наступили или только собираются наступить.
Datа governance
Как построить data lineage. Обзор решений и опыт нашей команды
Дмитрий Зуев
Тинькофф
О хорошем data lineage мечтают все: пользователи, системные аналитики, разработчики и даже безопасники. Каждый выдвигает свои требования к тому, что должен отображать data lineage. Но абсолютно все хотят, чтобы data lineage строился без участия человека: для предостережения ошибок и ускорения времени разработки.
Дмитрий расскажет, какие решения доступны в индустрии, какие есть сложности и ограничения, и каким путем пошли в его команде.
Большие данные — большая ответственность. Опыт защиты от утечек в аналитических системах
Алексей Артемов
Schwarz group
При разработке аналитических систем большое количество конфиденциальных данных может оказываться в одном месте с относительно гибким доступом для большого числа сотрудников. Алексей расскажет про свой опыт внедрения технических и административных мер, которые в короткий срок помогли защитить данные из аналитических систем от потенциальной кражи и при этом не поломать существующие бизнес-процессы компании.
Внедренные изменения повлияли на работу более чем 3000 сотрудников компании (пользователей отчетности, аналитиков и инженеров данных).
Хранилище есть, а дальше что? Документация и другие способы улучшить DX ваших коллег
Игорь Мосягин
Klarna
Какие доки нужны и зачем? Как организовать демо и общение между командами, работающими с вашим хранилищем? Как в этом бардаке сделать так, чтобы аналитики понимали, чего от них хотят инженеры, а менеджеры понимали, какие проблемы у аналитиков?
Игорь расскажет про стили кода, улучшение документации и про то, как сделать так, чтобы все дружили друг с другом в контексте работы с хранилищем данных. Начнем с описания примерных ролей и различий типичных пользователей и разработчиков хранилища данных. Затем плавно обозначим, как можно сделать так, чтобы они не только перестали друг другу мешать, но и помогали делать свою работу.
Как загрузить в каталог данных всё на свете и не умереть
Иван Канашов
Тинькофф
Мало создать удобный каталог данных, самая большая работа — это наполнить его метаданными, которые берутся из огромного количества разных источников.
Иван расскажет, почему им пришлось перейти от pull-подхода наполнения каталога к push, про особенности технической реализации и проблемы, с которыми пришлось столкнуться.
Доклад будет полезен тем, кто уже внедрил или думает о внедрении или разработке каталога данных.
MLOps / DevOps
Использование платформы GrowthBook для управления ML-экспериментами
Валентин Пановский
more.tv
В зависимости от стадии зрелости компании можно встретить разные способы проведения цикла продуктовых гипотез: от «костылей» для разделения пользовательских групп на фронтенде/бэкенде до собственных SDK или внедрения проприетарных/свободных инструментов для управления тестами.
Каждый из этих подходов имеет право на жизнь, так как позволяет оптимизировать ту или иную метрику разработки, жертвуя чем-то другим. Например, ускоряя TTM взамен на повышенную скорость накопления технического долга.
Валентин поговорит об одном из способов организации пайплайна экспериментов на основе открытой платформы GrowthBook, когда ответственность за запуск и тестирование фич лежит на команде ML-разработчиков. Предлагаемый подход призван уменьшить количество интеграций на стороне основной команды разработки и одновременно повысить скорость вывода в продакшен новых версий моделей машинного обучения.
Что такое DevOps в мире хранилищ данных?
Василий Куценко
Почтатех
Василий расскажет, как в Почтатехе применяют DevOps-практики в работе с хранилищами данных и как благодаря этому уменьшить time-to-market.
Благодаря примененным практикам в DataCloud получилось принести прозрачность в процесс разработки, реализовать подход по версионированию объектов БД и упростить коммуникации между участниками процесса. В результате удалось сократить time-to-market с месяцев до дней.
В докладе будут затронуты вопросы:
В чем отличие разработчиков DWH от разработчиков приложений?
Чем отличается DWH/BI от мира «классических» приложений (кадровые и архитектурные вопросы)?
Что и как делают DevOps в DWH и как им помочь?
Колонки и векторные инструкции
Александр Боргардт
duckstax.com
Колоночные СУБД помогают нам решать проблему быстрой обработки данных за счет колоночного представления данных, компрессии типов и векторизации. Если верить определению из Википедии, то векторизация применяется только в колоночных СУБД.
На самом деле, векторизация окружает дата-инженера повсюду: NumPy, pandas, Apache Spark, Numba.
Александр разберт основы работы колонок и векторизации. Рассмотрит, где можно еще ощутить мощь векторизации, и узнаем, что мешает ей эффективно работать.
Другое
Как продуктовый дизайн влияет на разработку ETL-платформы
Дмитрий Зуев
Тинькофф
Диана Ударцева
Тинькофф
Одно из ключевых отличий DWH в Тинькофф — разработка почти всех инструментов вместе с продуктовыми дизайнерами.
Дмитрий и Диана расскажут, как в компании переосмысли интерфейс для разработки ETL-процессов на примере собственного DWH-инструмента для Batch ETL — TEDI, призванного заменить SAS. ETL-разработчики взаимодействуют с TEDI каждый день, и чем удобнее этот инструмент, тем быстрее и качественнее они делают свою работу.
Вы узнаете, как продуктовый дизайн влияет на скорость и удобство ETL-разработки, как пользовательский опыт влияет на разработку инструмента, какой профит от продуктового дизайна получают все участники процесса и почему отсутствие дизайна в техническом продукте может помешать вырастить мощный перспективный сервис. Также будет рассмотрено отличие TEDI от ближайших аналогов, таких как Airbyte.
В заключение
Помимо всего описанного, будут и другие активности: викторина, доклад от партнёра, два интервью. А ещё важно помнить, что конференция — это не просто «сидеть и смотреть». Даже если вы участвуете исключительно в онлайн-формате, видеодискуссии после докладов, конференционные чаты и партнёрские активности помогут ощутить, что вы не просто смотрите ролики на YouTube.
Напоследок напомним даты и формат. В этом году будут как два уже привычных онлайн-дня 17 и 18 октября, так и офлайн-день в Санкт-Петербурге 29 октября. Но если приехать на него нет возможности или просто не хочется, поучаствовать в нём можно будет всё так же онлайн.
Программа, билеты и расписание — на сайте SmartData.