Как стать автором
Обновить
15
0
Денис Наумов @beantorong

Analytics & Data engineering techlead

Отправить сообщение

Автоконфигурируемость ETL: как мы сделали ETL устойчивым к постоянным изменениям в структуре входных данных

Время на прочтение6 мин
Количество просмотров4.8K

Типичный диалог на планировании:
Лид:  
— Пользователи просят репликацию вот этих колонок в этих таблицах из продакшен базы в data lake.
Разработчик: 
— Когда?
Лид:  
— Вчера.

Запрос в таску, таску в спринт, а дальше вручную исследование входных данных, подготовка маппинга и миграций, верификация, развертывание, и спустя пару спринтов пользователь получит желаемые данные. А как нам  ускорить этот процесс, ну скажем, до нескольких часов?

Всем привет! Меня зовут Семен Путников, я — инженер данных в DINS. Я работаю в команде, которая участвует в разработке инструментов управления и анализа больших данных для RingCentral. Под катом история о том, как мы решили проблему частой миграции данных для наших ETL и радуем пользователей быстрыми ответами на их запросы.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии4

Инструменты Data Governance

Время на прочтение6 мин
Количество просмотров27K

В двадцать первом веке миром правит информация и для того, чтобы оставаться конкурентоспособным на рынке предприятию необходимо не только владеть информацией, а также уметь грамотно ей распоряжаться. На данный момент существуют разные системы управления данными для эффективного управления компанией.

Разберем понятие Data Governance, что это и для чего оно предприятию.

Data Governance – это совокупность процессов определения наиболее важных данных для использования сотрудниками, присвоение им прав доступа и управления для отлаженной работы бизнес-процесса, а также защита данных от внешних воздействий.

Стоит отметить, что многие путают понятия Data Governance и Data Management.

Data Management это процесс сбора, хранения и обновления данных.

Можно сказать, что Data Governance формирует стратегию управления данными, а Data Management напрямую осуществляет управление данными согласно определенной стратегии.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии6

Продуктивность разработки

Время на прочтение3 мин
Количество просмотров11K

Тот, кто научится правильно измерять продуктивность разработчиков, точно станет миллионером. Особенно на текущем рынке труда, где кандидаты просто называют случайные пятизначные числа желаемой зарплаты. Есть несколько вендорских платных решений, но они не получили распространения. Никто не ставит такую систему по умолчанию, как, например, CI/CD. Давайте посмотрим на возможные подходы к измерению продуктивности и поговорим об этом в комментариях.

Читать далее
Всего голосов 64: ↑39 и ↓25+14
Комментарии68

Информация

В рейтинге
Не участвует
Откуда
Санкт-Петербург, Санкт-Петербург и область, Россия
Зарегистрирован
Активность

Специализация

Backend Developer, Data Engineer
Lead
От 7 000 $
Python
Apache Airflow
SQL
Database
C++ Boost
Fastapi
AWS
High-loaded systems
Algorithms and data structures