Обновить
  • по релевантности
  • по времени
  • по рейтингу

DataTalks 3.0 — программа третьей конференции по управлению данными Ростелекома

Блог компании Ростелеком Учебный процесс в IT Конференции Data Engineering *

24 и 25 ноября 2021 года Ростелеком в третий раз проведет конференцию по управлению данными DataTalks 3.0, где ведущие эксперты крупных компаний поделятся практическим опытом управления данными. В мероприятии примут участие представители Gartner, Сбера, Яндекс.Go, Билайна, Tele2, консалтинговой компании BSSG, SAS Россия/СНГ, Accenture и другие.

Встреча будет интересна студентам, специалистам в области управления данными, аналитикам данных и дата-инженерам, Chief Digital Officer (CDO), а также представителям бизнеса и ИТ-специалистам смежных направлений.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 286
Комментарии 0

Как автоматизировать с Jenkins сборку и раскатку артефактов модели метаданных для таблиц в хранилище

Блог компании Ростелеком Oracle *Серверное администрирование *Администрирование баз данных *Системы сборки *
Все началось с того, что мы столкнулись с потребностью быстро и правильно формировать структуры EDWEX, JSON, DDL и затем раскатывать их на разных контурах реляционных БД. Под контурами я подразумеваю знакомые всем аббревиатуры — DEV, TST, UAT, PRD.



На тот момент мы делали практически все вручную: и генерировали DDL, и собирали edwex-ы и json-ы на основе метаданных из Oracle БД. Входных параметров множество. Упустишь один — и некорректно сформируешь сущность. А так как весь процесс формирования был последовательным и непрерывным, то ошибка обнаружится только в самом конце. О том, как мы все автоматизировали и побороли ошибки, читайте под катом.
Читать дальше →
Всего голосов 20: ↑19 и ↓1 +18
Просмотры 5K
Комментарии 8

Apache NiFi: что это такое и краткий обзор возможностей

Блог компании Ростелеком Apache *Big Data *Хранение данных *Hadoop *
Сегодня на тематических зарубежных сайтах о Big Data можно встретить упоминание такого относительно нового для экосистемы Hadoop инструмента как Apache NiFi. Это современный open source ETL-инструмент. Распределенная архитектура для быстрой параллельной загрузки и обработки данных, большое количество плагинов для источников и преобразований, версионирование конфигураций – это только часть его преимуществ. При всей своей мощи NiFi остается достаточно простым в использовании.

image

Мы в «Ростелекоме» стремимся развивать работу с Hadoop, так что уже попробовали и оценили преимущества Apache NiFi по сравнению с другими решениями. В этой статье я расскажу, чем нас привлек этот инструмент и как мы его используем.
Читать дальше →
Всего голосов 22: ↑22 и ↓0 +22
Просмотры 56K
Комментарии 25

Тестирование и отладка MapReduce

Блог компании Ростелеком Big Data *Хранение данных *Hadoop *
В «Ростелекоме» мы используем Hadoop для хранения и обработки данных, загруженных из многочисленных источников с помощью java-приложений. Сейчас мы переехали на новую версию hadoop с Kerberos Authentication. При переезде столкнулись с рядом проблем, в том числе и с использованием YARN API. Работа Hadoop с Kerberos Authentication заслуживает отдельной статьи, а в этой мы поговорим об отладке Hadoop MapReduce.


Читать дальше →
Всего голосов 25: ↑23 и ↓2 +21
Просмотры 5.2K
Комментарии 6

Автоматизация процесса контроля качества данных корпоративного хранилища

Блог компании Ростелеком Oracle *SQL *Администрирование баз данных *Хранение данных *
В «Ростелекоме», как и в любой крупной компании, имеется корпоративное хранилище данных (ЦХД). Наше ЦХД постоянно разрастается и расширяется, мы строим на нем полезные витрины, отчеты и кубы данных. В какой-то момент мы столкнулись с тем, что некачественные данные мешают нам при построении витрин, получаемые агрегаты не сходятся с агрегатами систем источников и вызывают непонимание бизнеса. Например, данные с Null значениями в внешних ключах (foreign key) не соединяются с данными других таблиц.
Краткая схема ЦХД:



Мы понимали, что для обеспечения уверенности в качестве данных нам нужен регулярный процесс сверок. Конечно, автоматизированный и позволяющий каждому из технологических уровней быть уверенным в качестве данных и их сходимости, как по вертикали, так и по горизонтали. В итоге мы параллельно рассмотрели три готовые платформы для управления сверками от различных вендоров и написали свою собственную. Делимся опытом в этом посте.
Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 4.5K
Комментарии 4

Динамическая генерация DAG в Airflow

Блог компании Ростелеком Open source *Системное администрирование *Apache *Хранение данных *

Всем привет! Меня зовут Антон, в Ростелекоме я занимаюсь разработкой центрального хранилища данных. Наше хранилище состоит из модулей, в качестве оркестратора которых используются несколько инстансов Informatica, часть из которых мы хотим перевести на Airflow в рамках перехода на open-source решения. Поскольку Informatica и Airflow принципиально разные инструменты, взять и повторить существующую реализацию не так уж и просто. Нам хотелось получить workflow, с одной стороны, максимально похожий на текущую реализацию и, с другой стороны, использующий самый интересный первый принцип Airflow — динамичность, которая даёт гибкость.


В этой небольшой статье я хочу рассказать о по-настоящему динамической генерации ДАГов в Airflow. По этой теме в интернете в основном находится много статей от разработчиков из Индии, представляющих собой материалы вида "в Airflow можно генерировать даги динамически, вот пример: <пример по генерации 10 HelloWorld-тасков/дагов>". Нам же была интересна именно генерация дагов, которые будут изменяться во времени с переменным количеством и названиями тасков.


Читать дальше →
Всего голосов 13: ↑13 и ↓0 +13
Просмотры 6.5K
Комментарии 4

«Ростелеком. DataTalks» — курс бесплатных лекций о дата-инжиниринге и управлении данными

Блог компании Ростелеком IT-инфраструктура *Хранение данных *Учебный процесс в IT Конференции
Помимо своей основной деятельности, мы в Ростелекоме ведем различные образовательные проекты. 28 февраля таких проектов станет больше. Мы начнем «Ростелеком. DataTalks» — цикл лекций о дата-инжиниринге и управлении данными от семи ведущих компаний в этой сфере. Все подробности — в этом посте.


Читать дальше →
Всего голосов 14: ↑11 и ↓3 +8
Просмотры 4.7K
Комментарии 3

Как мы побороли несовместимость при миграции данных с Greenplum 4 на Greenplum 5

Блог компании Ростелеком Open source *PostgreSQL *Администрирование баз данных *Big Data *
Когда мы выбирали инструмент для обработки больших данных, то рассматривали разные варианты — как проприетарные, так и с открытым кодом. Оценивали возможности быстрой адаптации, доступности и гибкости технологий. В том числе, миграцию между версиями. В итоге выбрали решение с открытым исходным кодом Greenplum, которое лучше всех соответствовало нашим требованиям, но требовало решения одного важного вопроса.



Дело в том, что файлы баз данных Greenplum версий 4 и 5 не совместимы между собой, и поэтому простой апгрейд от одной версии к другой невозможен. Миграцию данных можно провести только через выгрузку и загрузку данных. В этом посте я расскажу о возможных вариантах этой миграции.
Читать дальше →
Всего голосов 16: ↑16 и ↓0 +16
Просмотры 2.5K
Комментарии 0

Как упростить исследование БД Oracle: «джентльменский набор» скриптов

Блог компании Ростелеком Oracle *Анализ и проектирование систем *Администрирование баз данных *Хранение данных *
Добрый день! Мы команда системных аналитиков одного из подразделений управления данными «Ростелекома». В нашей компании насчитывается более 300 неоднородных источников данных — такое многообразие необходимо для поддержки работы Ростелекома по всем многочисленным направлениям. Мы изучаем источники данных и по необходимости частично выгружаем в контур хранилища.


Ровер Curiosity на поверхности. У него тоже много неоднородных источников данных. Картинка позаимствована с therahnuma.com.

В этом процессе выделяется две подзадачи: определение стратегии сбора данных из таблиц источника в зависимости от их свойств и подготовка таблиц-«приемников» хранилища данных. Для этого мы используем различные GUI и средства реверс-инжиниринга. Кроме того, при сборе информации системный аналитик начинает обрастать пулом вспомогательных запросов к информационным таблицам СУБД (преимущественно Oracle). В этой статье я поделюсь «джентльменским набором» таких скриптов, используемых нашей командой.
Читать дальше →
Всего голосов 22: ↑17 и ↓5 +12
Просмотры 9.1K
Комментарии 3

5 лайфхаков оптимизации SQL-запросов в Greenplum

Блог компании Ростелеком SQL *Администрирование баз данных *Хранение данных *


Любые процессы, связанные с базой, рано или поздно сталкиваются с проблемами производительности запросов к этой базе.

Хранилище данных Ростелекома построено на Greenplum, большая часть вычислений (transform) производится sql-запросами, которые запускает (либо генерирует и запускает) ETL-механизм. СУБД имеет свои нюансы, существенно влияющие на производительность. Данная статья — попытка выделить наиболее критичные, с точки зрения производительности, аспекты работы с Greenplum и поделиться опытом.

В двух словах о Greenplum
Greenplum — MPP сервер БД, ядро которого построено на PostgreSql.

Представляет собой несколько разных экземпляров процесса PostgreSql (инстансы). Один из них является точкой входа для клиента и называется master instance (master), все остальные — Segment instanсe (segment, Независимые инстансы, на каждом из которых хранится своя порция данных). На каждом сервере (segment host) может быть запущено от одного до нескольких сервисов (segment). Делается это для того, чтобы лучше утилизировать ресурсы серверов и в первую очередь процессоры. Мастер хранит метаданные, отвечает за связь клиентов с данными, а также распределяет работу между сегментами.



Подробнее можно почитать в официальной документации.

Далее в статье будет много отсылок к плану запроса. Информацию для Greenplum можно получить тут.

Как писать хорошие запросы на Greenplum (ну или хотя бы не совсем печальные)

Читать дальше →
Всего голосов 23: ↑23 и ↓0 +23
Просмотры 11K
Комментарии 6

От ежедневных аварий к стабильности: Informatica 10 глазами админа

Блог компании Ростелеком SQL *Big Data *Хранилища данных *Hadoop *
Recovery mode


ETL-компонента хранилища данных часто оказывается в тени самого хранилища и ей уделяется меньше внимания, чем главной базе данных или фронт-компоненте, BI, формировании отчётов. При этом с точки зрения механики наполнения хранилища данными, ETL играет ключевую роль и требует не меньше внимания администраторов, чем остальные компоненты. Меня зовут Александр, сейчас я администрирую ETL в Ростелекоме, и в данной статье я постараюсь немного поделиться тем, с чем приходится сталкиваться администратору одной известнейшей ETL-системы в крупном хранилище данных компании Ростелеком.
Читать дальше →
Всего голосов 27: ↑25 и ↓2 +23
Просмотры 12K
Комментарии 3

В будущее с интеграцией сервисов Jenkins & Oracle APEX

Блог компании Ростелеком Тестирование IT-систем *Oracle *Системы сборки *DevOps *
В процессе управления большими объемами данных и их визуализацией мы все чаще сталкиваемся с необходимостью внедрения единого инструмента доступа к управлению функционалом в хранилище. Причем этот инструмент должен быть одинаково удобен и понятен всем сотрудникам подразделения по управлению данными: администраторам, аналитикам, разработчикам и тестировщикам.



Меня зовут Виталий, я отвечаю в Ростелекоме за направление автоматизации тестирования и внедрение DevOps процессов. В данной статье я расскажу об интересном решении данной проблемы в крупном хранилище данных компании Ростелеком.

И вот как мы пришли к такому набору инструментов для решения данной задачи.
Читать дальше →
Всего голосов 24: ↑24 и ↓0 +24
Просмотры 3.6K
Комментарии 0

Как перестать делать одно и то же

Блог компании Ростелеком Open source *SQL *Хранилища данных *
Вы любите из раза в раз повторять рутинные операции? Вот и я нет. Но каждый раз в SQL-клиенте при работе с хранилищем Ростелекома приходилось прописывать все джойны между таблицами ручками. И это притом, что в 90% случаев поля и условия соединения таблиц совпадали от запроса к запросу! Казалось бы, любой SQL-клиент имеет функции автозаполнения, но для хранилищ оно не всегда работает: в них редко заводятся unique constraint и foreign key в целях повышения производительности, а без этого программе не узнать, как между собой связаны сущности и что она может тебе предложить.



Пройдя через отрицание, гнев, торг, депрессию и приближаясь к принятию, я решил — а почему бы самому не попробовать реализовать автозаполнение с блекджеком и как положено? Я пользуюсь клиентом dbeaver, написанным на java, у него есть комьюнити версия с открытым исходным кодом. Созрел нехитрый план:
Читать дальше →
Всего голосов 25: ↑22 и ↓3 +19
Просмотры 6.8K
Комментарии 11

Инструменты информирования или как мы рассказываем о своих сервисах и процессах

Блог компании Ростелеком Управление сообществом *IT-компании
Recovery mode
Хабр, привет!

Все, кто работал хотя бы в одной крупной территориально распределенной компании с сетью филиалов по всей стране, сталкивался с проблемой: «Как проинформировать заинтересованные лица об услугах и сервисах, которые вы предоставляете в рамках своего подразделения? Как избежать дублирования разработки отчётов/функционала из-за разрозненности ИТ-команд из разных регионов необъятной страны, как централизовать данные и отчётность, как сократить издержки компании на разработку отчётности?».

Этот вопрос не миновал и нашу команду, команду бизнес-анализа по управлению данными. Но как донести информацию о том, что у нас сейчас есть, над какими проектами мы работаем и как с нами взаимодействовать? Мы расскажем о наших инструментах информирования и, надеюсь, вы поделитесь своими рекомендациями.

С чего мы начали — так это с построения портала. Для быстрого старта был поднят wiki, в котором отразили основные аспекты своих сервисов и процессов. После чего распараллелили свои активности. С одной стороны начали проработку полноценного портала с удобным и функциональным интерфейсом. С другой занимались наполнением контента на wiki c целью его дальнейшего переиспользования.



Так вот, давайте поговорим о контенте, который мы хотим транслировать. Основной нашей целью было сделать базу реализованных в компании отчетов – «Реестр отчетов». Идея прекрасная, но … тут же появляется вопрос: «А какие данные указывать в реестре, чтобы пользователь понял, что это за отчет и подходит ли он ему?».
Читать дальше →
Всего голосов 19: ↑18 и ↓1 +17
Просмотры 2.5K
Комментарии 1

Как мы создавали адресный справочник Ростелекома

Блог компании Ростелеком Анализ и проектирование систем *Геоинформационные сервисы *Big Data *
🔥 Технотекст 2020
Зачем Ростелекому знать про адреса все и даже немного больше?

Интернет, при всем своем цифровом имидже, штука, созданная в аналоговом мире. И до сих пор для того, чтобы в доме был высокоскоростной интернет, к дому должен быть физически подведён кабель.

Именно адрес дома является ключевым объектом идентификации в многоступенчатом процессе предоставления услуг Интернета.

Адрес возникает в момент, когда клиент звонит к нам в Ростелеком с вопросом, можно ли подключить интернет. Оператору нужно знать адрес клиента, чтобы проверить, проведён ли к дому кабель с интернетом. Адрес используется вплоть до этапа сопровождения и обслуживания действующего клиента. При обращении в службу технической поддержки по адресу клиента проверяется, является ли проблема локальной, или авария массовая и проблема затронула целый квартал.

И конечно, на каждом шаге процесса важна скорость ответа клиенту.

В этом посте мы расскажем о том, насколько важен для наших внутренних систем адрес клиента, почему ФИАС — не панацея, и для чего был создан Единый паспорт дома.
Читать дальше →
Всего голосов 19: ↑16 и ↓3 +13
Просмотры 7.5K
Комментарии 9

DataGovernance своими силами

Блог компании Ростелеком Open source *Анализ и проектирование систем *IT-инфраструктура *Big Data *
Recovery mode
Привет, Хабр!

Данные — это ценнейший актив компании. Об этом заявляет чуть ли не каждая компания с цифровым уклоном. С этим сложно спорить: без обсуждения подходов управления, хранения и обработки данных сейчас не проходит ни одна крупная IT-конференция.

Данные к нам поступают снаружи, также они формируются внутри компании, а если говорить о данных телеком-компании, то это для внутренних сотрудников кладезь информации о клиенте, его интересах, привычках, месторасположении. При грамотном профилировании и сегментации рекламные предложения выстреливают наиболее эффективно. Однако, на практике не все так радужно. Те данные, которые хранят компании, могут быть безнадежно устаревшими, избыточными, повторяющимися, либо об их существовании никому не известно, кроме узкого круга пользователей. ¯\_(ツ)_/¯


Одним словом, данными нужно эффективно управлять – только в таком случае они станут активом, приносящим бизнесу реальную пользу и прибыль. К сожалению, для решения вопросов управления данными нужно преодолеть довольно много сложностей. Обусловлены они в основном как историческим наследием в виде «зоопарков» систем, так и отсутствием единых процессов и подходов к управлению ими. Но что означает «управлять данными»?

Именно мы об это мы и поговорим под катом, а также о том, как нам помог opensource-стек.
Читать дальше →
Всего голосов 21: ↑19 и ↓2 +17
Просмотры 8.9K
Комментарии 3

Как писать свой процессор или расширяем функционал в NiFi

Блог компании Ростелеком Open source *Apache *Big Data *
Recovery mode
Все большую популярность набирает NiFi и с каждым новым релизом он получает все больше инструментов для работы с данными. Тем не менее, может появиться необходимость в собственном инструменте для решения какой-то специфичной задачи.



Apache Nifi имеет в базовой поставке более 300 процессоров.

NiFi Processor это основной строительный блок для создания dataflow в экосистеме NiFi. Процессоры предоставляют интерфейс, через который NiFi обеспечивает доступ к flowfile, его атрибутам и содержимому. Собственный кастомный процессор позволит сэкономить силы, время и внимание пользователей, так как вместо множества простейших элементов-процессоров будет отображаться в интерфейсе и выполняться всего один (ну или сколько напишете). Так же, как и стандартные процессоры, кастомный процессор позволяет выполнять различные операции и обрабатывать содержимое flowfile. Сегодня мы поговорим о стандартных инструментах для расширения функционала.
Читать дальше →
Всего голосов 14: ↑12 и ↓2 +10
Просмотры 3.8K
Комментарии 1

Ценность уместного комментария

Блог компании Ростелеком SQL *

У каждого из нас есть задача, над решением которой ты долго и безуспешно бьешься, которую изучил уже и вдоль и поперек, но все равно не можешь получить нужный результат. При этом одни уверены, что твоя задача в принципе не имеет решения, другие - что проблемы вообще нет. Такой задачей для меня было большое время выполнения любых запросов к хранилищу данных на Greenplum. И как же приятно наконец-то написать, что я эту проблему победил!

Читать далее
Всего голосов 11: ↑9 и ↓2 +7
Просмотры 3.1K
Комментарии 8

Тысяча и один справочник в Master Data Management Ростелекома

Блог компании Ростелеком SQL *Администрирование баз данных *Хранение данных *
Recovery mode

Всем привет! На связи Александр Киваев, руководитель направления департамента управления справочной информацией в команде управления данными «Ростелекома». Если у вас в компании внедрена и эффективно работает MDM система, то считайте, что вы сорвали джэк-пот, потому что это значительно облегчит вам процесс внедрения новых информационных систем в IT инфраструктуру компании, упростит и удешевит интеграцию имеющихся систем, и позволит вам создавать качественную аналитическую и управленческую отчетность, сократив при этом время на обработку, актуализацию и верификацию данных.

Именно эти преимущества мотивируют крупные компании внедрять MDM-решения. В этой статье мы хотим рассказать об опыте внедрения системы управления мастер-данными Ростелекома, о том с какими сложностями мы столкнулись и какими способами нам удалось их решить.

Читать далее
Всего голосов 7: ↑5 и ↓2 +3
Просмотры 2.5K
Комментарии 2

Cелф-сервис BI убивает кровавый энтерпрайз

Блог компании Ростелеком Анализ и проектирование систем *Визуализация данных Управление разработкой *

Привет, меня зовут Владимир Шилов, я руководитель направления в департаменте анализа данных «Ростелекома». В мае 2019 года я пришёл в команду Business Intelligence (BI) и одной из первых задач была реализация отчётности по анализу посещаемости отчетов во всех BI-инструментах, установленных в компании.

Решение этой задачи позволило собрать любопытную статистику и сделать выводы о востребованности BI-инструментов в «Ростелекоме». В этой статье я хочу поделиться следующими результатами нашего анализа:

• Какие BI системы наиболее востребованы в реалиях крупной компании;
• Какие критерии влияют на внутреннюю популярность решения;
• Какие современные тенденции пользовательского поведения можно наблюдать внутри компании и какие вопросы будут стоять перед ИТ-подразделениями в ближайшее время.

Читать далее
Всего голосов 11: ↑7 и ↓4 +3
Просмотры 7K
Комментарии 15
1