Обновить
Сначала показывать
Порог рейтинга
Уровень сложности

Как перестать делать одно и то же

Время на прочтение4 мин
Охват и читатели8.3K
Вы любите из раза в раз повторять рутинные операции? Вот и я нет. Но каждый раз в SQL-клиенте при работе с хранилищем Ростелекома приходилось прописывать все джойны между таблицами ручками. И это притом, что в 90% случаев поля и условия соединения таблиц совпадали от запроса к запросу! Казалось бы, любой SQL-клиент имеет функции автозаполнения, но для хранилищ оно не всегда работает: в них редко заводятся unique constraint и foreign key в целях повышения производительности, а без этого программе не узнать, как между собой связаны сущности и что она может тебе предложить.



Пройдя через отрицание, гнев, торг, депрессию и приближаясь к принятию, я решил — а почему бы самому не попробовать реализовать автозаполнение с блекджеком и как положено? Я пользуюсь клиентом dbeaver, написанным на java, у него есть комьюнити версия с открытым исходным кодом. Созрел нехитрый план:
Читать дальше →

Балансировка нагрузки в Openstack

Время на прочтение14 мин
Охват и читатели6.1K
В крупных облачных системах особенно остро стоит вопрос автоматической балансировки или выравнивания нагрузки на вычислительные ресурсы. Озаботились данным вопросом и в Тиониксе (разработчик и оператор облачных услуг, входим в группу компаний Ростелекома).

И, поскольку нашей основной платформой разработки является Openstack, а мы, как и все люди, ленивы, то было решено подобрать какой-то готовый модуль, что уже есть в составе платформы. Наш выбор пал на Watcher, который мы и решили использовать для своих нужд.

Для начала разберемся с терминами и определениями.
Читать дальше →

26 июля, Deworkacy — DocOps от Ростелекома

Время на прочтение2 мин
Охват и читатели3.3K
Привет!

Мы тут решили провести митап по DocOps — это почти как DevOps, только про документацию и всё, что с ней связано. Таких мероприятий обычно не так много, оно и понятно — документация не такая хайповая штука, как React, к примеру. Да и не только React, прямо скажем. Злые языки вообще утверждают, что от документации зрение портится.



Но она реально важна, с ней работают люди, и чем правильнее и логичнее у вас в компании выстроены процессы работы с документацией, тем всем будет проще. Даже тем коллегам, работа которых (на первый взгляд) в документацией не связана.

В общем, в пятницу, 26 июля, мы в 19.00 собираемся в Deworkacy (Москва, Берсеневская набережная, 6, стр 3) и начинаем документировать говорить про документацию. Список докладов — под катом.
Читать дальше →

Кибервызов. Новый уровень. Онлайн-соревнование от «Ростелеком-Солар»

Время на прочтение3 мин
Охват и читатели4K
Противостояние меча и щита — штука вечная. На каждый превосходный для своего времени доспех через пару лет (или десятилетий) обязательно найдется меч, который будет довольно бодро такой доспех крошить. Закошмаренные наличием такого меча ребята из оборонки создадут новый доспех, который станет хорошей защитой. Пока снова не придумают новый меч. В общем, это к вопросу о том, что хорошо бы поддерживать актуальное состояние защиты.

С кибербезопасностью все аналогично. Вирусы десятилетней давности уже не пугают никого, даже далеких от информационных технологий людей, потому что базовая система защиты ОС с ними справляется. А вот с современными шифровальщиками, например, все уже не так просто. Можно обложиться всевозможными платными антивирусами, но если не соблюдать здравую сетевую гигиену и временами запускать от администратора «картинки» с расширением .exe, результат будет печальным. Но предсказуемым.



Чем распространеннее становится интернет в целом, тем больше становится и информационных угроз. И дело даже не в увеличении поголовья «мамкиных хакеров», которым нужна девичья фамилия вашей мамы для взлома почты, но и в том, что способов взлома с помощью новых технологий и инструментов становится все больше.

К счастью, растет и число тех, кто хочет выступать и на стороне «белых», то есть защиты. Школьники и студенты активно интересуются технологиями и изучают противодействие угрозам.

Мы в Ростелекоме решили выстраивать для таких ребят систему «Школа — вуз — работодатель». И сейчас мы расскажем о том, как будет проходить наша новая образовательная программа для студентов.
Читать дальше →

Чеклист: запускаем SCRUM-команды и делаем прививки от зомби-скрама

Время на прочтение6 мин
Охват и читатели11K
SCRUM стал настолько популярен, что сейчас его пытаются внедрять практически везде. В больших компаниях иногда получается так, что SCRUM внедряют ради отчетности, или для того, чтобы быть “прогрессивным” и “модным”. В результате ситуация, что вроде как ответственный менеджер поставил себе очередную галочку, мол, надо было внедрить методологию — внедрил, молодец, но при этом вместо каких-то качественных улучшений на выходе оказывается так называемый «Zombie SCRUM». Это когда формально фреймворк внедрен, но по нему никто нормально не работает. Отсюда и название.



Меня зовут Олег Егоркин, я agile коуч в Ростелекоме, и в этом посте я расскажу, почему «зомби-скрам» вообще возникает, как этого избежать и как убедиться, что в компании все готово к запуску скрам-команды.
Читать дальше →

В будущее с интеграцией сервисов Jenkins & Oracle APEX

Время на прочтение5 мин
Охват и читатели4.7K
В процессе управления большими объемами данных и их визуализацией мы все чаще сталкиваемся с необходимостью внедрения единого инструмента доступа к управлению функционалом в хранилище. Причем этот инструмент должен быть одинаково удобен и понятен всем сотрудникам подразделения по управлению данными: администраторам, аналитикам, разработчикам и тестировщикам.



Меня зовут Виталий, я отвечаю в Ростелекоме за направление автоматизации тестирования и внедрение DevOps процессов. В данной статье я расскажу об интересном решении данной проблемы в крупном хранилище данных компании Ростелеком.

И вот как мы пришли к такому набору инструментов для решения данной задачи.
Читать дальше →

От ежедневных аварий к стабильности: Informatica 10 глазами админа

Время на прочтение9 мин
Охват и читатели20K


ETL-компонента хранилища данных часто оказывается в тени самого хранилища и ей уделяется меньше внимания, чем главной базе данных или фронт-компоненте, BI, формировании отчётов. При этом с точки зрения механики наполнения хранилища данными, ETL играет ключевую роль и требует не меньше внимания администраторов, чем остальные компоненты. Меня зовут Александр, сейчас я администрирую ETL в Ростелекоме, и в данной статье я постараюсь немного поделиться тем, с чем приходится сталкиваться администратору одной известнейшей ETL-системы в крупном хранилище данных компании Ростелеком.
Читать дальше →

Какие решения есть у Ростелекома для IIoT

Время на прочтение8 мин
Охват и читатели9.4K
Привет!

Недавно мы вместе с Geekbrains провели хакатон, посвященный индустриальному интернету вещей IIoT и теперь начинаем выкладывать серию интервью с нашими экспертами. Первое из них — беседа с Николаем Шевалье, главным архитектором проектного офиса «Индустриальный интернет вещей» Ростелекома.



Николай расскажет, что же такое индустриальный интернет вещей и чем он отличается от привычного IoT, а также про решения, которые уже есть у Ростелекома.

Под катом — о роли IIoT в автоматизации систем ЖКХ, сельского хозяйства, умных офисов и многое другое.
Читать дальше →

Инициация IT-адептов: покажи свою Силу на РИФе

Время на прочтение2 мин
Охват и читатели1.8K
Не успеет Солнце дважды опуститься за горизонт, как все IT-джедаи, падаваны и юнлинги слетятся в звездную систему «Лесные дали», чтобы подтвердить свой IT-статус. Тестированием адептов Силы займутся «Ростелеком», «РТ Лабс» и Хабр. Пунктом инициации станет Российский Интернет-Форум (РИФ), где воины информационных технологий соберутся на совет по множеству вопросов галактической важности — малый и средний бизнес в интернете, дизайн и UX, цифровой маркетинг, кибербезопасность, HR, PR, big data.



Инициация адептов пройдет в отдельном отсеке звездолета РИФ — пространстве «Ростелекома», «РТ Лабс» и Хабра — где каждый сможет не только доказать свое мастерство, но и получить знания, награды, а также расширить горизонт событий. Точнее, собственных профессиональных перспектив. Подробности — под катом.
Читать дальше →

Как мы делаем IT для людей в Ростелекоме

Время на прочтение5 мин
Охват и читатели9.6K
В большинстве компаний IT-подразделения выстроены примерно одинаково. Да, могут различаться используемые для обработки заявок системы, количество операторов, их нагрузка, спектр проблем, которые они способны решить, и прочее.

Но общее у них одно. IT работает на нужды бизнеса и продаж прежде всего. То есть самый главный приоритет в этих отделах — это большие проекты, направленные на увеличение прибыли. Но из-за этого зачастую забывают о самих людях, которые пишут в IT, и их хотелках. На это банально нет времени, и все полезные пожелания остаются где-то в заметках, до которых IT-специалисты добираются потом так же часто, как вы до закладок в браузере полугодичной давности.

В некоторых компаниях иногда вообще доходит до того, что айтишники из поддержки зачастую прячутся за безликими заявками и общаются с другими сотрудниками или клиентами только тикетами. Вот и получается, что подобное отношение к IT вредит компании в плане внутреннего бренда — другие сотрудники начинают считать айтишников не очень внимательными. Айтишники, в свою очередь, получают немного удовольствия от рутинных задач.

Мы в Ростелекоме решили поменять эту ситуацию с помощью программы «IT для людей». Потому что получается, что крупные проекты мы запускать можем, а вот небольшие, но важные улучшения внутри компании обычно делать некому.
Читать дальше →

Как мы предсказывали отток, подойдя к нему как к стихийному бедствию

Время на прочтение11 мин
Охват и читатели21K
Иногда для того, чтобы решить какую-то проблему, надо просто взглянуть на нее под другим углом. Даже если последние лет 10 подобные проблемы решали одним и тем же способом с разным эффектом, не факт, что этот способ единственный.

Есть такая тема, как отток клиентов. Штука неизбежная, потому что клиенты любой компании могут по множеству причин взять и перестать пользоваться ее продуктами или сервисами. Само собой, для компании отток — хоть и естественное, но не самое желаемое действие, поэтому все стараются этот отток минимизировать. А еще лучше — предсказывать вероятность оттока той или иной категории пользователей, или конкретного пользователя, и предлагать какие-то шаги по удержанию.

Анализировать и пытаться удержать клиента, если это возможно, нужно, как минимум, по следующим причинам:

  • привлечение новых клиентов дороже процедур удержания. На привлечение новых клиентов, как правило, нужно потратить определенные деньги (реклама), в то время как существующих клиентов можно активизировать специальным предложением с особыми условиями;
  • понимание причин ухода клиентов — ключ к улучшению продуктов и услуг.

Существуют стандартные подходы к прогнозированию оттока. Но на одном из чемпионатов по ИИ мы решили взять и попробовать для этого распределение Вейбулла. Чаще всего его используют для анализа выживаемости, прогнозирования погоды, анализа стихийных бедствий, в промышленной инженерии и подобном. Распределение Вейбулла — специальная функция распределения, параметризуемая двумя параметрами $λ$ и $k$.


Википедия

В общем, вещь занятная, но для прогнозирования оттока, да и вообще в финтехе, использующаяся не так, чтобы часто. Под катом расскажем, как мы (Лаборатория интеллектуального анализа данных) это сделали, попутно завоевав золото на Чемпионате по искусственному интеллекту в номинации «AI в банках».
Читать дальше →

5 лайфхаков оптимизации SQL-запросов в Greenplum

Время на прочтение5 мин
Охват и читатели60K


Любые процессы, связанные с базой, рано или поздно сталкиваются с проблемами производительности запросов к этой базе.

Хранилище данных Ростелекома построено на Greenplum, большая часть вычислений (transform) производится sql-запросами, которые запускает (либо генерирует и запускает) ETL-механизм. СУБД имеет свои нюансы, существенно влияющие на производительность. Данная статья — попытка выделить наиболее критичные, с точки зрения производительности, аспекты работы с Greenplum и поделиться опытом.

В двух словах о Greenplum
Greenplum — MPP сервер БД, ядро которого построено на PostgreSql.

Представляет собой несколько разных экземпляров процесса PostgreSql (инстансы). Один из них является точкой входа для клиента и называется master instance (master), все остальные — Segment instanсe (segment, Независимые инстансы, на каждом из которых хранится своя порция данных). На каждом сервере (segment host) может быть запущено от одного до нескольких сервисов (segment). Делается это для того, чтобы лучше утилизировать ресурсы серверов и в первую очередь процессоры. Мастер хранит метаданные, отвечает за связь клиентов с данными, а также распределяет работу между сегментами.



Подробнее можно почитать в официальной документации.

Далее в статье будет много отсылок к плану запроса. Информацию для Greenplum можно получить тут.

Как писать хорошие запросы на Greenplum (ну или хотя бы не совсем печальные)

Читать дальше →

Как упростить исследование БД Oracle: «джентльменский набор» скриптов

Время на прочтение9 мин
Охват и читатели14K
Добрый день! Мы команда системных аналитиков одного из подразделений управления данными «Ростелекома». В нашей компании насчитывается более 300 неоднородных источников данных — такое многообразие необходимо для поддержки работы Ростелекома по всем многочисленным направлениям. Мы изучаем источники данных и по необходимости частично выгружаем в контур хранилища.


Ровер Curiosity на поверхности. У него тоже много неоднородных источников данных. Картинка позаимствована с therahnuma.com.

В этом процессе выделяется две подзадачи: определение стратегии сбора данных из таблиц источника в зависимости от их свойств и подготовка таблиц-«приемников» хранилища данных. Для этого мы используем различные GUI и средства реверс-инжиниринга. Кроме того, при сборе информации системный аналитик начинает обрастать пулом вспомогательных запросов к информационным таблицам СУБД (преимущественно Oracle). В этой статье я поделюсь «джентльменским набором» таких скриптов, используемых нашей командой.
Читать дальше →

Ближайшие события

Как мы побороли несовместимость при миграции данных с Greenplum 4 на Greenplum 5

Время на прочтение11 мин
Охват и читатели5.4K
Когда мы выбирали инструмент для обработки больших данных, то рассматривали разные варианты — как проприетарные, так и с открытым кодом. Оценивали возможности быстрой адаптации, доступности и гибкости технологий. В том числе, миграцию между версиями. В итоге выбрали решение с открытым исходным кодом Greenplum, которое лучше всех соответствовало нашим требованиям, но требовало решения одного важного вопроса.



Дело в том, что файлы баз данных Greenplum версий 4 и 5 не совместимы между собой, и поэтому простой апгрейд от одной версии к другой невозможен. Миграцию данных можно провести только через выгрузку и загрузку данных. В этом посте я расскажу о возможных вариантах этой миграции.
Читать дальше →

«Ростелеком. DataTalks» — курс бесплатных лекций о дата-инжиниринге и управлении данными

Время на прочтение4 мин
Охват и читатели5.5K
Помимо своей основной деятельности, мы в Ростелекоме ведем различные образовательные проекты. 28 февраля таких проектов станет больше. Мы начнем «Ростелеком. DataTalks» — цикл лекций о дата-инжиниринге и управлении данными от семи ведущих компаний в этой сфере. Все подробности — в этом посте.


Читать дальше →

Динамическая генерация DAG в Airflow

Время на прочтение6 мин
Охват и читатели17K

Всем привет! Меня зовут Антон, в Ростелекоме я занимаюсь разработкой центрального хранилища данных. Наше хранилище состоит из модулей, в качестве оркестратора которых используются несколько инстансов Informatica, часть из которых мы хотим перевести на Airflow в рамках перехода на open-source решения. Поскольку Informatica и Airflow принципиально разные инструменты, взять и повторить существующую реализацию не так уж и просто. Нам хотелось получить workflow, с одной стороны, максимально похожий на текущую реализацию и, с другой стороны, использующий самый интересный первый принцип Airflow — динамичность, которая даёт гибкость.


В этой небольшой статье я хочу рассказать о по-настоящему динамической генерации ДАГов в Airflow. По этой теме в интернете в основном находится много статей от разработчиков из Индии, представляющих собой материалы вида "в Airflow можно генерировать даги динамически, вот пример: <пример по генерации 10 HelloWorld-тасков/дагов>". Нам же была интересна именно генерация дагов, которые будут изменяться во времени с переменным количеством и названиями тасков.


Читать дальше →

Автоматизация процесса контроля качества данных корпоративного хранилища

Время на прочтение7 мин
Охват и читатели6.8K
В «Ростелекоме», как и в любой крупной компании, имеется корпоративное хранилище данных (ЦХД). Наше ЦХД постоянно разрастается и расширяется, мы строим на нем полезные витрины, отчеты и кубы данных. В какой-то момент мы столкнулись с тем, что некачественные данные мешают нам при построении витрин, получаемые агрегаты не сходятся с агрегатами систем источников и вызывают непонимание бизнеса. Например, данные с Null значениями в внешних ключах (foreign key) не соединяются с данными других таблиц.
Краткая схема ЦХД:



Мы понимали, что для обеспечения уверенности в качестве данных нам нужен регулярный процесс сверок. Конечно, автоматизированный и позволяющий каждому из технологических уровней быть уверенным в качестве данных и их сходимости, как по вертикали, так и по горизонтали. В итоге мы параллельно рассмотрели три готовые платформы для управления сверками от различных вендоров и написали свою собственную. Делимся опытом в этом посте.
Читать дальше →

Тестирование и отладка MapReduce

Время на прочтение5 мин
Охват и читатели6.5K
В «Ростелекоме» мы используем Hadoop для хранения и обработки данных, загруженных из многочисленных источников с помощью java-приложений. Сейчас мы переехали на новую версию hadoop с Kerberos Authentication. При переезде столкнулись с рядом проблем, в том числе и с использованием YARN API. Работа Hadoop с Kerberos Authentication заслуживает отдельной статьи, а в этой мы поговорим об отладке Hadoop MapReduce.


Читать дальше →

Apache NiFi: что это такое и краткий обзор возможностей

Время на прочтение7 мин
Охват и читатели181K
Сегодня на тематических зарубежных сайтах о Big Data можно встретить упоминание такого относительно нового для экосистемы Hadoop инструмента как Apache NiFi. Это современный open source ETL-инструмент. Распределенная архитектура для быстрой параллельной загрузки и обработки данных, большое количество плагинов для источников и преобразований, версионирование конфигураций – это только часть его преимуществ. При всей своей мощи NiFi остается достаточно простым в использовании.

image

Мы в «Ростелекоме» стремимся развивать работу с Hadoop, так что уже попробовали и оценили преимущества Apache NiFi по сравнению с другими решениями. В этой статье я расскажу, чем нас привлек этот инструмент и как мы его используем.
Читать дальше →

Биометрия с «Ключом Ростелекома»: как ФСБ впервые пустила российскую криптографию в магазины приложений

Время на прочтение6 мин
Охват и читатели11K
Летом этого года в России заработала Единая биометрическая система для юридически значимого и при этом простого для пользователя подтверждения личности. О том, как она устроена, мы писали в недавнем посте.

Чтобы системой было удобно пользоваться, необходимо приложение. Создание этого приложения — «Ключ Ростелеком» — открыло для нас целый бонусный уровень с новыми задачами, новыми вызовами. Которые, как несложно догадаться, направлены на повышение безопасности пользователей.


Читать дальше →