Хабр

Все потоки

СтатьиПостыНовостиАвторыКомпании

Zondoo 1 авг 2019 в 11:02

Как перестать делать одно и то же

4 мин

8.3K

Блог компании РостелекомХранение данных * SQL * Open source *

Вы любите из раза в раз повторять рутинные операции? Вот и я нет. Но каждый раз в SQL-клиенте при работе с хранилищем Ростелекома приходилось прописывать все джойны между таблицами ручками. И это притом, что в 90% случаев поля и условия соединения таблиц совпадали от запроса к запросу! Казалось бы, любой SQL-клиент имеет функции автозаполнения, но для хранилищ оно не всегда работает: в них редко заводятся unique constraint и foreign key в целях повышения производительности, а без этого программе не узнать, как между собой связаны сущности и что она может тебе предложить.

Пройдя через отрицание, гнев, торг, депрессию и приближаясь к принятию, я решил — а почему бы самому не попробовать реализовать автозаполнение с блекджеком и как положено? Я пользуюсь клиентом dbeaver, написанным на java, у него есть комьюнити версия с открытым исходным кодом. Созрел нехитрый план:

Читать дальше →

+16

ArsenBlagov 26 июл 2019 в 13:30

Балансировка нагрузки в Openstack

14 мин

6.1K

Блог компании РостелекомOpen source *

В крупных облачных системах особенно остро стоит вопрос автоматической балансировки или выравнивания нагрузки на вычислительные ресурсы. Озаботились данным вопросом и в Тиониксе (разработчик и оператор облачных услуг, входим в группу компаний Ростелекома).

И, поскольку нашей основной платформой разработки является Openstack, а мы, как и все люди, ленивы, то было решено подобрать какой-то готовый модуль, что уже есть в составе платформы. Наш выбор пал на Watcher, который мы и решили использовать для своих нужд.

Для начала разберемся с терминами и определениями.

Читать дальше →

+15

RTteam 22 июл 2019 в 11:41

26 июля, Deworkacy — DocOps от Ростелекома

2 мин

3.3K

Блог компании РостелекомКонференцииТестирование IT-систем * Управление разработкой *

Привет!

Мы тут решили провести митап по DocOps — это почти как DevOps, только про документацию и всё, что с ней связано. Таких мероприятий обычно не так много, оно и понятно — документация не такая хайповая штука, как React, к примеру. Да и не только React, прямо скажем. Злые языки вообще утверждают, что от документации зрение портится.

Но она реально важна, с ней работают люди, и чем правильнее и логичнее у вас в компании выстроены процессы работы с документацией, тем всем будет проще. Даже тем коллегам, работа которых (на первый взгляд) в документацией не связана.

В общем, в пятницу, 26 июля, мы в 19.00 собираемся в Deworkacy (Москва, Берсеневская набережная, 6, стр 3) и начинаем ~~документировать~~ говорить про документацию. Список докладов — под катом.

Читать дальше →

+8

RTteam 3 июл 2019 в 09:41

Кибервызов. Новый уровень. Онлайн-соревнование от «Ростелеком-Солар»

3 мин

4K

Блог компании РостелекомИнформационная безопасность * Карьера в IT-индустрии

Противостояние меча и щита — штука вечная. На каждый превосходный для своего времени доспех через пару лет (или десятилетий) обязательно найдется меч, который будет довольно бодро такой доспех крошить. Закошмаренные наличием такого меча ребята из оборонки создадут новый доспех, который станет хорошей защитой. Пока снова не придумают новый меч. В общем, это к вопросу о том, что хорошо бы поддерживать актуальное состояние защиты.

С кибербезопасностью все аналогично. Вирусы десятилетней давности уже не пугают никого, даже далеких от информационных технологий людей, потому что базовая система защиты ОС с ними справляется. А вот с современными шифровальщиками, например, все уже не так просто. Можно обложиться всевозможными платными антивирусами, но если не соблюдать здравую сетевую гигиену и временами запускать от администратора «картинки» с расширением .exe, результат будет печальным. Но предсказуемым.

Чем распространеннее становится интернет в целом, тем больше становится и информационных угроз. И дело даже не в увеличении поголовья «мамкиных хакеров», которым нужна девичья фамилия вашей мамы для взлома почты, но и в том, что способов взлома с помощью новых технологий и инструментов становится все больше.

К счастью, растет и число тех, кто хочет выступать и на стороне «белых», то есть защиты. Школьники и студенты активно интересуются технологиями и изучают противодействие угрозам.

Мы в Ростелекоме решили выстраивать для таких ребят систему «Школа — вуз — работодатель». И сейчас мы расскажем о том, как будет проходить наша новая образовательная программа для студентов.

Читать дальше →

+12

Oegorkin 28 июн 2019 в 08:05

Чеклист: запускаем SCRUM-команды и делаем прививки от зомби-скрама

6 мин

11K

Блог компании РостелекомAgile * Управление проектами * Управление разработкой *

SCRUM стал настолько популярен, что сейчас его пытаются внедрять практически везде. В больших компаниях иногда получается так, что SCRUM внедряют ради отчетности, или для того, чтобы быть “прогрессивным” и “модным”. В результате ситуация, что вроде как ответственный менеджер поставил себе очередную галочку, мол, надо было внедрить методологию — внедрил, молодец, но при этом вместо каких-то качественных улучшений на выходе оказывается так называемый «Zombie SCRUM». Это когда формально фреймворк внедрен, но по нему никто нормально не работает. Отсюда и название.

Меня зовут Олег Егоркин, я agile коуч в Ростелекоме, и в этом посте я расскажу, почему «зомби-скрам» вообще возникает, как этого избежать и как убедиться, что в компании все готово к запуску скрам-команды.

Читать дальше →

+9

Vitaliy_Filaretov 11 июн 2019 в 08:20

В будущее с интеграцией сервисов Jenkins & Oracle APEX

5 мин

4.7K

Блог компании РостелекомDevOps * Oracle * Системы сборки * Тестирование IT-систем *

В процессе управления большими объемами данных и их визуализацией мы все чаще сталкиваемся с необходимостью внедрения единого инструмента доступа к управлению функционалом в хранилище. Причем этот инструмент должен быть одинаково удобен и понятен всем сотрудникам подразделения по управлению данными: администраторам, аналитикам, разработчикам и тестировщикам.

Меня зовут Виталий, я отвечаю в Ростелекоме за направление автоматизации тестирования и внедрение DevOps процессов. В данной статье я расскажу об интересном решении данной проблемы в крупном хранилище данных компании Ростелеком.

И вот как мы пришли к такому набору инструментов для решения данной задачи.

Читать дальше →

+21

RTteam 30 мая 2019 в 09:39

От ежедневных аварий к стабильности: Informatica 10 глазами админа

9 мин

20K

Блог компании РостелекомХранение данных * Hadoop * Big Data * SQL *

Recovery Mode

ETL-компонента хранилища данных часто оказывается в тени самого хранилища и ей уделяется меньше внимания, чем главной базе данных или фронт-компоненте, BI, формировании отчётов. При этом с точки зрения механики наполнения хранилища данными, ETL играет ключевую роль и требует не меньше внимания администраторов, чем остальные компоненты. Меня зовут Александр, сейчас я администрирую ETL в Ростелекоме, и в данной статье я постараюсь немного поделиться тем, с чем приходится сталкиваться администратору одной известнейшей ETL-системы в крупном хранилище данных компании Ростелеком.

Читать дальше →

+20

RTteam 16 мая 2019 в 13:52

Какие решения есть у Ростелекома для IIoT

8 мин

9.4K

Блог компании РостелекомIT-инфраструктура * Интернет вещейХакатоны

Привет!

Недавно мы вместе с Geekbrains провели хакатон, посвященный индустриальному интернету вещей IIoT и теперь начинаем выкладывать серию интервью с нашими экспертами. Первое из них — беседа с Николаем Шевалье, главным архитектором проектного офиса «Индустриальный интернет вещей» Ростелекома.

Николай расскажет, что же такое индустриальный интернет вещей и чем он отличается от привычного IoT, а также про решения, которые уже есть у Ростелекома.

Под катом — о роли IIoT в автоматизации систем ЖКХ, сельского хозяйства, умных офисов и многое другое.

Читать дальше →

+11

LeraMityaeva 16 апр 2019 в 11:42

Инициация IT-адептов: покажи свою Силу на РИФе

2 мин

1.8K

Блог компании РостелекомИнтервьюКарьера в IT-индустрииКонференцииХакатоны

Не успеет Солнце дважды опуститься за горизонт, как все IT-джедаи, падаваны и юнлинги слетятся в звездную систему «Лесные дали», чтобы подтвердить свой IT-статус. Тестированием адептов Силы займутся «Ростелеком», «РТ Лабс» и Хабр. Пунктом инициации станет Российский Интернет-Форум (РИФ), где воины информационных технологий соберутся на совет по множеству вопросов галактической важности — малый и средний бизнес в интернете, дизайн и UX, цифровой маркетинг, кибербезопасность, HR, PR, big data.

Инициация адептов пройдет в отдельном отсеке звездолета РИФ — пространстве «Ростелекома», «РТ Лабс» и Хабра — где каждый сможет не только доказать свое мастерство, но и получить знания, награды, а также расширить горизонт событий. Точнее, собственных профессиональных перспектив. Подробности — под катом.

Читать дальше →

+13

ArsenBlagov 12 апр 2019 в 08:30

Как мы делаем IT для людей в Ростелекоме

5 мин

9.6K

Блог компании РостелекомУправление персоналом * Карьера в IT-индустрии

В большинстве компаний IT-подразделения выстроены примерно одинаково. Да, могут различаться используемые для обработки заявок системы, количество операторов, их нагрузка, спектр проблем, которые они способны решить, и прочее.

Но общее у них одно. IT работает на нужды бизнеса и продаж прежде всего. То есть самый главный приоритет в этих отделах — это большие проекты, направленные на увеличение прибыли. Но из-за этого зачастую забывают о самих людях, которые пишут в IT, и их хотелках. На это банально нет времени, и все полезные пожелания остаются где-то в заметках, до которых IT-специалисты добираются потом так же часто, как вы до закладок в браузере полугодичной давности.

В некоторых компаниях иногда вообще доходит до того, что айтишники из поддержки зачастую прячутся за безликими заявками и общаются с другими сотрудниками или клиентами только тикетами. Вот и получается, что подобное отношение к IT вредит компании в плане внутреннего бренда — другие сотрудники начинают считать айтишников не очень внимательными. Айтишники, в свою очередь, получают немного удовольствия от рутинных задач.

Мы в Ростелекоме решили поменять эту ситуацию с помощью программы «IT для людей». Потому что получается, что крупные проекты мы запускать можем, а вот небольшие, но важные улучшения внутри компании обычно делать некому.

Читать дальше →

+6

avhizis 21 мар 2019 в 14:15

Как мы предсказывали отток, подойдя к нему как к стихийному бедствию

11 мин

21K

Блог компании РостелекомХакатоныМашинное обучение * Искусственный интеллект

Иногда для того, чтобы решить какую-то проблему, надо просто взглянуть на нее под другим углом. Даже если последние лет 10 подобные проблемы решали одним и тем же способом с разным эффектом, не факт, что этот способ единственный.

Есть такая тема, как отток клиентов. Штука неизбежная, потому что клиенты любой компании могут по множеству причин взять и перестать пользоваться ее продуктами или сервисами. Само собой, для компании отток — хоть и естественное, но не самое желаемое действие, поэтому все стараются этот отток минимизировать. А еще лучше — предсказывать вероятность оттока той или иной категории пользователей, или конкретного пользователя, и предлагать какие-то шаги по удержанию.

Анализировать и пытаться удержать клиента, если это возможно, нужно, как минимум, по следующим причинам:

привлечение новых клиентов дороже процедур удержания. На привлечение новых клиентов, как правило, нужно потратить определенные деньги (реклама), в то время как существующих клиентов можно активизировать специальным предложением с особыми условиями;
понимание причин ухода клиентов — ключ к улучшению продуктов и услуг.

Существуют стандартные подходы к прогнозированию оттока. Но на одном из чемпионатов по ИИ мы решили взять и попробовать для этого распределение Вейбулла. Чаще всего его используют для анализа выживаемости, прогнозирования погоды, анализа стихийных бедствий, в промышленной инженерии и подобном. Распределение Вейбулла — специальная функция распределения, параметризуемая двумя параметрами

$inline$ и

$inline$ .

Википедия

В общем, вещь занятная, но для прогнозирования оттока, да и вообще в финтехе, использующаяся не так, чтобы часто. Под катом расскажем, как мы (Лаборатория интеллектуального анализа данных) это сделали, попутно завоевав золото на Чемпионате по искусственному интеллекту в номинации «AI в банках».

Читать дальше →

+12

BorisovAA 6 мар 2019 в 11:54

5 лайфхаков оптимизации SQL-запросов в Greenplum

5 мин

60K

Блог компании РостелекомSQL * Базы данных * Хранение данных *

Любые процессы, связанные с базой, рано или поздно сталкиваются с проблемами производительности запросов к этой базе.

Хранилище данных Ростелекома построено на Greenplum, большая часть вычислений (transform) производится sql-запросами, которые запускает (либо генерирует и запускает) ETL-механизм. СУБД имеет свои нюансы, существенно влияющие на производительность. Данная статья — попытка выделить наиболее критичные, с точки зрения производительности, аспекты работы с Greenplum и поделиться опытом.

В двух словах о Greenplum

Greenplum — MPP сервер БД, ядро которого построено на PostgreSql.

Представляет собой несколько разных экземпляров процесса PostgreSql (инстансы). Один из них является точкой входа для клиента и называется master instance (master), все остальные — Segment instanсe (segment, Независимые инстансы, на каждом из которых хранится своя порция данных). На каждом сервере (segment host) может быть запущено от одного до нескольких сервисов (segment). Делается это для того, чтобы лучше утилизировать ресурсы серверов и в первую очередь процессоры. Мастер хранит метаданные, отвечает за связь клиентов с данными, а также распределяет работу между сегментами.

Подробнее можно почитать в официальной документации.

Далее в статье будет много отсылок к плану запроса. Информацию для Greenplum можно получить тут.

Как писать хорошие запросы на Greenplum (ну или хотя бы не совсем печальные)

Читать дальше →

+20

elause 4 мар 2019 в 08:57

Как упростить исследование БД Oracle: «джентльменский набор» скриптов

9 мин

14K

Блог компании РостелекомХранение данных * Анализ и проектирование систем * Базы данных * Oracle *

Добрый день! Мы команда системных аналитиков одного из подразделений управления данными «Ростелекома». В нашей компании насчитывается более 300 неоднородных источников данных — такое многообразие необходимо для поддержки работы Ростелекома по всем многочисленным направлениям. Мы изучаем источники данных и по необходимости частично выгружаем в контур хранилища.

Ровер Curiosity на поверхности. У него тоже много неоднородных источников данных. Картинка позаимствована с therahnuma.com.

В этом процессе выделяется две подзадачи: определение стратегии сбора данных из таблиц источника в зависимости от их свойств и подготовка таблиц-«приемников» хранилища данных. Для этого мы используем различные GUI и средства реверс-инжиниринга. Кроме того, при сборе информации системный аналитик начинает обрастать пулом вспомогательных запросов к информационным таблицам СУБД (преимущественно Oracle). В этой статье я поделюсь «джентльменским набором» таких скриптов, используемых нашей командой.

Читать дальше →

+9

AlexanderGaller 12 фев 2019 в 09:28

Как мы побороли несовместимость при миграции данных с Greenplum 4 на Greenplum 5

11 мин

5.4K

Блог компании РостелекомБазы данных * PostgreSQL * Open source * Big Data *

Когда мы выбирали инструмент для обработки больших данных, то рассматривали разные варианты — как проприетарные, так и с открытым кодом. Оценивали возможности быстрой адаптации, доступности и гибкости технологий. В том числе, миграцию между версиями. В итоге выбрали решение с открытым исходным кодом Greenplum, которое лучше всех соответствовало нашим требованиям, но требовало решения одного важного вопроса.

Дело в том, что файлы баз данных Greenplum версий 4 и 5 не совместимы между собой, и поэтому простой апгрейд от одной версии к другой невозможен. Миграцию данных можно провести только через выгрузку и загрузку данных. В этом посте я расскажу о возможных вариантах этой миграции.

Читать дальше →

+13

DataTalks 22 янв 2019 в 07:00

«Ростелеком. DataTalks» — курс бесплатных лекций о дата-инжиниринге и управлении данными

4 мин

5.5K

Блог компании РостелекомIT-инфраструктура * КонференцииУчебный процесс в ITХранение данных *

Помимо своей основной деятельности, мы в Ростелекоме ведем различные образовательные проекты. 28 февраля таких проектов станет больше. Мы начнем «Ростелеком. DataTalks» — цикл лекций о дата-инжиниринге и управлении данными от семи ведущих компаний в этой сфере. Все подробности — в этом посте.

Читать дальше →

+5

anton_afonin_rt 17 янв 2019 в 07:00

Динамическая генерация DAG в Airflow

6 мин

17K

Блог компании РостелекомApache * Open source * Системное администрирование * Хранение данных *

Всем привет! Меня зовут Антон, в Ростелекоме я занимаюсь разработкой центрального хранилища данных. Наше хранилище состоит из модулей, в качестве оркестратора которых используются несколько инстансов Informatica, часть из которых мы хотим перевести на Airflow в рамках перехода на open-source решения. Поскольку Informatica и Airflow принципиально разные инструменты, взять и повторить существующую реализацию не так уж и просто. Нам хотелось получить workflow, с одной стороны, максимально похожий на текущую реализацию и, с другой стороны, использующий самый интересный первый принцип Airflow — динамичность, которая даёт гибкость.

В этой небольшой статье я хочу рассказать о по-настоящему динамической генерации ДАГов в Airflow. По этой теме в интернете в основном находится много статей от разработчиков из Индии, представляющих собой материалы вида "в Airflow можно генерировать даги динамически, вот пример: <пример по генерации 10 HelloWorld-тасков/дагов>". Нам же была интересна именно генерация дагов, которые будут изменяться во времени с переменным количеством и названиями тасков.

Апач Airflow

Читать дальше →

+10

andreeva_mary_y 27 дек 2018 в 13:24

Автоматизация процесса контроля качества данных корпоративного хранилища

7 мин

6.8K

Блог компании РостелекомХранение данных * Базы данных * SQL * Oracle *

В «Ростелекоме», как и в любой крупной компании, имеется корпоративное хранилище данных (ЦХД). Наше ЦХД постоянно разрастается и расширяется, мы строим на нем полезные витрины, отчеты и кубы данных. В какой-то момент мы столкнулись с тем, что некачественные данные мешают нам при построении витрин, получаемые агрегаты не сходятся с агрегатами систем источников и вызывают непонимание бизнеса. Например, данные с Null значениями в внешних ключах (foreign key) не соединяются с данными других таблиц.
Краткая схема ЦХД:

Мы понимали, что для обеспечения уверенности в качестве данных нам нужен регулярный процесс сверок. Конечно, автоматизированный и позволяющий каждому из технологических уровней быть уверенным в качестве данных и их сходимости, как по вертикали, так и по горизонтали. В итоге мы параллельно рассмотрели три готовые платформы для управления сверками от различных вендоров и написали свою собственную. Делимся опытом в этом посте.

Читать дальше →

+6

strongmonkey 12 дек 2018 в 09:27

Тестирование и отладка MapReduce

5 мин

6.5K

Блог компании РостелекомХранение данных * Hadoop * Big Data *

В «Ростелекоме» мы используем Hadoop для хранения и обработки данных, загруженных из многочисленных источников с помощью java-приложений. Сейчас мы переехали на новую версию hadoop с Kerberos Authentication. При переезде столкнулись с рядом проблем, в том числе и с использованием YARN API. Работа Hadoop с Kerberos Authentication заслуживает отдельной статьи, а в этой мы поговорим об отладке Hadoop MapReduce.

Читать дальше →

+18

r3former 6 дек 2018 в 07:00

Apache NiFi: что это такое и краткий обзор возможностей

7 мин

181K

Блог компании РостелекомApache * Big Data * Hadoop * Хранение данных *

Сегодня на тематических зарубежных сайтах о Big Data можно встретить упоминание такого относительно нового для экосистемы Hadoop инструмента как Apache NiFi. Это современный open source ETL-инструмент. Распределенная архитектура для быстрой параллельной загрузки и обработки данных, большое количество плагинов для источников и преобразований, версионирование конфигураций – это только часть его преимуществ. При всей своей мощи NiFi остается достаточно простым в использовании.

Мы в «Ростелекоме» стремимся развивать работу с Hadoop, так что уже попробовали и оценили преимущества Apache NiFi по сравнению с другими решениями. В этой статье я расскажу, чем нас привлек этот инструмент и как мы его используем.

Читать дальше →

+19

BIO-RT 27 ноя 2018 в 07:00

Биометрия с «Ключом Ростелекома»: как ФСБ впервые пустила российскую криптографию в магазины приложений

6 мин

11K

Блог компании РостелекомИнформационная безопасность * Криптография * Разработка мобильных приложений * Хранение данных *

Летом этого года в России заработала Единая биометрическая система для юридически значимого и при этом простого для пользователя подтверждения личности. О том, как она устроена, мы писали в недавнем посте.

Чтобы системой было удобно пользоваться, необходимо приложение. Создание этого приложения — «Ключ Ростелеком» — открыло для нас целый бонусный уровень с новыми задачами, новыми вызовами. Которые, как несложно догадаться, направлены на повышение безопасности пользователей.

Читать дальше →

0

1 2 ...

10