Articles / Bookmarks / Profile of Efaldgent / Habr

Ирина Голощапова @Efaldgent

Пользователь

Profile Publications 6Comments 7Bookmarks 47

ivan_leontyev Jul 4 2023 at 16:29

Как мы посчитали уровень Data Driven’ности в компании и вклад в него каждого аналитика?

7 min

3.7K

IT Standards*E-commerce management*Statistics in ITIT-companiesСберМаркет corporate blog

Case

Салют! Меня зовут Ваня Леонтьев, я директор по аналитике в СберМаркете. Эта статья о том, как мы оцифровали такую сложную концепцию как data-культура в компании. Поделюсь предпосылками, нашим подходом к расчету и планами по её развитию. Думаю, наш опыт будет интересен аналитикам, лидам аналитических команд, руководителям продукта и компаний в целом — всем тем, кто кто стремится продвигать культуру данных в своей компании. А также тем, кто хочет иметь инструмент для приоритизации и управления в команде аналитики.

Aeryukov Jul 7 2023 at 13:42

Data Quality в банке — знаем цену каждой ошибки

Easy

11 min

1.8K

Big Data*Data Engineering*Газпромбанк corporate blog

Opinion

Финансовый сектор уже давно одна большая "дата", когда банк принимает решение о том, выдать ли человеку или компании кредит, он анализирует сотни метрик. Я руковожу стримом Data Quality в Газпромбанке и расскажу о том, как мы решаем проблемы при интеграции с внешними источниками информации, какие оценочные метрики используем и как экспериментируем с моделями, прогоняя неверные данные.

Откуда берутся ошибки и чем внешние источники данных отличаются от внутренних

Чем больше данных, тем больше проблем, связанных с их качеством, причем к ошибкам может привести огромное количество причин. Некоторые — банальные. Например, оператор при вводе персональных данных неправильно перепечатал ФИО из паспорта. Есть ошибки в проектировании систем. Скажем, разработчики проигнорировали требование к длине поля ввода данных. Например, поле «Паспорт выдан» ограничили 35 символами. Понятно, что нужно больше, но в системе сохраняются только первые 35 введенных символов: «ФМС Тверского района по городу Моск». Бывает, не учли, что какие-то данные вообще надо сохранять, а они потом потребовались. Например, пол клиента. Могут возникнуть сложности, связанные с потерей части данных при передаче информации из системы в систему в ходе ETL/ELT-процессов. При этом стоит разделять проблемы с качеством внутренних данных, которые находятся во внутрикорпоративных системах, и внешних, поступающих из сторонних источников. У нас в банке отлажены процессы по улучшению качества данных (КД), поэтому оно постоянно растет и стабильно выше, чем КД из внешних источников.

еще про данные

crazyfrogspb1 Jul 13 2022 at 14:35

Правила разработки документации ML-проекта

11 min

4.7K

IT Standards*Machine learning*Artificial IntelligenceTechnical Writing*

Полезная, актуальная и при этом полная документация - миф или реальность? В первой части статьи обсудим зачем вообще нужна документация (а когда она и не нужна вовсе), поговорим о распространённых проблемах и ошибках, а во второй - посмотрим на примеры специфичной документации, связанной с ML-моделями и данными.

При обсуждении какого-то явления, полезно сначала посмотреть на его определение. Тут нам поможет старая добрая Википедия:

“Письменный текст или иллюстрация, которая сопровождает программное обеспечение или интегрирована прямо в исходный код. Документация объясняет, как работает ПО или как его использовать. Может иметь разное значение для людей с разными ролями в команде”

Определение действительно неплохое, в нём содержится несколько важных свойств документации.

Nuxi Jun 1 2023 at 15:03

Разработчики — налево, методологи — направо: четыре шага к оптимизации работы BI-аналитиков

12 min

8.8K

System Analysis and Design*SQL*Selectel corporate blogBig Data*Data visualization*

✏️ Technotext 2023

Привет! Меня зовут Наташа Базанова, я старший аналитик Selectel. В компании я работаю три года: за это время команда аналитиков сильно расширилась, число задач и их амбициозность выросли. Как и любая другая команда, мы столкнулись с проблемами, связанными с несовершенством бизнес-процессов.

В этом тексте расскажу, что мы предприняли, чтобы работать эффективнее и слаженнее. Спойлер: для этого нам пришлось разделиться на две команды, но это тот случай, когда расставание пошло на пользу. Надеюсь, кому-то наш опыт и рекомендации пойдут на пользу — сэкономят время, деньги и нервы. А если вы проходили подобный путь, делитесь своей историей в комментариях!

Читать дальше →

+38

cenechka May 12 2023 at 14:12

Как построить систему аналитики с BI-дашбордами в компании

Medium

5 min

9.1K

Data visualization*Product Management*

From sandbox

Всем привет!

Эта статья будет полезна тем, кто продумывает внедрение системы аналитики и BI-дашбордов в своей компании. Здесь я поделюсь логикой построения, этапами и инструментами. Технической информации тут не будет.

Ещё отмечу, что это не какие-то мои наработки, а лучшие практики рынка, которые я решила собрать в одном месте. Поэтому ссылок будет много)

В своё время я выискивала эту инфу из абсолютно разных источников и пыталась складывать в уме в единую картину, поэтому мне показалось, что для таких же исследователей это будет классной форой и поможет сэкономить несколько месяцев на поисках и ошибках.

Начнём с того, что я поздравляю вас(потому что начинается всё самое интересное), если наступил тот счастливый момент, когда ваша компания настолько подросла, что для дальнейшего развития, ей просто необходимо познакомиться с целями внедрения системы аналитики:

alextodef Jan 17 2022 at 17:00

Что такое техрадар и почему он сбережёт ваши нервы

8 min

17K

Development for e-commerce*Development Management*Project management*E-commerce management*СберМаркет corporate blog

Техрадар обычно бывает двух видов: или труп, или сделан неправильно. Я Олег Федоткин, Head of PaaS СберМаркета. Хочу рассказать, почему это так и как заставить техрадар работать.

Это текстовая версия моего выступления на Podlodka TechLead Crew. Если вам больше нравится смотреть видео, то оно здесь.

+11

nikolay-shikunov Dec 9 2022 at 09:14

ML-модель out-of-stock. Как контролировать доступность 200 млн товаров на рынке e-grocery?

9 min

4.3K

Development for e-commerce*Machine learning*E-commerce management*Increasing Conversion Rate*СберМаркет corporate blog

Привет! На связи Николай Шикунов и Леонид Сидоров из ML-команды СберМаркета. Модель, над которой мы работаем, прогнозирует наличие товаров на полках во всех точках, представленных в нашем приложении, и называется out-of-stock model. В этой статье хотим рассказать, какую проблему бизнеса мы решаем, как эволюционировал наш подход к управлению остатками с 2019 года и к чему мы пришли сейчас.

ira-k Mar 9 2023 at 09:01

Карьерный рост в Data Analytics: какие скиллы нужны для перехода на следующий грейд

8 min

4.8K

Research and forecasts in IT*Яндекс Практикум corporate blog

Исследование команды анализа данных Яндекс Практикума, которое помогает понять, как изменяется запрос работодателей от грейда к грейду и что нужно аналитику, чтобы перейти с текущего уровня на вышестоящий. Мы выяснили, какие стратегии роста работают для аналитиков данных, и что сыграет против кандидата на собеседовании — делимся результатами.

Команда исследователей Практикума направления анализа данных осенью 2022 года изучила актуальный скилсет аналитиков данных всех грейдов (система оценки уровня знаний и навыков, к которому в IT нередко привязывают уровень дохода). Результаты исследования объясняют, какие именно навыки позволяют джуну стать мидлом, мидлу — сеньором, сеньору — лидом. Полученные данные помогают понять, какими эффективными способами сами профессионалы наращивают свои компетенции.

Результаты исследования

Alexander_Kiv Mar 3 2023 at 13:56

Тысяча и один справочник в Master Data Management Ростелекома Импортозамещение

Medium

10 min

2.4K

Ростелеком corporate blogBig Data*Data Engineering*

Review

Всем привет! В предыдущей статье мы рассказали об использовании коробочного продукта Master Data Management и обещали рассказать о дальнейшем развитии подходов управления справочниками в компании. Сегодня мы сдержим свое обещание.

Система MDM - специализированное программное решение, которое помогает унифицировать нормативно-справочную информацию (НСИ) во всех информационных системах предприятия и организовать управление НСИ

Коробочный продукт мы использовали в течение пяти лет. И спустя эти пять лет наша история создания и развития MDM получила логическое продолжение – мы создали свой программный продукт Master Data Management, о котором сегодня и расскажем вам.

Наступило новое время импортозамещения, поменялись платформы в компании, мы активно включились в процесс и разработали концепцию импортозамещенного MDM.

Нам повезло, что за годы использования существующего решения у нас сложилась успешная методика построения MDM в компании. Поэтому методический подход к организации справочников и взаимодействию с системами источниками и подписчиками остался прежним.

RTteam Jan 28 2021 at 14:37

Тысяча и один справочник в Master Data Management Ростелекома

9 min

4.7K

SQL*Ростелеком corporate blogDatabase Administration*Data storage*

Recovery Mode

Всем привет! На связи Александр Киваев, руководитель направления департамента управления справочной информацией в команде управления данными «Ростелекома». Если у вас в компании внедрена и эффективно работает MDM система, то считайте, что вы сорвали джэк-пот, потому что это значительно облегчит вам процесс внедрения новых информационных систем в IT инфраструктуру компании, упростит и удешевит интеграцию имеющихся систем, и позволит вам создавать качественную аналитическую и управленческую отчетность, сократив при этом время на обработку, актуализацию и верификацию данных.

Именно эти преимущества мотивируют крупные компании внедрять MDM-решения. В этой статье мы хотим рассказать об опыте внедрения системы управления мастер-данными Ростелекома, о том с какими сложностями мы столкнулись и какими способами нам удалось их решить.

Vogal Feb 28 2023 at 12:16

Как выбрать для своего конвейера данных максимально эффективную архитектуру

Medium

9 min

4.6K

High performance*SQL*Database Administration*Data storage*билайн corporate blog

Tutorial

Привет! Меня зовут Михаил Благов, я руководитель департамента «Чаптер инженеров данных и разработчиков» в beeline tech. В этом посте я хочу поделиться способом, с помощью которого можно выбрать подходящую архитектуру для конвейера данных в зависимости от требований к нему. В частности, обсудим паттерн CDC (change data capture, aka «захват изменений»), основная идея которого — быстрая репликация какого-то источника в аналитическое хранилище.

Под катом мы:

- познакомимся с вариантами архитектуры конвейеров данных: из каких компонентов и как его можно собирать,

- рассмотрим и сравним четыре разные архитектуры конвейеров.

Disclaimer: серебряной пули не будет, в этой статье я поделюсь опытом выбора архитектуры для решения конкретной задачи. Аналогичный выбор для других случаев потребует дополнительных исследований и замеров производительности.

Начнем с матчасти

+18

virtual_explorer Mar 2 2023 at 17:02

Большие данные мертвы. Это нужно принять

Medium

17 min

71K

Cloud computing*Big Data*FirstVDS corporate blogData Engineering*

Opinion

Translation

Уже более десяти лет тот факт, что люди с трудом извлекают из своих данных полезную информацию, сбрасывают на чересчур большой размер этих данных. «Объем собираемой информации слишком велик для ваших хилых систем», — такой нам ставили диагноз. А лекарство, соответственно, заключалось в том, чтобы купить какую‑нибудь новую причудливую технологию, которая сможет работать в больших масштабах. Конечно, после того, как целевая группа по Big Data покупала новые инструменты и мигрировала с устаревших систем, компании снова обнаруживали, что у них по‑прежнему возникают проблемы с пониманием своих данных.

В результате постепенно некоторые начинали понимать, что размер данных вообще не был проблемой.

Мир в 2023 году выглядит иначе, чем когда зазвенели первые тревожные звоночки по поводу Big Data. Катаклизм обработки информации, который все предсказывали, не состоялся. Объемы данных, возможно, немного возросли, но возможности аппаратного обеспечения росли еще быстрее. Поставщики услуг все еще продвигают свои возможности масштабирования, но люди, которые сталкиваются с ними на практике, начинают задаваться вопросом, как они вообще связаны с их реальными проблемами.

А дальше будет и того интереснее.

+140

SnezhSh Dec 30 2022 at 12:36

Разделяй и властвуй, или Зачем управлять данными

16 min

8.4K

Big Data*Agile*Product Management*Business Models*GlowByte corporate blog

Opinion

Хабр, привет! Сегодня, в предпраздничный день, публикую статью Кирилла Евдокимова, директора практики Data Governance GlowByte. В области данных и аналитики он работает уже около 20 лет, последние 7 лет основной фокус – это Data Governance. Как говорит Кирилл, история с управлением данными всё еще остаётся terra incognita. В статье под катом он разбирает наиболее частые ошибки, проблемы, с которыми приходится сталкиваться компаниям, вступающим на тернистый путь управления данными.

Читать статью Кирилла

+12

azatyakupov Feb 10 2022 at 16:34

Кто такие Data-специалисты, чем они занимаются и как строится работа

10 min

19K

Big Data*Data Engineering*Quadcode corporate blog

Technotext 2021

Привет, Хабр! Меня зовут Азат Якупов, я работаю Data Architect в Quadcode. Сегодня хочу рассказать о Data-специалистах и познакомить вас с нашей командой Data Platform.

n_prok Dec 14 2022 at 11:29

Поиск данных в инструментах Data Governance: вызовы и решения

7 min

1.7K

Search engines*Ростелеком corporate blogBig Data*Data storage*Search engine optimization*

Добрый день!

Меня зовут Никита, я работаю ведущим системным аналитиком в Департаменте управления данными компании Ростелеком.

В данной статье я опишу наш опыт использования Реестра отчетов и Бизнес-глоссария, подводные камни, с которыми мы столкнулись, а также планы по оптимизации рабочих процессов в инструментах Data Governance (далее – DG).

Три года назад ИТ-команда Ростелекома разработала Реестр отчетов и Бизнес-глоссарий на базе Open-Source технологий, и данные модули впоследствии получили широкое распространение в периметре компании. Также была создана Единая точка входа, позволяющая сотрудникам получать быстрый доступ ко всем отчетам и бизнес-терминам, существующим в компании. За два года количество постоянных пользователей Единой точки входа увеличилось с 200 до 2300 человек, при этом количество уникальных посетителей Единой точки входа составляет порядка 400 пользователей еженедельно, и данная цифра постоянно растет.

Инструментарий для работы с данными покрывает значительный объем запросов Ростелекома в разрезе таких сегментов как B2B, B2C, БТИ и т.д. Подробнее можно прочитать здесь и здесь.

Департамент по управлению данными заинтересован не только в оптимизации процессов работы с данными во всей компании, но и в улучшении показателей пользовательского опыта в разрезе DG продуктов. Для этого необходимо модернизировать функционал существующих систем путем поиска точек роста и выпуска обновлений по их устранению. Искать точки роста мы решили при помощи интервьюирования пользователей и сбора обратной связи от них. По результатам были отрисованы карты пользовательских путей (cjm – "customer journey map") в разрезе DG инструментов, а также сформирован бэклог, описывающий основные зоны роста в части систем по управлению данными. В связи с этим, в скором времени планируется ряд обновлений с целью внедрения доработок и увеличения эффективности продуктов.

RTteam Apr 10 2020 at 11:10

DataGovernance своими силами

6 min

14K

Open source*System Analysis and Design*IT Infrastructure*Ростелеком corporate blogBig Data*

Recovery Mode

Привет, Хабр!

Данные — это ценнейший актив компании. Об этом заявляет чуть ли не каждая компания с цифровым уклоном. С этим сложно спорить: без обсуждения подходов управления, хранения и обработки данных сейчас не проходит ни одна крупная IT-конференция.

Данные к нам поступают снаружи, также они формируются внутри компании, а если говорить о данных телеком-компании, то это для внутренних сотрудников кладезь информации о клиенте, его интересах, привычках, месторасположении. При грамотном профилировании и сегментации рекламные предложения выстреливают наиболее эффективно. Однако, на практике не все так радужно. Те данные, которые хранят компании, могут быть безнадежно устаревшими, избыточными, повторяющимися, либо об их существовании никому не известно, кроме узкого круга пользователей. ¯\_(ツ)_/¯

Одним словом, данными нужно эффективно управлять – только в таком случае они станут активом, приносящим бизнесу реальную пользу и прибыль. К сожалению, для решения вопросов управления данными нужно преодолеть довольно много сложностей. Обусловлены они в основном как историческим наследием в виде «зоопарков» систем, так и отсутствием единых процессов и подходов к управлению ими. Но что означает «управлять данными»?

Именно мы об это мы и поговорим под катом, а также о том, как нам помог opensource-стек.

Читать дальше →

+17

andgenn Jan 3 2022 at 12:34

Инструменты Data Governance

6 min

27K

Data storage*Data Engineering*

From sandbox

В двадцать первом веке миром правит информация и для того, чтобы оставаться конкурентоспособным на рынке предприятию необходимо не только владеть информацией, а также уметь грамотно ей распоряжаться. На данный момент существуют разные системы управления данными для эффективного управления компанией.

Разберем понятие Data Governance, что это и для чего оно предприятию.

Data Governance – это совокупность процессов определения наиболее важных данных для использования сотрудниками, присвоение им прав доступа и управления для отлаженной работы бизнес-процесса, а также защита данных от внешних воздействий.

Стоит отметить, что многие путают понятия Data Governance и Data Management.

Data Management это процесс сбора, хранения и обновления данных.

Можно сказать, что Data Governance формирует стратегию управления данными, а Data Management напрямую осуществляет управление данными согласно определенной стратегии.

AlexeyBest Feb 6 2023 at 10:40

Гайд по созданию Big Data-проектов в облаке: технологический стек, этапы и подводные камни

8 min

5.2K

System administration*VK corporate blogBig Data*DevOps*Cloud services*

Tutorial

Любой специалист, который когда-либо работал с Big Data знает, что в подобных проектах большой не только объем данных. Также это внушительные вычислительные ресурсы, разветвленный технологический стек и мощная инфраструктура. Поэтому Big Data-проекты часто реализовывают в облаке.

Меня зовут Алексей Бестужев, я архитектор VK Cloud, и в этой статье мы обсудим нюансы и неочевидные особенности запуска процессов при работе с большими данными в облаке.

Материал подготовлен на основе нашего совместного вебинара с Кириллом Сливчиковым, управляющим партнером компании 7RedLines.

Читать дальше →

+39

varagian Aug 3 2015 at 11:36

Что такое Мастер-Данные и зачем они нужны

8 min

162K

System Analysis and Design*Big Data*Navicon corporate blog

Введение

(клик по картинке ведёт внутрь публикации)

Развиваясь, организации внедряют всё больше и больше информационных систем совершенно различных направлений: бухгалтерский учет, управление персоналом, управление складом etc. Системы живут и развиваются независимо друг от друга до того самого момента, как компании не потребуется взглянуть на свои данные целиком. Объемы данных уже достигают критической точки и выясняется, что сопоставить и сравнить данные вручную становится просто невозможно. Решения основанные на противоречивых и невыверенных данных ведут к управленческим ошибкам, а дубли и неактуальность данных к неверным бизнес решениям.

Конечно же проблема описанная выше не нова и сегодня мы обсудим классический способ решения — систему управления мастер-данными.

Оглавление

Читать дальше →

suburg Jul 11 2022 at 06:38

Процесс моделирования данных при разработке приложений

10 min

7.8K

System Analysis and Design*IT TerminologyMicroservices*

Привет!

Меня зовут Коля, и я системный аналитик.

В большинстве источников моделирование данных (в контексте создания приложений) рассматривается как последовательное создание трёх моделей данных - концептуальной, логической и физический. Такого порядка придерживаются, например, DMBOK2 и BABOK, а также многочисленные статьи в сети Интернет:

Рискну предложить несколько дополнений и уточнений к этому процессу - как на основании собственного опыта, так и обобщения опыта коллег, с которыми обсуждал этот вопрос.

2 3