Привет, Хабр! На связи Надежда Костякова, техлид в ПГК Диджитал. Мы разработали «Оптимизатор ремонтов», инструмент, который позволяет быстро и эффективно формировать план технического обслуживания вагонов. Однако на этапе внедрения столкнулись с проблемой — коллеги неохотно переходили на новую систему, продолжая вести расчеты в электронных таблицах. Сегодня я поделюсь историей о том, как нам удалось развеять их сомнения — и при чем здесь методология change management.
Chief Data Scientist
«Вредные советы»: тимлид-токсик — как распознать в себе и перейти на сторону добра
Привет, Хабр! Я Надежда Костякова, тимлид направления Data Science в Первой грузовой компании. Сегодня в режиме вредных советов расскажу о том, как тимлиду не стать «токсиком», обеспечивать ненасильственное выполнение KPI и какие подходы используем мы в ПГК, чтобы организовать здоровую корпоративную культуру и продуктивное взаимодействие в командах разработки.
Можно ли снизить затраты на ремонт вагонов?
Как мы в ПГК контролируем ремонт вагонов с помощью IT-технологий.
В прошлом году мы писали об одной из частей проекта «Цифровой вагон». Он нацелен на улучшение процесса ремонтов вагонов – снижение их количества и стоимости. Меня зовут Надежда Костякова, я — техлид продукта в ПГК и расскажу, как он развивается, а также о проблемах, с которыми мы столкнулись в процессе, и способах их решения.
Data Science для «неайтишных» компаний. Как организовать работу направления с «нуля»?
Сегодня большинство компаний идут по пути цифровой трансформации, внедряют новые методы работы и организации процессов. Частью этой трансформации обычно становится Data Science, ведь сложно себе представить «цифру» без предиктивной аналитики и возможностей, которые она дает. Меня зовут Надежда Костякова, я руковожу управлением анализа данных и машинного обучения в Первой грузовой компании (ПГК). Я расскажу о том, как мы начинали работать с направлением Data Science. Надеюсь, этот опыт будет полезен и специалистам, и компаниям, которые, как и мы, находятся в начале пути.
Проект «Цифровой вагон»: предиктивные ремонты
Как в ПГК учатся делать точные прогнозные рекомендации по своевременной отправке вагонов в ремонтные депо.
В июле мы писали о старте проекта «Цифровой вагон». Он позволяет выстраивать предиктивную аналитику на основании данных о состоянии колесных пар. Меня зовут Надежда Костякова, я лидер команды разработки проекта в ПГК и расскажу, как он развивается, а также о проблемах, с которыми мы столкнулись в процессе, и способах их решения.
Как мы пришли к предиктивной аналитике
Напомню, что главное для оператора предоставить клиенту исправные качественные вагоны под погрузку вовремя и в нужном количестве. Контроль технического состояния вагонов – задача комплексная, за нее ответственно большое подразделение в составе компании – департамент эксплуатации подвижного состава. Его специалисты основную часть своих решений по ремонту принимают на основании натурного осмотра. Если выявлена неисправность, то вагон отправляется в ремонт.
Когда по инициативе РЖД на сети начали массово устанавливать датчики, которые измеряют технические показатели колесных пар вагонов, мы разработали модуль — ИС КТИ (контрольно-технические измерения). Он позволяет нам анализировать информацию о толщине гребня и обода колесной пары. Это ключевые показатели, с помощью которых определяют техническое состояние колесных пар и принимают решение о том, куда вагон отправится – к клиенту или в депо на ремонт.
Система уже успешно функционирует, наша команда улучшает ее – ищет пути повышения качества и количества данных, а также разрабатывает новые возможности анализа. Например, бизнес-эксперты обратили внимание, что с помощью ИС КТИ можно не только смотреть на последнее актуальное состояние вагона, но и прогнозировать его состояние в будущем.
Как принципы ResponsibleAI помогают ML-моделям работать по максимуму?
С помощью ML-моделей сегодня выдают кредиты, регулируют движение на дорогах, определяют цены на товары и многое другое. Однако, процесс их разработки и вывода в продуктивную среду сложен и полон подводных камней. Очень часто качество прогноза, основанного на реальных данных, не соответствует ожиданиям пользователей. Меня зовут Надежда Костякова, я руковожу управлением анализа данных и машинного обучения в Первой грузовой компании (ПГК). В статье расскажу о принципах, которым следует наша команда Data Science, чтобы гарантировать надежную работу алгоритмов машинного обучения в продуктивной среде.
Какие проблемы возникают при использовании ML-моделей?
В 2013 году на площадке Kaggle было запущено соревнование. Его участники должны были отличить звук, издаваемый китом, от остальных звуков. Запуск прошел нормально, и люди начали загружать свои результаты. Один из них поразил организаторов: он был сильно выше ожидаемого и достигал невероятного показателя 0,99 ROC AUC. Как выяснилось, результат этот был достигнут даже без чтения звуковых файлов. Что же произошло?
Оказалось, что файлы с записью китов отличались по продолжительности от остальных, имели другой формат даты и были сгруппированы по времени. Организаторы и участники столкнулись с проблемой Data Leakage – когда не основные данные, а метаинформация помогла достичь результата. Это огромная проблема при использовании модели в «проде»: в реальных условиях у модели не будет таких метаданных, и ее результат будет крайне низким. В бизнесе это может привести к значительному экономическому ущербу.