Профессия Data Scientist сейчас стала особенно привлекательна, вовлекая еще больше энтузиастов и даже евангелистов, благодаря последним достижениям в области генерации текстов и изображений. Внешний фон наводит на мысли, что будни дата сайентиста заполнены исключительно творческой самореализацией, и рутина в процессы его работы никогда не сможет просочиться. Увы, но большую часть DS команд рутина уже поглотила.
Определения рутины
Рутина — консервативный распорядок и метод работы, рабское следование заведённому шаблону, превратившееся в механическую привычку. Источник определений — «Oxford Languages».
Рутина — следование заведённому шаблону, превратившееся в механическую привычку. Источник определений — «Викисловарь».
Рутина в процессах порождает большой спрос на специалистов средней и низкой квалификации, которыми компании компенсируют отсутствие автоматизации процессов внутри Data Science и мешают расти профессионально. Популярные платформы онлайн-курсов стараются удовлетворить спрос, подогревая интерес через массовую рекламу. Блогеры рекламируют курсы по Data Science, обещая несметные богатства своей аудитории, так как казино рекламировать больше нельзя.
Прохождение курсов без вступительных испытаний от низко-квалифицированных преподавателей помогает тем, кто оказался над чертой ошибки выжившего. Нанимающий менеджер получает сотни откликов на младшие позиции и ищет месяцами иголки в стоге сена. В итоге, большое количество энергии и человеческого капитала расходуется неэффективно.
Только автоматизация внутренних процессов и сможет искоренить вышеописанный порочный круг.
В результате выиграют обе стороны: дата сайентисты смогут развивать свои профессиональные навыки, а компании эффективно использовать имеющиеся у них ресурсы. Более того, чем больше компаний пойдет по этому пути, тем сильнее трансформируется отрасль и выиграет каждый из её представителей.
Лаборатория пошла по пути автоматизации рутины в Data Science ещё в 2021-м году. В прошлом году мы сделали особый фокус на эту проблематику, а сейчас постараемся увлечь за собой и вас.
Сначала изучим причину возникновения проблемы, рассмотрев как видят индустрию пользователи, бизнес и дата сайентисты.
Далее, разберем пять процессов, в которых мы побеждаем рутину внутри Data Science Альфа-Банка.
Напоследок поговорим как трансформируется область, какие новые вызовы это готовит для бизнеса и, главное, как с ними справиться.
Как пользователи видят Искусственный интеллект/Data Science?
Скачок в качестве работы генеративных языковых моделей позволил привлечь огромное количество внимания к Data Science. В эпоху цифровизации для части пользователей ChatGPT отождествляется с искусственным интеллектом. Действительно, в мессенджере мы не видим собеседника, обладающего естественным интеллектом, как и при общении с ботом. Более того, не каждый собеседник может так грамотно излагать свои мысли на широкой ряд вопросов без грамматических и синтаксических ошибок. В итоге, когда естественный интеллект вывозит не в каждой ситуации, генеративные модели могут считаться естественным интеллектом.
Личный опыт показывает, что большие языковые модели полезны при решении именно той задачи, на которую они обучались. Нужна помощь с генерацией идеи для тезиса презентации? Пожалуйста. Нужно сгенерировать классное название для компании или продукта? Опять, пожалуйста.
Модели компьютерного зрения гораздо раньше встроились в нашу повседневную жизнь благодаря наглядности результатов их работы, и возможности выложить результат своей работы в социальные сети. Вы можете поменять себе внешность, обменяться лицами с вашим другом, изменить стиль фотографии и освоить многие другие функции, доступные в популярных приложениях.
Рекомендательные системы уже стали частью нашего досуга, чего мы уже не замечаем, часами залипая в социальных сетях.
Человечество боится, что его поработит терминатор, но оно пропустило нашествие рекомендательных систем) Терминатор уже у вас в кармане.
Видимая пользователю часть работы нейронных сетей выполняет, в основном, развлекательную функцию. Невидимая часть работы моделей машинного обучения повышает эффективность бизнеса, которую менеджмент трансформирует в счастье клиентов и акционеров в некоторой пропорции. К сожалению, образование в сфере применения Data Science в бизнес-процессах не распространено среди владельцев процессов и продуктов в компаниях. В таком случае приходится ориентироваться либо на вышеописанный пользовательский опыт, либо научиться переводить с «французского» языка дата сайентистов.
Как Data Science помогает бизнесу?
Данные — это новая нефть и одновременно топливо, на котором ездят модели машинного обучения, разрабатываемые дата сайенистами.
Одновременно Data — это первое и определяющее слово в названии рассматриваемой области с точки зрения результата. Другими словами, качество данных определяет качество разработанных моделей. Объём и полезность сохранённых данных определяет список процессов и потенциал их автоматизации инструментами Data Science. Базовое понимание методик монетизации данных позволяет повышать эффективность бизнеса.
Существуют три основных направления повышения эффективности бизнес-процессов за счет Data Science. Эффект продвижения в каждом из направлений довольно просто перевести в денежный эквивалент, что важно для любой коммерческой компании. Разберем подробно каждый из них.
Победа над рутиной и переход к масштабированию процессов интенсивным путем
Data Science позволяет компаниям переходить от экстенсивного формата масштабирования процессов к интенсивному за счет автоматизации принятия решений на основе данных. Пререквизитом для такой автоматизации является логирование в достаточном объёме принятых решений, а также данных, объясняющих эти решения.
Примеры
Принятые решения:
1. Если ваша команда занималась продажами, то нужно было сохранить все этапы прохождения заявок через воронку.
2. Если ваша команда лечила больных, то нужно было сохранить все диагнозы и воронку эффективности предложенного лечения.
Данные, которые их объясняют:
1. Если вы хотите автоматизировать процесс выдачи кредитов, то сохраняйте данные из бюро кредитных историй и транзакционное поведение клиентов.
2. Если вы хотите научиться прогнозировать спрос на товары, то логируйте исторические данные о покупках ваших товаров на момент прогноза.
Процессы обучения и применения моделей машинного обучения и человека очень похожи. На этапе обучения модель машинного обучения выучивает связь между накопленными данными и принятыми решениями. Другими словами, на основании входных данных модель учится принимать некоторое решение. На этапе применения модель машинного обучения считывает входные данные, применяет накопленные знания для принятия решений на их основе.
Компания может переложить длительные рутинные однотипные процессы принятия решений на модели машинного обучения. В результате, процессы будут масштабироваться интенсивным путем, а команда, освободившаяся от рутины, будет заниматься более интеллектуальными задачами.
Внедрение Data Science в этом сценарии позволяет экономить при масштабировании процессов или приносить больше пользы компании за счет исключения рутины из процессов команды. В первом случае оценивать финансовый эффект нужно через экономию фонда оплаты труда. Во втором случае — через рост метрик качества процессов, на которые будет переключена команда после исключения рутины.
Повышение качества принимаемых решений
В крупных компаниях хранятся петабайты данных, которые содержат опыт взаимодействия с клиентами, конкурентами, историю принятых решений и их последствия. К сожалению, узкопрофильный специалист самостоятельно не в состоянии принять решения на основе всего массива накопленной информации, а модели машинного обучения могут переварить огромный массив данных.
В итоге, модели машинного обучения могут принимать более качественные решения по сравнению со специалистом.
В первую очередь, за счёт количества данных на этапе обучения.
Во-вторых, за счёт объективности, ведь они базируются на основе статистических зависимостей между данными и результатами принятых решений.
В-третьих, за счет концентрации на одной единственной задаче.
Получается, нейронную сеть нельзя подкупить и даже отвлечь контентом в социальных сетях.
Внедрение Data Science в этом сценарии позволяет повысить продуктовые метрики в вашей компании, что напрямую конвертируется в финансовый эффект.
Принятие решений на новой скорости
Диджитализация бизнеса позволяет переводить процессы из офлайна в онлайне, что повышает скорость их исполнения за счёт сокращения костов на логистику и обработку информации. К сожалению, человек остаётся узким горлышком в процессах компании до того момента, пока она не научится принимать решения на основе данных автоматически.
Цифровизация общества позволяет быстро запускать новые продукты и бизнесы, а также находить новых клиентов. Ввиду этого витка эволюции, уровень конкуренции во многих сферах сильно повысился. В итоге, если компания принимает решения медленно, то её обходят конкуренты — клиенты предпочтут более качественный сервис, сотрудники более качественные внутренние процессы, а инвесторы — более высокую степень цифровизации. В конечном счете, высокая скорость и качество процессов становятся конкурентными преимуществами, а в недалеком будущем — гигиеническим минимумом.
Внедрение Data Science в этом сценарии позволяет повысить продуктовые метрики в вашей компании, что напрямую конвертируется в финансовый эффект.
Особенности внедрения Data Science на практике
Как показывает практика, короткого рассказа о пользе Data Science для бизнеса недостаточно. Ведь формирование веры в этот чудесный инструмент происходит либо благодаря насмотренности на опыт соседей/конкурентов, либо же она приходит только после первого успешного опыта повышения эффективности бизнес-процессов. Обычно до первого успешного внедрения команда Data Science может восприниматься в качестве дорогого и красивого, но на практике бесполезного аксессуара.
В процессе построения новых продуктов, где Data Science является ядром процесса, ситуация обстоит гораздо сложнее.
Во-первых, расчёт эффектов может быть не таким простым и прозрачным в силу отсутствия статистики.
Во-вторых, когда нет статистики, то остаётся только опираться на экспертное мнение.
Выходит, что очень сложно коммититься на создание продуктов, которые принесут эффекты, которые ты не чувствуешь.
Получается, что команде Data Science в процессе внедрения нередко приходится переваривать тонну скепсиса, сохраняя огромную веру в свои решения. В случае построения новых продуктов, риск неуспешности продукта необходимо полностью брать на себя. В итоге, рынок часто копирует друг у друга и редко строит что-то принципиально новое, что приводит к стагнации в области Data Science.
Как выглядит работа Data Scientist в крупных компаниях?
Второе слово в названии области Data Science подразумевает наличие исследовательской составляющей. Большинство (не все) топовых специалистов в этой области приходит с серьезным бэкграундом в математике, физике или информатике. В процессе обучения этой специальности учат извлекать информацию из научных статей и адаптировать её под практические нужды.
Однако, подавляющее большинство практикующих специалистов просто копируют реализованные архитектуры с GitHub или обновляют версию градиентного бустинга.
Нельзя сказать, что исследований в индустриальном Data Science вовсе нет. Обычно в эту категорию относятся задачи по анализу полезности источников данных, выбору целевой переменной и метрики качества, максимально коррелирующей с продуктовой метрикой качества.
Наконец, самое главное, — тщательное исследование бизнес-процесса. Начинать без этого работу обычно вовсе не имеет никакого практического смысла.
Получается, что исследования есть, но с классическими представлениями о них имеют не так много общего.
Мем с Карлсоном может ошибочно натолкнуть на мысль, что все дата сайентисты пишут очень хороший код. К сожалению, в этом легко разубедиться, посмотрев на качество кода в Jupyter-ноутбуках на GitHub.
Совет хорошим программистам, желающим перекатиться в Data Science
С развитием зрелости функции Data Science в компании навык написания хорошего кода становится очень востребованным. Особенно востребована такая компетенция в продуктах, где ML является его ядром. Например, в продуктах по распознаванию речи, диалоговых системах, ML-решениях, работающих на носимых устройствах. Навык написания хорошего кода в перечисленных случаях выделит ваше резюме среди остальных.
В сухом остатке хочется сделать вывод, что Data Scientist работающий в индустрии — недопрограммист и недоисследователь, из которого бизнес хочет выжать максимум результата.
Более того, программисты и исследователи тоже не могут считать его своим.
Получается, все дата сайентисты профнепригодны?
Нет, абсолютно профпригодны, только профессия трансформировалась. Дата сайентисту нужно писать среднего качества код, переиспользовать уже проверенные и готовые методы, и уметь переводить в термины машинного обучения с бизнесового языка.
Отличный способ принести максимальную пользу бизнесу на старте внедрения Data Science в компании — максимизировать скорость и выдерживать среднее качества, срывая все низковисящие фрукты. Однако, настанет момент, когда все фрукты будут сорваны, а лучшие практики скопированы с рынка. К этому моменту команда должна быть способна находить новые направления монетизации Data Science, чтобы не попасть в область стагнации. Как это сделать, если команда отвыкла от лидерской функции, выполняя однотипные задачи на скорость по заказу?
Одна из функций Data Science — это победа рутины и масштабирование процессов интенсивным методом.
Забавно — выходит, что на гадюку не действует свой собственный яд и свою книгу дата сайентисты не успели прочитать. Получается, нужно нанять дата сайентистов, которые будут строить модели, которые оптимизируют работу других дата сайентистов?) Почти так, нужно отлаженные, алгоритмизированные и одновременно хорошо работающие части внутренних процессов оборачивать в сервисы, с целью избавления команды от рутины.
Как Лаборатория автоматизирует внутренние процессы в Data Science?
Лаборатория машинного обучения выполняет роль, которая не может быть совместима с рутиной во внутренних процессах. Команда ищет новые точки монетизации нейронных сетей, как в ключевых задачах банка, так и в повышении качества клиентского сервиса за счет автоматизации его процессов. Опыт и знания, полученные при внедрении моделей в одну область бизнеса или процесс, команда примеряет и внедряет в другие части компании, где эти инструменты будут наиболее эффективны.
Работа в коммерческой компании формирует навык повышения эффективности своей деятельности в виду ограниченности ресурса. Процесс получения нового ресурса всегда предшествует защите финансового эффекта от его работы. На первый взгляд приходят ассоциации с «проблемой курицы и яйца». По факту, Лаборатория выросла в 5 раз с момента её основания или в 25 раз с того момента, когда автор пришел первым членом будущей команды. Безусловно, новые члены команды закрыли выявленные потребности бизнеса.
Ретроанализ внутренних процессов показывает, что на протяжении всей истории развития команды мы стремились к их автоматизации и успешно её производили. Далее разберем пять ярких примеров в исторической последовательности, где автоматизация удалась.
№1. Тестирование источников данных
Источники данных и внешние сервисы, основанные на данных, позволяют улучшать качество работы внутренних моделей. Эффект достигается за счёт ортогональной составляющей, содержащейся в данных, которая не заложили ранее в процессе их обучения.
Процесс повышения эффективности моделей за счёт источников данных, является тем более эффективным, чем более ортогональный сигнал, объясняющий целевую переменную содержится в новых источниках данных.
В Альфа-Банке функционирует отдельная команда, которая отвечает за новые источники данных. Большая часть её работы направлена на проектное управление исходя из особенностей работы функции внутри банка, поэтому штатных дата сайентистов в ней не заложено. По построению, команда вынуждена обращаться к смежным командам дата сайентистов для тестирования качества источников данных.
Исторически задача по тестированию источника данных дата сайентистами воспринималась как рутинная работа, которую очень хотелось отложить на потом. В далеком 2019-м году, когда команда автора состояла из одного человека, у него тоже появилось ровно такое же желание. Однако эффект от выявления полезных источников данных был значительным, поэтому очень хотелось одновременно помочь команде и не погрязнуть в потоке однотипных задач.
На изображении представлен алгоритм тестирования источника данных, состоящий из пяти пунктов. Каждый пункт может быть легко стандартизирован и, впоследствии, автоматизирован. Все задействованные системы обладают или могут быть заменены аналогами python API. Процессы моделирования и отчетности уже были алгоритмизированы.
Альтернативой автоматизации процесса может быть его исполнение имеющимся ресурсом. Мы пробовали пройти по этому пути в самом начале и даже двумя способами: размазать поток задач по команде и выделить отдельного эксперта по рутиной задаче.
В первом случае задача переодически сбивала фокус команды, так как нужно было реагировать оперативно в случайный момент времени.
Во втором — приходилось переодически заменять выгоревшего от рутины члена команды.
Путь автоматизации процесса решил данную проблему. Мы разработали сервис с графическим интерфейсом, который позволяет проводить тестирование источников данных без нашего участия, без data science бэкграудна и без потери качества. Функционал сервиса позволяет загружать в него данные, примешивать их к уже внедренным моделям, оценивать прирост качества и логировать результаты в установленном формате.
В результате Лаборатория избавилась от рутинного процесса, а команда источников данных получила необходимый уровень автономности в своих процессах. Сервис дополнительно позволил повысить количество тестируемых источников данных за счёт снижения операционных издержек при взаимодействии двух команд.
№2. Суммаризация обратной связи клиентов
Альфа-Банк собирает в проактивном режиме обратную связь о продуктах и процессах. В случае получения низкой оценки с клиентом связывается специалист сохранения лояльности клиентов с целью решения вопроса и составления экспертизы, отражающей причины возникновения проблемы. В год накапливаются сотни тысяч экспертиз, содержащие ценные инсайты для улучшения процессов и продуктов компании.Подробнее про внедрение data driven подхода в клиентский опыт Альфа-Банка.
Объём накопленных данных ещё нельзя назвать термином BigData, тем не менее несколько специалистов их может с трудом полностью изучить и структурировать без инструментов анализа данных. В первое время команда использовала простой статистический рутинный метод изучения данных: вычитываешь регулярно небольшую подвыборку, выявляешь частые проблемы, повторяешь упражнение раз в неделю.
Лаборатория разработала алгоритм суммаризации обратной связи клиентов из двух этапов.
На первом этапе применяется одна из моделей кластеризации коллекции текстовых документов: BigArtm или BertToTopic.
На втором этапе алгоритм выделения спектра формирует описание тематики/кластера, выделяя топ-N наиболее ярких представителей. Далее специалист в предметной области анализирует информацию о тематике и называет её.
В результате команда сократила время на анализ одной тематики в пять раз.
Всё бы хорошо, но дата сайентисту приходилось строить десяток однотипных моделей суммаризации в течение месяца. Получается, что рутина перекочевала из аналитики клиентского опыта в Data Science.
Процесс точно нужно автоматизировать, когда он становится чисто механическим и его можно строго описать алгоритмом.
Процесс разработки более двух десятков моделей показал, что он абсолютно готов к автоматизации. Разработка сервиса, который позволил строить модель по кнопке и отображать результаты её работы без участия дата сайентиста заняла несколько месяцев. Сервис также имеет необходимый функционал по редактированию и загрузке данных, необходимый для работы аналитика. Далее мы передали аналитику логику по подбору гиперпараметров и внесли правки в сервис, которых не хватало для комфортной работы.
Аналитики клиентского опыта уже на протяжении почти трех лет самостоятельно анализируют экспертизы клиентов и обращаются к нам только с запросами добавления дополнительного функционала. Более того, сервис не привязан к конкретному домену данных, поэтому мы его переиспользовали для анализа коллекций текстовых документов из разных доменов. Подробнее о технической реализации моделей и сервиса суммаризации.
Сервис суммаризации позволил сделать работу двух команд более интересной и творческой. Аналитик больше не тратит уйму времени на механический процесс вычитки благодаря статистической структуризации данных в сервисе. Дата сайентист, в свою очередь, больше не вынужден строить десятки однотипных моделей. Более того, сервис позволил сократить и операционные косты в процессе обмена данными при взаимодействии двух команд.
№3. ANNA — первый AutoDL сервис для неструктурированных источников данных
Лаборатория машинного обучения совершила революцию в кредитном скоринге за счёт внедрения нейронных сетей на слабоструктурированных источниках данных: карточных транзакциях, транзакциях расчетного счета и данных из БКИ. Команда прорубила окно в мир нейронных сетей, разработав подход работы с многомерными временными рядами, организовав инфраструктуру для их применения, и внедрив первые нейронные сети внутренней разработки в core-бизнес процесс банка. Результат работы позволил увеличить чистый операционный доход Альфа-Банка более чем на 1 миллиард рублей.
Хотите перенять наш опыт?
Присоединяйтесь к бесплатному курсу DL in Finance на Stepik.org. Вы узнаете, как при помощи нейронных сетей можно значительно улучшить метрики в классических банковских задачах: кредитный скоринг, склонность к продуктам и предсказание оттока.
Опыт и знания, полученные при внедрении моделей в кредитный скоринг, оказалось очень просто масштабировать на другие core-бизнес задачи: склонность и отток. Мы разработали архитектуры нейронных сетей, которые позволили извлекать информацию из произвольной последовательности событий без дополнительного этапа генерации фичей. В таком сценарии на этапе обучения нейронной сети абсолютно не важно какую задачу она решает, если это задача бинарной классификации. Важно отметить, что транзакции и данные БКИ — это самые ценные источники данных для решения этих задач. В результате нейронные сети стали показывать отличное качество во всех задачах.
Мы разработали больше десятка однотипных моделей, отточили архитектуру и алгоритмизировали процесс. Однако, оставалось большое количество процессов в банке, которые ещё не покрыл наш подход. Со стороны может показаться, что мы кайфовали от разработки нейронных сетей.
На практике же даже самая сложная и интересная задача, которую ты решаешь в двадцатый раз становится рутинной.
Как вы могли догадаться или подглядеть на изображении выше, мы не стали нанимать сто дата сайентистов для масштабирования нашей разработки. Мы выбрали путь автоматизации внутренних процессов и разработали сервис Auto Neural Network Analytics.
Почему сервис называется ANNA?
Произошел акт публичного шейминга руководителя Лаборатории на свадьбе руководителя отдела монетизации нейронных сетей со стороны его жены за то, что муж задерживается на работе.
Название сервиса позволило посвящать больше времени на разработку сервисов в честь любимой женщины и компенсировать нанесенный ущерб.
Сервис позволил автоматизировать процесс разработки и внедрения комплекса из четырех нейронных сетей. Работа с сервисом производится в графическом интерфейсе, где пользователю необходимо загрузить обучающую выборку, содержащую только набор необходимых идентификаторов. ANNA самостоятельно соберет необходимые источники данных, обучит модели и предоставит возможность внедрить решение в продакшн по кнопке. Подробнее про реализацию AutoDL сервиса можно узнать в другой нашей статье или рассказе от его архитектора.
В прошлом мы самостоятельно разрабатывали нейронные сети и добавляли их в комбинацию с классическими моделями, такими как градиентный бустинг и логистическая регрессия. Теперь любой дата сайентист в компании может это сделать без нашего вовлечения, используя весь накопленный опыт Лаборатории.
№4. Alfa AutoML
ANNA продемонстрировала возможность автоматизации процесса разработки и внедрения нейронных сетей. Мы смогли разработать AutoDL сервис, что нам мешает разработать AutoML сервис?
Ключевым отличием AutoML решения является необходимость генерации признаков, так как классические модели машинного обучения не переваривают данные в сыром виде.
Feature Store позволяет исключить рутину из процессов генерации признаков для ML-моделей. Признаки в Feature Store живут по единому пайплайну, переиспользуются всеми командами и дедублицируются. Другими словами, этот инструмент помогает переиспользовать накопленный опыт всех дата сайенстистов в решении каждой из задач. Внедрение и использование Feature Store полностью закрывает вопрос генерации признаков и делает внедрение AutoML целесообразным.
Инструмент AutoML по определению автоматизирует процесс разработки и внедрения модели. Пользователю требуется загрузить в инструмент обучающую выборку с идентификаторами объектов в установленном формате и целевую переменную. Далее инструмент самостоятельно выгрузит все признаки из Feature Store, эффективно подберет гиперпараметры для модели, отберёт признаки и выведет подробный отчет. На конечном этапе пользователь на основании отчета принимает решение о необходимости вывода модели в продакшн, что он сможет сделать по нажатию соответствующей кнопки в интерфейсе.
Перечислим внутренние процессы, которые сервисы ANNA и AutoML смогут улучшить значительным образом:
Построение сильного бейзлайн. Благодаря автоматизации процесса, каждую разработку можно превратить в мини-контест. Качество бейзлайна может быть приемлемым с точки зрение продуктовых метрик и его можно будет сразу внедрить. Данный подход целесообразен при покрытии новых процессов моделями, а также в тех случаях, когда модели приносят небольшой финансовый эффект.
Автоматизация валидации результатов. Сравнение качества разработанной модели в ручном режиме и в автоматическом может стать элементом предварительной валидации. Случаи, когда AutoML выдает лучшее качество, должны стать триггером разработчику, как возможность улучшить свою модель.
Оценка ценности новых признаков. Feature Store постоянно пополняется новыми признаками, часть из которых может улучшить уже внедрённые модели. Сервис поверх AutoML может автоматически тестировать их на всех моделях из прода и отправлять разработчику алерт в случае значительного потенциала улучшения моделей.
Инструмент для аналитиков. AutoML снижает порог входа в разработку моделей машинного обучения. Аналитики, прошедшие специально разработанный курс по использованию инструмента, смогут решать задачи либо самостоятельно, либо с последующей валидацией от дата сайентиста. Вовлечение большего количества специалистов, прошедших входное тестирование, позволит повысить data driven уровень в компании.
№5. Автоматическое обновление моделей
Модели машинного обучения выявляют зависимости в исторических данных и применяют их для входящего потока данных для автоматизации принятия решений. Говорят, что модели протухают, когда выявленные зависимости перестают быть актуальными. В таких случаях модели нужно обновлять.
Задача частого обновления моделей особенно актуально для моделей классификации интентов чат-бота и голосового бота. Альфа-Банк активно развивается, что приводит к запуску новых продуктов и процессов и модификации существующих. В итоге, сценарии обслуживания клиентов модифицируются, что приводит к частому обновлению моделей машинного обучения.
Процесс обновления моделей затрагивает пять команд.
Владелец бизнес-процесса инициирует обновление модели, когда появляются новые сценарии обслуживания или требуется модификация существующих.
Сценарист подготавливает обучающую выборку для новых сценариев, а разметчик модифицирует существую выборку.
Дата сайентист на новых данных обучает модель и готовит её к выводу в продакшн.
Команды MLOPs и ИТ проводят тестирование и выводят модель в боевое использование.
Наконец, модель внедрена в системе исполнения моделей и команда продукта докатывает её до клиентов.
Работа дата сайентиста в этом процессе довольно монотонная и может быть автоматизирована сервисом автоматического обновления моделей. Процесс автоматизации состоит из интеграции с поставщиком данных от разметки, построения нейронной сети с подбором гиперпараметров и автоматического заведения таски в JIRA для выводы модели в продакшн.
Решение задачи высвобождает время дата сайентиста на совершенствование моделей машинного обучения и теперь ему не потребуется обновлять модели до восемнадцати раз в месяц.
Роль внутренней кухни
Вы можете увлечься за нами и реализовать аналогичные кейсы в своей компании, но это будет только половина пути. Вторая половина пути лежит во внутренней культуре, миссии команды и организационной структуре функции. Наш подход не панацея для каждой компании, но уверен что найдутся те, кому он поможет построить change management. Вторая часть позволяет не копировать, а строить самостоятельно с нуля.
Наносить пользу вопреки, а не благодаря. Внедрение принципиально новых технологий и смена парадигмы будет всегда встречать сопротивление, так как это меняет уклад привычных вещей обывателей. Проблема особенно актуальна, когда под капотом лежат абстрактные вещи, которые не получается почувствовать на кончиках пальцев и связать с привычными образами из физического мира. Именно в этом состоит ключевая сложность внедрения Data Science в индустрии.
Необходимо брать ответственность за успешность изменений. Получается очень неудобная личная позиция, но она максимально коррелирует с интересами акционеров и клиентов компании, которые платят вам зарплату.
Как научиться брать риск на себя?
Во-первых, нужно быть профессионалом в своей области, чтобы самому чувствовать предлагаемые изменения на кончиках пальцев и иметь стратегическое видение.
Во-вторых, обладать глубокой доменной экспертизой, чтобы понимать как изменится процесс и продукт после внедрения Data Science.
В-третьих, предыдущий успешный опыт внедрения изменений будет опорой для новых.
Набор из этих трех факторов приводит к нетерпимости к неэффективным процессам, помогает формировать вижн для их устранения и уверенность в успехе этого плана.
Что может помешать проводить изменения?
Допустим, что ваша команда обладает всеми необходимыми качества для внедрения изменений, может ли что-то пойти не так? Конечно, риск неудачи может реализоваться. Чем лучше ваша стратегия, тем меньше этот процент. Однако у вас должен быть кредит доверия, который перекрывает матожидание ожидаемых потерь. К вашему успеху захотят присосаться многие, но они же первыми возьмут камни в случае неудачи.
Централизация экспертов в одном месте позволяет повышает эффективность. Самая интересная, амбициозная и сложная задача становится рутинной, если вы её успешно выполняете на протяжении длительного промежутка времени.
Однако, что произойдет, если вы будете передавать эту задачу постоянно новым членам вашей команды в формате горячей картошки?
С одной стороны, каждый член команды будет счастлив, так как научился решать ещё одну сложную задачу и рутины не появится в процессе, что напоминает учебу в школе или университете.
С другой стороны, не появится желание автоматизировать процесс решения этой задачи и перейти к решению принципиально новых.
Получается, централизация приводит к образованию рутины, что, в свою очередь, приводит к её дальнейшей автоматизации.
Как автоматизация рутины повлияет на компанию?
Повышение эффективности функции Data Science положительно скажется на всех участниках: дата сайентистах, менеджменте компании и аналитиках. Каждая из этих функций будет решать более творческие задачи более эффективным образом.
Дата сайентисты перестают штамповать однотипные модели за счёт механизмов их автоматической разработки и обновлять уже внедренные модели в ручном режиме на еженедельной основе. В результате команда начинает качественную разработку Data Science продуктов. Одна часть команды инвестирует своё время в разработку сервисов, другая часть — в research, с целью развития мозгов этих сервисов.
Аналитики в компании начинают использовать автоматизированные средства разработки моделей, что становится ещё одним дополнительным инструментом аналитика.
Во-первых, простые гипотезы удаётся проверять без участия команды Data Science.
Во-вторых, вовлечение большого количества аналитиков повышает количество гипотез, которые смогут лечь в основу разработку моделей машинного обучения.
В-третьих, новые точки применения Data Science обогащают Feature Store, что положительно влияет на качество всех разработанных моделей.
Эволюция процессов внутри Data Science повышает data-driven уровень компании, что, в свою очередь, приводит к новым вызовам для её менеджмента. В ситуации, когда большая часть решений в процессах принимается на основе данных, необходимость понимания как работает Data Science становится таким же необходимым навыком, как и софт скиллы.
Практика показывает, что руководителям, которые успешно внедряют машинное обучение в свои процессы не требуется уметь писать код и даже брать производную.
Однако без понимания какие задачи можно решить при помощи машинного обучения, а какие нельзя крайне сложно найти точки применения Data Science в своих бизнес-процессах.
Сократить гэп в понимании в практическом применение Data Science для менеджеров можно при помощи курса «Принятие решений на основе данных», который состоит из двух модулей.
В первом модуле вас научат опираться на данные в принятии решений, расскажут зачем и как собирать данные, как определить набор метрик для продукта, зачем проводить АБ-тесты, какие инсайты должна приносить аналитика, а также про инструменты для решения каждой из задач.
Во втором модуле расскажут как улучшить бизнес-процессы компании за счет автоматизации принятия решения силами ML, как оценивать финансовые эффекты, качественно планировать DS-проекты, а также научат общаться с Data Science командами на одном языке и понимать свою роль в проекте за счет глубокого понимания жизненного цикла моделей.
Эпилог
Буду счастлив, если наш опыт поможет сделать работу дата сайентистов более эффективной, что в свою очередь позволит повысить эффективность бизнес-процессов в компаниях за счет повышения доли принимаемых решений на основе данных.
Статья получилась достаточно объемной, спасибо что дочитали до конца. Подписывайтесь на канал «Нескучный Data Science», где мы делимся нашими успехами и неудачами, а также чтобы не пропустить будущие статьи, конференции и соревнования по анализу данных от команды Лаборатории машинного обучения.
Рекомендуемые статьи: