ML не в радость: что может провалить проект по внедрению machine learning / Хабр

Эксперты направления аналитических решений ГК «КОРУС Консалтинг»
Алена Гайбатова и Екатерина Степанова.

Зарабатывать и экономить с помощью данных хотят все: применение методов ML даже на одном проекте помогает добиться существенной экономии или даже роста выручки. Но чтобы почувствовать эффект и не провалить внедрение, нужно учитывать сложности и не допускать менеджерских ошибок. На примере рассказываем, как сделать так, чтобы алгоритмы машинного обучения не ошибались.

Machine learning – всего 5% от ресурсов проекта. Но усложнение логики ML может привести к увеличению сроков внедрения, а неправильное планирование сбора данных – к неточному анализу, который может стать бесполезным и дорогим. Почему так происходит?

Проблема ожиданий

Компания где-то слышала, что нейросеть – это решение всех проблем. При этом качество или объёмы данных оставляют желать лучшего – внедрить модель на таких условиях просто невозможно. К примеру, для накопления данных в ритейле или производстве требуется около года, а если нет необходимого оборудования или часть процессов не оцифрованы, то ещё дольше.

Чтобы избежать недопонимания, рекомендуем договариваться о конкретных результатах с оговоркой на требования для запуска системы, а не о расплывчатой возможности дохода. Подобные иллюзии испытывает не только бизнес, но и сами разработчики. Иногда бизнес-аналитики ожидают завышенное качество работы моделей, опираясь на прочитанное в сложных технических статьях. К сожалению, такие тексты пишут об алгоритмах разработанных на модельных, а не реальных данных.

Поэтому результаты проекта должны быть полезными, легко интерпретируемыми и подтвержденными метриками и экспертами бизнеса.

Ложные предпосылки

Проект внедрения может стать убыточным или затянутым из-за неудачного или неглубокого тестового анализа демоверсии ML-модели. Например, на исторических данных в 2019 году предварительная точность прогнозирования составила 90%. В 2020 же произошли случайные, но высокие скачки в оценке параметров — образовался разрыв c изначальной информацией, и достигнуть желаемого результата теперь просто невозможно.

Проблема решается более тщательной подготовкой и расчётами. Проверяйте выводы демоверсии и учитывайте возможные ухудшения сценариев.

Завышенное доверие к системе

Представьте, вы разработали и сдали в эксплуатацию систему поддержки и принятия решений, например, для прогноза продаж в сфере здравоохранения. Компания даже успела в ней поработать: платформа показывала отличные результаты и точные расчёты. Сотрудники стали понимать, что система работает лучше и быстрее людей, поэтому использовали её решения не глядя. Так появились завышенные ожидания от платформы, и за ее работой перестали следить. Качество внедренной системы в 2020 году из-за пандемии сильно упало и, если бы не подсистема мониторинга, компания могла понести убытки. Без оценки доверия к технологии нет.

Решение: делать подсистему мониторинга текущей оценки качества, работы системы и сотрудников.

Проблема изменений

Достаточно распространённая ситуация: спустя год после внедрения системы анализа бизнес-оценка результатов ее работы изменилась, поменялось качество или природа входных данных. Например, в розничной торговле выросла ставка налогообложения, а система оптимизации ценообразования была настроена на прежние параметры. В результате модель даёт погрешности в расчётах, а значит, торговая сеть сталкивается с убытками.

Проверяйте входные данные на аномалии. Не доверяйте системе полностью – разбирайте и анализируйте отдельные случаи подробнее. Так вы выявите дополнительные инсайты для улучшения результатов модели.

Как минимизировать подобные риски

Научитесь задавать правильные вопросы.

1. Какую проблему решаете? Точно ли болит то, на что жалуются? Сколько стоит решение проблемы?

Ответы на эти вопросы помогут собрать информацию и посчитать value для бизнеса. Так вы сможете понять, к какой точности прогнозирования стоит стремиться. К примеру, если данный параметр близок к 100%, значит, что модель «переобучилась» и доверия к ней нет. Тот же принцип по обратную сторону: точность ниже 50% говорит о том, что модель «недоучилась».

2. В какой процесс встраивается ML? Кто стейкхолдер процесса? Кто несёт ответственность за техническую составляющую системы, а кто – её конечный пользователь?

Важно понимать, для кого вы внедряете платформу. Ведь результат во многом может быть скорректирован из-за новых входных ограничений со стороны заказчика. Например, система прогноза продаж в ритейле должна выдавать разные результаты для категорийного менеджера и отдела закупок.

3. Кто эксперт в предметной области в компании?

Экспертиза – это данные, а они питают ML-продукт. Лучше всего помочь вычленить нужные сведения может тот, кто знает в них каждую точку. Чем больше качественных данных, тем выше вероятность получения желаемой модели и ожидаемого бизнес-результата.

4. Как будет проходить прием результатов?

Это важно, потому что для людей ML – это магия. Когда вы приходите к бизнес-экспертам и говорите с ними об ML, будьте готовы, что их знания в этом вопросе фрагментарны. Иногда им тяжело понять вашу логику, поэтому важно обговорить результаты, понятные бизнесу. Например, какой прирост маржинальности получит компания от реализации модели прогноза оттока. Магию нужно заземлять, уходя от оперирования математическими терминами к бытовым и более понятным, но при этом оставаться факирами и волшебниками.

ML – прекрасный инструмент для оптимизации работы, решения нестандартных проблем и анализа большого объема данных. Важно учитывать множество аспектов для его использования до и после внедрения. Надеемся, что краткий обзор сможет предостеречь от нежелательных ситуаций и сведет к минимуму проблемы от использования ML, чтобы вы могли насладиться дополнительными преимуществами технологии.