Машинное обучение vs. аналитический подход



    Какое-то время назад мы нашли свои старые материалы, по которым обучали первые потоки на наших курсах машинного обучения в Школе Данных и сравнили их с теперешними. Мы удивились, сколько всего мы добавили и поменяли за 5 лет обучения. Осознав, почему мы это сделали и как, на самом деле, поменялся подход к решению задач Data Science, мы решили написать вот эту публикацию.

    Начинали мы обучение с основных методов и алгоритмов машинного обучения, рассказывали, как их применять на практике, как подбирать параметры, как чистить и готовить данные, как мерить качество. Мы считали (и до сих пор считаем), что подготовка полноценного дейта-саентиста должна в себя включать не только методы классического машинного обучения, но также и методы анализа графов (социальных сетей, SNA), анализа текстов, работу с нейронными сетями и большими данными (Big Data).

    Таким образом, на выходе у нас получался эксперт в широкой области Data Science, способный применять обширный арсенал методов на практике. Таких же специалистов мы брали и к себе в бизнес. Сначала в компании, где мы работали и руководили соответствующими направлениями, а потом в свой бизнес по разработке продуктов на основе машинного обучения — Студию Данных.

    Но позже мы поняли, что этого не только не достаточно для успешной реализации Data Science проектов, а что это даже и не главное.

    Подход в начале практики Data Science и, будем честны, у многих аналитиков до сих пор заключается в следующем: дайте мне данные, я их очищу, сделаю вектор признаков, разделю на обучающую и тестовую выборки, запущу несколько алгоритмов ML, и вот вам результат.
    Имеет ли такой подход право на жизнь?

    Да, имеет, но там, где предметная область уже хорошо изучена и уже есть хороший накопленный опыт применения аналитики. Примеры? Банковский скоринг, отток у операторов, кросс-продажи (Next Best Offer) в рознице, банках, телекомах, прогноз эффективности акций в рознице, прогноз остатков. Этот список можно продолжать.

    А теперь давайте представим другие области: прогноз времени прибытия в мультимодальной перевозке (корабль, поезд, грузовик): какие признаки будете использовать? Тип груза, вес груза, наличие определенных сортировочных узлов? А если подумать? Может, какие-то более простые и очевидные признаки (еще даже без моделей машинного обучения) вам дадут значительную точность?

    Или вам нужно спрогнозировать чувствительность крупных клиентов к изменению цены на определенную продукцию. Как определите эластичность? Что именно будете прогнозировать?

    А нужно ли строить модель, если производственный процесс потом изменить все-равно не получится?

    Получается, что нужно уметь работать в новых предметных областях применения аналитики, так как в хорошо изученных областях, и так уже много наработок и это уже “красный океан”.
    Что же нужно, чтобы идти в новые области с аналитикой?

    Для этого нужно уметь глубоко разобраться в предметной области конкретного процесса, описаний которого часто нет. Понять, какие данные вообще в принципе нужны, понять, на чем конкретно здесь делается бизнес. Понять нужна ли тут аналитика вообще, нужны ли какие-то предсказательные алгоритмы, нужно ли менять бизнес-процесс, есть ли операционные рычаги (какой смысл предсказывать останов оборудования, если способов его избежать все равно нет?).

    Если просуммировать, то требуется следующие вещи:

    • Аналитический подход, умение формулировать и проверять гипотезы
    • Понимание принципов и особенности работы бизнеса и отдельных процессов
    • Понимания экономики процессов
    • Понимание технологий
    • Умения связывать данные бизнес-процессами

    И, если оторвать от машинного обучения, какая сфера это умеет делать лучше всего? Правильно — управленческий консалтинг. А где этому учат используя так называемый case-метод (много примеров из разных бизнес-ситуаций) — верно, на курсах MBA (master of business administration).

    Таким образом, получается, что идеальный Data Scientist — выпускник MBA с опытом работы в консалтинге, прошедший курсы по машинному обучению.

    Это, конечно, перебор, но верно то, что среди подрядчиков лидируют те, у кого внутри на уровне процессов и стандартов, на уровне подбора и обучения сотрудников развита культура аналитического мышления. Этого же подхода мы придерживаемся и у себя в Студии Данных. И, что логично, такой же подход мы заложили в наше обучения в Школе Данных.

    Вы можете возразить. Ведь написанное выше в большей степени применимо в консалтинге, где каждый раз заранее не знаешь, из какой предметной области будет проект. А что в крупных компаниях, где область в принципе очерчена?

    В компаниях мы наблюдаем все ту же специфику, описанную выше, и необходимость понимания бизнеса аналитиком и всей командой, необходимость наличия ответственности за финальный результат.

    Именно по этой причине в крупных компаниях мы сейчас видим тренд в специализации подразделений Data Science и перемещения функции аналитики из централизованного подразделения, одного на всю компанию, в бизнес-функции, то есть, ближе к бизнесу. При такой специализации способность аналитика быстро разбираться в новом бизнесе и предлагать реально применимые решения, а не модели, является конкурентным преимуществом.

    Что же именно поменялось в нашей учебной программе? Мы и раньше всех обучали на основе практических кейсов. Поменялась структура и характер кейсов. Раньше наши кейсы походили на задачи на Kaggle: вот задача, вот целевая переменная, вот метрика качества, вот данные.

    Теперь задача звучит иначе: вот задача в терминах клиента, вот описание процесса клиента. Сформулируйте задачу аналитики, предложите метрику качества, оцените целесообразность применения аналитики, посчитайте экономический эффект, предложите методы, сформулируйте запрос на данные, которые вам нужны. А вот далее все как обычно: почистите данные, постройте модель итд. И такие примеры мы даем из совершенно разных областей, благо, наличие собственного консалтинга в этой области сильно расширяет набор доступных задач, которые мы решали на собственном опыте.

    Но дисциплина аналитического подхода это не только практика кейсов. Мы также обучаем стандартным фреймворкам (основных шаблонов анализа), применяемые в консалтинге. Также мы добавили в обучение процесс разработки аналитического продукта, которого мы придерживаемся на занятиях, от бизнес-анализа до презентации результатов заказчику и планирования развертывания продуктивного решения включая этапы, роли, ключевые точки принятия решений и моменты взаимодействия с заказчиком.

    Презентациям мы уделяем отдельную роль — слишком часто мы видели разрыв между мыслями аналитиков и восприятием этих мыслей сотрудниками заказчика.

    В целом, мы считаем, что задача подготовки дейта-саентиста сейчас не в том, как подготовить специалиста для существующих областей (для этого уже есть немало курсов и это во многом стало commodity), а подготовить эксперта-исследователя для работы в новых областях, куда цифровизация пока только приходит.

    Ну, и, как обычно — начало нового курса у нас в Школе Данных 16 сентября. Заказы на новые проекты в Студию Данных мы принимаем постоянно, так же как и набираем сотрудников (см. раздел открытые вакансии).

    P.S. Мы немного обновили наш сайт, чтобы сделать его удобнее. Поэтому, не удивляйтесь новому облику.
    • +13
    • 6,6k
    • 7
    Школа Данных
    22,88
    Компания
    Поделиться публикацией
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 7

      +1
      Странные выводы в статье, учитывая устойчивый трэнд на автоматизацию и повышение качества предсказательных моделей именно за счет не рукотворной генерации хороших признаков, а более полного охвата исследуемой области за счет данных. Короче, профессия DataScience — это следствие временно плохой автоматизации в данной отрасли. Скоро пройдет.
        0
        С нашей точки зрения такой «устойчивый тренд» как раз и работает в уже довольно изученных областях. Для всех остальных процесс выглядит так:

        1) Целевую переменную нужно определить — она часто не очевидна
        2) Данные описывают различные участки процесса (не всегда сразу понятно какие) и свойства объектов вовлекаемых в процесс (степень участия которых в процессе не очевидна) — уже не говоря о том, что все лежит в разных системах, имеет разную нормировку итд
        3) Из данных нужно собрать признаки, которые характеризуют поведение процесса: самый-самый простой пример: из времени отправления и прибытия нужно собрать время в пути и таких моментов могут быть сотни.

        На подумать: пусть нужно спрогнозировать время в пути на машине от Москвы до любого заданного города России. Какие признаки будете использовать и где они лежать в готовом виде, чтобы на них «натравить» автоматический алгоритм? Что возьмете (кроме, например, времени года и времени дня): наличие скоростных/платных дорог между? Или процент от всего пути платных дорог? Среднее время в пути за какой то промежуток в прошлом? Количество промежуточных городов? Регион, где находится город? А вдруг это закрытый город и туда вообще нельзя просто так доехать? А если дорога проходит через паромную переправу и нужно закладывать расписание парома? итд…
          0

          Через пять лет ответ на эти вопросы будет простой — всё. Мы берём все данные, которые могут иметь хоть какое-то отношение к задаче и дообучаем крупную "модель путешественника", сделанную корпорацией.

            0
            Так а кто из всего многообразия «данных вообще» отберёт те, «которые могут иметь хоть какое-то отношение к задаче»? Кто будет выбирать форматы представления этих данных? Кто будет определять, как и по каким признакам сращивать датасеты? Что делать с недостаточной или противоречивой информацией? Да и в конце концов, кто будет определять, «а что мы конкретно оптимизируем и по каким критериям будем это измерять»?
            –1
            Хотелось бы узнать, вот вы сделали прогноз с помощью созданной вами модели. Каково будет отклонение действительных значений от прогнозируемых? Об этом как-то я ничего никогда не слышу. Какова вероятность того, что семья Петровых отправившись из Москвы в Новосибирск на Ладе Калина доедут туда в спрогнозированный срок, плюс-минус два часа? Готовы сделать ставки на то, что прогноз точный? Контрольный пакет акций на это поставите? А?
            Насколько прогноз на основе сложносоставной модели будет точнее, чем средняя скорость автомобиля деленая на длину пути?
            И вот тут начинается, мол ну, да, это же всего лишь прогноз. Все зависит от модели. Модель можно улучшать…
            Тогда какая разница, есть у меня прогноз или нет, если, собственно, когда они доедут и доедуут ли вообще, по большому счету, не известно.

            Все это смахивает на гадание с применением математических методов.

            Не сочтите за критику. Просто у меня стойкое ощущение того что все это — самообман. Я и сам интересуюсь симуляцией и моделированием. Однако стоит взять любую более менее сложную проблему, и все начинает упираться в модель. Я читал научные статьи где делались симуляции на основе модели, например для прогнозирования притока беженцев в Европу. Читаешь модель и думаешь: «А ведь на этом месте могли быть выбраны любые другие факторы». И понимаешь, что модель ничего общего с действительностью не имеет. Поэтому, как мне кажется, симуляция в бизнесе и не распространена.
              0
              Вы видно не совсем понимаете, как это работает. Нейросети и глубокое обучение — это не иммитационное моделирование, а статистическое. Они по определению ничего не могут предсказать точно для одного отдельно взятого случая, они для этого просто не предназначены.
          0
          В своё время я прошёл курс у Сергея (ШАБ-2017, в СПб), могу подтвердить, что их курс действительно отличается от остальных. Наверное, это потому что они делали его на основе бизнес-опыта, а не отталкиваясь от прикладной математики, как это характерно для других курсов.

          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

          Самое читаемое