Всем привет! На связи Иван Кондраков и Константин Грушин. В банке «Открытие» мы с командой занимаемся разработкой и развитием пула моделей для принятия решений о выдаче кредитных продуктов и банковских гарантий для малого и среднего бизнеса. Еще в 2020 году у нас было всего два дата‑сайентиста, один дата‑инженер, несколько моделей и факторы в объеме до двух тысяч штук. С каждым годом количество задач и обученных моделей росло. А вместе с ними росло и количество гипотез, которые нам хотелось проверять при построении моделей. А исходя из специфики области (ограничения на интерпретируемость моделей, используемые алгоритмы, подходы), немалая доля гипотез выражалась именно в работе с факторами, на которых обучаются наши модели. К тому же сложно переоценить важность данной работы, поскольку от того, насколько выверены факторы, напрямую зависит качество моделей. Проблема в рассчитанном факторе, будь то ошибка в логике расчета или утечка информации о целевой переменной (т. н. target leakage), приводит к невалидности полученных результатов. Хорошо, когда такие ошибки выявляются до начала разработки модели, а не в процессе ее промышленной эксплуатации.
И вот на дворе 2023 год, у нас уже восемь дата‑сайентистов, команда дата‑инженеров, больше чем несколько моделей и около 30 тысяч факторов, список которых до сих пор поддерживается вручную в Excel‑файлах.