Data Science и искусственный интеллект (ИИ) — темы важные и интересные. Потому на волне популярности рождаются многочисленные курсы, которые при ближайшем рассмотрении оказываются стоянками инфоцыган. Найти тех, кто разбирается в вопросе и занимается реальными проектами, трудно.
Этот пост посвящён магистерской программе от МФТИ и ВТБ под названием «4И: Искусственный Интеллект и Интердисциплинарные Исследования». О ней расскажут сами организаторы. Они покажут, что ждёт бакалавров в 4И, поделятся видением будущего ML в банковской сфере и поведают о проектах, рождающихся при сотрудничестве математиков и банкиров. Знакомьтесь, будет интересно.
Заместитель президента-председателя правления Банка ВТБ Вадим Кулик рассказал о том, почему программа называется «4И» и на кого она рассчитана.
4И складывается из названий первых букв основных дисциплин, рассматриваемых на курсе. Это Искусственный Интеллект и Интердисциплинарные (междисциплинарные) Исследования. И если первая половина названия не вызывает вопросов, то фокус на интердисциплинарных исследованиях стоит расшифровать более подробно.
По мнению Вадима Кулика, сейчас наступает так называемое «время T-Shaped People», то есть людей, обладающих глубокой экспертизой в своей нише и навыками в смежных областях.
Термин T-Shaped происходит из самой формы буквы T. Её вертикальная полоса иллюстрирует глубину навыков и опыта в одной области, а горизонтальная — способность сотрудничать и развиваться в других областях.
Самый простой пример таких T-людей — это Data Scientist, разбирающийся в области подготовки данных, SQL-запросах для экстракции данных и, кроме прочего, понимающий границы применения DevOps-практик.
При этом мало быть просто высококлассным техническим специалистом, потому что эффективное решение задач может лежать вне плоскости технической реализации и затрагивать гуманитарную составляющую, которую технари зачастую игнорируют. Мы ждём студентов с хорошей математической базой, увлечённых ИИ и заинтересованных в том, как устроено наше общество, жадных до познания и не считающих, что история и право — это предметы для галочки на первом курсе. Магистерская программа МФТИ и ВТБ ставит перед собой цель выпускать действительно разносторонних специалистов, готовых развиваться в областях, не связанных с программированием, и способных стать архитекторами сложных GovTech-решений, улучшающих жизнь людей и заботящихся о них. Как уже показали пандемия и её последствия, такие специалисты всегда редки. По этой причине крайне важно составить костяк эффективных мультидисциплинарных команд.
Также Вадим Валерьевич добавил, что программа рассчитана не только на людей, собирающихся стать экспертами в области Data Science, но и на тех, кто хочет прокачать навыки менеджмента. Это сделано для того, чтобы выпускник магистратуры мог не только рассчитывать на роль пусть и высококлассного, но исполнителя, коих на рынке уже много, но и сразу получал навыки принятия решений в условиях неопределённости, не боялся брать ответственность на себя и умел (а главное — не боялся!) общаться с заказчиком на его языке. Мы видим нашего выпускника тимлидом, у которого не «провисает» техническая часть, менеджером в технической сфере, у которого всё в порядке с общением, архитектором, который создаст умный город и не проигнорирует приватность горожан, — словом, мог бы стать руководителем небольшой команды сайентистов.
Ректор МФТИ Дмитрий Ливанов рассказал о знаменитой «Системе Физтеха» — когда обучение подразумевает не только глубокую теоретическую подготовку, но и обязательное включение в реальные проекты. И сейчас именно ВТБ помогает магистрантам подключаться к задачам, реализуемым в одном из крупнейших банков страны.
Дмитрий Викторович отметил важность работы интердисциплинарных групп. По его мнению, люди, объединяющие в себе разные компетенции, как правило, показывают бо́льшую эффективность в решении сложных производственных задач, которых становится всё больше.
Также ректор МФТИ отметил, что программа 4И стала логичным продолжением работы совместной лаборатории ВТБ и МФТИ «Машинное обучение в банковских технологиях». О том, какие задачи решает лаборатория, рассказал руководитель департамента анализа данных и моделирования, старший вице-президент Банка ВТБ Максим Коновалихин.
Основная работа лаборатории связана с обработкой сложноструктурированных или неструктурированных данных. За последние полгода лаборатория сосредоточилась на решении следующих задач:
Графовая аналитика, где работа ведётся с архитектурой сложных графовых нейронных сетей. Причём большой интерес представляют даже не сами сети, а лавинообразный рост операционных данных, наследуемая необходимость отслеживания их качества и постоянное решение вопроса об их применимости перед включением в граф.
Видеоаналитика. Лаборатория занимается вопросом распознавания физиологических реакций клиентов во время общения с менеджерами банков. Как правило, решение подобных задач основывается на исследованиях, сделанных в лабораторных (то есть приближенных к идеальным) условиях. Работа с ВТБ, чьи офисы рассредоточены по всей стране, позволяет оперировать с максимально реальными, что называется, «полевыми» данными видеоаналитики.
Оптимизационные задачи банка. Самый наглядный пример — использование решений в роботе-советнике в ВТБ Инвестициях.
Робот-советник
Робот-советник — бесплатный сервис ВТБ Инвестиций, который подбирает портфель ценных бумаг специально под финансовые цели клиента. После этого сервис следит за бумагами и присылает советы, когда какие-то из них нужно продать или купить.
Одной из стратегий управляет ИИ. Он ищет наилучшее соотношение разных активов, чтобы для каждого клиента собрать портфель с максимальной доходностью при минимальном риске.
Чтобы алгоритм соблюдал правила диверсификации, профессиональные управляющие ВТБ устанавливают ограничения. После того как алгоритм собирает портфель, управляющие проверяют, какие ценные бумаги выбрал алгоритм и в каких пропорциях.
Для подбора инвестиционного портфеля требуется «попадание» в ряд целевых параметров, и решение оптимизационных задач становится здесь критичным. Сейчас команда ВТБ и МФТИ работают над «робоэдвайзером 2.0», где будут применяться наработки лаборатории.
О задачах лаборатории также рассказал доктор физико-математических наук, федеральный профессор математики, директор Физтех-школы прикладной математики и информатики (ФПМИ) МФТИ Андрей Райгородский.
ФПМИ традиционно обладает высокими компетенциями в областях, на которых основывается работа с ИИ. Прежде всего, это дискретная математика — по сути, краеугольный камень Data Science, без которого невозможно глубоко анализировать и систематизировать данные. Здесь и логика, и теория множеств, и комбинаторика, и графы, и множество других сложных, но важных дисциплин. И кто, как не преподаватели кафедры дискретной математики МФТИ, может рассказать об этом максимально подробно и структурированно.
Вторая интересная задача — решение оптимизационных задач. Лаборатория ВТБ и МФТИ ставят перед собой задачу создания этакого российского Solver, позволяющего находить целевые значения путём многопараметрического подбора оптимального значения зависимых переменных.
Андрей Михайлович отметил, что для решения прорывных задач очень важна гуманитарная составляющая. Далеко не все задачи можно немедленно оформить в модель. Вероятно, многие из них — не удастся никогда. Именно поэтому в программу введены гуманитарные курсы, которые по сложности и продуманности не уступают математическо-техническим: цифровое право, алгоритмы принятия решений, социальные сети и их влияние на общественные настроения. Всё это даст выпускникам широкий кругозор и способность ставить и разрабатывать задачи по использованию технологий машинного обучения и ИИ в смежных социально-экономических сферах с учётом их остроты. Мы хотим, чтобы наши выпускники не только полагались на Big Data, но и понимали, как по осколкам амфор и обрывкам древних текстов можно восстановить жизнь целого города. Современные проблемы требуют, чтобы мы не делились на два враждующих лагеря «технарей» и «гуманитариев», но поняли, что нам не обойтись друг без друга.
Тему важности гуманитарной составляющей в ML-проектах развил доктор физико-математических наук, профессор РАН, заведующий лабораторией машинного интеллекта МФТИ Константин Воронцов.
Задачи, решаемые ИИ, могут быть весьма разнообразными. Но именно в банкинге вопросы этики выходят на первый план и возникают ещё на этапе постановки целей. Потому что банк, прежде всего, — это про взаимоотношение с людьми.
Сейчас финансовые организации умеют отлично таргетировать свои предложения, но не учитывают при этом региональных и/или духовных особенностей клиентов. Это неправильно и даже опасно. Предложение может быть не только «не попадающим», но и неприемлемым или даже оскорбительным. И не учитывать такие эффекты уже нельзя.
Другой пример — работа с государственными алгоритмами, помогающими выпускникам определиться с выбором университета. Совсем недавно алгоритм занизил оценки студентов британских школ, выставив их на основе исторического рейтинга учебных заведений за предыдущие три года, оценок студентов за предыдущие экзамены и их рейтинга в школе, основанного на убеждениях учителя. До 40 % студентов получили заниженные оценки, что вызвало бурные протесты. Создатели социально значимых алгоритмов не должны видеть исключительно модели: они должны хорошо представлять, что за каждой цифрой стоит человек.
Эти и множество других этических вопросов необходимо учитывать инженерам при создании своих продуктов. Таким специалистам нужен бэкграунд в области социологии, права и государственного управления. При этом перевод этических факторов в набор правил и ограничений — это, с точки зрения математики, всё тот же вопрос оптимизации, который решается в лаборатории «Машинное обучение в банковских технологиях».
Какие же задачи будут решаться дальше? Помимо трёх направлений, озвученных Максимом Коновалихиным, сейчас на курсе приступают к ряду не менее интересных задач. О них более подробно рассказал начальник управления перспективных алгоритмов машинного обучения департамента анализа данных и моделирования Банка ВТБ Денис Суржко.
Первая из них — это AutoML в криптозащищённом анклаве. Идея этой задачи проста: обучаться на большой выборке данных, представленной несколькими участниками. Последние смогут видеть результаты обучения, но не увидят датасеты от других участников. В результате получается нечто более полезное, чем если бы эти источники обрабатывались по отдельности. Более подробно о концепции, получившей название “Data Fusion”, можно прочитать в этом хабратопике.
Поскольку банки часто работают над похожими задачами, логичным выглядит объединение датасетов с максимальной безопасностью исходных данных для каждого из участников. И криптозащищённый анклав — именно то, что нужно.
Второе: развитие задачи с оптимизацией, о которой говорили предыдущие спикеры.
Третье: построение алгоритмов (некоего движка) для консистентных макроэкономических сценариев. Поскольку мы живём в постоянно изменяющемся мире (ОПЕК — туда, программа количественного смягчения — сюда), требуется постоянный многопараметрический пересчёт различных экономических сценариев.
Вместо заключения
Обучение работе с моделями машинного обучения — это не просто описание работы Jupyter Notebook или того, как подготовить датасет для распознавания котов на картинках (чем грешат многие курсы). Правильный источник знаний должен иметь минимум две составляющие:
преподавателей, способных дать материал с какой угодно детализацией;
реальные и интересные проекты, позволяющие по максимуму раскрыть возможности, предоставляемые новыми знаниями.
Магистерская программа от МФТИ и ВТБ «4И: Искусственный Интеллект и Интердисциплинарные Исследования» способна стать именно таким, правильным проводником в мир ИИ, который ищут вчерашние бакалавры. И мы как банк очень рады, что имеем к ней самое прямое отношение. Будем рады узнать ваше мнение в комментариях.