Уже два года подряд Центр искусственного интеллекта в химии ИТМО проводит DataCon - это сочетание образовательного интенсива и хакатона. Ученые Центра “делегируют” участникам хакатона обработку данных, собранных в ходе экспериментов и по открытым источникам. Результат - обученные ML-модели, прогнозирующие характеристики новых наночастиц из проектов Центра. В то же время DataCon - бесплатный образовательный интенсив, который проходит онлайн для школьников и студентов, уже имеющих базу в области химии. Они расширяют свои знания по нейросетям и работе с ними в контексте обработки экспериментальных данных. В этой статье расскажем о том, как это работает и какие результаты дает.
Под капотом DataCon
DataCon - это конкурсная активность в рамках “Приоритета 2030”, которая совмещает в себе обучение широкого круга заинтересованных и пользу для научных проектов в области биологии и химии наночастиц, над которыми Центр химии и искусственного интеллекта работает сегодня.
Задачи и примеры для DataCon подкидывают научные группы. Коллеги выбирают актуальный на момент проведения активности проект, который находится на нужной стадии развития. Каждый раз проекты разные, но объединяет их одна проблема - наличие большой базы необработанных данных, собранных нашими сотрудниками. Данные могут быть получены экспериментально или собраны по открытым источникам, но они не валидированы и не приведены к единому формату, т.е. в чистом виде не могут использоваться для дальнейших исследований. У самих подразделений не всегда хватает ресурсов эти данные обработать. Тут-то и подключаются участники DataCon.
Образовательная часть DataCon - это различные лекции, семинары и воркшопы, которые должны погрузить участников в предметную область проекта и показать, какие подходы используются для обработки данных. В среднем длятся они две недели, а ведут их магистранты и аспиранты ИТМО, плюс приглашенные внешние специалисты.
В рамках обучающей части участники прокачивают в том числе и практические навыки, а также разбиваются на команды. К каждой команде прикрепляется ментор. Кстати, именно этот фактор и определяет лимит на количество участников - мы берем столько, сколько может “переварить” команда организаторов.
Обучение завершается хакатоном, в рамках которого команды обрабатывают данные и формируют предсказания по собранной базе. Команда победителей имеет возможность проверить свое решение экспериментально. Понятно, что участвуя удаленно, они не могут прийти в лабораторию сами. Но им помогают сотрудники ИТМО, выполняя эксперимент (откровенно говоря, это продуктивнее, чем пытаться быстро познать экспериментальные методы в незнакомой лаборатории или стерильном боксе).
Конкурсная часть в данном случае - не главная. Основное - это обучение. Но хакатон помогает добавить соревновательный элемент и дополнительно мотивировать искать решение. А кроме того он дает огромную пользу именно научному проекту - группа получает сразу множество вариантов решения актуальной задачи.
Участие и тем более победа в DataCon дает определенные неформальные преференции. Например, за участие в этой инициативе абитуриентам добавляют баллы к ЕГЭ. Студенты могут указывать факт участия в DataCon при подаче заявок на стажировки - в этом случае у них будет приоритет. Также участники команды победителей могут попасть в магистратуру Центра для химиков без экзаменов.
Поскольку перед DataCon не стоит задачи кого-то отсеять и выбрать только самых лучших, проигравшие команды тоже в своем роде победители. Если им понравилось направление, после того как будет закончена экспериментальная проверка решения команды победителей, они могут напомнить о себе, постажироваться в группе или поработать удаленно, просто связавшись с организаторами.
Оказалось, что участие в подобных мероприятиях хорошо воспринимается и внешними работодателями. Одна из участниц последнего DataCon поделилась опытом, что рассказ об этом проекте (о кейсе, который разбирали в рамках DataCon) помог ей устроиться в крупный банк на новую для нее роль аналитика данных.
Как это было?
DataCon проходил уже дважды - летом в 2022 и 2023 годах. В 2022 году перед участниками стояла задача исследования цитотоксичности наночастиц, в этом - построение предсказательной модели регрессии для прогнозирования ZOI - зоны ингибирования роста бактерий - для комплексов лекарство-наночастицы. В основе была база данных, собранная в Центре ХИИ на основании данных реальных экспериментов, где содержалась информация по конъюгатам наночастиц с лекарственными препаратами (т.е. по свойствам сочетаний неорганических наночастиц и органических молекул).
В рамках обучающего этапа участники слушали лекции по химии по теме задания, в частности, по физике и химии наночастиц, а также по программированию, нейросетям и визуализации данных. Им требовалось с одной стороны, понять, на какие параметры наночастиц следует обращать внимание, на что они влияют при сборе базы данных, а с другой, научиться эти данные обрабатывать.
Приступив к решению задачи, они должны были обработать имеющуюся базу, провести визуальный анализ с помощью инструментов аналитики и наук о данных, создать модель машинного обучения или нейронную сеть для предсказания таргетного признака – процента выживаемости клеток в присутствии определенного материала. Помимо этого, нужно было подготовить питч и презентовать проделанную работу на финальной защите.
Кстати, после первого DataCon участники из команды победителей пришли работать в ИТМО. К текущему моменту они уже доработали начатое прямо во время хакатона исследование до крутой публикации.
Организацией первого DataCon занималось всего несколько человек, поэтому участников набирали мало - не более 50 из 120 заявившихся. В следующем 2023 году к организации подключились студенты и участники первого этапа - теперь команда тех, кто читает лекции и менторит, выросла до 15 человек. Это позволило почти в полтора раза увеличить прием, да и в целом сделать все более организованно.
Проанализировав опыт 2022 года, перед вторым хакатоном ввели тестовое задание, поэтому заявившихся (приславших задание) было меньше. Зато уровень знаний участников - выше. В 2023 году участники строили предсказательную модель регрессии для ZOI - зоны ингибирования роста бактерий для комплексов лекарство-наночастицы. Исходная база данных содержала около 1000 сэмплов, а от участников требовалось как минимум обработать данные и обучить модель. Спустя две недели после окончания соревнований, были проведены итоговые сборы участников, на которых объявляли результаты хакатона. Также, жюри подробно разбирали решения участников и давали комментарии по улучшению их подходов и методов.
Как попасть на DataCon
Задача DataCon - привлечь к образовательной инициативе как можно больше людей по всей стране, а может и из ближнего зарубежья. Поэтому мероприятие проходит летом в формате онлайн. Зарегистрироваться на него можно бесплатно. Обычно регистрация открывается в марте-апреле и закрывается примерно за месяц до проведения очередного этапа.
Мы приглашаем на DataCon не только студентов любых курсов, но и школьников 9-11 классов. Но надо понимать, что DataCon - это обучение методам машинного обучения, нейросети и моделирование для химиков, но не химия для программистов. Поэтому нужны базовые знания по естественным наукам - химии и физике. “На входе” эти знания мы не проверяем и не предъявляем никаких формальных условий, но без такой базы будет тяжело участвовать в проекте. Если же база есть, но нужно ее немного пополнить, как правило в команде находятся более знающие коллеги, у которых можно уточнить. Плюс группа читает лекции именно по той частной области, которая нужна будет для решения задач.
Все общение внутри команд, а также с лекторами и менторами, проходит в чатах. Иногда проходят видеосозвоны. Поэтому формальное требование к технике - она должна это поддерживать. Если при этом мощностей компьютера для выполнения заданий в сфере машинного обучения недостаточно, мы можем предоставить доступ к нашим вычислительным кластерам.
В зависимости от прошлых наработок каждый новый DataCon требования к зарегистрированным немного отличаются. В первый раз не проводили никакого конкурсного отбора, просили предоставить краткое резюме и учитывали самые разные моменты, даже участие в Русском медвежонке для школьников. Сейчас появилось небольшое тестовое задание на базовые знания Python и баз данных (в 2023 году была возможность выбрать - либо предоставлять резюме с релевантным опытом, либо выполнить задание). Задача этого задания - не увеличить порог входа и отсеивать, а проверить мотивацию участников. Без этого, к сожалению, многие просто не доходят до конца. Поэтому на сайте DataCon размещены полезные материалы - ссылки на короткие тематические курсы, изучение которых вряд ли отнимет более недели, но поможет решить задачу и впоследствии во время DataCon не тратить время на подтягивание базовых знаний.
Заявиться для участия можно как самостоятельно, так и с готовой командой. Нередки случаи, когда к нам приходят одноклассники и однокурсники и просят их включить в одну команду. Для тех, кто сам не распределился, мы ведем различные внеучебные активности - чатики, игры на знакомства - чтобы легче было выбрать команду. Если же человеку сложно определиться или для этого не хватает софт скиллов, помогают организаторы - распределяют с учетом компетенций.
Тему будущего года мы пока не определили. Центр ИИ в химии занимается генеративным дизайном новых веществ и у него есть два больших направления работы - органика (лекарственные препараты) и неорганика (наночастицы). Скорее всего на DataCon попадет задача из неорганики, потому что первая группа проектов ведется совместно с фармакологическими компаниями, соответственно многие задачи под NDA. Материаловедение же разрабатывается полностью в ИТМО и имеет более научную направленность, т.е. может быть открыто широкой публике.
Куда движется DataCon
Пока мы придерживаемся ежегодного графика, но смотрим на то, чтобы устраивать подобные инициативы два раза в год.
У нас также есть запрос как от коллег из научных учреждений, так и от компаний-партнеров, вроде ПАО “Татнефть”, провести очередной DataCon очно в Альметьевске. Но мы пока не готовы настолько сузить “воронку” приема. Первоначальная идея была как раз в общедоступности инициативы, а в Альметьевск приедут далеко не все.
Опыт проведения DataCon оказался полезен со всех точек зрения. Темы финальных заданий были частью реальных исследовательских работ Центра искусственного интеллекта в химии. В научном плане мы получили даже больше, чем рассчитывали. Остается надеяться, что участников ждет достойное продолжение работы в этом направлении в нашем Центре или в коллективах коллег.