Всем привет. В этой статье хотим поделиться нашим опытом организации и проведения “Дата Кампуса” – буткемпа по Data Science, который проводится в разных регионах России.
Data Science – уже не новая профессия. Отрасль созрела, требования к специалистам по DS на рынке труда стали более конкретными и понятными. В свою очередь, система школьного образования (да и высшего тоже) не успевает перестроиться вслед за потребностями индустрии.
Существует и региональная дифференциация с точки зрения доступности дополнительного образования. Далеко не в каждом регионе России у молодых людей есть возможность знакомиться с современными предметами такими как анализ данных и машинное обучение. Причин тому множество - от нехватки цифровой инфраструктуры для обучения до отсутствия соответствующих компетенций у педагогов. Что касается онлайн-курсов, то они, в основном, ориентированы на уровень профессионального образования.
“Дата-Кампус” начинался как серия тематических образовательных смен в рамках федерального проекта «Кадры для цифровой экономики», но со временем превратился в самостоятельное образовательное событие. За два года около 2000 человек из 62 населенных пунктов России приняли участие в "Дата-Кампусе".
Программа “Кампуса” довольно насыщенная и состоит из лекций, семинаров и консультаций, где участников знакомят со средой разработки, основами программирования и темами по машинному обучению. Далее участники делятся на группы, выбирают исследовательскую задачу по анализу данных, над которой и работают основную часть времени. В конце - защита проектов, лидерборд по итогу оценок экспертов и награждение.
В чём фишка кампуса?
Формат буткемпа
Большинство людей, которые к нам приходят, ранее не сталкивались с машинным обучением. Некоторые из них имеют базовые навыки программирования на Python, а некоторые и вовсе ни разу не программировали. Конечно, за одну-две недели не стать экспертом, да у нас и нет цели добиться от участников ремесленного совершенства в этой области. Ценно то, что каждый участник “Дата-Кампуса” получает базовое представление о Data Science, знакомится с тем, что и как делают профессионалы в этой области, делает проект в составе группы, участвует в оформлении и презентации результатов.
Профессиональная проба
Если говорить о той части аудитории, которая выбирает для себя профессию, например, о старших школьниках, которым очень важно искать себя, пробовать разное, то “Кампус” ставит перед такими участниками открытые задачи по анализу данных, где нет заведомо правильных ответов. У учащихся появляется возможность поразмышлять над методами исследования, прочувствовать сложность и многогранность задачи, представить и аргументировать выбранные подходы. Такой формат позволяет сформировать представление о профессии и самоопределение по отношению к карьере в этой области.
Акцент на структуре научного исследования
Часто, когда речь заходит о преподавании Data Science и машинного обучения, можно услышать: «Невозможно заниматься этими вещами без глубокого знания математики и статистики!». Однако, нам важнее донести до участников мысли о том как проводить качественное исследование в целом, нежели глубоко погружаться в детали алгоритмов. Мы обучаем методологии CRISP-DM, учим постановке гипотез, выбору и аргументации методов исследования, интерпретации и представлению результатов. Лучше, если участники воспользуются простой моделью или эвристикой, но доведут дело до логического конца, чем потеряются, попытавшись завести нетривиальные модели.
Темы проектов и данные
Нам важно, чтобы данные и проекты были релевантны интересам нашей аудитории. Это опытный специалист может продуктивно работать над решением заказной задачи или над абстрактной проблемой. Более юным и менее опытным студентам, которые не представляют, как данные, с которыми им предложили работать, связаны с реальной жизнью, вся работа может представляться бессмысленной. Мы исходим из того, что знание Data Science - это не самодостаточная ценность, но инструмент, позволяющий решить максимально конкретные задачи, в том числе исподволь – задачи, актуальные для юношеского возраста, связанные с самоопределением, освоением способов совместной деятельности с другими людьми и апробацией версий о своей будущей профессии.
Поэтому, хотя самые разнообразные датасеты у нас заготовлены заранее, темы проектов у нас всегда идут от команд. Сначала многие проектные идеи выглядят завиральными, но после проработки и консультаций с экспертами участникам удается сформулировать решаемую задачу. В итоге этот подход оправдывает себя. Образовательная программа должна предусматривать решение таких образовательных задач, которые имеют статус «настоящих» для всех ее участников.
Межпредметность
Мы особенно поддерживаем междисциплинарные проекты и призываем «миксовать» данные из разных датасетов. Так, на "Кампусах" всегда много аналитических проектов по экономике, культуре, экологии, образованию.
Самой популярной всегда оказывается инженерная тематика, и мы наблюдаем, что строго технические проекты учащимся даются легче. Сюда относятся задачи, связанные с инженерией и техникой, например, имплементация алгоритма классификации изображений или построение рекомендательной системы. Такие темы бывают сложнее гуманитарных в плане создания моделей, но концептуально они проще.
В отношении социально-экономических тем дела обстоят сложнее. Например, далеко не все школьники продуктивны в этих областях. Многие вроде и проходили что-то в школе по истории, экономике, обществознанию, но зачастую не способны применить эти знания для того, чтобы исследовать комплексный социокультурный или политико-экономический конструкт, например «бедность» или «счастье» или «регион». Уже на этапе формулировки гипотез учащиеся сталкиваются с тем, что для такого объекта трудно сформулировать определение, выделить существенные признаки и их корреляты из разных предметных областей и подобрать соответствующие данные.
И здесь очень важно, что с аудиторией у нас работают профессионалы из индустрии. Они демонстрируют определенную культуру мышления. А инструментальные навыки подтянутся – при желании.
В таблице ниже приведены примеры дата-проектов, реализованных участниками «Дата-Кампуса» в разное время, позволяющие оценить степень сложности тех проблем, которые фактически решали учащиеся.
Краткое содержание | Техническое направление | Области |
Представленность регионов в федеральной новостной повестке 2009-2019 гг. и тематическое моделирование федеральных новостей | Обработка естественного языка | Коммуникации |
Скрининг на пневмонию по рентгеновским снимкам | Компьютерное зрение | Медицина |
Определение жанра живописи по фотографии картины | Компьютерное зрение | Культура |
Сортировщик для раздельного сбора мусора | Классический ML | Экология |
Рекомендации по географическому применению солнечных панелей для генерации электроэнергии | Рекомендательные системы | Энергоносители; Экология |
Предсказание победителей спортивных матчей по цифровым видам спорта | Классический ML | Цифровые экосистемы |
Система компьютерного зрения для беспилотного карьерного самосвала | Компьютерное зрение | Промышленность, инновации |
Анализ факторов, влияющих на популярность массовых онлайн-курсов | Аналитика | Коммуникации, цифровые экосистемы |
Исследование жанрового многообразия, лексической сложности книг и статистики книгоиздания в разных возрастных сегментах | Обработка естественного языка | Коммуникации |
Преподаватели из дата-индустрии
Преподами и экспертами у нас уже успели побывать ML-разработчики, проджект-менеджеры, тимлиды из разных компаний, таких как Яндекс, Rambler&Co, Евраз-холдинг и другие. Нам очень важно, чтобы преподавателями Кампуса были действующие профессионалы из индустрии. Не только потому, что с профессионалами программа идет легче, но и потому что такие специалисты для молодых людей – это ролевые модели и носители соответствующей культуры. Поэтому мы всегда ищем специалистов, которым нравится делиться своими знаниями с другими.
“Дата-кампус.Медиа” 2021
За последние пару лет прошло несколько очных и “гибридных” “Кампусов”, но поподробнее хочется рассказать о последнем (на текущий момент), который мы провели в июне 2021 года.
Во-первых, это наш первый тематический “Кампус”. Если раньше мы пробегались по всем основным темам машинного обучения, то на этот раз мы сфокусировались на обработке естественного языка. Мы использовали данные, связанные с разными медиа: новостными лентами, электронными книгами, обзорами кинофильмов и музыкальными текстами. Во-вторых, в связи с эпидемией нам пришлось полностью перейти на онлайн-формат, что стало настоящим вызовом как для организаторов и преподавателей, так и для участников. В-третьих, специфика онлайнового тематического “Кампуса” подразумевала более детальную проработку программы, подготовку датасетов и гипотез исследования с тем, чтобы максимально структурировать рабочее время.
Результаты
На “Дата-кампус.Медиа” мы проводили отбор с помощью вступительного тестирования, где проверялись базовые знания программирования на Python. Несмотря на проверку знаний, критерии отбора были довольно мягкие. Необходимость тестирования заключается в том, чтобы оценить уровень участников и впоследствии разбить их на сбалансированные по навыкам программирования команды.
Главным достижением участников мы считаем успешный опыт работы в географически распределенных командах: были команды, участники которых работали из дома в Чебоксарах, Югре, Новосибирске и т.д. Вся коммуникация участников между собой (видео, командный чат), хранение данных и написание и исполнение кода были организованы на единой облачной платформе, доступной через браузер и мобильные приложения.
Несмотря на геймификацию всего процесса (на "Кампусе" действует специально разработанная игровая модель), наличие онлайн-наставников, закрепленных за каждой группой, четкий таймлайн проектной работы, у нас были опасения относительно того, насколько юные участники будут мотивированы и активны в условиях “удаленки”. Но оказалось, что соотношение активных и неактивных участников мало отличается от оффлайна, и заинтересованные команды прекрасно самоорганизуются в онлайне, более того, занимаются своим проектом далеко за пределами формально отведенного для этого времени. Так что мы не можем разделить распространенное в школьных кругах разочарование “дистантом”.
Что дальше?
"Дата-Кампус" продолжает развиваться. Если у вас есть практическое знание DS & ML и желание поделиться профессиональным опытом с молодыми людьми, для которых общение с вами может стать определяющим в выборе профессии, пишите нам в Telegram.