Pull to refresh

Дата Кампус: можно ли освоить машинное обучение за 10 дней?

Reading time7 min
Views3.1K

Всем привет. В этой статье хотим поделиться нашим опытом организации и проведения “Дата Кампуса” – буткемпа по Data Science, который проводится в разных регионах России. 

Data Science – уже не новая профессия. Отрасль созрела, требования к специалистам по DS на рынке труда стали более конкретными и понятными. В свою очередь, система школьного образования (да и высшего тоже) не успевает перестроиться вслед за потребностями индустрии. 

Существует и региональная дифференциация с точки зрения доступности дополнительного образования. Далеко не в каждом регионе России у молодых людей есть возможность знакомиться с современными предметами такими как анализ данных и машинное обучение. Причин тому множество - от нехватки цифровой инфраструктуры для обучения до отсутствия соответствующих компетенций у педагогов. Что касается онлайн-курсов, то они, в основном, ориентированы на уровень профессионального образования.

“Дата-Кампус” начинался как серия тематических образовательных смен в рамках федерального проекта «Кадры для цифровой экономики», но со временем превратился в самостоятельное образовательное событие. За два года около 2000 человек из 62 населенных пунктов России приняли участие в "Дата-Кампусе".

География участников “Дата-Кампуса”
География участников “Дата-Кампуса”

Программа “Кампуса” довольно насыщенная и состоит из лекций, семинаров и консультаций, где участников знакомят со средой разработки, основами программирования и темами по машинному обучению. Далее участники делятся на группы, выбирают исследовательскую задачу по анализу данных, над которой и работают основную часть времени. В конце - защита проектов, лидерборд по итогу оценок экспертов и награждение.

Дата-Кампус 2020
Дата-Кампус 2020

В чём фишка кампуса?

Формат буткемпа

Большинство людей, которые к нам приходят, ранее не сталкивались с машинным обучением. Некоторые из них имеют базовые навыки программирования на Python, а некоторые и вовсе ни разу не программировали. Конечно, за одну-две недели не стать экспертом, да у нас и нет цели добиться от участников ремесленного совершенства в этой области. Ценно то, что каждый участник “Дата-Кампуса” получает базовое представление о Data Science, знакомится с тем, что и как делают профессионалы  в этой области, делает проект в составе группы, участвует в оформлении и презентации результатов.

Профессиональная проба

Если говорить о той части аудитории, которая выбирает для себя профессию, например, о старших школьниках, которым очень важно искать себя, пробовать разное, то “Кампус” ставит перед такими участниками открытые задачи по анализу данных, где нет заведомо правильных ответов. У учащихся появляется возможность поразмышлять над методами исследования, прочувствовать сложность и многогранность задачи, представить и аргументировать выбранные подходы. Такой формат позволяет сформировать представление о профессии и самоопределение по отношению к карьере в этой области.

Акцент на структуре научного исследования

Часто, когда речь заходит о преподавании Data Science и машинного обучения, можно услышать: «Невозможно заниматься этими вещами без глубокого знания математики и статистики!». Однако, нам важнее донести до участников мысли о том как проводить качественное исследование в целом, нежели глубоко погружаться в детали алгоритмов. Мы обучаем методологии CRISP-DM, учим постановке гипотез, выбору и аргументации методов исследования, интерпретации и представлению результатов. Лучше, если участники воспользуются простой моделью или эвристикой, но доведут дело до логического конца, чем потеряются, попытавшись завести нетривиальные модели.

Темы проектов и данные

Нам важно, чтобы данные и проекты были релевантны  интересам нашей аудитории. Это опытный специалист может продуктивно работать над решением заказной задачи или над абстрактной проблемой. Более юным и менее опытным  студентам, которые не представляют, как данные, с которыми им предложили работать, связаны с реальной жизнью, вся работа может представляться бессмысленной. Мы исходим из того, что знание Data Science - это не самодостаточная ценность, но инструмент, позволяющий решить максимально конкретные задачи, в том числе исподволь – задачи, актуальные для юношеского возраста, связанные с самоопределением, освоением способов совместной деятельности с другими людьми и апробацией версий о своей будущей профессии.

Поэтому, хотя самые разнообразные датасеты у нас заготовлены заранее, темы проектов у нас всегда идут от команд. Сначала многие проектные идеи выглядят завиральными, но после проработки и консультаций с экспертами участникам удается сформулировать решаемую задачу. В итоге этот подход оправдывает себя. Образовательная программа должна предусматривать решение таких образовательных задач, которые имеют статус «настоящих» для всех ее участников.

Межпредметность

Мы особенно поддерживаем междисциплинарные проекты и призываем «миксовать» данные из разных датасетов. Так, на "Кампусах" всегда много аналитических проектов по экономике, культуре, экологии, образованию. 

Самой популярной всегда оказывается инженерная тематика, и мы наблюдаем, что строго технические проекты учащимся даются легче. Сюда относятся задачи, связанные с инженерией и техникой, например, имплементация алгоритма классификации изображений или построение рекомендательной системы. Такие темы бывают сложнее гуманитарных в плане создания моделей, но концептуально они проще.

В отношении социально-экономических тем дела обстоят сложнее. Например, далеко не все школьники продуктивны в этих областях. Многие вроде и проходили что-то в школе по истории, экономике, обществознанию, но зачастую не способны применить эти знания для того, чтобы исследовать комплексный социокультурный или политико-экономический конструкт, например «бедность» или «счастье» или «регион». Уже на этапе формулировки гипотез учащиеся сталкиваются с тем, что для такого объекта трудно сформулировать определение, выделить существенные признаки и их корреляты из разных предметных областей и подобрать соответствующие данные.

И здесь очень важно, что с аудиторией у нас работают профессионалы из индустрии. Они демонстрируют определенную культуру мышления. А инструментальные навыки подтянутся – при желании.

В таблице ниже приведены примеры дата-проектов, реализованных участниками «Дата-Кампуса» в разное время, позволяющие оценить степень сложности тех проблем, которые фактически решали учащиеся.

Краткое содержание

Техническое направление 

Области

Представленность регионов в федеральной новостной повестке 2009-2019 гг. и тематическое моделирование федеральных новостей

Обработка естественного языка

Коммуникации

Скрининг на пневмонию по рентгеновским снимкам

Компьютерное зрение

Медицина

Определение жанра живописи по фотографии картины

Компьютерное зрение

Культура

Сортировщик для раздельного сбора мусора

Классический ML

Экология

Рекомендации по географическому применению солнечных панелей для генерации электроэнергии

Рекомендательные системы

Энергоносители; Экология

Предсказание победителей спортивных матчей по цифровым видам спорта

Классический ML

Цифровые экосистемы

Система компьютерного зрения для беспилотного карьерного самосвала

Компьютерное зрение

Промышленность, инновации

Анализ факторов, влияющих на популярность массовых онлайн-курсов

Аналитика

Коммуникации, цифровые экосистемы

Исследование жанрового многообразия, лексической сложности книг и статистики книгоиздания в разных возрастных сегментах

Обработка естественного языка

Коммуникации

Преподаватели из дата-индустрии

Преподами и экспертами у нас уже успели побывать ML-разработчики, проджект-менеджеры, тимлиды из разных компаний, таких как Яндекс, Rambler&Co, Евраз-холдинг и другие. Нам очень важно, чтобы преподавателями Кампуса были действующие профессионалы из индустрии. Не только потому, что с профессионалами программа идет легче, но и потому что такие специалисты для молодых людей – это ролевые модели и носители соответствующей культуры. Поэтому мы всегда ищем специалистов, которым нравится делиться своими знаниями с другими.

“Дата-кампус.Медиа” 2021

За последние пару лет прошло несколько очных и “гибридных” “Кампусов”, но поподробнее хочется рассказать о последнем (на текущий момент), который мы провели в июне 2021 года.

Во-первых, это наш первый тематический “Кампус”. Если раньше мы пробегались по всем основным темам машинного обучения, то на этот раз мы сфокусировались на обработке естественного языка. Мы использовали данные, связанные с разными медиа: новостными лентами, электронными книгами, обзорами кинофильмов и музыкальными текстами. Во-вторых, в связи с эпидемией нам пришлось полностью перейти на онлайн-формат, что стало настоящим вызовом как для организаторов и преподавателей, так и для участников. В-третьих, специфика онлайнового тематического “Кампуса” подразумевала более детальную проработку программы, подготовку датасетов и гипотез исследования с тем, чтобы максимально структурировать рабочее время.

Результаты

На “Дата-кампус.Медиа” мы проводили отбор с помощью вступительного тестирования, где проверялись базовые знания программирования на Python. Несмотря на проверку знаний, критерии отбора были довольно мягкие. Необходимость тестирования заключается в том, чтобы оценить уровень участников и впоследствии разбить их на сбалансированные по навыкам программирования команды.

Главным достижением участников мы считаем успешный опыт работы в географически распределенных командах: были команды, участники которых работали из дома в Чебоксарах, Югре, Новосибирске и т.д. Вся коммуникация участников между собой (видео, командный чат), хранение данных и написание и исполнение кода были организованы на единой облачной платформе, доступной через браузер и мобильные приложения. 

Несмотря на геймификацию всего процесса (на "Кампусе" действует специально разработанная игровая модель), наличие онлайн-наставников, закрепленных за каждой группой, четкий таймлайн проектной работы, у нас были опасения относительно того, насколько юные участники будут мотивированы и активны в условиях “удаленки”. Но оказалось, что соотношение активных и неактивных участников мало отличается от оффлайна, и заинтересованные команды прекрасно самоорганизуются в онлайне, более того, занимаются своим проектом далеко за пределами формально отведенного для этого времени. Так что мы не можем разделить распространенное в школьных кругах разочарование “дистантом”.

Что дальше?

"Дата-Кампус" продолжает развиваться. Если у вас есть практическое знание DS & ML и желание поделиться профессиональным опытом с молодыми людьми, для которых общение с вами может стать определяющим в выборе профессии, пишите нам в Telegram.

Instagram

Вконтакте

АНО ДПО “Открытое образование”

Tags:
Hubs:
Total votes 5: ↑2 and ↓3-1
Comments10

Articles