«Погружение в технологии: Мой опыт обучения ML на Stepik»
В этой заметке я хотел бы поделиться опытом вхождения в тему машинного обучения, будучи далеко не студентом, но сохраняя интерес ко всему новому и перспективному. Много лет я работал в областях далеких от этой темы, и хотя последние 5 лет и приблизился к аналитике данных, но все равно был очень и очень далеко от задач машинного обучения.
В какой то момент информационные ресурсы просто начали взрываться на тему машинного обучения, глубокого обучения и искусственного интеллекта.
Я сейчас даже не берусь с точностью до слова описать, как это на меня подействовало, какой безумный интерес вызвало! Я не ставил цели радикально сменить направление деятельности, поэтому было интересно погрузиться в тему не по академическому сценарию а по пути наименьшего сопротивления.
Довольно быстро был найден образовательный ресурc https://stepik.org на котором размещены множество обучающих курсов на различные темы. И начал я свой путь с курса Data Science с Глебом Михайловым https://stepik.org/course/113596/syllabus
Если коротко:
курс полностью сосредоточен на практических задачах, используя библиотеки pandas и CatBoost, без глубокого погружения в математические основы. Отлично подходит для тех, кто хочет освоить практические навыки работы с данными и машинным обучением на интуитивном уровне, предлагая эффективный подход к решению реальных задач без излишней теоретической нагрузки.
В этом курсе прекрасно всё, подача материала, внятная речь, комфортный темп, ноутбуки с кодом, мини соревнования. Курс хорош тем, что решение задачи регрессии и классификации происходит в облегчённом и не обремененном математикой виде, хотя в целом математика у меня не вызывает полного отторжения, так как при обучении в ВУЗ были получены неплохие основы, хотя и подстёршившиеся в памяти со временем.. В конце курса автор делится рядом материалов для дальнейшего изучения и даёт свои рекомендации как продолжить обучение. Курс проглотил буквально на одном дыхании.
Дерзость и нетерпение попробовать полученные знания не заставили долго ждать и буквально сразу после прохождения курса я пробовал свои силы в соревновании, в ходе которого предстояло решить Time-to-Event задачу предсказания оттока клиентов банка на основе истории их транзакций с неплохим призовым фондом, что как оказалось весьма и весьма мотивирует https://ods.ai/competitions/data-fusion2024-churn
Результат моей попытки получился достаточно неплох, 17 место среди почти 300 команд, жаждущих призовых мест. Стоит отметить, что участвовал в качестве самостоятельного игрока без команды. Из забавного было то, что мой уровень владения pandas на тот момент был весьма невысок, и все “козырные” признаки я генерировал с помощью SQL, пополняя при этом список того, что надо изучить в первую очередь.
В дальнейшем я расширял классический ML более подробными курсами.
Настоятельно рекомендую курс Машинное Обучение в Python: Большой Курс для Начинающих от Влада Бурмистрова https://stepik.org/course/129449/syllabus.
Курс обстоятельный, с мягким дополнением математикой, отличными ноутбуками с кодом, обширными темами, не ограниченными только линейной и логистической регрессией. Хочется отметить неравнодушие Влада к актуальности материала и в частности кода, которые обновляются по мере происходящих изменений в библиотеках. Хороший акцент сделан на анализе данных, что что принято называть EDA (разведочный анализ данных). Рассмотрены несколько моделей, используемых в машинном обучении, затронута тема работы с естественными языками ( NLP) Курс платный, но ценность этого курса заметно превышает его стоимость и заметно облегчает дальнейший путь в темы глубокого машинного обучения, такие как компьютерное зрение, упомянутое NLP и прочее.
Допингом процесса для меня были и остаются хакатоны и соревнования. Это то, что держит в напряжении, побуждает двигаться вперед, осваивая новые и новые знания. Но соревнования редко предполагают стабильность модели, там как правило идет бой за третий или четвертый знак после запятой в метриках. И это уже несколько иная история.
И тут как нельзя кстати будет курс Введение в соревновательный Data Science https://stepik.org/course/108888/syllabus
Сразу отмечу, что курс не самый бюджетный и для стартового не подойдет, но в нем описаны многие важные соревновательные тонкости. Для этого курса необходимы ряд базовый знаний и навыков, таких как уверенное владение основными библиотеками ML. В ходе обучения особый акцент делается на том, как правильно генерировать и фильтровать признаки, тюнить и валидировать модели, строить ансамбли и ускорять вычисления. Все это подается в привязке к основной мировой соревновательной платформе KAGGLE.
Хорошие и подробные jupyter notebook для этого курса тоже важная составляющая курса, которую нельзя не отметить.
Стоит отдельно упомянуть курсы, которые тоже вполне можно рассматривать для самостоятельного обучения. Это курс Анатолия Карпова “Введение в Data Science и машинное обучение” https://stepik.org/course/4852/syllabusПо каким то причинам я нашел его позднее чем курс Глеба Михайлова, и касался его только поверхностно. Но вполне может оказаться, что для кого то этот курс подойдет больше, нежели упомянутые выше.
В отложенных у меня также курс Сергея Балакирева “Добрый, добрый ИИ. Часть 1. Машинное обучение” https://stepik.org/course/209247/syllabus . Курс хвалят за большое количество заданий и большое количество повторений. Курс бесплатный, что тоже может привлечь внимание
Пожалуй на этом в теме курсов для Машинного обучения поставлю точку. Следующие обзоры планирую на темы курсов глубокого обучения.