Линейные модели в машинном обучении: подборка бесплатных ресурсов / Хабр

Линейные модели — один из первых классов алгоритмов, с которым знакомятся в машинном обучении. Несмотря на свою простоту, они широко используются на практике: в кредитном скоринге, прогнозировании цен, анализе рисков и везде, где важна интерпретируемость результата.

Всем привет! Это Данила Ляпин, наставник курса «Специалист по Data Science». В этой подборке вы найдёте материалы о самих линейных моделях, о метриках качества классификации и регрессии, а также о типичных проблемах, с которыми сталкиваются на практике, — дисбалансе классов и мультиколлинеарности. Материалы помогут углубиться в тему во время учёбы или подготовиться к собеседованию. Некото��ые ссылки ведут на разделы больших курсов по ML, которые можно пройти целиком.

Intro to Machine Learning, Kaggle

Бесплатный мини-курс от Kaggle, который показывает, как быстро собрать первый ML‑проект на Python с scikit-learn. Рассчитан примерно на 3 часа. Короткие уроки помогут познакомиться с базовыми понятиями ML: деревьями решений, валидацией моделей, увеличением и уменьшением выборки, а также случайным лесом — всё с практическими упражнениями прямо на платформе. Курс хорошо подходит новичкам: единственное требование — базовое знание Python.

Перейти →

Intermediate Machine Learning, Kaggle

Бесплатный мини-курс от Kaggle, продолжение Intro to Machine Learning, рассчитанный примерно на 4 часа. Курс посвящён практическим навыкам, которые нужны при работе с реальными данными: обработка пропусков и категориальных признаков, построение пайплайнов, кросс-валидация, XGBoost и предотвращение утечки данных. Всё также с примерами кода и практическими упражнениями.

Перейти →

«Линейные модели», Яндекс Образование

Глава из учебника по машинному обучению от Школы анализа данных. Авторы объясняют, какие модели называются линейными, почему они работают и в каких случаях их стоит использовать. Разбираются задачи регрессии и классификации, функции потерь, регуляризация, метод наименьших квадратов и логистическая регрессия. Материал включает примеры кода, визуализации, задачи для самопроверки и практическую работу с готовым ноутбуком. Для работы с учебником понадобятся знания линейной алгебры, анализа и теории вероятностей.

Перейти →

«Линейные модели классификации и регрессии», Открытый курс машинного обучения

Максимально практический курс для тех, кто уже знаком с основами ML. В этом разделе авторы объясняют линейную и логистическую регрессию, метод наименьших квадратов, принцип максимального правдоподобия и разложение ошибки на смещение и разброс. Регуляризация разбирается на примерах классификации микрочипов и анализа отзывов к фильмам. Отдельный раздел про валидационные кривые помогает понять, нужно ли усложнять модель или добавлять данные. В конце — плюсы и минусы линейных моделей, домашнее задание и список полезных ресурсов.

Читать на русском →

Читать на английском →

«Линейные модели», scikit-learn

Scikit-learn — одна из самых популярных библиотек классического машинного обучения на Python. Раздел про линейные модели для регрессии и классификации: методы, где предсказание строится как линейная комбинация признаков. Это один из самых практичных и часто используемых разделов: быстро, интерпретируемо, хорошо работает как сильный бейзлайн.

Читать на русском →

Читать на английском →

«Топ вопросов с Data Science собеседований: Основы Classic ML, Линейные модели, Метрики классификации и регрессии», Хабр Александра Локиса

Название полностью описывает содержание. Это чек-лист и тренажёр, по которому стоит пройтись перед техническим интервью по классическому ML. Статья не рассчитана на изучение тем с нуля: если вы не слышали про решающие деревья и градиентные бустинги, лучше обратиться к полноценным лекциям.

Перейти →

«AUC ROC (площадь под кривой ошибок)», КвазиНаучный блог Александра Дьяконова

Автор пошагово объясняет, как строится ROC-кривая и вычисляется площадь под ней, разбирает смысл метрики, подходы к её оптимизации и распространённые заблуждения. Текст написан доступно, с множеством примеров. В конце автор предлагает пройти тест на знание AUC ROC и обсудить задачи в комментариях — туда тоже стоит заглянуть, если хочется глубже разобраться в теме.

Перейти →

«Введение в машинное обучение, 2», YouTube-канал Machine Learning — Intelligent Systems

Лекция «Линейные методы классификации и регрессии: метод стохастического градиента» из курса по машинному обучению. От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей, языка программирования Python. Знание математической статистики, методов оптимизации желательно, но не обязательно. Посмотреть программу курса и скачать презентацию к лекции можно на сайте.

Перейти к лекции →

Перейти на сайт курса →

Linear Algorithms, The Illustrated Machine Learning

Материал подан в виде визуальных схем и формул с минимумом текста — скорее шпаргалка, чем полноценное объяснение. Может быть полезен для подготовки к собеседованию как способ быстро освежить ключевые концепции, или как дополнение к обучению для новичков. На странице объясняется линейная и полиномиальная регрессия, регуляризация, логистическая регрессия, метод опорных векторов и «ядерный трюк», а также линейный дискриминантный анализ.

Перейти →

«Борьба с несбалансированными данными», Хабр OTUS

Несбалансированные данные — одна из наиболее распространенных проблем, с которой сталкиваются в машинном обучении. В статье рассматриваются методы сбалансирования: взвешивание классов, увеличение и уменьшение выборки, генерация синтетических данных (SMOTE, ADASYN), ансамблирование и другие — всё с примерами кода на Python.

Перейти →

«Дисбаланс классов», КвазиНаучный блог Александра Дьяконова

Вопрос о том, что делать при дисбалансе классов, часто задают на собеседованиях. Автор объясняет, как подойти к ответу грамотно: почему важно сначала уточнить природу задачи, функцию ошибки и контекст, а не сразу переходить к решению. Затем на модельных задачах показывает, как геометрия данных, распределение классов и калибровка модели влияют на выбор стратегии.

Перейти →

«Нужно ли бояться несбалансированности классов?», Хабр Давида Дале

Короткая статья-размышление о том, всегда ли несбалансированность классов является проблемой. Автор разбирает, какие модели действительно страдают от дисбаланса, а какие нет, когда сэмплирование оправдано и как выбор метрик влияет на значимость этой проблемы.

Перейти →

Устраняем мультиколлинеарность признаков в ML при помощи графов, Хабр AB Digital

Статья рассказывает о проблеме мультиколлинеарности признаков в линейных моделях машинного обучения: когда признаки сильно коррелируют друг с другом, коэффициенты модели становятся неустойчивыми и могут противоречить бизнес-логике. Автор объясняет это на примере построения поведенчес��ой модели кредитного скоринга.

Чтобы устранить мультиколлинеарность, предлагается использовать графовый подход на основе алгоритма Брона–Кербоша. В данном кейсе это помогло улучшить значение метрики Average Precision на 6%. Новичкам статья может быть сложновата: лучше уже быть знакомыми с теорией графов и уверенно владеть основами ML.

Перейти →

Линейные модели в машинном обучении: подборка бесплатных ресурсов

Intro to Machine Learning, Kaggle

Intermediate Machine Learning, Kaggle

«Линейные модели», Яндекс Образование

«Линейные модели классификации и регрессии», Открытый курс машинного обучения

«Линейные модели», scikit-learn

«Топ вопросов с Data Science собеседований: Основы Classic ML, Линейные модели, Метрики классификации и регрессии», Хабр Александра Локиса

«AUC ROC (площадь под кривой ошибок)», КвазиНаучный блог Александра Дьяконова

«Введение в машинное обучение, 2», YouTube-канал Machine Learning — Intelligent Systems

Linear Algorithms, The Illustrated Machine Learning

«Борьба с несбалансированными данными», Хабр OTUS

«Дисбаланс классов», КвазиНаучный блог Александра Дьяконова

«Нужно ли бояться несбалансированности классов?», Хабр Давида Дале

Устраняем мультиколлинеарность признаков в ML при помощи графов, Хабр AB Digital

Публикации

Информация