Статьи / Профиль egaoharu_kensei / Хабр

Как стать автором

Егор Захаренко @egaoharu_kensei

Почта для связи egorzakharenko97@gmail.com

ПрофильСтатьи19ПостыНовости2Комментарии131

egaoharu_kensei 14 июн 2024 в 19:47

Метрики оценки качества моделей и анализ ошибок в машинном обучении. Подробное руководство

Средний

32 мин

29K

Python*Data Mining*Математика*Машинное обучение*Искусственный интеллект

Туториал

Одним из критически важных шагов при создании хорошей модели является правильный выбор метрики для оценки её качества, поскольку неправильный выбор может привести к неверным выводам и, как следствие, к принятию не самых оптимальных решений. Поэтому на сегодняшний день существует большое количество метрик, подходящих для самых разных задач и ситуаций.

В данном туториале будут рассмотрены популярные метрики для задач классификации, регрессии и кластеризации, а также инструмент для анализа ошибки модели, известный как bias-variance decomposition. Помимо этого, для большей части метрик будут представлены ручные расчёты и реализация с нуля на Python, а в конце вы сможете найти дополнительные источники для более глубокого ознакомления.

Читать далее

+11

egaoharu_kensei 10 мая 2024 в 21:29

Методы оптимизации в машинном и глубоком обучении. От простого к сложному

Сложный

29 мин

23K

Искусственный интеллектМашинное обучение*Математика*Data Mining*Python*

Туториал

✏️ Технотекст 7

В данной статье представлен обзор различных популярных (и не только) оптимизаторов, которые применяются в машинном и глубоком обучении, в частности для обучения нейронных сетей. Мы рассмотрим их основную идею и ключевые особенности, переходя от простых к более сложным концепциям. Помимо этого, в самом конце вы сможете найти большое количество дополнительных источников для более детального ознакомления с материалом.

Читать далее

+29

egaoharu_kensei 1 апр 2024 в 20:20

Популярные алгоритмы машинного обучения. Теоретические основы и реализация с нуля на Python

Сложный

1 мин

46K

Искусственный интеллектУчебный процесс в ITМашинное обучение*Data Mining*Python*

Туториал

В данной статье в виде ссылок представлены все популярные алгоритмы классического машинного обучения с их подробным теоретическим описанием и немного упрощённой реализацией с нуля на Python, отражающей основную идею. Помимо этого, в конце каждой темы указаны дополнительные источники для более глубокого ознакомления, а суммарное время прочтения статей ниже составляет более трёх часов!

Читать далее

+22

egaoharu_kensei 30 мар 2024 в 22:20

Линейная регрессия. Основная идея, модификации и реализация с нуля на Python

Сложный

16 мин

44K

Python*Data Mining*Алгоритмы*Машинное обучение*Искусственный интеллект

Туториал

В машинном и глубоком обучении линейная регрессия занимает особое место, являясь не просто статистическим инструментом, но а также фундаментальным компонентом для многих более сложных концепций. В данной статье рассмотрен не только принцип работы линейной регрессии с реализацией с нуля на Python, но а также описаны её модификации и проведён небольшой сравнительный анализ основных методов регуляризации. Помимо этого, в конце указаны дополнительные источники для более глубокого ознакомления.

Читать далее

+16

egaoharu_kensei 28 мар 2024 в 13:06

Логистическая и Softmax-регрессии. Основная идея и реализация с нуля на Python

Сложный

9 мин

12K

Искусственный интеллектМашинное обучение*Алгоритмы*Data Mining*Python*

Туториал

Начнём с более простого. Логистическая регрессия — линейный бинарный классификатор, основанный на применении сигмоидальной функции к линейной комбинации признаков, результатом которого является вероятность принадлежности к определённому классу. Обычно порог устанавливается 0.5: если вероятность меньше порога — класс относится к 0, а если больше — к 1. В принципе, условия определения логистической регрессии такие же как и у линейной за исключением бинаризации таргета.

Читать далее

+6

egaoharu_kensei 24 мар 2024 в 14:43

Линейный дискриминантный анализ (LDA). Принцип работы и реализация с нуля на Python

Сложный

7 мин

14K

Python*Data Mining*Алгоритмы*Машинное обучение*Искусственный интеллект

Туториал

Линейный дискриминантный анализ (Linear Discriminant Analysis или LDA) — алгоритм классификации и понижения размерности, позволяющий производить разделение классов наилучшим образом. Основная идея LDA заключается в предположении о многомерном нормальном распределении признаков внутри классов и поиске их линейного преобразования, которое максимизирует межклассовую дисперсию и минимизирует внутриклассовую. Другими словами, объекты разных классов должны иметь нормальное распределение и располагаться как можно дальше друг от друга, а одного класса — как можно ближе.

Читать далее

+8

egaoharu_kensei 23 мар 2024 в 21:45

Наивный байесовский классификатор. Основная идея, модификации и реализация с нуля на Python

Сложный

8 мин

34K

Искусственный интеллектМашинное обучение*Алгоритмы*Data Mining*Python*

Туториал

Наивный байесовский классификатор (Naive Bayes classifier) — вероятностный классификатор на основе формулы Байеса со строгим (наивным) предположением о независимости признаков между собой при заданном классе, что сильно упрощает задачу классификации из-за оценки одномерных вероятностных плотностей вместо одной многомерной.

Помимо теории и реализации с нуля на Python, в данной статье также будет приведён небольшой пример использования наивного Байеса в контексте фильтрации спама со всеми подробными расчётами вручную.

Читать далее

+11

egaoharu_kensei 22 мар 2024 в 14:58

Метод опорных векторов (SVM). Подходы, принцип работы и реализация с нуля на Python

Сложный

14 мин

20K

Искусственный интеллектМашинное обучение*Алгоритмы*Data Mining*Python*

Туториал

Метод опорных векторов (Support Vector Machines или просто SVM) — мощный и универсальный набор алгоритмов для работы с данными любой формы, применяемый не только для задач классификации и регрессии, но и также для выявления аномалий. В данной статье будут рассмотрены основные подходы к созданию SVM, принцип работы, а также реализации с нуля его наиболее популярных разновидностей.

Читать далее

+16

egaoharu_kensei 21 мар 2024 в 12:42

Метод K-ближайших соседей (KNN). Принцип работы, разновидности и реализация с нуля на Python

Сложный

9 мин

39K

Python*Data Mining*Алгоритмы*Машинное обучение*Искусственный интеллект

Туториал

К-ближайших соседей (K-Nearest Neighbors или просто KNN) — алгоритм классификации и регрессии, основанный на гипотезе компактности, которая предполагает, что расположенные близко друг к другу объекты в пространстве признаков имеют схожие значения целевой переменной или принадлежат к одному классу.

Читать далее

+9

egaoharu_kensei 20 мар 2024 в 20:10

Дерево решений (CART). От теоретических основ до продвинутых техник и реализации с нуля на Python

Сложный

22 мин

15K

Искусственный интеллектМашинное обучение*Алгоритмы*Data Mining*Python*

Туториал

Дерево решений CART (Classification and Regressoin Tree) — алгоритм классификации и регрессии, основанный на бинарном дереве и являющийся фундаментальным компонентом случайного леса и бустингов, которые входят в число самых мощных алгоритмов машинного обучения на сегодняшний день. Деревья также могут быть не бинарными в зависимости от реализации. К другим популярным реализациям решающего дерева относятся следующие: ID3, C4.5, C5.0.

Читать далее

+9

egaoharu_kensei 19 мар 2024 в 11:33

Бэггинг и случайный лес. Ключевые особенности и реализация с нуля на Python

Сложный

13 мин

12K

Python*Data Mining*Алгоритмы*Машинное обучение*Искусственный интеллект

Туториал

Далее пойдёт речь про бэггинг и мой самый любимый алгоритм — случайный лес. Не смотря на то, что это одни из самых первых алгоритмов среди семейства ансамблей, они до сих пор пользуются большой популярностью за счёт своей простоты и эффективности, зачастую не уступая бустингам в плане точности. О том, что это такое и как работает, далее в статье.

Читать далее

+9

egaoharu_kensei 15 мар 2024 в 21:48

Алгоритмы AdaBoost (SAMME & R2). Принцип работы и реализация с нуля на Python

Сложный

11 мин

5.7K

Искусственный интеллектМашинное обучение*Алгоритмы*Data Mining*Python*

Туториал

Следующим мощным алгоритмом машинного обучения является AdaBoost (adaptive boosting), в основе которого лежит концепция бустинга, когда слабые базовые модели последовательно объединяются в одну сильную, исправляя ошибки предшественников.

В AdaBoost в качестве базовой модели используется пень решений (могут использоваться другие модели) — дерево с небольшой глубиной, которому присваивается вектор весов размера N, каждое значение которого соответствует определённому значению y_train и изначально равно 1 / N, где N — количество образцов в обучающей выборке. Каждый следующий пень обучается с учётом весов, рассчитанных на основе ошибок предыдущего прогноза. Также для каждого обученного пня отдельно рассчитывается вес, используемый для оценки важности итоговых прогнозов.

Читать далее

+8

egaoharu_kensei 13 мар 2024 в 20:20

Градиентный бустинг. Реализация с нуля на Python и разбор особенностей его модификаций (XGBoost, CatBoost, LightGBM)

Сложный

28 мин

24K

Искусственный интеллектМашинное обучение*Алгоритмы*Data Mining*Python*

Туториал

На сегодняшний день градиентный бустинг (gradient boosting machine) является одним из основных production-решений при работе с табличными, неоднородными данными, поскольку обладает высокой производительностью и точностью, а если быть точнее, то его модификации, речь о которых пойдёт чуть позже.

В данной статье представлена не только реализация градиентного бустинга GBM с нуля на Python, но а также довольно подробно описаны ключевые особенности его наиболее популярных модификаций.

Читать далее

+20

egaoharu_kensei 11 мар 2024 в 21:19

Стекинг и блендинг в ML. Ключевые особенности и реализация с нуля на Python

Сложный

11 мин

11K

Python*Data Mining*Алгоритмы*Машинное обучение*Искусственный интеллект

Туториал

Среди всех методов ансамблирования особое внимание заслуживают две очень мощные техники, известные как стекинг (stacked generalization) и блендинг, особенность которых заключается в возможности использования прогнозов не только однородных, но и сразу нескольких разных по природе алгоритмов в качестве обучающих данных для другой модели, на которой будет сделан итоговый прогноз. Например, прогнозы логистической регрессии и градиентного бустинга могут быть использованы для обучения случайного леса, на котором уже будет выполнен итоговый прогноз.

Стекинг и блендинг очень схожи между собой, однако между ними есть существенные различия, заключающиеся в разделении и использовании тренировочных данных. Рассмотрим более подробно как это происходит.

Читать далее

+7

egaoharu_kensei 9 мар 2024 в 19:56

Метод главных компонент (PCA). Принцип работы и реализация с нуля на Python

Сложный

8 мин

29K

Искусственный интеллектМашинное обучение*Алгоритмы*Data Mining*Python*

Туториал

Метод главных компонент (Principal Component Analysis или же PCA) — алгоритм обучения без учителя, используемый для понижения размерности и выявления наиболее информативных признаков в данных. Его суть заключается в предположении о линейности отношений данных и их проекции на подпространство ортогональных векторов, в которых дисперсия будет максимальной.

Такие вектора называются главными компонентами и они определяют направления наибольшей изменчивости (информативности) данных. Альтернативно суть PCA можно определить как линейное проецирование, минимизирующее среднеквадратичное расстояние между исходными точками и их проекциями.

Читать далее

+10

egaoharu_kensei 8 мар 2024 в 22:01

Кластеризация в ML: от теоретических основ популярных алгоритмов к их реализации с нуля на Python

Сложный

34 мин

50K

Python*Data Mining*Алгоритмы*Машинное обучение*Искусственный интеллект

Туториал

✏️ Технотекст 2023

Кластеризация — это набор методов без учителя для группировки данных по определённым критериям в так называемые кластеры, что позволяет выявлять сходства и различия между объектами, а также упрощать их анализ и визуализацию. Из-за частичного сходства в постановке задач с классификацией кластеризацию ещё называют unsupervised classification.

В данной статье описан не только принцип работы популярных алгоритмов кластеризации от простых к более продвинутым, но а также представлены их упрощённые реализации с нуля на Python, отражающие основную идею. Помимо этого, в конце каждого раздела указаны дополнительные источники для более глубокого ознакомления.

Читать далее

+36

egaoharu_kensei 4 янв 2023 в 23:29

Как изучить SQL за 2 месяца с нуля. План обучения

Простой

3 мин

85K

Data Engineering*Учебный процесс в ITBig Data*Data Mining*SQL*

Роадмэп

То, что данные называют нефтью 21 века известно уже давно: на них учатся нейросети, их мгновенная обработка и передача сильно упростили нашу жизнь, и одной из самых распространенных структур хранения данных является реляционная.

Основным инструментом для взаимодействия с реляционными БД является структурированный язык запросов или же SQL.

Вкратце, на мой взгляд, необходимо знать следующие разделы:

Читать далее

-8

egaoharu_kensei 4 янв 2023 в 19:44

Изучаем Python за 6 месяцев. Подробный план обучения

Простой

5 мин

299K

Учебный процесс в ITМашинное обучение*Программирование*Python*Веб-разработка*

Роадмэп

Простой и красивый синтаксис, множество библиотек под самые разные задачи и большое комьюнити делают Python одним из самых популярных языков программирования на сегодняшний день, который активно используется в data science и машинном обучении, веб-разработке и других областях программирования.

Когда я начал изучать питон, у меня возникло несколько вопросов.

Читать далее

+8

egaoharu_kensei 31 дек 2022 в 11:03

Математика для Data Science и машинного обучения за 8 месяцев. Подробный план обучения

Простой

7 мин

114K

Data Mining*Big Data*Математика*Машинное обучение*Учебный процесс в IT

Роадмэп

Технотекст 2022

Из песочницы

Беспилотные автомобили, продвинутые голосовые ассистенты, рекомендательные системы – это только малая часть тех классных продуктов, которые создаются с помощью инженеров по машинному обучению и, думаю, не для кого не секрет, что за кулисами сего чуда стоит математика. Именно она играет главную роль в понимании алгоритмов машинного и глубокого обучения.

Машинное обучение держится на трёх основных столпах:

Читать далее

+22