Pull to refresh
1
0
Send message

Категориальные признаки

Reading time8 min
Views54K

Не одним One-Hot единым...

В данной статье разберемся с кодированием категориальных данных. В профессиональной среде нередко о существовании чего-то кроме OH или Label Encoder не догадываются не только рядовые Junior DS, но и даже Middle, а иногда и Senior. Исправить данную несправедливость и призвана данная статья.

Читать далее
Total votes 4: ↑3 and ↓1+2
Comments0

Борьба с несбалансированными данными

Level of difficultyMedium
Reading time12 min
Views10K

Привет,Хабр!

Почему несбалансированные данные - это такая большая проблема? Все начинается с того, что в реальном мире классы могут быть не равномерно представлены в наших данных. Например, в задаче обнаружения мошенничества с кредитными картами, обычные транзакции будут составлять большую часть данных, в то время как мошеннические операции будут редкими. Если модель обучается на таких данных, она склонна к смещению в сторону более представленного класса, и это может привести к плохим результатам в реальном мире.

Борьба с несбалансированными данными - это не просто задача улучшения производительности моделей, это вопрос надежности и безопасности.

Что же делает борьбу с несбалансированными данными такой сложной задачей?

Читать далее
Total votes 12: ↑9 and ↓3+9
Comments2

Все что вы (не) хотели знать о Data Science

Reading time10 min
Views68K

Всем привет! Меня зовут Михаил Дьячков, и в Ситимобил я занимаюсь анализом данных и машинным обучением. Сегодня я хочу поговорить о Data Science: что же это вообще такое в глазах кандидатов, работодателей и экспертов; о несовпадении ожиданий, грейдах и собеседованиях, а также о том, какие задачи решают дата саентисты в Ситимобил.

Вжуууух
Total votes 18: ↑18 and ↓0+18
Comments7

Разбираемся в ROC и AUC

Level of difficultyEasy
Reading time6 min
Views7.3K

Привет, Хабр!

В машинном обучение очень важны метрики оценки эффективности моделей. Среди таких метрик есть: кривые ROC и показатель AUC. Они позволяют оценивать бинарные классификаторы.

В этой статье мы как раз и разберем их.

Читать далее
Total votes 9: ↑8 and ↓1+11
Comments1

Что я бы хотел знать про ML System Design раньше

Reading time6 min
Views18K

Около года назад я начал проходить собеседования в разные компании на позицию Machine Learning Engineer. Одним из этапов в каждой компании было проектирование ML системы. В данной статье я делюсь опытом и ресурсами, которые помогли мне пройти собеседования. В том числе в команду MLE Ленты, в которой сейчас тружусь.

Читать далее
Total votes 10: ↑10 and ↓0+10
Comments8

Как за один день сделать месячный объем работы и перестать тревожиться — пошаговая инструкция

Level of difficultyEasy
Reading time3 min
Views48K

Меня зовут Слава Усов. В 20 лет я уехал в экспедицию в Антарктиду и с тех пор пожил и поработал практически на всех континентах. От ученого до операционного менеджера в Африке и на Ближнем Востоке. Очень разный опыт. Самоорганизацией я увлекся лет восемь назад — триста писем в день, пару сотен сотрудников, мне было на чем практиковаться.

Читать далее
Total votes 68: ↑59 and ↓9+61
Comments114

Девять измерений от Дирака?

Level of difficultyHard
Reading time2 min
Views6.1K

Вдогонку к сюжету про матрицы Паули, решил провести параллель с матрицами Дирака, которые состоят из матриц Паули.

Статья так же в рамках жанра кейс. В этот раз напишу кратко, просто наблюдаемые математические факты.

Так как рецептом в данном случае является принцип, а не формула, то в этот раз под кат убрать нечего. Так же не смогу привести подробно символьные вычисления, потому что промежуточные результаты не входят в страницу даже самым мелким шрифтом. Поэтому привожу только результаты, и поэтому тип статьи "сложно".

Теоретически, если развить данную идею, то можно будет в рамках геометрической алгебры построить любое количество измерений. Поэтому делюсь идеей для тех, кого это интересует.

Действительно ли конструкция ниже описывает девять измерений, нужно изучать, это пока предположение.

Читать далее
Total votes 10: ↑9 and ↓1+12
Comments16

Интуитивное понимание пространств и ядер в машинном обучении: Часть 1

Level of difficultyHard
Reading time9 min
Views6.6K

При изучении темы ядер (kernel) в ML/DS программы вузов, роадмэпы и видео на YouTube обычно рассматривают её через призму SVM, не говоря уже о всеми любимых курсах:). Казалось бы, это неплохо: вот тебе краткое объяснение и модель, которая использует ядра. Но, увы, в этих областях желательно понимать многие процессы интуитивно, так сказать — «тяжело в учении, легко в бою». К тому же, эта тема нечто большее, чем просто метод; она позволяет связать многие вещи в машинном обучении в единую картину через пространство, что я и хочу показать в этой статье.

Читать далее
Total votes 20: ↑18 and ↓2+20
Comments12

Neural ODE: встреча с дифференциальными Уравнениями

Level of difficultyMedium
Reading time8 min
Views5.3K

Дифференциальные уравнения и нейронные сети вместе? Не может быть или может... Neural ODE – подход в глубоком обучении, объединяющий идеи нейронных сетей и обыкновенных дифференциальных уравнений. Выглядит пугающе, давайте проверим!

Читать далее
Total votes 7: ↑7 and ↓0+7
Comments1

Information

Rating
Does not participate
Registered
Activity

Specialization

Business Analyst, ML Engineer
Intern
Python
OOP
Database