Статьи / Закладки / Профиль IaninaOlga / Хабр

Как стать автором

@IaninaOlga^{read⁠-⁠only}

Пользователь

Профиль Закладки 20

Extremesarova 19 апр в 16:41

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 3: Специализированное машинное обучение

Средний

22 мин

8.4K

Блог компании МегаФонBig Data*Машинное обучение*Учебный процесс в ITКарьера в IT-индустрии

Роадмэп

Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).

В предыдущей статье я поделился материалами для подготовки к этапу по классическому машинному обучению.

В этой статье рассмотрим материалы, которые можно использовать для подготовки к секции по специализированному машинному обучению.

Читать далее

+6

Extremesarova 18 мар в 13:03

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 2: Классическое машинное обучение

Средний

13 мин

12K

Блог компании МегаФонBig Data*Машинное обучение*Учебный процесс в ITКарьера в IT-индустрии

Роадмэп

Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).

В предыдущей статье я поделился материалами для подготовки к одному из самых волнительных (для многих) этапов - Live Coding.

В этой статье рассмотрим материалы, которые можно использовать для подготовки к секции по классическому машинному обучению.

Читать далее

+9

Extremesarova 21 фев в 16:33

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 1: Live Coding

Средний

14 мин

24K

Блог компании МегаФонPython*SQL*Алгоритмы*Big Data*

Роадмэп

Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).

В данной статье разберемся что такое live coding интервью и как к нему готовиться.

Материал в первую очередь будет полезен Data Scientist'ам и ML инженерам, при этом некоторые разделы, например, Алгоритмы и структуры данных подойдут всем IT специалистам, которым предстоит пройти секцию live coding.

Читать далее

+8

maratyv 17 мар в 16:30

Как делить пользователей на группы в АБ-тестах: ошибки и рекомендации

Средний

10 мин

3.9K

Python*Анализ и проектирование систем*Big Data*Аналитика мобильных приложений*Статистика в IT

Аналитика

В предыдущих статьях статья 1, статья 2, статья 3 мы рассмотрели основные подводные камни автоматизации и анализу АБ тестов, привели подробный обзор статей по этой теме, а так же рассмотрели типичные задачи аналитика данных. В контексте АБ-тестов одним из ключевых аспектов является механизм разделения на группы, который в терминологии специалистов часто называется сплитовалкой.

Может показаться, что задача элементарная - сгенерировать случайное целое число каждому пользователю с вероятностью 1/n, где n - число групп в АБ тесте. Но на практике, особенно для высоконагруженных сервисов, таких как Ozon, возникает множество архитектурных и платформенных сложностей. В данной статье мы сконцентрируемся на основных принципах деления на группы, принятых в индустрии.

Читать далее

+7

vaiti_media 17 мар в 16:54

Как мы упростили работу с данными с помощью пайплайна: пошаговый план

6 мин

2K

Блог компании beeline cloudСовершенный код*Инженерные системы*Data Engineering*

Привет, меня зовут Руслан Шкарин. Я Senior Software Engineer и это моя первая статья в DIY-медиа вАЙТИ от beeline cloud. Расскажу, как занимался построением пайплайна для сбора и анализа логов системы в реальном времени для сервиса, который обходил сотни тысяч веб-страниц и парсил контактные данные.

Читать далее

+4

sun_lil 18 мар в 12:23

Предварительная обработка данных для машинного обучения

Сложный

13 мин

7.9K

Data Engineering*Python*Машинное обучение*

Из песочницы

В данной статье рассмотрим пример предобработки данных для дальнейшего исследования, например, использование метода кластеризации. Но для начала проясним, что из себя представляет машинное обучение и из каких этапов оно состоит.

Читать далее

+5

boramorka 11 мар в 11:31

Я написал бесплатную книгу для профессионалов в области AI (и не только)

Сложный

2 мин

17K

Машинное обучение*

Из песочницы

Привет, Хабр! Меня зовут Никита Горячев, работаю в позиции AI/ML Engineer в Сбере. В мой скоуп входит работа с SOTA (state-of-the-art) алгоритмами в областях NLP и RecSys.

Книга написана в форме Guide Book с теоретическими и практическими заданиями. Ниже написал анонс в виде Q&A, чтобы вы на первых двух пунктах смогли понять, интересно ли вам.

Ссылка на книгу

Читать далее

+10

mr-pickles 11 мар в 12:47

Трансформеры, группы преобразований и self-attention

Сложный

10 мин

4.4K

Блог компании Wunder FundПрограммирование*Алгоритмы*Обработка изображений*Искусственный интеллект

Перевод

В подвижном мире развивающихся нейросетевых архитектур главную роль играет эффективность работы моделей. Тонкая настройка сетей под конкретные задачи предусматривает интеграцию в них априорных знаний. Делается это посредством стратегических корректировок архитектур сетей. Это — процедура, выходящая за рамки подстройки параметров. Речь идёт о внедрении в нейросеть информации, которая позволит сети понять то, что нужно её создателю. Один из способов это сделать заключается в использовании априорных знаний геометрического характера. Именно этому и посвящена данная статья.

Читать далее

+14

egaoharu_kensei 11 мар в 21:19

Стекинг и блендинг в ML. Ключевые особенности и реализация с нуля на Python

Сложный

11 мин

6.6K

Python*Data Mining*Алгоритмы*Машинное обучение*Искусственный интеллект

Туториал

Среди всех методов ансамблирования особое внимание заслуживают две очень мощные техники, известные как стекинг (stacked generalization) и блендинг, особенность которых заключается в возможности использования прогнозов не только однородных, но и сразу нескольких разных по природе алгоритмов в качестве обучающих данных для другой модели, на которой будет сделан итоговый прогноз. Например, прогнозы логистической регрессии и градиентного бустинга могут быть использованы для обучения случайного леса, на котором уже будет выполнен итоговый прогноз.

Стекинг и блендинг очень схожи между собой, однако между ними есть существенные различия, заключающиеся в разделении и использовании тренировочных данных. Рассмотрим более подробно как это происходит.

Читать далее

+7

ArtemEvstafev 24 фев в 19:59

Использование теории игр для повышения прозрачности моделей машинного обучения

Средний

7 мин

5K

Математика*Машинное обучение*Искусственный интеллект

Интерпретация современных моделей машинного обучения может быть чрезвычайно сложным делом учитывая, что количество параметров и весовых коэффициентов может идти на тысячи и даже миллионы. Тем не менее это совершенно необходимо, для повышения качества, обеспечения стабильности и предсказуемости работы модели. В этом нам может помочь теория игр, математическая дисциплина позволяющая выделить из сложного взаимодействия факторов модели отдельный вклад каждого в конечное предсказание.

Читать далее

+9

JetHabr 8 окт 2019 в 15:00

Обзор методов отбора признаков

7 мин

40K

Блог компании Инфосистемы ДжетАлгоритмы*Машинное обучение*

Перевод

Правильный отбор признаков для анализа данных позволяет:

повысить качество моделей машинного обучения с учителем и без,
уменьшить время обучения и снизить требуемые вычислительные мощности,
а в случае входных данных высокой размерности позволяет ослабить «проклятие размерности».

Оценка важности признаков необходима для интерпретации результатов модели.

Мы рассмотрим существующие методы отбора признаков для задач обучения с учителем и без. Каждый метод проиллюстрирован open source-реализацией на Python, чтобы вы могли быстро протестировать предложенные алгоритмы. Однако это не полная подборка: за последние 20 лет было создано множество алгоритмов, и здесь вы найдёте самые основные из них. Для более глубокого исследования ознакомьтесь с этим обзором.

Читать дальше →

+33

PatientZero 18 янв в 10:16

Как работают трансформеры: разбираем математику

Средний

28 мин

20K

Математика*Машинное обучение*Искусственный интеллект

Туториал

Перевод

В этом посте я представлю подробный пример математики, используемой внутри модели трансформера, чтобы вы получили хорошее представление о работе модели. Чтобы пост был понятным, я многое упрощу. Мы будем выполнять довольно много вычислений вручную, поэтому снизим размерность модели. Например, вместо эмбеддингов из 512 значений мы используем эмбеддинги из 4 значений. Это позволит упростить понимание вычислений. Мы используем произвольные векторы и матрицы, но при желании вы можете выбрать собственные значения.

Как вы увидите, математика модели не так уж сложна. Сложность возникает из-за количества этапов и количества параметров. Перед прочтением этой статьи я рекомендую прочитать пост Illustrated Transformer (или читать их параллельно) [перевод на Хабре]. Это отличный пост, объясняющий модель трансформера интуитивным (и наглядным!) образом, поэтому я не буду объяснять то, что уже объяснено в нём. Моя цель заключается в том, чтобы объяснить, как работает модель трансформера, а не что это такое. Если вы хотите углубиться в подробности, то изучите известную статью Attention is all you need [перевод на Хабре: первая и вторая части].

Читать далее

+40

randall 18 янв в 18:37

Прокачиваем навыки в сфере ML — что изучать в 2024-м

Простой

6 мин

16K

Блог компании MWSБлог компании МТСПрофессиональная литература*Машинное обучение*Искусственный интеллект

Обзор

Бизнесу нужны технологии, способные обрабатывать огромные объемы данных, предоставлять релевантные рекомендации, оценивать финансовую надежность клиентов и обеспечивать эффективный поиск информации. Ключевым элементом для автоматизации рутинных задач и создании бизнес-решений на основе данных становится ML.

Ритейл, банки, технологические предприятия, компании-разработчики и все те, кто собирает большие массивы неструктурированных данных, для запуска сложных моделей могут использовать вычислительные ресурсы облака. Например, строить нейросети с помощью ML-платформы или использовать объектное хранилище для обработки Big Data.

Но чтобы грамотно использовать инструменты для работы с AI- и ML-задачами, нужно приобрести необходимо знания и навыки. Поможет разобраться в машинном обучении и инструментах для работы с ML-моделями подборка новых и высокооцененных специализированных курсов, книг и других тематических материалов.

Читать далее

+17

NewTechAudit 17 мая 2022 в 06:35

Работа с API HeadHunter при помощи python

4 мин

27K

Python*Программирование*API*

Туториал

Разбираемся на практике с API HeadHunter при помощи python.

Появилась задача анализа вакансий на рынке труда, и осуществлять ее надо базе HeadHunter. Необходимо получить все вакансии определенной компании по всем городам России. Ознакомившись с документацией по API на github (https://github.com/hhru/api), приступаем к работе.

Читать далее

-1

NewTechAudit 1 фев 2022 в 09:44

Градиентный бустинг с CATBOOST (часть 3/3)

8 мин

23K

Open source*Python*Программирование*Машинное обучение*

В предыдущих частях мы рассматривали задачу бинарной классификации. Если классов более чем два, то используется MultiClassification, параметру loss_function будет присвоено значение MultiClass. Мы можем запустить обучение на нашем наборе данных, но мы получим те же самые результаты, а обучение будет идти несколько дольше:

Читать далее

+3

NewTechAudit 10 янв 2022 в 09:13

Градиентный бустинг с CatBoost (часть 2/3)

8 мин

19K

Программирование*Алгоритмы*Машинное обучение*

В первой части статьи я рассказал про понятие градиентного бустинга, библиотеки, с помощью которых можно реализовать данный алгоритм и углубились в одну из этих библиотек. Сегодня продолжим разговор о CatBoost и рассмотрим Cross Validation, Overfitting Detector, ROC-AUC, SnapShot и Predict. Поехали!

До этого момента мы мерили качество на каком-то конкретном fold’e (конкретной выборке), то есть взяли разделили нашу выборку на обучающую и тестовую, это не совсем корректно, вдруг мы взяли какой-то непрезентативный кусок нашего датасета, на этом самом куске мы получим хорошее качество, а когда модель будет работать с реальными данными, то с качеством все будет крайне грустно. Дабы избежать этого, необходимо использовать Cross Validation.

Разобьём наш датасет на кусочки и дальше будем обучать модель столько раз, сколько у нас будет кусочков. Сначала обучаем модель на все кусках кроме первого, нам нем будет происходить валидация, потом на втором будет происходить такая же ситуация и все это дело будет повторяться до последнего кусочка нашей выборки:

Читать далее

+5