Pull to refresh
25
0
Маркианова Анастасия @Nastaa

AI Lead at Flocktory

Send message

ML System Design: основные способы деплоя и тестирования моделей машинного обучения в продакшене

Reading time6 min
Views7.3K

Разберем популярные паттерны проектирования ML-систем для ответа на следующие вопросы:

1. Какой способ выбрать для деплоя модели в production?

2. Как затащить составной ML-пайплайн в real-time сервис?

3. Каким способом тестировать новую версию модели?

Читать далее
Total votes 5: ↑4 and ↓1+4
Comments4

Пишем первый ML-пайплайн на Airflow: подробный туториал

Reading time13 min
Views13K

В этом туториале мы пошагово разберем, как создать с нуля и запустить локально свой первый пайплайн на Airflow.

Данный пайплайн специально адаптирован под задачи машинного обучения.

План:

1. Примеры применения Airflow в проектах с машинным обучением.

2. Знакомство с Airflow: основные понятия и инструменты.

3. Написание тасок для загрузки данных и получения предсказания модели.

4. Запуск Airflow локально через Docker Compose.

5. Знакомство с веб-интерфейсом Airflow.

Код доступен на GitHub.

Читать далее
Total votes 3: ↑3 and ↓0+3
Comments0

Алгоритм, сделавший ChatGPT таким «человечным» — Reinforcement Learning from Human Feedback

Reading time8 min
Views14K

ChatGPT генерирует разнообразный и привлекательный для человека текст. Но что делает текст «хорошим»? Это субъективно и зависит от контекста. Например, если вы попросите сочинить историю, нужен творческий подход. Если вы запрашиваете информацию, то хотите, чтобы она была правдивой. А если вы просите написать код, то ожидаете, что он будет исполняемым.

Вы наверняка слышали о том, что OpenAI привлекали сотрудников из Африки для помощи в разметке токсичности их ассистента. Менее известен факт найма реальных разработчиков, чтобы подготовить данные с пояснениями к коду на человечском языке.

Именно данные с фидбеком от людей позволили дообучить их языковую модель и сделать продукт таким «человечным».

Разберем алгоритм, который позволяет согласовать модель машинного обучения со сложными человеческими ценностями.

Читать далее
Total votes 13: ↑12 and ↓1+14
Comments9

Пишем простой ML веб-сервис на FastAPI

Level of difficultyEasy
Reading time9 min
Views17K

Данный туториал пошагово разбирает процесс создания веб-приложения для определения тональности текста на основе NLP-модели.

Мы будем использовать модель из библиотеки Hugging Face Hub, но описанный подход подойдет для любой задачи машинного обучения.

План:

1. Загрузка и подготовка модели машинного обучения для использования в веб-сервисе.

2. Создание веб-сервиса с помощью FastAPI.

3. Изучение пользовательского интерфейса FastAPI для удобного ручного тестирования и демонстрации работы приложения.

4. Написание автоматических тестов с помощью библиотеки pytest.

5. Запуск приложения в Docker-контейнере.

Код доступен на GitHub.

Читать далее
Total votes 7: ↑7 and ↓0+7
Comments3

Алгоритм рекомендаций Twitter: как он работает

Level of difficultyEasy
Reading time6 min
Views5.8K

Почти год назад Илон Маск предложил сделать алгоритм рекомендаций Twitter общедоступным. Недавно компания выложила исходный код своего алгоритма на GitHub.

В статье - перевод их блог-поста с описанием работы алгоритма рекомендаций.

Он подойдет:

любым желающим узнать, как алгоритмы выбирают, что вам показать в ленте,

Data Scientist-ам и ML-инженерам, как уникальный источник инсайтов о работе большой рекомендательной системы.

Читать далее
Total votes 1: ↑1 and ↓0+1
Comments8

Начинаем работу с PyTorch 2.0 и Hugging Face Transformers

Reading time6 min
Views13K

В этом посте разберем работу с PyTorch 2.0 и Hugging Face Transformers на примере fine‑tune модели BERT для классификации текста.

PyTorch 2.0 лучше по производительности, скорости работы, более удобный для Python, но при этом остается таким же динамическим, как и ранее.

1. Настройка окружения и установка PyTorch 2.0.

2. Загрузка и подготовка датасета.

3. Fine‑tune и оценка модели BERT с помощью Hugging Face Trainer.

4. Запуск инференса и тестирование модели.

Читать далее
Total votes 13: ↑13 and ↓0+13
Comments4

Как мы научились понимать продажи в колл-центре, или С чего начать ML-проект, если непонятно ничего

Reading time6 min
Views4.3K

Не все ML-проекты начинаются с четкого формулирования результата, который мы хотим получить на выходе. С какого-то момента задача обретает стандартную для машинного обучения постановку: появляются данные и требования к модели. Однако такой постановке может предшествовать долгий и неочевидный процесс.

Если вы хоть раз смотрели детектив, то понимаете, как выглядит первичный этап в ML-проекте: проверяется множество гипотез, много времени уходит на сбор данных и погружение в процессы, планы часто меняются по ходу работы, все постоянно торопят. Несмотря на неопределенность, именно этот этап позволяет раскрыть весь потенциал внедрения машинного обучения, а значит важен как для бизнеса, так и для data scientist'ов.

Меня зовут Настя, я DS Team Lead в компании Домклик. В мае этого года мы запускали data science в команде «Речевые сервисы». За полгода реализовали несколько успешных проектов, об одном из них пойдет речь.

Читать далее
Total votes 52: ↑52 and ↓0+52
Comments10

Information

Rating
Does not participate
Location
Белград, Сербия
Registered
Activity