Pull to refresh
26
Маркианова Анастасия@Nastaa

AI Lead at Flocktory

42
Subscribers
Send message

ML System Design: основные способы деплоя и тестирования моделей машинного обучения в продакшене

Reading time6 min
Reach and readers14K

Разберем популярные паттерны проектирования ML-систем для ответа на следующие вопросы:

1. Какой способ выбрать для деплоя модели в production?

2. Как затащить составной ML-пайплайн в real-time сервис?

3. Каким способом тестировать новую версию модели?

Читать далее

Пишем первый ML-пайплайн на Airflow: подробный туториал

Reading time13 min
Reach and readers31K

В этом туториале мы пошагово разберем, как создать с нуля и запустить локально свой первый пайплайн на Airflow.

Данный пайплайн специально адаптирован под задачи машинного обучения.

План:

1. Примеры применения Airflow в проектах с машинным обучением.

2. Знакомство с Airflow: основные понятия и инструменты.

3. Написание тасок для загрузки данных и получения предсказания модели.

4. Запуск Airflow локально через Docker Compose.

5. Знакомство с веб-интерфейсом Airflow.

Код доступен на GitHub.

Читать далее

Алгоритм, сделавший ChatGPT таким «человечным» — Reinforcement Learning from Human Feedback

Reading time8 min
Reach and readers24K

ChatGPT генерирует разнообразный и привлекательный для человека текст. Но что делает текст «хорошим»? Это субъективно и зависит от контекста. Например, если вы попросите сочинить историю, нужен творческий подход. Если вы запрашиваете информацию, то хотите, чтобы она была правдивой. А если вы просите написать код, то ожидаете, что он будет исполняемым.

Вы наверняка слышали о том, что OpenAI привлекали сотрудников из Африки для помощи в разметке токсичности их ассистента. Менее известен факт найма реальных разработчиков, чтобы подготовить данные с пояснениями к коду на человечском языке.

Именно данные с фидбеком от людей позволили дообучить их языковую модель и сделать продукт таким «человечным».

Разберем алгоритм, который позволяет согласовать модель машинного обучения со сложными человеческими ценностями.

Читать далее

Пишем простой ML веб-сервис на FastAPI

Level of difficultyEasy
Reading time9 min
Reach and readers29K

Данный туториал пошагово разбирает процесс создания веб-приложения для определения тональности текста на основе NLP-модели.

Мы будем использовать модель из библиотеки Hugging Face Hub, но описанный подход подойдет для любой задачи машинного обучения.

План:

1. Загрузка и подготовка модели машинного обучения для использования в веб-сервисе.

2. Создание веб-сервиса с помощью FastAPI.

3. Изучение пользовательского интерфейса FastAPI для удобного ручного тестирования и демонстрации работы приложения.

4. Написание автоматических тестов с помощью библиотеки pytest.

5. Запуск приложения в Docker-контейнере.

Код доступен на GitHub.

Читать далее

Алгоритм рекомендаций Twitter: как он работает

Level of difficultyEasy
Reading time6 min
Reach and readers9.1K

Почти год назад Илон Маск предложил сделать алгоритм рекомендаций Twitter общедоступным. Недавно компания выложила исходный код своего алгоритма на GitHub.

В статье - перевод их блог-поста с описанием работы алгоритма рекомендаций.

Он подойдет:

любым желающим узнать, как алгоритмы выбирают, что вам показать в ленте,

Data Scientist-ам и ML-инженерам, как уникальный источник инсайтов о работе большой рекомендательной системы.

Читать далее

Начинаем работу с PyTorch 2.0 и Hugging Face Transformers

Reading time6 min
Reach and readers24K

В этом посте разберем работу с PyTorch 2.0 и Hugging Face Transformers на примере fine‑tune модели BERT для классификации текста.

PyTorch 2.0 лучше по производительности, скорости работы, более удобный для Python, но при этом остается таким же динамическим, как и ранее.

1. Настройка окружения и установка PyTorch 2.0.

2. Загрузка и подготовка датасета.

3. Fine‑tune и оценка модели BERT с помощью Hugging Face Trainer.

4. Запуск инференса и тестирование модели.

Читать далее

Как мы научились понимать продажи в колл-центре, или С чего начать ML-проект, если непонятно ничего

Reading time6 min
Reach and readers4.9K

Не все ML-проекты начинаются с четкого формулирования результата, который мы хотим получить на выходе. С какого-то момента задача обретает стандартную для машинного обучения постановку: появляются данные и требования к модели. Однако такой постановке может предшествовать долгий и неочевидный процесс.

Если вы хоть раз смотрели детектив, то понимаете, как выглядит первичный этап в ML-проекте: проверяется множество гипотез, много времени уходит на сбор данных и погружение в процессы, планы часто меняются по ходу работы, все постоянно торопят. Несмотря на неопределенность, именно этот этап позволяет раскрыть весь потенциал внедрения машинного обучения, а значит важен как для бизнеса, так и для data scientist'ов.

Меня зовут Настя, я DS Team Lead в компании Домклик. В мае этого года мы запускали data science в команде «Речевые сервисы». За полгода реализовали несколько успешных проектов, об одном из них пойдет речь.

Читать далее

Information

Rating
Does not participate
Location
Белград, Сербия
Registered
Activity