Как стать автором
Обновить
1
0
Алексей @jezzarax

Data engineer

Отправить сообщение

Раньше пробовали сохранять датасеты как артефакты, но api у MLflow для их извлечения показался слишком неудобным, поэтому стали просто вливать в версионируемый Minio-bucket (в s3 нас legal не пускает, но суть та же), постепенно пришли к обёртке над таким доступом.
Теперь у нас в команде есть внутренняя библиотека по мотивам tensorflow datasets. Она помогает отслеживать имена и версии датасетов, мы их в MLflow в виде параметров и пишем. К ней дописали небольшой кусок, чтобы можно было быстро и безболезненно вливать и использовать свои датасеты без публикации новой версии библиотеки (в итоге нам не нужен аналог tfds-nightly, если знаешь название и версию временного датасета).
А пайплайны dvc мы просто переложили на luigi, с этим стало проще потом модели в prod запускать.

Пробовал dvc года полтора назад, идея хранения и версионирования датасетов понравилась и в теории и на практике в связке с s3 (пытался пользоваться с ssh для персонального проекта, получилось мучительно долго).
Отказался в пользу mlflow с ручным отслеживанием хешей датасетов по трем причинам:


  • полтора года назад dvc не мог работать с несколькими метриками сразу, особенно когда их количество растет. Судя по https://github.com/iterative/dvc/issues/2973 и другим issues в гитхабе у авторов, зрелого решения у проблемы еще нет.
  • очень сложно внедрять dvc в команде, которая пробовала другие инструменты (mlflow, W&B etc) из-за разной философии тулов. DVC — это про воспроизводимые эксперименты, интегрировать репозиторий на dvc в production код не нужно, а в перспективе и больно. В итоге приходится либо дублировать код и конфигурацию из репозитория dvc эксперимента в инженерный репозиторий, либо делать отдельный репозиторий с библиотекой, которую уже после использовать в dvc-репозитории и в production репозитории.
  • Использовать dvc с pipenv было неприятно, как минимум раньше. Какие-то версии catboost конфликтовали с dvc при pipenv lock'е, потом вроде прошло. Зависимость от boto3 тоже чревата капризами. Но это общая беда тулинга на питоне.

По итогу, дизайн и идея — прекрасны, в практическом использовании нужно быть готовым к сюрпризам и долгим разговорам с коллегами.

Информация

В рейтинге
Не участвует
Откуда
Germering, Bayern, Германия
Зарегистрирован
Активность