Как данные влияют на качество ML-фичи. Виртуальный фон для Контур.Толк

Привет, Хабр! Меня зовут Павел Кузнецов, и я ML-разработчик в лаборатории компьютерного зрения Центра ИИ Контура. Мы занимаемся созданием AI-фич для продуктов компании. Один из наших ключевых заказчиков — сервис видео-конференц-связи Контур.Толк. Для него мы разрабатываем такие фичи, как бьютификация, улучшение освещённости, детекция дипфейков и, конечно же, сегментация фона.
В статье я расскажу, как мы создавали виртуальный фон. Наш путь был полон вызовов: мы долго выбирали архитектуру, продумывали стратегию обучения и искали способ запустить модель в вебе. Каждая из этих задач достойна отдельной истории. Но эта статья — рассказ о данных, «новой нефти», и о том, как мы их добывали на разных этапах разработки.