В конце ноября журнал Scientific Data опубликовал статью, посвящённую крупнейшему на сегодня открытому набору данных PackEat для систем компьютерного зрения в розничной торговле. В этом посте попросили одного из авторов статьи, руководителя команды безопасности ИИ в Yandex Cloud Сергея Нестерука, рассказать, что полезного там найдут для себя специалисты по CV.
Набор данных
Датасет содержит изображения 34 видов и 65 сортов фруктов и овощей, снятых с разных точек обзора в реальных магазинах. Всего команда из 72 человек собрала свыше 100 тысяч снимков более 370 тысяч отдельных объектов в магазинах разных городов.

Разметка
Около 9 тысяч изображений содержат вручную размеченные маски каждого отдельного объекта, для снимков указано количество объектов и общий вес упаковки. Разметка содержится в каждом классе объектов: в среднем, было размечено 135 изображений для каждого сорта.
Соотношение видов и сортов в датасете

Бенчмарки
В работе также приведены результаты экспериментов с разными методами машинного обучения:
zero‑shot‑классификацией;
инстанс‑сегментацией;
обнаружение и подсчёт объектов.
Набор изображений размещён на платформе Zenodo, а код и примеры моделей — на платформе Kaggle. Он будет особенно полезен ML‑командам в ритейле для идентификации и классификации весового товара. По данным исследований, нейросети в этих задачах могут достичь точности в 92%.
