В конце ноября журнал Scientific Data опубликовал статью, посвящённую крупнейшему на сегодня открытому набору данных PackEat для систем компьютерного зрения в розничной торговле. В этом посте попросили одного из авторов статьи, руководителя команды безопасности ИИ в Yandex Cloud Сергея Нестерука, рассказать, что полезного там найдут для себя специалисты по CV.

Набор данных

Датасет содержит изображения 34 видов и 65 сортов фруктов и овощей, снятых с разных точек обзора в реальных магазинах. Всего команда из 72 человек собрала свыше 100 тысяч снимков более 370 тысяч отдельных объектов в магазинах разных городов.

 

Разметка

Около 9 тысяч изображений содержат вручную размеченные маски каждого отдельного объекта, для снимков указано количество объектов и общий вес упаковки. Разметка содержится в каждом классе объектов: в среднем, было размечено 135 изображений для каждого сорта.

Соотношение видов и сортов в датасете

Бенчмарки 

В работе также приведены результаты экспериментов с разными методами машинного обучения: 

  • zero‑shot‑классификацией;

  • инстанс‑сегментацией; 

  • обнаружение и подсчёт объектов. 

Набор изображений размещён на платформе Zenodo, а код и примеры моделей — на платформе Kaggle. Он будет особенно полезен ML‑командам в ритейле для идентификации и классификации весового товара. По данным исследований, нейросети в этих задачах могут достичь точности в 92%.