20+ популярных опенсорсных датасетов для Computer Vision / Хабр

ИИ в первую очередь развивается благодаря данным, а не коду.

Это смелое заявление несколько лет назад могло показаться нелепым, но сегодня это не так. Однако, по-прежнему существует одна проблема: высокого качества данных обучения достичь иногда очень сложно. На поиск подходящего для задач компьютерного зрения массива данных могут потребоваться дни или недели.

Но не стоит волноваться, в этой статье мы составили исчерпывающий список качественных массивов данных для компьютерного зрения в свободном доступе.

COVID-19 X-Ray Dataset (V7)

Это оригинальный массив данных V7, содержащий 6,5 тысяч рентгенографических снимков грудной клетки в переднезадней и заднепередней проекции с попиксельной сегментацией лёгких многоугольниками. Среди этих снимков есть 517 случаев COVID-19.

Каждый снимок содержит следующие данные:

Две маски сегментации «Лёгкое»
Метка типа пневмонии (вирусная, бактериальная, грибковая, здоровое лёгкое/пневмония отсутствует)
Если у пациента есть COVID-19, есть дополнительные метки с указанием возраста, пола, температуры, локализации, состояния интубации, поступления в реанимационное отделение и результатов лечения.

Аннотации лёгких — это многоугольники с попиксельно-точными границами. Их можно экспортировать в форматы COCO, VOC и Darwin JSON. Каждый файл аннотации содержит URL исходного снимка в полном разрешении и миниатюры.

Подробнее см. здесь: COVID-19 X-Ray dataset (Github).

CIFAR-10 и CIFAR-100

CIFAR-10 и CIFAR-100 — это размеченные подмножества массива данных из 80 миллионов небольших изображений, собранного Алексом Крижевским, Винодом Наиром и Джеффри Хинтоном.

CIFAR-10 содержит 60 тысяч цветных изображений размером 32x32 с 10 классами (животные и объекты реального мира). Каждый класс состоит из 6000 изображений. Этот массив данных содержит 50000 обучающих изображений и 10000 тестовых изображений. Классы взаимно исключают друг друга и между ними нет пересечений.

CIFAR-100 состоит из 100 классов по 600 изображений каждый. В каждом классе есть 500 обучающих изображений и 100 тестовых.

ImageNet

ImageNet — одна из самых популярных баз данных изображений с более чем 14 миллионов размеченных вручную изображений.

Эта база данных упорядочена в соответствии с иерархией WordNet (в настоящее время в ней содержатся только существительные), каждый узел иерархии представляют сотни или тысячи изображений. В качестве аннотаций на уровне объектов использованы ограничивающие прямоугольники вокруг объекта или его видимой части.

Kinetics-700

Это большой массив видео, состоящий из 650 тысяч клипов, описывающих 700 классов человеческих действий.

В видео включены такие взаимодействия «человек-предмет», как игра на музыкальных инструментах, и такие взаимодействия «человек-человек», как объятия. Каждый класс действий содержит не менее 700 видеоклипов, а каждый клип аннотирован классом действия, длящимся более 10 секунд.

MNIST

Это большая база данных отдельных рукописных цифр, содержащая 60000 обучающих изображений и 10000 тестовых изображений.

Она была выпущена в 1999 году, используется для задач классификации.

LSUN

LSUN (Large-scale Scene Understanding) содержит почти миллион размеченных изображений для каждой из 10 категорий сцен и 20 категорий объектов.

В качестве данных обучения каждая категория содержит от 120 тысяч до 300 миллионов изображений. Данные валидации для каждой категории содержат 300 изображений, а тестовые данные — 1000 изображений.

IMDB-Wiki

Один из крупнейших публично доступных массивов данных человеческих лиц с гендером, возрастом и именем.

Суммарно он содержит 523051 изображений, 460723 лица представляют собой фотографии 20284 знаменитостей с IMDb и 62328 знаменитостей с Википедии.

MS COCO

Массив данных MS COCO (Microsoft Common Objects in Context) состоит из 328 тысяч изображений. В нём содержатся аннотации для распознавания объектов, распознавания ключевых точек, паноптической сегментации, субтитров и определения поз человека Dense.

Labeled Faces in the Wild

Это крупная база данных из 13 тысяч фотографий лиц, предназначенная для задач распознавания лиц. Каждое лицо размечено именем человека.

Cityscapes

Cityscapes — это база данных, содержащая разнообразный набор стереографических видеоклипов, записанных на улицах пятидесяти городов. Клипы снимались в течение длительного времени при различном освещении и погодных условиях.

Cityscapes содержит семантическую сегментацию экземпляров объектов с попиксельной точностью для 30 классов, разделённых на 8 категорий. Он обеспечивает попиксельные аннотации 5000 кадров и приблизительные аннотации 20000 кадров.

LabelMe-12-50k

Этот массив данных содержит 50000 изображений JPEG (40000 для обучения и 10000 для тестирования) с 12 классами.

Классы содержат такие объекты, как автомобиль, человек, дерево или клавиатура. На 50% изображений массивов для обучения и тестирования содержится центрированный объект, а на 50% оставшихся — случайно выбранная область случайно выбранного изображения («clutter»).

Этот массив данных можно использовать для распознавания объектов.

Places

Массив данных Places состоит из 2,5 миллионов изображений (с метками категорий) и 205 категорий сцен. В каждой категории содержится более 5 тысяч изображений. Массив cоздан при помощи CNN и может использоваться для задач распознавания сцен.

Places2 (365-Standard)

Ещё один массив данных, предоставленный MIT, в нём 1,8 миллиона изображений, разделённых на 365 категорий сцен. В наборе для валидации содержится по 50 изображений на категорию, а в тестовом наборе — 900. Базу данных Places2 можно использовать для визуального распознавания сцен и глубоких признаков сцен.

VisualGenome

Большой массив данных и база знаний из 108077 изображений с аннотированными объектами, атрибутами и их взаимосвязями.

Stanford Dogs

Этот массив данных создан на основе изображений и аннотаций (меток классов, ограничивающих прямоугольников) из ImageNet. Это крупномасштабный массив данных, содержащий изображения 120 пород собак со всего света. Он состоит из 20580 изображений и 120 категорий.

Stanford Cars

Этот массив содержит 16185 изображений и 196 классов автомобилей. Данные разделены на 8144 обучающих изображений и 8041 тестовое изображение, а каждый класс разделён примерно пополам.

Изображения, метки классов и ограничивающие прямоугольники нужно скачивать по отдельности.

Cat Dataset

Массив данных CAT содержит более девяти тысяч изображений кошек с аннотированными признаками морд. Головы кошек аннотированы девятью точками для каждого изображения: две для глаз, одна для рта и шесть для ушей.

CelebFaces

CelebFaces Attributes Dataset (CelebA) — это крупномасштабный массив данных атрибутов лиц из более чем 200 тысяч изображений знаменитостей, каждое из которых имеет по 40 аннотаций атрибутов. В аннотации включено 10177 уникальных людей и пять местоположений на одно изображение.

Этот массив данных можно использовать как набор для обучения и тестирования распознавания лиц, распознавания и локализации атрибутов лиц, а также локализации местоположений (или частей лиц).

Face Mask Detection

Этот массив данных содержит 853 изображения, относящихся к трём классам, и их ограничивающие прямоугольники в формате PASCAL VOC. Изображения разделены на классы «без маски», «в маске» и «неправильно надетая маска».

Fire and Smoke Dataset

Это массив данных из более семи тысяч уникальных изображений в разрешении HD.

Он состоит из фотографий начинающихся пожаров и дыма, снятых мобильными телефонами в реальных ситуациях. Снимки сделаны в широком диапазоне освещения и погодных условий. Этот массив данных можно использовать для распознавания и обнаружения огня и дыма, а также распознавания аномалий.

Также он содержит различные домашние сцены, в том числе горение мусора и посевов на полях, а также кадры домашней готовки и т. п.

FloodNet Dataset

Этот массив состоит из изображений высокого разрешения, сделанных с беспилотных дронов. Изображения содержат подробные семантические аннотации повреждений, вызванных ураганами.

Данные были собраны при помощи небольшой платформы дронов, квадракоптеров DJI Mavic Pro, после урагана Харви. Весь массив данных содержит 2343 изображения, разделённых на наборы для обучения (примерно 60%), валидации (примерно 20%) и тестирования (примерно 20%).

Понравилась статья? Еще больше информации на тему данных, AI, ML, LLM вы можете найти в моем Telegram канале.

Как подготовиться к сбору данных, чтобы не провалиться в процессе?
Как работать с синтетическими данными в 2024 году?
В чем специфика работы с ML проектами? И какие бенчмарки сравнения LLM есть на российском рынке?

20+ популярных опенсорсных датасетов для Computer Vision