Десять лучших опенсорсных инструментов аннотирования 2021 года для Computer Vision / Хабр

Мы осознаём важность подбора качественных инструментов разметки и аннотирования изображений для создания точных и полезных массивов данных. В нашем блоге можно найти серию Tools we love, в которой мы проводим анализ некоторые из наших любимых инструментов аннотирования, а также списки лучших инструментов аннотирования на 2019, 2020 и 2021 годы.

Сфера аннотирования изображений развивается, поэтому мы наблюдаем рост количества опенсорсных инструментов, позволяющих бесплатно размечать изображения и использовать большой набор функций. В этой статье мы расскажем о десяти лучших опенсорсных инструментах аннотирования для компьютерного зрения.

1. Label Studio

Наш самый любимый опенсорсный инструмент разметки — это Label Studio, разрабатываемый Heartex Inc. Мы освещали enterprise-версию этого инструмента в своей статье, потому что были впечатлены её гибкостью и широкими возможностями активного обучения и совместной работы. Опенсорсная версия инструмента работает со всеми типами данных, включая аудио, текст, изображения, видео и временные последовательности.

Она поддерживает широкий ассортимент видов аннотирования, в том числе классификацию изображений, распознавание объектов и семантическую сегментацию. Она работает практически со всеми типами данных (аудио, изображения, текст и HTML), а также имеет уникальную конфигурацию под названием Labeling Config, в которой пользователь может проектировать собственный UI. У инструмента есть множество управляемых алгоритмами функций автоматизации, в том числе опция предварительной разметки, которая может самостоятельно размечать данные на основе имеющейся модели машинного обучения. Кроме того, инструмент собрал вокруг себя активное сообщество пользователей и имеет очень активный канал в Slack, в котором можно обмениваться опытом или отправлять просьбы к разработчикам.

2. Diffgram

Вторая платформа в этом списке — это Diffgram. Мы тоже рассказывали ранее о Diffgram в серии Tools we love ещё тогда, когда этот инструмент был платным. С весны 2021 года Diffgram стал полностью опенсорсной платформой с опциональными платными сервисами и enterprise-поддержкой. Мы полностью поддерживаем такой переход и очень рады увеличению охвата пользователей.

На фоне остальных инструментов его выделяет то, что наряду с платформой аннотации он также имеет различные функции управления массивами данных и рабочими процессами. Он поддерживает практически все виды пространственного аннотирования на изображениях и в видео, в том числе ограничивающие прямоугольники, кубоиды и ключевые точки. Функция семантической сегментации имеет различные инструменты, например, автоматическое определение границ, комбинирование форм и преобразование точек в многоугольники. Кроме того, функция аннотирования видео поддерживает интерполяцию и разметку последовательностей, например, отслеживание событий и объектов.

3. LabeIImg

LabelIMG — ещё один очень популярный опенсорсный и бесплатный инструмент разметки изображений. На самом деле, это был первый инструмент, который мы начали использовать в 2017 году, он значительно упростил нашу работу благодаря своему простому и интуитивно понятному интерфейсу, а также тому, что его можно использовать офлайн для обеспечения максимальной защиты данных.

Кроме того, его можно установить практически в любой операционной системе: Windows, Linux, Ubuntu и Mac OS, а его библиотеку Python также можно использовать в Anaconda или Docker. Однако он поддерживает единственный способ разметки — ограничивающие прямоугольники; поэтому он может стать удобным первым инструментом, но для сложных проектов его может оказаться недостаточно. Он может сохранять аннотации как файлы XML в формате PASCAL VOC, а также в форматах YOLO и CreateML.

4. CVAT

Computer Vision Annotation Tool (CVAT) — это опенсорсное ПО, разработанное компанией Intel. Хотя его UI не самый понятный, оно очень мощное, обладает современными функциями и работает в Chrome. CVAT по-прежнему является одним из основных инструментов разметки для нас и наших клиентов, ведь оно гораздо быстрее, чем множество других инструментов на рынке.

CVAT обеспечивает распознавание объектов, классификацию и сегментацию изображений, аннотирование прямоугольниками, многоугольниками, линиями и ключевыми точками. CVAT даже имеет различные функции автоматизации, например, копирование и перенос объектов, отслеживание, интерполяция и автоматическое аннотирование объектов, реализованные на основе TensorFlow OD API. Благодаря этому инструменту легко организовать совместную работу, позволяющую разделять и делегировать задания.

5. ImageTagger

ImageTagger — это опенсорсная онлайн-платформа для совместной работы над разметкой изображений. Эта платформа разработана Никласом Фидлером с кафедры информатики Гамбургского университета специально для Robot World Cup и спроектирована таким образом, чтобы сама процедура разметки была как можно более интуитивной и быстрой.

Она позволяет размечать массивы изображений ограничивающими прямоугольниками, многоугольниками, линиями и ключевыми точками. У неё есть опции управления проектами и функции помощи в QA, например, предварительная загрузка изображений, загрузка существующих меток и проверка меток. Кроме того, в ней сделан упор на совместную работу и она обеспечивает возможность крупномасштабной совместной работы с разметкой массивов изображений благодаря разделению разметчиков на команды.

6. LabelMe

LabelMe — это опенсорсный инструмент, считающийся классикой индустрии разметки. Это ПО, разработанное в 2008 году Массачусетским технологическим университетом для создания канонического массива данных LabelMe, может использоваться как онлайн, так и офлайн. Оно совместимо с Windows, Ubuntu и Mac, а также с Python launchers. LabelMe обеспечивает аннотирование изображений и видео при помощи многоугольников, прямоугольников, окружностей, линий, ключевых точек, семантической сегментации и сегментации экземпляров объектов.

Кроме того, оно обеспечивает классификацию при помощи инструмента аннотирования флагов изображений, а также функцию очистки и имеет настраиваемый UI. Также ПО позволяет экспортировать семантическую сегментацию и сегментацию экземпляров в форматах VOC и COCO. Однако в нём практически отсутствуют функции управления проектами, потому что оно не предназначено для совместной разметки. Вместо этого в нём реализована интеграция с Mechanical Turk для удобного аутсорсинга ручного процесса разметки.

7. VIA

VGG Image Annotator, также известный под именем VIA, был разработан Visual Geometry Group Оксфордского университета. Этот довольно простой инструмент ручного аннотирования изображений, аудио и видео — один из самых любимых для нас, и мы по-прежнему регулярно им пользуемся. Он очень прост в установке и использовании, его можно применять как офлайн-приложение в любом браузере с поддержкой HTML.

VIA может выполнять разметку такими фигурами, как прямоугольники, окружности, эллипсы, многоугольники, многоугольники, ключевые точки и линии. VIA поддерживает экспорт в CSV и JSON, а также имеет ограниченные функции управления проектами, например, создание нескольких задач для аннотатора и отслеживание прогресса в простом, но удобном UI.

8. Make Sense

Make Sense — относительно новая опенсорсная платформа аннотирования. Она выпущена летом 2019 года Петром Скальски, имеет потрясающий UI и простые функции аннотирования с дополнительным распознаванием объектов и изображений. Чтобы начать работу, достаточно зайти на веб-сайт платформы, перетащить изображение и сразу приступить к его разметке. Платформа не хранит изображения онлайн, поэтому не вызовет проблем с приватностью.

Make Sense поддерживает ограничивающие прямоугольники, ключевые точки, линии и многоугольники и даже использует ИИ-модели для автоматизации части задач автоматизации, например, модель SSD, предварительно обученную на массиве данных COCO, и модель PoseNet, которую можно использовать для определения позы персонажа и основного объекта на изображении или в видео. В настоящее время Make не имеет функций управления проектами и API.

9. COCO Annotator

COCO Annotator, созданный на основе Vue.js — это опенсорсный фронтендный JavaScript-фреймворк модели model–view–view для создания пользовательских интерфейсов и одностраничных приложений, разработанный Джастином Бруксом. Это веб-инструмент сегментации изображений, предназначенный для помощи в разработке и обучении моделей распознавания объектов, локализации и обнаружения ключевых точек.

Разметку массивов данных можно создавать кривыми произвольной формы, многоугольниками и ключевыми точками, а также другими функциями, позволяющими размечать сегменты изображений, отслеживать экземпляры объектов и даже размечать объекты с разделёнными видимыми частями одного экземпляра. При этом инструмент эффективно сохраняет и экспортирует аннотации в формате COCO. Также COCO Annotator поддерживает аннотирование изображение при помощи частично обученных моделей и имеет продвинутые инструменты выделения, например, DEXTR, MaskRCNN и Magic Wand. Наконец, в нём есть система аутентификации пользователей для обеспечения безопасности.

10. Dataturks

Последний пункт нашего списка — это опенсорсная платформа, которая больше не обновляется. Ранее Dataturks был платным сервисом, приобретённым Walmart в 2018 году. С тех пор разработка платформы разметки прекратилась и теперь она свободна доступна в GitHub. Она совершенно бесплатна, несмотря на множество намёков о возможности дополнительной оплаты, встречающихся при работе с ПО. Похоже, она долгое время не развивалась, однако по-прежнему является надёжным опенсорсным инструментом аннотирования данных. Она обеспечивает асинхронную работу команд над аннотированием различных типов данных, включая изображения, видео, текст и NER.

При аннотировании изображений она позволяет отрисовывать многоугольники произвольной формы для генерации масок сегментируемых изображений, а также поддерживает классификацию изображений при помощи многоугольных меток и ограничивающих прямоугольников. У неё даже есть функция визуального отслеживания объектов, в которой пользователь может отрисовать вокруг объекта ограничивающий прямоугольник на нескольких кадрах видео, после чего инструмент автоматически выполнит интерполяцию между точками. Dataturks может экспортировать данные в форматы VOC, Tensorflow и Keras.

Понравилась статья? Еще больше информации на тему данных, AI, ML, LLM вы можете найти в моем Telegram канале.

Как подготовиться к сбору данных, чтобы не провалиться в процессе?
Как работать с синтетическими данными в 2024 году?
В чем специфика работы с ML проектами? И какие бенчмарки сравнения LLM есть на российском рынке?

Десять лучших опенсорсных инструментов аннотирования 2021 года для Computer Vision