На дворе 2023 год, но аннотирование изображений по-прежнему остаётся одним из самых трудоёмких этапов вывода на рынок проекта компьютерного зрения. В помощь вам мы составили список самых популярных инструментов аннотирования изображений.
Это руководство поможет вам сравнить лучшие инструменты аннотирования и выбрать подходящий.
Мы будем сравнивать каждый из них по ключевым факторам, в том числе по функциональности аннотирования, поддержке различных типов данных и сценариев использования, возможностям QA/QC, безопасности и конфиденциальности данных, управлению данными, интеграции с конвейером машинного обучения и клиентской поддержке.
Девять самых популярных инструментов аннотирования
- Encord Annotate
- Scale
- CVAT
- Labelbox
- Playment
- Appen
- Dataloop
- V7 Labs
- Hive
Encord Annotate
Encord Annotate — это платформа автоматизированного аннотирования при поддержке ИИ для аннотирования изображений, аннотирования видео и управления датасетами. Она лучше всего подходит для тех команд, которые:
- Ищут автоматизированный, частично автоматизированный или дополненный ИИ инструмент для аннотирования изображений и видео.
- Аннотируют все модальности (DICOM и NIfTI, SAR, снимки сверхвысокого разрешения и так далее).
- Стремятся с лёгкостью управлять аннотаторами, отслеживать производительность и создавать процессы QA/QC в рамках одного инструмента.
Преимущества и ключевые функции
- Аннотирование, нацеленное на конкретные сценарии использования — от нативных аннотаций DICOM и NIfTI медицинских снимков до функций SAR для геопространственных данных.
- Поддержка всех типов аннотирования — ограничивающими прямоугольниками, многоугольниками, полилиниями, сегментацией изображений, ключевыми точками, настраиваемыми примитивами объектов (поворотными ограничивающими прямоугольниками, 3D-кубоидами) и многими другими.
- Включает в себя инструменты автоматического аннотирования, например, Segment Anything Model компании Meta* и другие методики разметки при помощи ИИ.
- Интегрированные сервисы разметки данных.
- Интегрированные процессы MLOps для команд разработки машинного обучения и компьютерного зрения: для выявления пограничных случаев и пробелов в обучающих данных, а также для генерации обогащённых данных с целью повышения качестве меток.
- Простота и удобство совместной работы, управление аннотаторами и процессы QA для отслеживания показателей аннотаторов и повышения качества меток.
- Надёжная функциональность обеспечения безопасности — аудиторский след меток, шифрование, соответствие требованиям FDA, CE и HIPAA.
- Расширенный доступ к SDK и API Python (+ простота экспорта в форматы JSON и COCO).
Больше всего подходит следующим типам команд:
- Переходящих от внутренних корпоративных решений на опенсорсные инструменты и стремящихся получить надёжную, безопасную платформу с функциями совместной работы для масштабирования процессов аннотирования.
- Не нашедших платформу аннотирования, способную достаточно хорошо поддерживать их сценарий использования (например, построение сложных вложенных онтологий и нативный рендеринг форматов DICOM).
Стоимость: бесплатная пробная модель с последующей простой оплатой за каждого пользователя.
Scale
Scale (ранее Scale AI) — это платформа сервисов данных и разметки, поддерживающая аннотирование изображений, аудио, текста и видео. На 2023 год Scale также дополнена новыми сценариями использования, например, оптимизацией user experience, большими языковыми моделями и синтетическими данными.
Преимущества и ключевые функции
- Лидер в управлении трудовыми ресурсами
- Поддержка множества модальностей данных (изображения, видео, обработка документов, аудио и многое другое)
- Управление датасетами Nucleus
Лучше всего подходит для: управления трудовыми ресурсами
Стоимость: оплата за каждое изображение
Дополнительная информация о разметке данных при помощи Scale
Команды, ищущие инструменты аннотирования для систем беспилотного вождения, должны знать, что Scale одной из первых на рынке начала поддерживать аннотирование 3D Sensor Fusion для радаров и лидаров.
Команды, ищущие инструменты для аннотирования медицинских снимков, должны знать, что платформы наподобие Scale обычно не поддерживают типы данных DICOM и NIfTI и не позволяют компаниям работать на платформе со своими аннотаторами. Так что если вам нужно аннотировать медицинские снимки, например, снимки компьютерной томографии, рентгенографии или МРТ, то вам стоит поискать платформу, предназначенную для медицинских задач (созданную для аннотаторов-радиологов и терапевтов, а также специальных форматов наподобие DICOM и NIfTI), например, Annotate.
Командам, ищущим сервисы разметки, следует знать, что Scale — очень популярный вариант для сервисов разметки данных. Альтернативами ему (описанными ниже) являются Appen и Playment.
CVAT
CVAT (Computer Vision Annotation Tool) — это свободный опенсорсный веб-тулкит для аннотирования, разработанный Intel. В области разметки изображений CVAT поддерживает четыре типа аннотаций (точки, многоугольники, ограничивающие прямоугольники и многоугольники), а также подмножество задач компьютерного зрения (сегментация изображений, распознавание объектов и классификация объектов). В 2022 году данные, контент и репозиторий GitHub CVAT мигрировали к OpenCV, при этом CVAT продолжает оставаться опенсорсным.
Преимущества и ключевые функции
- Простота начала работы с разметкой изображений
- Отлично подходит для ручного аннотирования изображений, также поддерживает разметку с частичной помощью ИИ
- Надёжные базовые функции аннотирования (в том числе классификация и распознавание объектов) для широкого спектра сценариев использования компьютерного зрения
Лучше всего подходит: студентам, исследователям и учёным, проверяющим возможности аннотирования изображений (иногда на нескольких изображениях или на небольшом датасете).
Стоимость: бесплатно.
Дополнительная информация о разметке изображений при помощи CVAT:
Если вашей команде требуется бесплатный инструмент аннотирования, то вам следует знать, что CVAT — один из самых популярных опенсорсных инструментов в этой области, имеющий более миллиона загрузок с 2021 года. Бесплатными популярными альтернативами CVAT для аннотирования изображений являются 3D Slicer, Labelimg, VoTT (Visual Object Tagging Tool, разработанный Microsoft), VIA (VGG Image Annotator), LabelMe и Label Studio.
Если для вашего проекта аннотирования обязательным требованием является безопасность, то, скорее всего, лучше подойдут коммерческие инструменты разметки — основные функции безопасности, например, аудиторский след, SSO и стандартные сертификации (наподобие SOC2, HIPAA, FDA и GDPR) в опенсорсных инструментах обычно отсутствуют.
Labelbox
Labelbox — это платформа аннотирования данных, разработанная в США в 2017 году. Как и большинство платформ из нашего списка, Labelbox включает в себя как платформу разметки изображений, так и сервисы разметки. Команды могут аннотировать на ней широкий спектр типов данных (PDF, аудио, изображения, видео и многое другое).
Преимущества и ключевые функции
- Гибкие процессы QA и отслеживание показателей аннотаторов
- Интеграция сторонних сервисов разметки через Labelbox Boost
- Аннотирование при поддержке модели
- Надёжная поддержка множества типов данных, особенно текстовых
Лучше всего подходит: для команд, ищущих мощную платформу для быстрого аннотирования изображений и текста.
Стоимость: варьируется в зависимости от объёмов данных, процента данных, который нужно разметить от общего объёма, количества пользователей, количества проектов и процента данных, используемых при обучении модели.
Дополнительная информация о разметке изображений при помощи Labelbox:
Командам, которым необходимо аннотирование обработки документов, необходимо знать, что Labelbox активно вкладывается в развитие своих выпущенных в 2023 году ИИ-продуктов для работы с документами и разговорной речью. Его функции аннотирования документов стремительно расширяются, особенно в сфере финансовых услуг.
Командам, работающим над специфическими проектами аннотирования, следует знать, что как и любые универсальные инструменты, платформы наподобие Labelbox отлично справляются с широким спектром типов данных. Если вы работаете над уникальным специфическим проектом аннотирования (например, со снимками в форматах DICOM или с изображениями высокого разрешения, требующими попиксельно точного аннотирования), то вам лучше подойдут другие коммерческие платформы аннотирования изображений.
Playment
Playment — это полностью управляемая платформа аннотирования данных. В 2021 году эта компания была приобретена Telus и сегодня предоставляет командам разработки компьютерного зрения высококачественные обучающие данные для различных сценариев использования, а также обеспечивает поддержку живыми разметчиками и платформой машинного обучения.
Преимущества и ключевые функции
- Один и крупнейших мировых ресурсов для найма временных работников и разметчиков данных (более одного миллиона аннотаторов)
- Двухмерное и трёхмерное аннотирование изображений с участием людей
- Платформа обучения распознаванию речи (работает со всеми типами данных для более чем пятисот языков и диалектов)
Лучше всего подходит: для команд, ищущих полностью управляемое решение для получения размеченных данных
Стоимость: корпоративный тариф
Appen
Appen — это созданная в 1996 году платформа сервисов разметки данных, которая является одним из первых решений на рынке. Компания предоставляет услуги разметки данных в широком спектре отраслей и в 2019 году приобрела Figure Eight для расширения возможностей своего ПО и помощи компаниям в обучении и совершенствовании их моделей компьютерного зрения.
Преимущества и ключевые функции
- Поддержка различных типов аннотирования (ограничивающие прямоугольники, многоугольники и сегментация изображений)
- Снабжение данными (готовые размеченные датасеты), подготовка данных и оценка модели в реальном мире
- Обработка естественного языка и функции поддержки преобразования текста в речь
Лучше всего подходит: для команд, ищущих наряду с сервисами аннотирования источники и сбор данных изображений.
Стоимость: корпоративный тариф
Dataloop
Dataloop — это израильская платформа разметки данных, предоставляющая полнофункциональное решение для управления данными и проектами аннотирования. Этот инструмент предоставляет функции разметки данных для аннотирования изображений, текста, аудио и видео, помогая компаниям обучать и совершенствовать их модели машинного обучения.
Преимущества и ключевые функции
- Функции для задач аннотирования изображений, в том числе классификация, распознавание и семантическая сегментация
- Поддержка аннотирования видео
- Интуитивно понятный и простой в использовании интерфейс
Лучше всего подходит для: команд, ищущих мощную платформу для аннотирования широкого спектра типов данных.
Стоимость: бесплатный пробный и корпоративный тариф.
Дополнительная информация о разметке данных при помощи Dataloop
Командам, реализующим специфические проекты аннотирования изображений и видео, следует знать, что, будучи универсальными инструментами, платформы наподобие Dataloop предназначены для поддержки широкого спектра простых сценариев применения, поэтому если вам нужно размечать проекты с специфическими сценариями использования (например, изображения высокого разрешения в спутниковой съёмке, требующие попиксельно точных аннотаций, или файлы DICOM для медицинских команд), больше подойдут другие коммерческие платформы.
V7 Labs
V7 — это британская платформа аннотирования данных, основанная в 2018 году. Компания позволяет командам аннотировать обучающие данные, поддерживать процессы human-in-the-loop, а также подключаться к сервисам аннотирования. V7 обеспечивает аннотирование широкого спектра типов данных, а также предоставляет инструментарий для аннотирования изображений, в том числе документов и видео.
Преимущества и ключевые функции
- Надёжная функциональность управления проектами и процесса автоматизации с сотрудничеством и разметкой в реальном времени
- Интегрированные сервисы разметки
- Различные типы аннотирования с помощью модели (сегментация, распознавание и так далее)
Лучше всего подходит: для студентов или команд, ищущих универсальную платформу для удобного аннотирования разных типов данных в одном месте (документов, изображений и коротких видео).
Стоимость: различные варианты, в том числе для учёных, бизнеса и профессионалов.
Hive
Основанный в 2013 году Hive предоставляет облачные ИИ-решения компаниям, желающим размечать контент в широком спектре типов данных, в том числе в изображениях, видео, аудио, тексте и других типах. Hive позволяет инженерам использовать на платформе собственные предварительно обученные модели машинного обучения и применять их для модерации контента (в том числе и для распознавания сгенерированных ИИ данных).
Преимущества и ключевые функции
- Инструмент аннотирования изображений полного цикла
- Поддержка уникальных сценариев аннотирования изображений (таргетированная реклама, полуавтоматическое распознавание логотипов)
- Гибкий доступ к прогнозам модели при помощи одного вызова API
- Система Bring your own AI model (BYOM), позволяющая использовать собственные модели
Лучше всего подходит: для команд, размечающих изображения и другие типы данных с целью модерации контента. Hive особенно популярен у платформ социальных сетей наподобие Reddit, BeReal и Quora.
Стоимость: корпоративный тариф
Заключение
Также можно изучить другие примечательные инструменты для аннотирования, как платные, так и бесплатные:
- Labelstudio — удобный опенсорсный инструмент, который хвалят за его возможности процесса ручного аннотирования.
- Supervisely — коммерческая платформа разметки данных, известная своими функциями контроля качества и базовой интерполяции.
- VoTT — опенсорсный инструмент, известный своими возможностями экспорта меток и ресурсов в формат Tensorflow (PascalVOC) и YOLO.
Понравилась статья? Еще больше информации на тему данных, AI, ML, LLM вы можете найти в моем Telegram канале.
- Как подготовиться к сбору данных, чтобы не провалиться в процессе?
- Как работать с синтетическими данными в 2024 году?
- В чем специфика работы с ML проектами? И какие бенчмарки сравнения LLM есть на российском рынке?