Как стать автором
Обновить

Комментарии 8

Используем labelstudio, все остальное показалось неподходящим. Инструмент неидеален, но жить с ним можно.

К вышесказанному в статье можно добавить:

  • Легко интегрировать с уже имеющейся базой Postgres, нужно просто указать переменные окружения.

  • Для заливки изображений и других файлов из локального хранилища нужно сначала разрешить это при помощи переменной окружения (LABEL_STUDIO_LOCAL_FILES_SERVING_ENABLED). Так же можно заливать из s3 хранилища.

  • Даже если у вас не сенситивные данные, сразу настраивайте сайнап только по ссылке, которую можно менять при любом удобном случае (все зарегались, кто-то уволился и т.д.).

  • Баги есть и они порой очень критичные. Например, поворачивать bbox-ы просто невозможно.

Спасибо за комментарий, все пункты очень полезные! :)

С локального хранилища файлы заливались, переменную среды я ставил. Проблемы была именно в загрузке нескольких задач из одного .json файла.

Спасибо за обзор инструментов, понимаю что у вас в основном ориентация на NLP. Но Label Studio добавил в список на "изучить". В нашей небольшой (2 человека) научной команде недавно был пет-проект / тест для которого сами же собирали data set и размечали используя Roboflow. Не Open-source, заточен под изображения, на бесплатных планах ограничения, но для быстрой проверки идеи нам подошёл. Идея нашего пет-проекта была сформулирована: какой точности на этой задаче мы можем добиться затратив 40 часов на всё про всё (самим сделать фотки, разметить data set, натравить на него YOLOv5). Оказалось - около 60%. Затратили чуть больше (порядка 50 часов).

Очень интересно, но, как я понял, все эти инчструменты заточены под английский. Или без разницы? Или на русском такие задачи просто не ставятся, даже Яндексу?

как я понял, все эти инчструменты заточены под английский

Нет, при помощи этих инструментов можно размечать данные на любом языке. Разве что язык интерфейса по-моему везде - английский

Или на русском такие задачи просто не ставятся, даже Яндексу?

К сожалению, не совсем понял вопрос.

INCEpTION (https://inception-project.github.io/). Бесплатный. Много возможностей, активно развивается. Использую уже 2 года и за это время он из относительно дубового продукта (но и тогда уже была куча нужных мне особенностей) превратился в уже юзабельную штуку.

Когда выбирали инструмент, переходя от самописного убожества сделанного за 1 день на коленке на виджетах в юпитер-хабе (и это весьма рабочий но дырявый вариант, если есть доверие к разметчикам, на чем-то типа streamlit или voila я так и не смог авторизацию прикрутить за день) к чему-то качественному, такой же прямо анализ не делали, скорее просто читали документацию и искали там красные флаги. Находили 1 красный флаг и искали дальше.


Все мои красные флаги совпали с вашими и список финалистов был точно такой же:


  • labelstudio и
  • doccano

Из всего, что я видел только doccano претендует на полную "свободность", что возможно его и погубит.


Так что ставлю жирный плюс статье (я хз почему когда я ставлю плюс, становится +2, вроде мега-ачивок у меня нет) и поддерживаю.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий