anna_zh 9 ноя 2020 в 18:24

5 подходов к разметке данных для проектов машинного обучения

4 мин

8.2K

Блог компании New Professions LabОбработка изображений*Машинное обучение*

Перевод

Комментарии 5

ZlodeiBaal 10 ноя 2020 в 13:01

Что-то очень поверхностная статья. С кучей очень спорных утверждений

Однако, этот способ, скорее всего, подойдет только крупным компаниям с собственным штатом дата-аналитиков.

Очень часто наоборот, правильная интеграция in-house разметки бывает основным продуктом. И её надо делать до разработки по DataScince.

Очень часто переходы между разными вариантами разметки — весьма гладкие и непрерывные. Вообще, я вот тут чуть более подробно рассказываю, в том числе большое число вариантов которых тут нет — youtu.be/fwbHkVka3G4

kucev 18 ноя 2020 в 13:06

Антон, спасибо за интересное видео!)
А был ли у вас опыт использования предразметки, когда разметчики размечают данные не с нуля, а данные прогоняются через ML модель и разметчики только подправляют ответы ML модели?
Если да, то можете более подробно рассказать, как вы организовали такой процесс, и как боролись с тем, что у вас чуть-чуть смещается баис из-за такого подхода?

ZlodeiBaal 18 ноя 2020 в 19:29

Добрый день!
Да, мы так регулярно делаем. Например базовая архитектура нашего сервера разметки именно так и устроена — cv-blog.ru/?p=368
У нас форматы входа и выхода одинаковы => на вход разметки можно подавать предразмеченые кадры алгоритма. В том же посте видео о том как мы это делаем.

С биасом как-то не боремся. Обычно если это так критично — просто с нуля размечаем. Не помню даже когда такое было в последний раз.

kucev 20 ноя 2020 в 13:51

Супер, спасибо за ответ!)

kucev 17 ноя 2020 в 19:43

Есть еще вариант не размечать данные, а использовать только публичные датасеты. Для создания MVP отличный подход. Но когда делаешь полноценный продукт, приходится уже кастомизировать датасет под свои нужны и размечать самим.

Кстати, недавно читал похожую статью, но в ней 7 пунктов, а не 5)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий