
Комментарии 10
Вот тут хороший метод проверки разметки
Ох, прям флэшбэки у меня. Вспомнил Яндекс толоку. Чего там только не было - и тексты, и картинки самого разного рода (особенно категории: порно, расчленëнка, и т.п.). Фрагменты аудио (довольно сложно), и более сложные сценарии. Адская работа, за которую ничего не платили практически. Но были интересные задачи, когда ходишь по улицам и в заданных точках делаешь фото, записываешь какие организации в здании и их режим работы, и т.д. Некоторые места оценивались в районе 1 доллара за точку, некоторые по 2-3, но в основном 0.5 и менее. Это было давно, ещë до начала массового бума ИИ.
На такие подвиги как куда-то ходить, я не решался, но про эту платформу слышал. Всё-таки сидеть за компьютером с чашечкой чая приятнее)
Я так тоже сначала думал. Оказалось иначе. Чтобы аналогичную сумму заработать с чашечкой чая, надо час непрерывно тыкать в компе (и не просто тыкать, а в соответствии с инструкцией, и каждый раз принимать решение, при этом часто весьма тонкая грань, что надо выбрать), и чай так и останется нетронутым, тупо некогда. За это время можно пару точек сфотографировать, внести на месте координаты и какие-то данные, заодно прогуляться. Конечно, близкие и удобные точки быстро заканчиваются, да и погода разная бывает, и фоткать только при хорошем освещении днëм можно. В иные места и за деньги долго никто не ходил, так и оставались незакрытые задачи (либо опасные районы, или собаки бездомные по пути, или неадекватные сотрудники в организациях, иной раз всë сразу).
Но в целом это низкоквалифицированный труд, для студентов или каких-то домохозяек. Гораздо выгоднее вложить это время и силы в своë обучение, и потом уже на нормальной работе использовать. Да, так дольше и результат далеко не сразу, но гораздо эффективнее и интереснее.
Если конечно вести речь о разметке данных по какой-то профессиональной тематике, где можно свои знания использовать, и за это платят соразмерно - другое дело. Но всë равно, это довольно скучная работа, при этом быстро выматывает из-за необходимости постоянно принимать какие-то решения.
В толоке было организовано весьма эффективно в плане интерфейса - можно было в браузере чисто на клавиатуре работать, реально конвейер. При этом была организована дублирующая проверка, плюс некоторая модерация, если разброс у разных исполнителей был. На некоторых видах заданий (по картинкам) помню, темп был у меня около 2-3 задач в секунду, т.е. картинка загружается за 0.2с, ещë 0.3с на принятие решения с нажатием хоткея (там что-то вроде 3-4 вариантов), следующая. Какие-то приходилось по пару сек обдумывать. Но в итоге проще было быстро наугад ткнуть любой вариант в такие спорные, чем долго думать - не зачтут, да и фиг с ним. Кстати, не знаю, жива ли эта толока и в каком виде.
интересно, насколько синтетическая разметка актуальна в работе разметчика? видел в cvat функции типа SAM, opencv автобоксы. И еще интересно какие обьемы работы у разметчика и самые сложные задачи в разметке (предполагаю что сегментация или доменная классификация), в общем нужна еще одна статья)
Спасибо за ваш вопрос! Насчёт отдельной статьи подумаю, но вероятность небольшая. Есть риск нарваться на NDA.
Самые сложные, на мой взгляд, где инструкция написана для галочки. Ты её открываешь, а потом открываешь датасет для разметки, и понимаешь, что они не сходятся.
Вторые по сложности задачи на узкоспециализированные темы, в которых ты не специалист от слова совсем. Если текст на другом языке, хоть даже на арабском, сейчас понять не проблема, то разобраться в новой для тебя области быстро может и не выйти.
Сегментацией частей изображений, если вы про это, мне лично заниматься не приходилось.
Объёмы работы разные, но сейчас меньше, чем было в 2023 году по понятным причинам. Все уже кто хотел базовые модели обучили, датасеты собрали.
Синтетическую разметку на позиции разметчика я лично не применял, и я думаю, мало кто применяет. Просто её может спокойно сделать Data scientist сам на этапе подготовки данных для модели. Доверять ей или не доверять уже другой вопрос. Люди тоже не на 100% правильно делают.
В моей практике встречались случаи, когда непонятные и неоднозначные формулировки в инструкциях вызывали в среди коллег натурально полемики уровня политических дебатов.
Ответ на вопрос: Есть ли жизнь в разметке?..)
Взгляд разметчика данных