Обновить
4
Вера Романцова@vera_romantsova

Пользователь

Отправить сообщение

В первую очередь - любая такая задача, это автоматизация ручного труда и как следствие, снижение ошибок. Там где модератор или любой другой сотрудник ошибется - модель предскажет верно. Ведь это человеческий фактор - плохое самочувствие, усталость к концу дня - и количество ошибок у человека возросло.
А применимость компьютерного зрения в нашем продукте весьма велика: мы распознаем дорожные знаки, светофоры и расставляем их на карту, группируем фотографии по классам в карточке организации, чтобы пользователю было легче найти фотографию меню, интерьера или посмотреть, как развлекаются люди в заведении.

Вообще, если задача многоэтапная и нужно обучить несколько моделей - то конечно, стоит разделить датасеты. Для модели сегментации, например, часто нужно собрать меньше данных, а для задач классификации - частенько данных собирается в разы больше.
Но, конечно, дело не только в размерах датасета, а в специфике данных: для задач сегментации часто нужны одни кейсы для обучения, а для задач классификации другие. Следить за валидацией разделенных датасетов также намного легче на мой взгляд.

Буду рада, если пригодится и сэкономит время на объяснения)

Да, мы тоже сталкивались с такими случаями, согласованная разметка в этом случае - один из возможных способов решения проблемы, согласна)
Ну и доля неустранимой неоднозначности конечно тоже бывает - задача свести ее к минимуму.

Вот как раз чтобы таких случаев не было, я и показала, как важно углубляться в данные и постоянно себе задавать вопросы "а это куда?" и "где бы такое хотели увидеть?". Можно ориентироваться не только на размер собачек, но например, и на то, в каком они контексте на изображении: с человеком или без него, возле еды или нет, мелко или крупно, смотрит в камеру или не смотрит и т.п. Ну и каждый кейс применяем к задаче и думаем, как лучше конкретно именно по отношению к ней поступить)

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Менеджер по данным
Python
SQL
Машинное обучение