Как стать автором
Обновить

Нанимать и растить сотрудников, знакомить заводы с ИИ: опыт rdl by red_mad_robot

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.3K
Всего голосов 4: ↑2 и ↓2+2
Комментарии3

Комментарии 3

Вместо этого мы использовали Stable Diffusion. Из одной фотографии негабаритного камня нейросеть сгенерировала множество вариаций. Благодаря этому мы смогли натренировать модели с использованием минимального количества физической руды, сфотографированной во время планового обслуживания конвейера

Звучит как натренировать спам-фильр не на реальном размеченном спаме, а на искусственном, сгенерированном другой (или той же?) нейросетью. Как-то не убедительно ...

Отвечу с технической стороны как один из разработчиков этой системы: я согласен с вами, что использовать в качестве разметки чисто синтетические данные и ожидать хорошего качества на настоящих данных было бы странно. На практике так и есть, нужно соблюдать некоторую пропорцию между настоящими данными и искусственными.

Из наших опытов (где мы проверяли качество всегда только на настоящих данных, которых не видела модель) качество модели увеличивается, если в датасет добавить от 30 до 70% искусственных данных (созданных через 3D-моделирование, другие нейронки как Stable Diffusion или за счет операций над изображениями из классического Computer Vision). В данной статье говориться, что благодаря таким подходам мы смогли натренировать сеть хорошего качества, уменьшив количество реальных данных, необходимых для разметки (условно с 100-1000 изображений уменьшить количество реальных данных в лучших случаях до 30-300)

Я некоторое время назад читал на reddit (вроде бы) беседу двух дата сайентистов, где один из них жаловался, что у него нет данных для обучения модели, а начальник ему говорит так смоделируй их, какой же начальник балбес ха ха ха

А оказывается начальник в чем то прав был ))

Зарегистрируйтесь на Хабре, чтобы оставить комментарий