Комментарии 3
Вместо этого мы использовали Stable Diffusion. Из одной фотографии негабаритного камня нейросеть сгенерировала множество вариаций. Благодаря этому мы смогли натренировать модели с использованием минимального количества физической руды, сфотографированной во время планового обслуживания конвейера
Звучит как натренировать спам-фильр не на реальном размеченном спаме, а на искусственном, сгенерированном другой (или той же?) нейросетью. Как-то не убедительно ...
Отвечу с технической стороны как один из разработчиков этой системы: я согласен с вами, что использовать в качестве разметки чисто синтетические данные и ожидать хорошего качества на настоящих данных было бы странно. На практике так и есть, нужно соблюдать некоторую пропорцию между настоящими данными и искусственными.
Из наших опытов (где мы проверяли качество всегда только на настоящих данных, которых не видела модель) качество модели увеличивается, если в датасет добавить от 30 до 70% искусственных данных (созданных через 3D-моделирование, другие нейронки как Stable Diffusion или за счет операций над изображениями из классического Computer Vision). В данной статье говориться, что благодаря таким подходам мы смогли натренировать сеть хорошего качества, уменьшив количество реальных данных, необходимых для разметки (условно с 100-1000 изображений уменьшить количество реальных данных в лучших случаях до 30-300)
Нанимать и растить сотрудников, знакомить заводы с ИИ: опыт rdl by red_mad_robot