Как стать автором
Обновить
1
0
FlexiTech @FlexiTech

Пользователь

Отправить сообщение

Есть отличное опенсорс решение от Nvidia и у Mistral есть подходящая моделька

Добавили! Спасибо за комментарий

Переобучения не происходит. Происходит регулярный переподсчет атрибутов для новых категорий.

Технически, это apache airflow запускает процесс (dag), при условии отличий данных за предыдущий период.
Если новый каталог перекрывает старый, то на разнице запускается модель путём поднятия gpu машины и запуска модели.

Период динамический, в среднем 1 неделя

Да, вы правы, статья описывается схожий подход, и наш вклад здесь был показать, что CLIP можно успешно использовать в реальных бизнес кейсах на большом масштабе. Материлов как сделать pet-project c помощью него достаточно много, но не все архитектуры при этом могут дать тот же эффект в жизни.

По поводу вопроса с данными - здесь дело не в объеме (товаров очень много), а в разметке. Спарсить можно, но как понять, что метки атрибутов там правильные? Мы разметили часть данных руками и нашли группы товаров, у которых были верные атрибуты для обучения классификационной CNN, но на фоне всего количества товаров и их вариаций, но этого не хватало чтобы добиться от нее хорошей обобщающей способности. Так что в случае большого объема, размеченных товаров "мало" скорее всего значит что их "нет". Но часть данных все равно размечать полезно - для валидации и контроля метрик.

По поводу ArcFace не совсем понял в чем поинт. ArcFace/Margin Loss вместо обычного Cross-Entropy в классификации помог бы понять какие товары не попадают ни в один из классов и понять метрику их близости к этим классам. Но список классов чаще всего фиксированный (атрибуты это кнопки на сайте, их конечное число). Если мы добавляем новый класс, то ArcFace все равно нужно будет переобучать, как и классификацию. CLIP не нужно. Можно использовать метрику близости от ArcFace, но трешхолды близости для каждого класса будут разные и их сложно выбрать, не понятно как получить четкое соответствие с классами, а не top-k. По мне, вариантом с ArcFacе решить эту задачу сложнее, чем с помощью Cross-Entropy, а им, как я говорил, на таком объеме данных не получается.

С языком никаких проблема нет. Во первых, для классификации изображений, из текста нам нужен только список классов, нет проблем указать его на англ. Во вторых, если речь идет о классификации текстов есть multi-lingual версии CLIP для таких случаев, или, на худой конец, можно переводить текст для классификации переводчиком.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность