Комментарии 4
Нет, я все понимаю, но батч в 1 миллион картинок? Жесть, я тут дообучал donut на ocr в A100 дай бог 512 картинок (512 на 512) влезет, какие-то чудовищные цифры
Можно добавить сравнение с обычной классификацией изображения.
Было бы интересно также поглядеть фактические цифры: сколько времени уходит на такой-то датасет и сколько видеопамяти для этого нужно. Тут же можно добавить, как сильно размер батча влияет на скорость обработки датасета. Поскольку сравниваются пары изображение-текст, то это должно влиять очень сильно.
а почему у пультов скор равен 0?
Неточность модели, в этом минус Zero-Shot подходов, они умеют все, но по-немножку
И проигрывают в точности узкоспециализированным методам.
Есть пара трюков для повышения точность CLIP моделей:
- Инференс по тайлам, когда мы кусочками будем прогонять изображение, чтобы он смог увидеть пульт
- Сразу учить модель делать эмбединги не по всему изображению, а по его частям, в статье CLIP-Count можете ознакомиться подробнее с этим https://arxiv.org/abs/2305.07304
CLIP или SigLIP. База по Computer vision собеседованиям. Middle/Senior