Как стать автором
Обновить

CLIP или SigLIP. База по Computer vision собеседованиям. Middle/Senior

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.5K
Всего голосов 5: ↑5 и ↓0+7
Комментарии4

Комментарии 4

Нет, я все понимаю, но батч в 1 миллион картинок? Жесть, я тут дообучал donut на ocr в A100 дай бог 512 картинок (512 на 512) влезет, какие-то чудовищные цифры

Можно добавить сравнение с обычной классификацией изображения.

Было бы интересно также поглядеть фактические цифры: сколько времени уходит на такой-то датасет и сколько видеопамяти для этого нужно. Тут же можно добавить, как сильно размер батча влияет на скорость обработки датасета. Поскольку сравниваются пары изображение-текст, то это должно влиять очень сильно.

а почему у пультов скор равен 0?

Неточность модели, в этом минус Zero-Shot подходов, они умеют все, но по-немножку
И проигрывают в точности узкоспециализированным методам.
Есть пара трюков для повышения точность CLIP моделей:
- Инференс по тайлам, когда мы кусочками будем прогонять изображение, чтобы он смог увидеть пульт
- Сразу учить модель делать эмбединги не по всему изображению, а по его частям, в статье CLIP-Count можете ознакомиться подробнее с этим https://arxiv.org/abs/2305.07304

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации