boterxxx9 мая 2025 в 21:02

CLIP или SigLIP. База по Computer vision собеседованиям. Middle/Senior

Простой

5 мин

13K

Python * Машинное обучение * Искусственный интеллектПрограммирование * Алгоритмы *

Туториал

Комментарии 4

digtatordigtatorov 9 мая 2025 в 22:34

Нет, я все понимаю, но батч в 1 миллион картинок? Жесть, я тут дообучал donut на ocr в A100 дай бог 512 картинок (512 на 512) влезет, какие-то чудовищные цифры

RomanVelichkin 12 мая 2025 в 05:41

Можно добавить сравнение с обычной классификацией изображения.

Было бы интересно также поглядеть фактические цифры: сколько времени уходит на такой-то датасет и сколько видеопамяти для этого нужно. Тут же можно добавить, как сильно размер батча влияет на скорость обработки датасета. Поскольку сравниваются пары изображение-текст, то это должно влиять очень сильно.

Skillgram 12 мая 2025 в 10:58

а почему у пультов скор равен 0?

boterxxx 12 мая 2025 в 11:02

Неточность модели, в этом минус Zero-Shot подходов, они умеют все, но по-немножку
И проигрывают в точности узкоспециализированным методам.
Есть пара трюков для повышения точность CLIP моделей:
- Инференс по тайлам, когда мы кусочками будем прогонять изображение, чтобы он смог увидеть пульт
- Сразу учить модель делать эмбединги не по всему изображению, а по его частям, в статье CLIP-Count можете ознакомиться подробнее с этим https://arxiv.org/abs/2305.07304

Зарегистрируйтесь на Хабре, чтобы оставить комментарий