Пост @ledevik — Блог компании Криптонит

19 июн 2024 в 08:154.7K

YOLO-World — это новая модель машинного обучения для систем компьютерного зрения. Она выполняет обнаружение любого количества объектов без предварительного создания словаря и в режиме реального времени.

Большинство детекторов могут обнаруживать объекты только в пределах фиксированного словаря, заранее определённого наборами обучающих данных. Например, можно научить нейросеть детектировать автомобили, пешеходов и дорожные знаки. При этом она не распознает трамвай или велосипедиста.

Чтобы добавить их в словарь как новые категории, придётся переобучить нейросеть и повысить требования к вычислительным ресурсам. Чем больше категорий мы добавляем, тем менее пригодной становится система для использования в реальных приложениях.

YOLO-World работает иначе. Она выполняет обнаружение объектов по модели с открытым словарём (OVD). Это новый подход, выходящий за рамки предопределенных категорий. Вы просто задаёте текстовый запрос (в виде промптов) перечисляя те объекты, которые хотите обнаружить.

В основе YOLO-World лежит кодер CLIP для кодирования входных текстов и новая перепараметризуемая сеть агрегирования зрительно-языковых путей (RepVL-PAN). Вместе они реализуют магию детектирования объектов без обучения.

Подробнее читайте в статье.

YOLO-World на GitHub

Публикации

Информация