YOLO-World — это новая модель машинного обучения для систем компьютерного зрения. Она выполняет обнаружение любого количества объектов без предварительного создания словаря и в режиме реального времени.
Большинство детекторов могут обнаруживать объекты только в пределах фиксированного словаря, заранее определённого наборами обучающих данных. Например, можно научить нейросеть детектировать автомобили, пешеходов и дорожные знаки. При этом она не распознает трамвай или велосипедиста.
Чтобы добавить их в словарь как новые категории, придётся переобучить нейросеть и повысить требования к вычислительным ресурсам. Чем больше категорий мы добавляем, тем менее пригодной становится система для использования в реальных приложениях.
YOLO-World работает иначе. Она выполняет обнаружение объектов по модели с открытым словарём (OVD). Это новый подход, выходящий за рамки предопределенных категорий. Вы просто задаёте текстовый запрос (в виде промптов) перечисляя те объекты, которые хотите обнаружить.
В основе YOLO-World лежит кодер CLIP для кодирования входных текстов и новая перепараметризуемая сеть агрегирования зрительно-языковых путей (RepVL-PAN). Вместе они реализуют магию детектирования объектов без обучения.
Подробнее читайте в статье.
YOLO-World на GitHub