linabesson27 мая в 14:38

Помидор, которого нет: почему VLA-модели не понимают, что они держат

Средний

5 мин

8.9K

РобототехникаИскусственный интеллектАнализ и проектирование систем *

Обзор

Комментарии 1

Granulex 27 мая в 15:12

"Помидор для них – кластер пикселей". Ровно так же раньше говорили про распознавание лиц, пока не добавили contrastive learning на temporally linked frames. VLA-модели воспроизводят тот же путь: сначала "не понимает объект", потом датасет размером в планету, потом – понимает, но как именно, никто объяснить не может.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий