Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!

"Помидор для них – кластер пикселей". Ровно так же раньше говорили про распознавание лиц, пока не добавили contrastive learning на temporally linked frames. VLA-модели воспроизводят тот же путь: сначала "не понимает объект", потом датасет размером в планету, потом – понимает, но как именно, никто объяснить не может.
Помидор, которого нет: почему VLA-модели не понимают, что они держат