Обновить

Помидор, которого нет: почему VLA-модели не понимают, что они держат

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели8.9K
Всего голосов 4: ↑4 и ↓0+5
Комментарии1

Комментарии 1

"Помидор для них – кластер пикселей". Ровно так же раньше говорили про распознавание лиц, пока не добавили contrastive learning на temporally linked frames. VLA-модели воспроизводят тот же путь: сначала "не понимает объект", потом датасет размером в планету, потом – понимает, но как именно, никто объяснить не может.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации