Comments 2
В оригинальной статье "Molmo: Outperforming Proprietary Multimodal Language Models" авторы помимо голосовух просят людей показывать на объекты, о которых говорят. Они утверждают, что это помогло научить модель связывать пиксели с текстом.
У вас в гифке после "Давайте смотреть итог:" показывается интерфейс разметки. Правильно ли я понял, что сначала человек выделяет точками объекты про которые он будет рассказывать. И потом записывает голосовуху? Как вы потом соотносите к какой точке какой отрезок аудио относится?
Рома, привет! Сейчас у нас эксперимента фактически два: ускорить текущий пайплайн описаний (который не включает в себя точки вообще, только описание) и пособирать к ним в том числе дополнительно и точки ключевых объектов (благо что это дешево). Поэтому да, понял все правильно: сначала выделяют точки, потом общую голосовуху. Соответственно, не соотносим их между собой сейчас никак - гипотеза заключается в том, что точки это лишь дополнительная подсказка для обучения модели, а вот разобраться где что по тексту - должна модель сама.
Про детализацию "выделяем отдельно каждый объект и детально голосим его" - очень хотим попозже попробовать и такой вариант, проблем с такой реализацией как будто бы нет, но пока стартовали с вариантов попроще.
Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности