Как стать автором
Обновить

Комментарии 7

это чтото на арабском (государственный язык израиля что учат в школе)

создавать высококачественные пары изображение-текст с помощью самой модели и ChatGPT
как? у авторов есть эксклюзивный доступ к ChatGPT4 с возможностью использовать изображения на входе?

Скорее всего, что-то вроде:

"ChatGPT, на картинке

Банан желтый

Дерево с зелёными листьями

Обезьяна сидит

Придумай текстовое описание для картинки"

Курсивом - выдача vicuna по исходному изображению



...Полученные от модели ответы на описание изображений содержали ошибки и не всегда соответствовали контенту на изображении. Среди них были такие ошибки, как повторение слов или предложений, а также наличие бессвязных высказываний. Для того чтобы решить эти проблемы, мы используем ChatGPT для уточнения описаний с помощью следующей подсказки подсказки:
Исправьте ошибку в данном абзаце.
Удалите повторяющиеся предложения, бессмысленные символы, не английские предложения и так далее.
Уберите ненужные повторы.
Перепишите все неполные предложения.
Вернуть непосредственно результаты без объяснений.
Вернуть непосредственно входной абзац, если он уже правильным без объяснений.

Т.е. по сути они использовали ChatGPT, без реального знания что на изображении, как корректор выдачи предобученной викуны на
... Для обучения модели мы используем объединенный набор данных Conceptual Caption [5, 27], SBU [20] и LAION [26]...
и использовали результаты исправлений для дообучения.
А вот еще один пример, уже от МС:

Microsoft выпустили наработки по предоставлению данных в языковую модель об изображении с помощью сторонних моделей визуального восприятия.
https://github.com/microsoft/TaskMatrix

упустил момент, когда качественные 'моделей визуального восприятия' стали открыто доступны…
погулял по ссылкам, используется фейсбуковская segment-anything

С API можно вроде как

Зарегистрируйтесь на Хабре, чтобы оставить комментарий