MiniGPT-4, ты что за зверь такой? / Комментарии / Хабр

pilimpimpilim 21 апр 2023 в 17:58

это чтото на арабском (государственный язык израиля что учат в школе)

-2

namee 21 апр 2023 в 20:38

Их ресерч называется

И тут полный швах.Дальше можно не читать.

-8

rPman 22 апр 2023 в 05:50

создавать высококачественные пары изображение-текст с помощью самой модели и ChatGPT

как? у авторов есть эксклюзивный доступ к ChatGPT4 с возможностью использовать изображения на входе?

bidl 22 апр 2023 в 12:53

Скорее всего, что-то вроде:

"ChatGPT, на картинке

Банан желтый

Дерево с зелёными листьями

Обезьяна сидит

Придумай текстовое описание для картинки"

Курсивом - выдача vicuna по исходному изображению

took_the_lead 22 апр 2023 в 13:33

...Полученные от модели ответы на описание изображений содержали ошибки и не всегда соответствовали контенту на изображении. Среди них были такие ошибки, как повторение слов или предложений, а также наличие бессвязных высказываний. Для того чтобы решить эти проблемы, мы используем ChatGPT для уточнения описаний с помощью следующей подсказки подсказки: Исправьте ошибку в данном абзаце. Удалите повторяющиеся предложения, бессмысленные символы, не английские предложения и так далее. Уберите ненужные повторы. Перепишите все неполные предложения. Вернуть непосредственно результаты без объяснений. Вернуть непосредственно входной абзац, если он уже правильным без объяснений.

Т.е. по сути они использовали ChatGPT, без реального знания что на изображении, как корректор выдачи предобученной викуны на
... Для обучения модели мы используем объединенный набор данных Conceptual Caption [5, 27], SBU [20] и LAION [26]...и использовали результаты исправлений для дообучения.
А вот еще один пример, уже от МС:

Microsoft выпустили наработки по предоставлению данных в языковую модель об изображении с помощью сторонних моделей визуального восприятия.
https://github.com/microsoft/TaskMatrix

rPman 23 апр 2023 в 21:09

упустил момент, когда качественные 'моделей визуального восприятия' стали открыто доступны…
погулял по ссылкам, используется фейсбуковская segment-anything

Val_ter 25 апр 2023 в 09:14

С API можно вроде как