dmitrifriend 29 янв в 14:50

Janus Pro: сравнение генераций и image-to-text с Stable Diffusion, Dalle и ChatGPT

Простой

11 мин

8.8K

Блог компании BotHubИскусственный интеллектМашинное обучение*

Обзор

Комментарии 5

fire64 29 янв в 15:16

Мне DeepSeek нужен в первую очередь, для разработки макетов и схем.

Он не плохо справляется при выводе результатов с помощью векторной графики в SVG и похуже, но все же справляется с выводом 3D модели нужной мне конструкции в Obj.

Если эта модель способна не только рисовать, но и проектировать макеты и визуализировать их, а не просто рисовать по промтам: "Нарисуй мне собачку", то это то что мне нужно...

Dron007 29 янв в 18:42

Разве Dall-E 3 имеет какое-то отношение к анализу изображений? Думал, она только за генерацию отвечает, а анализ - чисто ChatGPT.

dmitrifriend 30 янв в 05:01

Конечно, вы правы, при описании и распознавании изображений задействуется только ChatGPT, а в архитектуре Dalle не имеется способов задать входное изображение. Исправил все связанные с этим моменты, спасибо.

dmitrifriend 30 янв в 11:12

Кстати, если последовательно генерить в Dalle (через ChatGPT) картинки, то есть в рамках одного чата, при этом просить каждый раз нейросеть как-то улучшить результат, то она может включать в свои фактические Dalle-промты (их можно посмотреть, развернув сгенерированную картинку на весь экран и нажав значок «i» в правом верхнем углу) выражения вида «Refine previous result...», то есть «улучшить предыдущий результат», что-то изменив или добавив. И сперва как будто может показаться, что сам модуль Dalle обращается к предыдущим изображениям, но, скорее всего, такое на самом деле технически не предусмотрено и нейросеть просто суммирует текстовые промты, чтобы последующие генерации более соответствовали новым запросам пользователя.

asatost 30 янв в 02:50

Обе модели корректно описали мем

Но ведь справа Чимс?!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий