Pull to refresh

Comments 8

Отличный обзор изменений, спасибо! Добавил в закладки.

Странно что при том, насколько хорошо ChatGPT понимает смысл текста, рисовальщики как я вижу просто выбирают существительные, прилагательные и все это смешивают

Например, на запросы A in hat and B шапка оказывается рандомно на A, B или на обоих. О боже сложных запросах и говорить нечего. Но рисует красиво

Потому что рисующие ИИ чаще всего построены на основе довольно старенького CLIP.

При обучении генеративного ИИ датасет из изображений пропускается через CLIP для генерации текста. Именно по этим парам изображение-текст генеративный ИИ учится соотносить текст и изображения. И чаще всего используемая версия CLIP очень хорошо распознаёт объекты, но плохо распознаёт и выделяет отношения между ними.

В результате обученный на данных из CLIP генеративный ИИ наследует это слепое пятно.

Уже есть модели вроде Dall-E 3, у которых понимание отношений ощутимо лучше. И люди с относительно маленькими датасетами в файнтюне добиваются из существующих моделей понимания отношений - в узких пределах.

Месяц назад снова оплатил подписку и попросил Midjourney нарисовать порося из шоколада.
Результат каждый раз выходил полностью неудовлетворительным после нескольких попыток - свиная голова на подносе, шоколад и еще что-то непонятное по-отдельности.

В ноябре 2022-го года тот же самый запрос выдавал гораздо более релевантные результаты.

Свинья из сейбла удивлена, что у миджорни с этим проблема:

bluePencilXL_v031
bluePencilXL_v031

Ну или количеству своих ног удивлена :)

прошу прощения за дилетантский вопрос, только погружаюсь в тему. Направьте пожалуйста куда копать, если нужно генерировать осмысленную инфографику по скетчу? реально ли это . Пример наброска прилагается

прошу прощения за дилетантский вопрос, только погружаюсь в тему. Направьте пожалуйста куда копать, если нужно генерировать осмысленную инфографику по скетчу? реально ли это . Пример наброска прилагается

Sign up to leave a comment.