Comments 8
Отличный обзор изменений, спасибо! Добавил в закладки.
Странно что при том, насколько хорошо ChatGPT понимает смысл текста, рисовальщики как я вижу просто выбирают существительные, прилагательные и все это смешивают
Например, на запросы A in hat and B шапка оказывается рандомно на A, B или на обоих. О боже сложных запросах и говорить нечего. Но рисует красиво
Потому что рисующие ИИ чаще всего построены на основе довольно старенького CLIP.
При обучении генеративного ИИ датасет из изображений пропускается через CLIP для генерации текста. Именно по этим парам изображение-текст генеративный ИИ учится соотносить текст и изображения. И чаще всего используемая версия CLIP очень хорошо распознаёт объекты, но плохо распознаёт и выделяет отношения между ними.
В результате обученный на данных из CLIP генеративный ИИ наследует это слепое пятно.
Уже есть модели вроде Dall-E 3, у которых понимание отношений ощутимо лучше. И люди с относительно маленькими датасетами в файнтюне добиваются из существующих моделей понимания отношений - в узких пределах.
Месяц назад снова оплатил подписку и попросил Midjourney нарисовать порося из шоколада.
Результат каждый раз выходил полностью неудовлетворительным после нескольких попыток - свиная голова на подносе, шоколад и еще что-то непонятное по-отдельности.
В ноябре 2022-го года тот же самый запрос выдавал гораздо более релевантные результаты.
прошу прощения за дилетантский вопрос, только погружаюсь в тему. Направьте пожалуйста куда копать, если нужно генерировать осмысленную инфографику по скетчу? реально ли это . Пример наброска прилагается

прошу прощения за дилетантский вопрос, только погружаюсь в тему. Направьте пожалуйста куда копать, если нужно генерировать осмысленную инфографику по скетчу? реально ли это . Пример наброска прилагается
Вестник Midjourney: новая документация, генерация фрагментов и тюнер стилей