runaway_llm14 янв в 18:34

Вышла GLM-Image: открытая модель создания изображений «промышленного уровня»

1 мин

17K

Искусственный интеллектМашинное обучение *

+21

Комментарии 19

Kwentin3 14 янв в 19:50

Похоже stable diffusion выбыла из гонки. Жаль...

tukreb 15 янв в 02:50

Они сами себя зацензуровали так, что все модели после SD 1.5 вдруг разучились правильно рисовать анатомию, даже если она скрыта под одеждой.

Их пик был и остаётся SD 1.5 + ещё какие то наработки на основе неё.

Barnaby 15 янв в 02:56

Пик был, и есть - они все еще очень популярны, SDXL.

nidalee 15 янв в 03:29

Ну нет. SDXL лучше. SD1.5 отмер за ненадобностью. Вы, наверное. путаете с SD3.

В любом случае, это судя по всему очередная беззубая модель для маркетологов (это им очень важно генерировать текст на картинке). Для любителей кое-чего другого все еще SDXL безальтернативна.

Aniro 15 янв в 13:50

SDXL практически умер от старости, если не считать хентайные файнтюны типа pony/illustrious. У SDXL врожденные проблеммы в виде слабого текст энкодера и маленького VAE
Актуальный фотореализм это qwen и z-image-turbo

nidalee 15 янв в 13:57

Я допускаю, что реализм пересел с SDXL, потому что им не интересуюсь. Но все, что я видел из под z-image-tubro, это очень щедро промазанный блюром пластик. На мой взгляд, SDXL там тоже еще бодряком.

wniffy 14 янв в 20:18

Еще одна нейронка... ну очень хорошо что open source

ZanZy 14 янв в 23:10

а погонять гденить можно? не разворачивая у себя?

TomskDiver 15 янв в 02:46

Ну модель только вышла. На HF еще не развернули бесплатно. Поэтому платно через API можно тут: https://docs.z.ai/guides/image/glm-image Ну или бесплатно (наверное с лимитами) тут: https://lmarena.ai/ru?mode=direct&chat-modality=image (проверил glm-image - генерит).

ZanZy 15 янв в 09:40

Axelaredz 15 янв в 10:51

Проблема большинства в том, что написание промптов это не просто набор предложений абы как. Тут тоже есть свои нюансы и многие ии могут выдать картинки гораздо качественнее)

Но GLM пока не очень.

Попробуйте такой промпт:
Masterpiece, cinematic sci-fi shot. A colossal starship shaped like a traditional Russian Samovar, made of oxidized copper with engraved Orthodox crosses. The hull features a golden Tsarist eagle emblem and glowing neon Cyrillic text "ИВАН ГРОЗНЫЙ" and "САМОВАР КРЕЙСЕР". The ship dominates the frame, emitting steam and blue plasma trails from vent pipes. It is moving towards the curved horizon of Earth with the Eurasian continent visible. Background: deep space with asteroid field, ice crystals, and a blue-purple nebula. Lighting: dramatic backlighting from the sun creating lens flare, volumetric engine exhaust, warm solar highlights on the copper dome. Hyper-realistic textures, ray-traced reflections, Fujifilm Eterna film grain, satirical dieselpunk aesthetic, 8k resolution, 16:9.

А из опенсурс моделей сейчас Qwen 2512 Z-Image гораздо лучше и быстрее.

ZanZy вчера в 13:26

Зачем? Если и так видно, что оно не понимает даже "выдвигается из-за спины", зачем морочить его "православными крестами"? Православные кресты он нарисует а изменить положение и тангаж самовара не сможет.

Axelaredz вчера в 13:51

Всё они понимают)

Писать нужно просто, как в документации прописано. Для распределения объектов лучше всего использовать их расположение по глубине: задний план, средний и передний. Можно также использовать стороны: слева, справа, сбоку и так далее. Важно связывать объекты между собой. Например, самовар находится в центре, за планетой, на заднем плане, видна только половина и тд.

Избегать любых цифровых обозначений углов и координат, если нужно повернуть то так и написать верхней частью наклон вправо.

Все эти правила подробно описаны в документах, но кто их читает)

Вообще практически у всех ии больная тема с точностью распределения на картинке, потому для этого идём в Krita + Ии плагин, дабы просто нарисовать силуэт, где нужно и написать в промпте что это. Потом на следующем слое землю и тд.

А так использовать по текстовому описанию это чисто побаловаться

ZanZy вчера в 14:21

не понимает. Скорее всего они просто не видели самовар с другого ракурса, потому не могут его нарисовать, даже если точно задаёшь тангаж в градусах. Словесное описание ориентации также не пмогает ("ось направлена на горизонт", "главная ось направлена в бесконечную точку в центре кадра", "ось самовара совпадает с направлением движения" и пр.)

Axelaredz вчера в 15:12

Ии не знаю что такое градусы и они вообще не видят объектов
Они даже не дышат ..Морфеус)

Они воспринимают всё очень относительно и на это сильно влияют примеры датасета.

Потому можно применить хитрость.
Подобную, как в 3D моделировании сначала создают болванку из простых геометрических форм.

Так и ии в начале рассказать, про простые объекты, которые точно есть в его примерах. А потом уже их просто заменить.

ZanZy вчера в 16:36

Ии не знаю что такое градусы и они вообще не видят объектов

Я бы, может, вам и поверил, если бы не пользовался ИИ для того, чтобы они помогли мне развернуть объекты в виртуальном пространстве. Они прекрасно понимают и выдают пространственный поворот и в углах Эйлера и в кватернионах и в матрицах поворота :-)

объектов они не видят да, но пространственную картину объяснить можно. Видимо, рисовалки чем-то обделены по части понимания по сравнению с кодерами и общего назначения.

Axelaredz 21 час назад

Тогда уверен вы сможете мне показать ссылку про это в документации)

jarkevithwlad 15 янв в 05:48

в каком месте промышленный уровень тут? с виду она примерно как старый flux 1 dev по примерам сверху..

jarkevithwlad 15 янв в 06:31

p.s. вот можно сравнить с другими нейронками в одном и том же промпте

GLM-Image

p.s.s. всё же как по мне это даже хуже чем старый flux1dev, только что текст умеет генерировать как современные..

Зарегистрируйтесь на Хабре, чтобы оставить комментарий