![](https://habrastorage.org/webt/bi/6z/7m/bi6z7mrucx1bckv0fuythdbljwa.jpeg)
Недавно я писал инструкцию-обзор на четвертую версию алгоритма MidJourney. Спустя всего два месяца нам предложили альфа-версию пятой версии алгоритма. В v5 предлагают большую реалистичность и более тонкую настройку. Зачем откладывать удовольствие, давайте взглянем!
Дисклеймер: данная статья написана по первой альфа-версии алгоритма v5. В процессе разработки стиль и доступная функциональность может меняться.
Используйте навигацию, если не хотите читать текст полностью:
→ Сухие факты
→ Эксперименты
→ Генерационные челленджи
→ Заключение
Сухие факты
Сперва пробежимся по анонсу от разработчиков MJ. Вот что поменялось:
- Расширен список стилей, в которых может рисовать нейронная сеть. Нейронная сеть более чутко относится к запросу.
- Увеличено разрешение генерируемых изображений. Разрешение изображений v5 равно разрешению увеличенных (upscaled) изображений v4.
- Больше деталей и меньше текста.
- Добавлена поддержка параметра --tile, генерирующего изображения в виде тайлов с бесшовным переходом.
- Добавлена поддержка не квадратного соотношения сторон через аргумент --ar.
- Добавлена поддержка весов для изображений через аргумент --iw.
- Увеличение изображений (upscale) на данный момент отключено.
Разработчики MJ отдельно упоминают, что v5 имеет меньше «собственного мнения», поэтому требует более длинных и обстоятельных описаний, а на коротких запросах могут возникнуть проблемы.
Хотя в анонсе разработчиков указано, что производительность повышена, картинки на пятой версии алгоритма генерируются в два раза дольше, то есть примерно минуту. Вероятно, это связано с высоким разрешением картинки.
![](https://habrastorage.org/webt/dh/s5/wu/dhs5wuzbgkz-7v2qc0d3jnkhdis.png)
Эксперименты
Начнем с простого запроса, который сравнивал v3 и v4 в прошлой статье.
Запрос: stars world time
![](https://habrastorage.org/webt/dg/g1/g7/dgg1g7stnaom1kk-um6egjspdeg.png)
Слева направо: третья, четвертая, пятая версии (здесь и далее по ссылкам — фулсайзы картинок).
Изображения v5 кажутся более сдержанными. К сожалению, сдержанность пятой версии алгоритма поставила крест на легкой генерации красочных неоновых котов, которые мне так полюбились.
![](https://habrastorage.org/webt/vc/4f/vv/vc4fvvt9kvzx_oaiwpnabkoz_zq.png)
Слева: запрос — neon cat. Справа: запрос — painted neon cat with green light.
Сдержанность — это достойная цена за повышенный реализм в генерации.
Запрос: woman portrait soft sunset light --seed 2131932819
![](https://habrastorage.org/webt/ym/jk/vf/ymjkvfpl0vmi-3daoomwaimwe2k.png)
Слева — четвертая версия MJ. Справа — пятая.
Провел опрос в своем Telegram-канале, какая генерация нравится моим подписчикам больше. Подавляющее большинство голосов — за более реалистичную версию. А какая нравится вам? Пишите в комментариях. И подписывайтесь на мое канал — рассказываю там о своих экспериментах.
Запрос: circuit of processor inside
![](https://habrastorage.org/webt/il/zk/gr/ilzkgrpsfl59fredbrk5a-x29dm.png)
Слева — четвертая версия. Справа — пятая.
На этом хватит случайных изображений, посмотрим, как MJv5 поборолась с некоторыми особенностями своей предшественницы.
Генерационные челленджи
Метки «качества» и количества
Ранее я аргументированно убеждал, что «магические» слова вроде «beautiful» ничего не решают и минимально влияют на итоговое изображение. Отныне это не так. Новая версия более чутко воспринимает написанное, и теперь эти магические слова действительно влияют.
Основной запрос: woman portrait --seed 2131932819
![](https://habrastorage.org/webt/mp/af/g3/mpafg3enh5q7mtd14axw5uitkbw.png)
Слева направо: без дополнительных слов; beautiful; beautiful 8k octane unreal realistic.
![](https://habrastorage.org/webt/ya/y2/7h/yay27hrxroy2f_yqxkkacgqn8dk.png)
Слева направо (генерации в v5): без дополнительных слов; beautiful; beautiful 8k octane unreal realistic.
Наличие или отсутствие дополнительных слов существенно меняет визуальный стиль итогового изображения. Так, наличие в запросе слова «portrait» может быть трактовано как запрос художественного стиля, а «octane» генерирует как будто скриншоты из ААА-игры.
Запрос: nine cats
![](https://habrastorage.org/webt/0u/7y/kt/0u7yktpaxvydjnpryvtj_otelpi.png)
Слева — четвертая версия. Справа — пятая.
С числительными новая версия алгоритма справляется лучше, хотя все еще затрудняется нарисовать правильное количество объектов. Но зато больше нет насмехающейся цифры 9 на шестом коте.
Нейросети не умеют рисовать конечности
Запрос: beautiful woman hand with five fingers
![](https://habrastorage.org/webt/ou/us/kz/ouuskzn24saqzxgwilkhauxhm4g.png)
Слева — четвертая версия. Справа — пятая.
Запрос: beautiful woman hand with ring
![](https://habrastorage.org/webt/tw/cu/k8/twcuk8jvqxlq4imqp6cz1mivp2w.png)
Слева — четвертая версия. Справа — пятая.
MJv5 все так же ошибается при генерации человеческих рук, но итоговое изображение не имеет пугающих элементов. Можно ли считать это революцией в генерации изображений рук? Нет, но прогресс, определенно, есть.
Генерация широкоформатных изображений
На момент написания прошлой статьи четвертая версия алгоритма умела генерировать только квадратные изображения. Спустя месяц добавили поддержку соотношений 1:2 и 2:1, но я, как пользователь монитора с соотношением сторон 21:9 и телефона с соотношением сторон экрана 9:21, недоволен невозможностью генерировать обои на рабочий стол.
Запрос: nature landscape --ar 21:9
![](https://habrastorage.org/webt/ij/dz/zg/ijdzzgfkorn6tmf_kd7czobhk1c.png)
Сверху — третья версия. Снизу — пятая.
Запрос: cyberpunk city --v 5 --ar 21:9
![](https://habrastorage.org/webt/yz/0h/qr/yz0hqrjsgrelbgpyelj-mkm7trc.png)
Сверху — третья версия. Снизу — пятая.
Третье поколение алгоритма в некоторых случаях генерирует вытянутую картинку как смесь из нескольких квадратных Это заметно на изображении из запроса cyberpunk city, где есть некоторая симметрия относительно центральной вертикали, а в ландшафте видно две возвышенности, также симметрично расположенные.
Криповый, но более показательный пример
Пятая версия алгоритма избавилась от этого недостатка, но появился новый: иногда при генерации появляются черные полосы, которые «корректируют» изображение до другого соотношения сторон.
Запрос: city landscape --ar 50:9 --v 5
![](https://habrastorage.org/webt/hy/us/no/hyusnoj48t2hje_t7altsgwidho.png)
Фулсайз.
К слову, v3 неявно ограничивала вытянутость картинки и при генерации 32:9 полученный результат был похож скорее на 21:9. MJv5 же способна генерировать даже 100:9. Осталось найти такой монитор.
Генерация тайлов
Запрос: stone texture --tile --v 5
![](https://habrastorage.org/webt/ey/ql/ar/eyqlar033tjqvom6nevn7rtav_i.png)
Фулсайз.
В MidJourney v5 добавили экспериментальную опцию: создание тайлов. Тайлы — это картинки, которыми можно бесшовно заполнить плоскость. Такой режим подойдет при разработке, например, игр, для быстрого создания повторяющихся текстур.
Возможно, эти тексты тоже вас заинтересуют:
→ Больше одноплатников, производительных и специализированных: 5 нужных многим моделей, которые появились в марте
→ Конфигуратор и PostgreSQL: что под капотом 1С PaaS-решения для организации работы в облаке
→ Как работают объектные хранилища: OpenStack Swift
Заключение
Пока весь мир следит за текстовыми моделями, прогресс txt2img-моделей не стоит на месте. Мне очень грустно, что пятое поколение алгоритма не дружит с неоновыми котами. Тем не менее, даже в альфа-версии MidJourney v5 предлагает что-то новое и вновь погружает в магию генераций изображений, что не может не радовать.
Удалось ли вам уже протестировать пятую версию? Какие впечатления от изменений? Пишите в комментариях!