netsvetaev Dec 2 2022 at 14:48

Релиз InvokeAI 2.2: универсальный холст, удобные установщики, автозагрузка моделей и DPM++

3 min

7.4K

Python*Image processing*Machine learning*Graphic design*Artificial Intelligence

+23

Comments 27

vaniacer Dec 2 2022 at 15:22

Выглядит очень круто!

inferrna Dec 2 2022 at 15:30

Вот смотрю я требования, а там либо GPU Nvidia, либо M1. Но чуть выше написано, что ROCM всё-таки можно. Упомяните в требованиях Linux + ROCM, а то в ваш текущий шаблон багрепорта эту недоработку не протолкнуть.

netsvetaev Dec 2 2022 at 15:38

Спасибо, сообщу команде. Да, линуксы работают, АМД кое-как тянет (но только на линуксах и маках). Но лучше все-таки нвидия.

veydlin Dec 2 2022 at 18:41

Есть ли поддержка обучения? Например, создание моделей dreambooth, или, что мне очень не хватает, создание своих моделей из датасета?

netsvetaev Dec 2 2022 at 20:39

Пока нет, но это в ближайших планах. Очень хочется сделать простой интерфейс для обучения. Пока план такой: перевод бекенда на новый api и diffusers (упростит поддержку и сильно ускорит генерацию), затем ноды и далее обучение. Учитывая наши темпы, это займет 3-4 недели.

mm3 Dec 3 2022 at 06:48

Технически Stable Diffusion можно запустить только на CPU без привязки к GPU с большим количеством видео памяти. Да это будет работать на порядки медленней, но будет работать. Если бы это было сделано в режиме установки в 1 клик то это сделало бы модель ещё более народной. Вообще идеальный результат видится как запуск генерации изображения любого размера без ограничений с использованием всех доступных ресурсов.
Так же популярности возможно добавила бы мультиязычность. Я конечно понимаю что для этого скорее всего надо иметь переобученную модель, возможно даже немного другой архитектуры, но такие модели уже существуют, например от того же сбера.

UFO landed and left these words here

ainu Dec 3 2022 at 09:37

Вообще идеальный результат видится как запуск генерации изображения любого размера без ограничений с использованием всех доступных ресурсов.

Изза особенностей SD на не-паттернах (лес, узоры и так далее) наилучший результат будет именно на 512*512, а для увеличения можно пользоваться тем же свиниром. Дело не совсем в мощностях. Если иметь бесконечно мощную видеокарту, то при попытке нарисовать миллион на миллион пикселей, мы вероятно получим тысячеглазое или тысячеликое нечто.

netsvetaev Dec 3 2022 at 11:54

технически вы можете и сейчас запускать на цпу, там есть выбор устройства. Только ждать один рендер 6-10 минут, когда даже на маке это теперь занимает 50 секунд (а с релизом эпловской реализации для core ml скорость выросла в два раза), странное занятие.

netsvetaev Dec 3 2022 at 11:55

Мультиязычность на коленке организовать легко: подключить гугл-транслейт поверх. Кстати, некоторая часть русского языка в базе есть.

NeoCode Dec 3 2022 at 10:33

Было бы неплохо, если бы вы в принципе рассказали что это и как с этим работать для тех кто совсем не в теме:) Ну и аппаратные требования конечно, я так понимаю нужна мощная видеокарта и много видеопамяти?

vassabi Dec 3 2022 at 11:43

смотря что вы считаете мощной видеокартой. 4ГБ нвидия на ноутбуке у дочки - справляется

netsvetaev Dec 3 2022 at 11:56

Простите, я пишу об этом уже пару месяцев. Вот первый пост, там больше объяснений https://habr.com/en/post/693512/. Буду теперь добавлять абзац про форк.

netsvetaev Dec 3 2022 at 11:57

4гб, от нвидии 1070.

nut1k Dec 5 2022 at 18:13

Очень бы хотелось отдельное поле для негатив промта как у форка автоматика ну и возможность просто глянуть промт у изображения не вставляя его сразу в генерацию.

Планируете русский чат\канал для поддержки комьюнити?

netsvetaev Dec 5 2022 at 18:24

Поле для негативного запроса многие хотят, потому что привыкли к Авто. Но это не лучший вариант, честно. Сейчас вы можете просто [писать негативные слова в скобках]. Чуть позже, вероятно, через месяц, мы добавим более интересный и удобный графический интерфейс для работы с запросами (с совместимостью с текстовым).
Глянуть у изображения текст — да, это клево (image to prompt). Проблема в точности определения ключевых слов: мы не нашли скрипт, который бы точно определял происходящее на картинке, то есть вы не получите из этих слов такую же картинку, если будете ее генерировать. Сейчас команда переводит все на hf diffusers, после этого и работать будет быстрее, и новые фичи подключать станет удобнее. Но Инвок сохраняет все настройки и запросы в EXIF и вы легко можете кинуть картинку, сделанную в нем в другой инвок и достать оттуда строки (use prompt в контекстном меню галереи или крайняя левая кнопка сверху). Или смотрите lexica.art — там много хороших изображений.
Нет, команда англоязычная и никого, живущего в России, у нас сейчас нет. Тут три особенности: размер русскоязычного сообщества и и вообще интереса к нейросетям крайне мал по сравнению с мировым; чтобы пользоваться SD, пользователи должны знать английский на достаточно для общения уровне (как иначе писать что-то для генерации?); с каждым новым релизом количество пользователей растет и для русскоязычной поддержки потребуется отдельная команда. Но многие приходят в дискорд, объясняют свои проблемы, как могут. В конце концов, для перевода есть deepl.

sher1ch Dec 7 2022 at 01:48

1.Есть ли возможность пользоваться InvokeAI с помощью google colab?

2.Автообновления?

netsvetaev Dec 7 2022 at 01:50

Теоретически есть, практически мы пока не занимались этим.
Вроде бы, у новой версии установкщика есть файл для обновлений. Не уверен, сам пользуюсь ручной установкой. Но вряд ли вам понравится именно автоматическое обновление — вдруг все сломается? :-)

dreamer1980 Dec 14 2022 at 15:40

Прекрасно - что есть такие проекты и они развиваются. Но давайте теперь подумаем, кому интересен продукт - конечно это дизайнеры, художник и иллюстраторы и так далее. Так же хочу отметить, что 99% таких чудных профессий - не разбираются в тонкостях пайтона, и различных установок и распаковок инсталяторов и установкой ПО с многочасовыми танцами бубнами и читания форумов и т.д. Получил инсталлятор нажал исталл - получил продукт - дальше разбираешься, как он работает. К большему сожалению с InvokeAI 2.2 установить не так просто - используя инструкции разработчика - мне пока не удалось. Так же вначале идет битая ссылка на инсталлятор - https://github.com/invoke-ai/InvokeAI/releases/download/v2.2.4/invokeAI-src-installer-2.2.3-windows.zip - поискав и почитав, выходишь на какую-то страницу где наконец то можешь скачать какую-то версию. Аллилуя - читаешь инструкцию - ставишь пайтон, запускаешь рег файл, запускаешь install.bat - и на тебе ОШИБКА. Что делать? Идешь в раздел трабл - там вообще не пойми что.

/ вообще бы хорошо разделить в мануалах пункты инсталляции и факи по ОС, мешанина все в одном - не дает никаких шансов разобраться - как и почему не ставится/

Скажу так - что самое главное для распространения и популярности проекта - его доступность. На сегодня ее нет((( Только какие-то супер айтишники могут установить сей творение и им пользоваться, остальные за кадром...

Печально.

netsvetaev Dec 14 2022 at 16:08

Спасибо за подробный отзыв. Таких нам пишут мало.

Отвечу так: в конце августа, в момент релиза SD, не было ничего, кроме консоли. Которая либо работала, либо нет. Та версия требовала 24гб видеопамяти и работала в 3-4 раза медленнее.

Что сейчас: минимум — 4гб, любая видеокарта, даже допотопная gtx980 справится (лучше все же 1070 и выше). Работает в 3 раза быстрее. Мы еще и интерфейс сделали, по мнению большинства блоггеров и пользователей, лучший на сегодня. И кроссплатформенные установщики. И оптимизации внутри.

Мы делаем это бесплатно, но если бы нам платили, стоимость разработки сейчас была бы около 150000 долларов. Не уверен, что при таких вложениях Инвок бы не стал коммерческим продуктом, но вам повезло — это открытый код.

Да, это продукт для early adopters. Вы либо разбираетесь и учитесь пользоваться последней доступной технологией, и даже помогаете в разработке, либо ждете коммерческого однокнопочного софта за деньги. Сейчас Инвок используют игровые студии, дизайнеры, менеджеры, художники, а мы собираем отклики о продукте и стараемся улучшить его для них. Остальные пользователи могут попробовать midjourney и dall-e — они примитивнее, но все сделают за них.

Если у вас что-то пошло не так, пожалуйста, напишите в гитхабе или дискорде о своем железе и ошибках — вам помогут.

Что касается мануалов, я замечаю, что англоязычные пользователи не испытывают проблем и называют наши руководства грамотными и просто написанными. Русскоязычным они кажутся запутанными. Я не уверен, что знаю, как это исправить. Возможно, вы нам поможете — перевести на русский, исправить проблемы со структурой и ссылками? Если захотите, гитхаб открыт — предложите улучшения и их обязательно добавят в следующем релизе.

dreamer1980 Dec 14 2022 at 16:49

Спасибо за такой развернутый ответ. Я понимаю - как сложно и трудоемко на энтузиазме разрабатывать такой продукт. Мануалы написаны техническим с элементами сленга языком - поэтому его сложно читать и переводить. Но фактически 90% информации не потребовалось бы из мануалов - если инсталляция продукта проходило по нажатию одной кнопки без многочисленных ошибок. Инсталляция это самое важное - далее идет уже изучение функционала продукта - а без работающей версии у себя на компе это не возможно. Я сомневаюсь , что на дискорде или гетхабе мне помогут с установкой продукта - так как там на русском все в моей ОС и потом искать их ответы тоже проблематично. Я думаю 99% заинтересованных в этом продукте - просто при первой неудачи теряют интерес к продукту. И с этим надо что-то делать... / Интерфейс видел на видео - помоему удачно все и есть свои плюсы по сравнению с другими нейросетями - но в деле попробовать не могу.

netsvetaev Dec 14 2022 at 21:00

Если бы написать кроссплатформенные установщики было так легко, то инструкции бы не потребовались. Вы правы, однако, в реальности возникает вопрос: как?

Задача следующая: заставить питон с виртуальным пространством со всеми зависимостями работать на четырех платформах в 5 комбинациях (win+nvidia/lin+nvidia+amd/macm1/mac86+amd/). А софтовых комбинаций и конкретных видеокарт еще больше.

Вы описываете то, что команда постаралась сделать: автоматическую установку через запуск одного файла. Сейчас это работает для большинства людей. Но чем больше пользователей, тем больше удивительных сочетаний железа и софта, которые почему-то не работают. Как все это сделать без багов и без инструкций на случай багов я решительно не понимаю (но я и не программист).

Помочь всем и сразу мы точно не можем, ПО без ошибок не существует. Однако, когда пользователи пишут об ошибках и своих конфигурациях, разработчики заинтересованы в решении их проблем и могут помочь и им, и всем другим с подобной ошибкой.

shumenko82 Dec 18 2022 at 14:19

У меня точно так же винда 10, поставил питон по ссылке, с++. но такая же ошибка как и у вас не появляется запускной файл.

netsvetaev Dec 18 2022 at 14:21

Версия 2.2.4?

Я уже не помню, в чем беда — у некоторых он пропадает. Напишите в дискорд, пожалуйста https://discord.gg/FC5U4U2Q (и попробуйте там поискать)

shumenko82 Dec 19 2022 at 08:14

версия 2.2.5 уже, теперь ругается, что не установлен - No python was detected on your system. Please install Python version 3.9.0 or higher. При этом установлен тот, что рекомендуют Python 3.10.9. В дискорде пытался, что-то найти, но не удалось.

netsvetaev Jan 9 2023 at 20:55

скорее всего, у вас не один питон. Это решаемо, переключите его на нужую версию.

shumenko82 Jan 24 2023 at 08:27

До установки этой программы питонов у меня не было, попробовал еще последнюю версию, пишет тоже самое, видимо не судьба :)