Как стать автором
Обновить

Домашняя нейронка. Какое «железо» выбрать для Stable Diffusion?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров15K
Всего голосов 17: ↑16 и ↓1+20
Комментарии42

Комментарии 42

как раз нам обещают подорожание цен на видюхи в связи с ..

[dushnila_mode]Цена не может продолжать. Товар - может.[/dm]

Можно поднять на colab Fooocus и не париться с выбором железа.

Тем временем у меня на рабочем ПК с 16Гб памяти и 3060Ti спокойно работают Fooocus и Forge - оптимизация не стоит на месте.
Да я не могу одновременно с генерацией запустить фотошоп или браузер с десятком вкладок, но это терпимо. В Fooocus потребление памяти примерно 10-12Гб и 6-8Гб видеопамяти всего.

На Авито навалом 3090 по 50-70к. Не имеет смысла рассматривать что-то ещё. Объем и скорость врам хватит на все разумные случаи.

Tesla P40 стоила 15 на адишке. + Охлаждение 4к

Ну это все та и Паскаль, где мало ядер и нет тензорных.

К сожалению для работы, а не поиграться, подходит только 4090. Так что вариант такой, что вариантов нет. На 4080 у меня работало, но скорость крайне медленная, особенно если учить нейронки.

Неправду пишете. На 3060 с 12ГБ можно очен сложные ComfyUI workflow выполнять. На Tesla P40 можно тренить даже SDXL. Тренировка занимает меньше или столько же времени что и разметка данных.

Я сравнивал на SD, 4080 показывала производительность почти в два раза меньше чем 4090. Упомянутая вами 3060Ti дает результаты 23 изображения в минуту, против 75 у 4090. Кому-то и кобыла невеста. У меня тренировка на 4090 моего небольшого датасета занимала около 8 часов. Сложно представить как работать, если время будет еще в три раза больше. Для целей разобраться, попробовать, что-то понять 3060 пойдет, но работать, именно выполнять задачи для работы за деньги, где когда время инженера за месяц заботы будет стоить как две 4090 имеет смысл покупать только такие видеокарты. Или идти в облака. Если у тебя месяц времени работы сотрудника стоит как железка и сотрудник упирается в производительность железки, то тут выход один купить железку. Если ты энтузиаст и тебе нужно разобраться в вопросе что бы стать тем самым сотрудником время которого будет стоит как три железки - тогда покупай то на что хватит денег что бы минимально вписаться в требования.

Ссылка на тесты перфа

https://cdn.mos.cms.futurecdn.net/RtAnnCQxaVJNYgA4LbBhuJ.png

Для кого то вопрос стоимости будет решающим, NVidia 3060 12Gb - это самая дешевая из доступных vram, следующая по цене идет 4060ti 16Gb

Напомню, что чтобы капитальные затраты (закупка оборудования) по сравнению с оперативными (электроэнергия и время) не были такими критичными, утилизировать железо нужно по максимуму, чем ближе к 100% тем лучше, чего у многих нет, вот и становится актуальным железо по тормознее но дешевле.

но работать, именно выполнять задачи для работы за деньги

А расскажите, плиз, в чем заключается работа, что вы делаете? Многие пишут про работу, но никто не рассказывает подробностей, а мне любопытно.

А кто вам сказал что я работаю с нейросетями? Я так поиграться дома. Видяху вообще в игры играть купил. Моя работа сидеть буковки в IDE в нужных местах вбивать. Работа вообще не мое, я щитаю ))

А если серьезно то мои суждения основаны на работе программиста, пишу код на с++, а с++ любит долго компилироваться, вот и приходится на работе всегда первым делом выбивать себе комп близкий к топовому конфигу, ждать 10-15 минут сборку проекта - это наймите кого-нить другого. На вопрос "а че ты хочешь такой жирный конфиг," - ответ примерно такой, я вроде пришел в топовую компанию работать, а тут комп не могут купить хотя бы такой же как у меня дома стоит. Скрипят, хмуряться, но комп выдают через время. А дома у меня стоит уже топовый амдешный 16 ядерник. Так что спорить сложно. Ну и оно реально непонятно зачем ждать, если можно не ждать. Ладно бы просил там два двухпроцессорный зион, а так просто топовой домашний проц за 750 баксов, ну епта, вы топовая ИТ компания или подвал дяди ашота.

а 1080Ti хватит?

Хватит если в ComfyUI умеете

Если погонять что-то ночами — два ядра, восемь гигов и никаких твердотельников. Утром пачка картинок готова. Но Лору так не обучить, конечно.

Вообще насчёт последних — можете хоть обдразниться «ретроградами», но в данном случае они никуда не упали, потому что чтение идёт крупными кусками и быстрое чтение вразбивку ничего не даёт. То есть выигрыш от SSD просто постольку, поскольку. В требования их записывать несколько преждевременно — максимум в рекомендации (ну так в рекомендациях вообще будет «всё бы получше, да побыстрее бы»).

С четырьмя гигами уходит в мёртвый своп, тут без шансов (хотя на какую-нибудь Теслу с 24 гигами может просто всё влезть, обнулив требования как к системной оперативке, так и к скорости диска; не проверял пока). С 16 — на проце практически без свопа гоняет. С 8 — со свопом, но без падения скорости (грузит куски быстрее, чем проц считает).

Хайли лайкли начиная с 24 гигов суммарной памяти скорость диска перестанет что-то решать (Лора не в счёт, я про генерацию).

Мне кажется, тема заголовка не до конца раскрыта. Воды много, для тех кто пришел за ответами, ситуация на текущий момент:

Требования для запуска, по видеопамяти:

SD1.5-2.0(начальный уровень) требует 4гб, 8гб для комфортной работы

SDXL(передовая по качеству) требует 8гб, 12гб для комфортной работы

SDCascade(тоже что и sdxl, но кратно меняет память на скорость) требует 12гб, 16гб для комфортной работы

Минимальные требования включают только генерацию изображений, исключают использование lora и других крутых функций. Генерация видео будет требовать больше, все остальное меньше.

Скорость чипа не влияет на качество, только на скорость получения результатов.

Забудьте про АМД большинство нейросетей и библиотек используют cuda драйвера nvidia и в реальности работают на АМД либо плохо с костылями либо вообще никак.

Лучший выбор для профессионалов по цене качеству это видеокарты 3ххх-4ххх с удвоенной памятью. В дорогом сегменте, топы 4080,4090.

Оперативка вообще не сильно влияет, просто придерживайтесь того что ее должно быть больше чем видеопамяти.

Хех у меня AUTOMATIC1111 на 1050ti запускается и даже изображения создаются.

Пришлось с конфигами шаманить, но удалось же....

ComfyUI на 1050 ti даже SDXL может. И не забываем что новые драйвера от Nvidia позволяют шарить с GPU системную память

На rtx 4080, ссд кс3000 и 32Гб памяти 7600Mhz картинка в самом высоком разрешении генерируется порядка 18 сек в 60 шагов. Полюзуюсь fooocus.

Вообще только на SD свет клином не сошёлся. Для очень многих домашних пользователей будет не менее а иногда и более актуально иметь какие то текстогенераторы, например text-generation-webui с моделями с huggingface.

С некоторой версии драйверов Nvidia позволяет в какой то степени подменять видеопамять оперативной, причём под это выделяется до 50% объёма. То есть на конфигурации 12гб gpu + 32гб ram можно использовать модели, требующие 12+16=30 гигабайт. "нормальные" модели требуют 40,то есть минимальные требования для RAM начинаются с 64 гб. Больше особо не нужно, производительность неприемлемо просядет всё равно.

Вот текстогенераторы действительно интересны, особенно - с русским языком и возможностью дообучения модели. Где об этом можно почитать? Буду благодарен за ссылки.

Только тренить с шареной системной будет медленно

А на линухе оно нормально работает или не стоит даже пытаться?

Некоторые возможности сначала делают на линуксе, потом переносят на виндовс. А некоторые наоборот. То есть работает. Но не всё и не всегда, и то же с виндовсом. Но постепенно и то и другое допиливают.

Ни на чём ином и не пробовал :)

Мне кажется, идеальная для SDXL, на данный момент, карточка (из соображения цена/производительность), это RTX 4070Ti Super. При неплохих показателях, она имеет 16Gb видеопамяти.

Бессмысленно. Тренировать на такой вы сможете только lora. А для генерации слишком много памяти. Tesla P40 сильно дешевле, хотя и проц там медленнее.

Если человеку достаточно LoRA, но важно поиграть в качестве неосновного применения — чего бы и не…

Сейчас существуют разные способы создать изображения в высоком разрешении с более высокой скоростью, например Kohya Hires Fix, который к тому же исправляет проблемы с двойными лицами и прочие артефакты возникающие при генерации в разрешении отличном от базового.

Сижу на 4070, мне скорости вполне хватает, вывозит где-то 8-9 итераций в секунду, но лучше брать что-то с большим объемом видеопамяти тоже из 40 серии, пожертвовав скоростью, например 4060 на 16гб. Либо доплатить и взять супер версию.

Возможно в Forge все намного лучше с видеопамятью, и там будет хватать, так как в обычном Automatic я могу упереться в нехватку памяти на тяжёлых задачах или с SDXL. Если для серьезных задач, то 12+ Гб видеопамяти, если для баловства, то далее 1660 достаточно будет, раньше на ней сидел, ещё до появления Forge, сейчас с ней наверняка ещё лучше дела обстоят.

График, представленный в статье также уже устарел, ввиду перехода на новые версии torch и развития sdp.

Нейронка - это набор весов. А что представляет собой софт у SD?

Это что-то на питоне от пайторч? Или бинарник на С++? Или что?

pyTorch в 100% случаев для графических интерфейсов к SD перечисленных в статье. Для текстовых чаще всего скомпиленый бинарник.

Что то автор про нехватку памяти ошибается.

nvidia 1060 3Gb vram, ключ --lovram --xformers, изображения не больше 512x512 (можно по одной стороне до 700доводить) генерируются по 15-30 сек.

Минимальная рекомендация для желающих играться с нейронками - это Nvidia 3060 12Gb vram (по деньгам - можно найти 30т.р.-35т.р. а у китайцев даже 26т.р. но что то мне говорит что тут какой то подвох).

Ну а тем кто хочет заниматься llm-ками и файнтюнингом, начальный вариант это 2x..4x nvidia 4060ti 16Gb vram (примерно по 50т.р.), для игр они не очень подходят, nvidia хорошо постарались, а вот нейронки, тем, кому по дешевле, в самый раз.

Врёт или просто начитался некомпетентных форумчан.

Если верить сообщениям на профильных форумах, 16 Гбайт для этих целей определенно недостаточно, необходимо 32 или больше.

SDXL в ComfyUI работает и на 4ГБ 1050ti - если речь про генерацию картинок. Для тренировки LoRa достаточно 12ГБ GTX 3060.

А вот для полноценной тренировки SDXL CKPT уже нужно покупать Tesla P40 за 15 тыр.

@HomoLuden, @rPman, @falseshepard, @KonstantinTokar, а для чего всё это? Врядли же люди генерят картинки, чтобы поиграться и в статью на хабре прикольное изображение вставить. Некоторые даже пишут, что это для работы. Как это сегодня может использоваться в каких-то не развлекательных целях?

ХЗ, но для «статьи на Хабре» достаточно указанного мной выше минимума — за ночь нагенерирует предостаточно для выбора. А такие машины в богатых районах около мусорного контейнера можно встретить.

Мне интересно в том плане, что я вижу как формируется новый рынок и не понимаю в чем его экономика.

Вот вам конкретный пример. Нужно сделать промо постер для помета собак. Обычно дизайнеры гуглят почтовый фон, поверх которого накладывают собак с градиентной альфа маской и с полупрозрачными прямоугольниками текстов. Весь постер - распадающийся винегрет элементов.

А с помощью SD можно бесшовно вписать собак прямо в пейзаж. Возможно статью мне стоит написать с описанием процесса, если интересно.

Спасибо, интересно, мне всё интересно про нейросетки. Подписался на вас.

Вот например такой постер. Тут по реальным собачкам их силуэт обрисовывался с SD1.5 (чекпоинт CinEro SD15). Потом поверх рисованных собак клались обратно реальные. Совпадают почти идеально и вписываются в окружение с отражением от ступеней.
Вот например такой постер. Тут по реальным собачкам их силуэт обрисовывался с SD1.5 (чекпоинт CinEro SD15). Потом поверх рисованных собак клались обратно реальные. Совпадают почти идеально и вписываются в окружение с отражением от ступеней.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий