Комментарии 44
как раз нам обещают подорожание цен на видюхи в связи с ..
Можно поднять на colab Fooocus и не париться с выбором железа.
Тем временем у меня на рабочем ПК с 16Гб памяти и 3060Ti спокойно работают Fooocus и Forge - оптимизация не стоит на месте.
Да я не могу одновременно с генерацией запустить фотошоп или браузер с десятком вкладок, но это терпимо. В Fooocus потребление памяти примерно 10-12Гб и 6-8Гб видеопамяти всего.
На Авито навалом 3090 по 50-70к. Не имеет смысла рассматривать что-то ещё. Объем и скорость врам хватит на все разумные случаи.
К сожалению для работы, а не поиграться, подходит только 4090. Так что вариант такой, что вариантов нет. На 4080 у меня работало, но скорость крайне медленная, особенно если учить нейронки.
Неправду пишете. На 3060 с 12ГБ можно очен сложные ComfyUI workflow выполнять. На Tesla P40 можно тренить даже SDXL. Тренировка занимает меньше или столько же времени что и разметка данных.
Я сравнивал на SD, 4080 показывала производительность почти в два раза меньше чем 4090. Упомянутая вами 3060Ti дает результаты 23 изображения в минуту, против 75 у 4090. Кому-то и кобыла невеста. У меня тренировка на 4090 моего небольшого датасета занимала около 8 часов. Сложно представить как работать, если время будет еще в три раза больше. Для целей разобраться, попробовать, что-то понять 3060 пойдет, но работать, именно выполнять задачи для работы за деньги, где когда время инженера за месяц заботы будет стоить как две 4090 имеет смысл покупать только такие видеокарты. Или идти в облака. Если у тебя месяц времени работы сотрудника стоит как железка и сотрудник упирается в производительность железки, то тут выход один купить железку. Если ты энтузиаст и тебе нужно разобраться в вопросе что бы стать тем самым сотрудником время которого будет стоит как три железки - тогда покупай то на что хватит денег что бы минимально вписаться в требования.
Ссылка на тесты перфа
https://cdn.mos.cms.futurecdn.net/RtAnnCQxaVJNYgA4LbBhuJ.png
Для кого то вопрос стоимости будет решающим, NVidia 3060 12Gb - это самая дешевая из доступных vram, следующая по цене идет 4060ti 16Gb
Напомню, что чтобы капитальные затраты (закупка оборудования) по сравнению с оперативными (электроэнергия и время) не были такими критичными, утилизировать железо нужно по максимуму, чем ближе к 100% тем лучше, чего у многих нет, вот и становится актуальным железо по тормознее но дешевле.
но работать, именно выполнять задачи для работы за деньги
А расскажите, плиз, в чем заключается работа, что вы делаете? Многие пишут про работу, но никто не рассказывает подробностей, а мне любопытно.
А кто вам сказал что я работаю с нейросетями? Я так поиграться дома. Видяху вообще в игры играть купил. Моя работа сидеть буковки в IDE в нужных местах вбивать. Работа вообще не мое, я щитаю ))
А если серьезно то мои суждения основаны на работе программиста, пишу код на с++, а с++ любит долго компилироваться, вот и приходится на работе всегда первым делом выбивать себе комп близкий к топовому конфигу, ждать 10-15 минут сборку проекта - это наймите кого-нить другого. На вопрос "а че ты хочешь такой жирный конфиг," - ответ примерно такой, я вроде пришел в топовую компанию работать, а тут комп не могут купить хотя бы такой же как у меня дома стоит. Скрипят, хмуряться, но комп выдают через время. А дома у меня стоит уже топовый амдешный 16 ядерник. Так что спорить сложно. Ну и оно реально непонятно зачем ждать, если можно не ждать. Ладно бы просил там два двухпроцессорный зион, а так просто топовой домашний проц за 750 баксов, ну епта, вы топовая ИТ компания или подвал дяди ашота.
а 1080Ti хватит?
Если погонять что-то ночами — два ядра, восемь гигов и никаких твердотельников. Утром пачка картинок готова. Но Лору так не обучить, конечно.
Вообще насчёт последних — можете хоть обдразниться «ретроградами», но в данном случае они никуда не упали, потому что чтение идёт крупными кусками и быстрое чтение вразбивку ничего не даёт. То есть выигрыш от SSD просто постольку, поскольку. В требования их записывать несколько преждевременно — максимум в рекомендации (ну так в рекомендациях вообще будет «всё бы получше, да побыстрее бы»).
С четырьмя гигами уходит в мёртвый своп, тут без шансов (хотя на какую-нибудь Теслу с 24 гигами может просто всё влезть, обнулив требования как к системной оперативке, так и к скорости диска; не проверял пока). С 16 — на проце практически без свопа гоняет. С 8 — со свопом, но без падения скорости (грузит куски быстрее, чем проц считает).
Хайли лайкли начиная с 24 гигов суммарной памяти скорость диска перестанет что-то решать (Лора не в счёт, я про генерацию).
Мне кажется, тема заголовка не до конца раскрыта. Воды много, для тех кто пришел за ответами, ситуация на текущий момент:
Требования для запуска, по видеопамяти:
SD1.5-2.0(начальный уровень) требует 4гб, 8гб для комфортной работы
SDXL(передовая по качеству) требует 8гб, 12гб для комфортной работы
SDCascade(тоже что и sdxl, но кратно меняет память на скорость) требует 12гб, 16гб для комфортной работы
Минимальные требования включают только генерацию изображений, исключают использование lora и других крутых функций. Генерация видео будет требовать больше, все остальное меньше.
Скорость чипа не влияет на качество, только на скорость получения результатов.
Забудьте про АМД большинство нейросетей и библиотек используют cuda драйвера nvidia и в реальности работают на АМД либо плохо с костылями либо вообще никак.
Лучший выбор для профессионалов по цене качеству это видеокарты 3ххх-4ххх с удвоенной памятью. В дорогом сегменте, топы 4080,4090.
Хех у меня AUTOMATIC1111 на 1050ti запускается и даже изображения создаются.
Пришлось с конфигами шаманить, но удалось же....
На rtx 4080, ссд кс3000 и 32Гб памяти 7600Mhz картинка в самом высоком разрешении генерируется порядка 18 сек в 60 шагов. Полюзуюсь fooocus.
Вообще только на SD свет клином не сошёлся. Для очень многих домашних пользователей будет не менее а иногда и более актуально иметь какие то текстогенераторы, например text-generation-webui с моделями с huggingface.
С некоторой версии драйверов Nvidia позволяет в какой то степени подменять видеопамять оперативной, причём под это выделяется до 50% объёма. То есть на конфигурации 12гб gpu + 32гб ram можно использовать модели, требующие 12+16=30 гигабайт. "нормальные" модели требуют 40,то есть минимальные требования для RAM начинаются с 64 гб. Больше особо не нужно, производительность неприемлемо просядет всё равно.
А на линухе оно нормально работает или не стоит даже пытаться?
Мне кажется, идеальная для SDXL, на данный момент, карточка (из соображения цена/производительность), это RTX 4070Ti Super. При неплохих показателях, она имеет 16Gb видеопамяти.
Сейчас существуют разные способы создать изображения в высоком разрешении с более высокой скоростью, например Kohya Hires Fix, который к тому же исправляет проблемы с двойными лицами и прочие артефакты возникающие при генерации в разрешении отличном от базового.
Сижу на 4070, мне скорости вполне хватает, вывозит где-то 8-9 итераций в секунду, но лучше брать что-то с большим объемом видеопамяти тоже из 40 серии, пожертвовав скоростью, например 4060 на 16гб. Либо доплатить и взять супер версию.
Возможно в Forge все намного лучше с видеопамятью, и там будет хватать, так как в обычном Automatic я могу упереться в нехватку памяти на тяжёлых задачах или с SDXL. Если для серьезных задач, то 12+ Гб видеопамяти, если для баловства, то далее 1660 достаточно будет, раньше на ней сидел, ещё до появления Forge, сейчас с ней наверняка ещё лучше дела обстоят.
График, представленный в статье также уже устарел, ввиду перехода на новые версии torch и развития sdp.
Понимаю что некропост, но всё же... На счет 4060Ti 16Gb - идея весьма сомнительная, там 128битная шина и в итоге пропускная способность памяти на 30% меньше чем у 3060 12Gb. И это еще не учитываем всего 8 линий PCI-E, они тоже могут стать бутылочным горлышком, особенно если мать+проц поддерживают только PCI-E 3.0
Надо бенчи смотреть. Тут вопрос ребром:
4060 на 16 как бы да, огрызок, но задачи генерации - не в игрушки играть. Модель в память загрузил и гоняешь ее до посинения.
4070 на 12 побыстрее будет, но в нее можно меньше прибамбасов загрузить. Ладно там просто модель, но вот у тебя надо картинку не 1024*1024 сделать, а в А4 300DPI. А у тебя ещё Лоры, а ещё Control Net, чтобы апскейл не руинил геометрию и детали... И всё, нет твоих 12гб.
Больше Гб - больше возможностей. Ради этого вроде как можно скоростью пожертвовать, особенно если незначительно. Но это каждый решит для себя.
Нейронка - это набор весов. А что представляет собой софт у SD?
Это что-то на питоне от пайторч? Или бинарник на С++? Или что?
Что то автор про нехватку памяти ошибается.
nvidia 1060 3Gb vram, ключ --lovram --xformers, изображения не больше 512x512 (можно по одной стороне до 700доводить) генерируются по 15-30 сек.
Минимальная рекомендация для желающих играться с нейронками - это Nvidia 3060 12Gb vram (по деньгам - можно найти 30т.р.-35т.р. а у китайцев даже 26т.р. но что то мне говорит что тут какой то подвох).
Ну а тем кто хочет заниматься llm-ками и файнтюнингом, начальный вариант это 2x..4x nvidia 4060ti 16Gb vram (примерно по 50т.р.), для игр они не очень подходят, nvidia хорошо постарались, а вот нейронки, тем, кому по дешевле, в самый раз.
Если верить сообщениям на профильных форумах, 16 Гбайт для этих целей определенно недостаточно, необходимо 32 или больше.
SDXL в ComfyUI работает и на 4ГБ 1050ti - если речь про генерацию картинок. Для тренировки LoRa достаточно 12ГБ GTX 3060.
А вот для полноценной тренировки SDXL CKPT уже нужно покупать Tesla P40 за 15 тыр.
@HomoLuden, @rPman, @falseshepard, @KonstantinTokar, а для чего всё это? Врядли же люди генерят картинки, чтобы поиграться и в статью на хабре прикольное изображение вставить. Некоторые даже пишут, что это для работы. Как это сегодня может использоваться в каких-то не развлекательных целях?
ХЗ, но для «статьи на Хабре» достаточно указанного мной выше минимума — за ночь нагенерирует предостаточно для выбора. А такие машины в богатых районах около мусорного контейнера можно встретить.
Вот вам конкретный пример. Нужно сделать промо постер для помета собак. Обычно дизайнеры гуглят почтовый фон, поверх которого накладывают собак с градиентной альфа маской и с полупрозрачными прямоугольниками текстов. Весь постер - распадающийся винегрет элементов.
А с помощью SD можно бесшовно вписать собак прямо в пейзаж. Возможно статью мне стоит написать с описанием процесса, если интересно.

Домашняя нейронка. Какое «железо» выбрать для Stable Diffusion?