Хоть бы разобрались в том как работают "енти нейросети". Представленные для трей нейросервисов "особенности принципа работы" являются описанием одного и того же принципа диффузии изображения и его каскадного восстановления с помощью UNet.
Comfyui + Omost workflow + какая-нибудь Pony модель вроде DucHaiten Pony или ее дериватив
Я подозреваю, что под капотом у миджлрни некая архитектура, сравнимая с SDXL/PONY, но поверх нее натянули специализированную LLM которая перерабатывает твой запрос. Посмотрите Omost. Эта штука на Pony делает отличные результаты.
IT-компаниям нужно создавать условия для того, чтобы синьорам было комфортно выращивать смену без ущерба для собственной карьеры и продукта.
Описываю ситуацию... Представьте проект с аналитикой в противозачаточное состоянии. С генеральным планом разработки, написанным без оценок трудозатрат разрабами и без хоть какой-то технической проработки, перманентная красная зона и профуканные дедлайны. Менеджеры не форсят вроде, но настойчиво напоминают о том, что мы и так опаздываем. Псевдо-сеньоры с околонулевой мотивацией повышать квалификацию вместо учения на замечаниях к ревью жалуются менеджерам, что ревьюеры душнят и вечно недовольны тестами и сильно тормозят ПР. Халатный подход к кодингу и наплевательство на потребление ресурсов.
С одной стороны менеджменту интересно только выруливание из глубокой красноты. С другой стороны новомодные инфоциганские сеньоры, которые не видят разницу между рефлексией и деревом выражений в .net.
Даже при попытке создать комфортные условия для взращивания, ты не можешь помочь тому, кто хочет просто пилить в говнокод за денежки сеньора. И таких щас очень много.
Тема затронута интересная. Особенно про PuLID, одна ко ж.... 1. Какой-то кривой текст... "На MacBook не всё идеально quantised и оптимизировано". На Medium блог с рускоязычном именем, и при этом зачем-то перевод с английского да еще и будто бы сгенерирован ChatGPT.
Тема заголовка совершенно не раскрыта... это как-будто ликбеза обгрызок, а не разбор архитектуры. Статья на медиуме вообще названа как "Deep Dive", но тут мы видим поверхностная прогулка с парой растиражированных картинок.
Похоже на пустышку с кликбейтным заголовком.. АТАТАТ
Вот вам конкретный пример. Нужно сделать промо постер для помета собак. Обычно дизайнеры гуглят почтовый фон, поверх которого накладывают собак с градиентной альфа маской и с полупрозрачными прямоугольниками текстов. Весь постер - распадающийся винегрет элементов.
А с помощью SD можно бесшовно вписать собак прямо в пейзаж. Возможно статью мне стоит написать с описанием процесса, если интересно.
Синхросигналом выступает солнечная система. С учётом известных релятивистских эффектов от разных скоростей движения и гравитационного поля можно скорректировать достаточно точно и лишь изредка подводить если вдруг разойдутся.
С синхронизацией то проблем меньше. Уже предложено решение синхронизации часов в солнечной системе с коррекцией через приведение к центру масс системы. А вот по поводу восстановления состояния запутанности вопрос вроде бы открытый.
А мне вот не понятен один момент. В "еньтих ваших тырнетах" восторгаются перфомансом и эффективностью таких сетей. И при этом обходят стороной тему количества параметров модели. Я ещё не углубился в тему KAN, но мне видится такое сравнение.
Традиционная модель со скалярным весами на рёбрах (например, Stable Diffusion) мы имеем одномчисло FP16 на ребро, видимо. При этом все нейроны в слое имеют одну функцию активации всегда. Т.е. не отличаются между разными чекпоинтами.
А тут получается мы на каждое ребро должны указать класс функции активации, плюс у каждой функции активации свой набор числовых параметров, наверное. Таким образом, одно ребро уже кодируется целым числом класса функции и как минимум одним параметром функции (масштабный коэффициент). И на самом деле коэффициентов должно быть несколько (масштабный и напр. наклон какой-нибудь). Логично предположить что длину параметров сделают фиксированной по максимальному количеству. Объем чекпоинта будет в несколько раз больше. Значит эта сетка должна кратно лучше справляться с задачей просто чтобы сравняться со стандартной архитектурой сетки.
А ещё не понятно как это все будет превращаться в тензор для GPU. Оператор IF или SWITCH для GPU завезли? Видеокарта же должна налёту при операциях "тензор-тензор" менять функцию активации для миллиардов связей между нейронами.
Я не понял зачем предлагается получать карту нормалей по отрендеренному в SD изображению. Для детализации?
Как бы то ни было, мне кажется лучше сначала взять оде карты глубины и нормалей из блендер, потом применить две ControlNet для SD (depth, normal map), а потом уже все остальное
Хоть бы разобрались в том как работают "енти нейросети". Представленные для трей нейросервисов "особенности принципа работы" являются описанием одного и того же принципа диффузии изображения и его каскадного восстановления с помощью UNet.
Comfyui + Omost workflow + какая-нибудь Pony модель вроде DucHaiten Pony или ее дериватив
Я подозреваю, что под капотом у миджлрни некая архитектура, сравнимая с SDXL/PONY, но поверх нее натянули специализированную LLM которая перерабатывает твой запрос. Посмотрите Omost. Эта штука на Pony делает отличные результаты.
Comfyui + Omost workflow + какая-нибудь Pony модель вроде DucHaiten Pony или ее дериватив
Описываю ситуацию... Представьте проект с аналитикой в противозачаточное состоянии. С генеральным планом разработки, написанным без оценок трудозатрат разрабами и без хоть какой-то технической проработки, перманентная красная зона и профуканные дедлайны. Менеджеры не форсят вроде, но настойчиво напоминают о том, что мы и так опаздываем. Псевдо-сеньоры с околонулевой мотивацией повышать квалификацию вместо учения на замечаниях к ревью жалуются менеджерам, что ревьюеры душнят и вечно недовольны тестами и сильно тормозят ПР. Халатный подход к кодингу и наплевательство на потребление ресурсов.
С одной стороны менеджменту интересно только выруливание из глубокой красноты. С другой стороны новомодные инфоциганские сеньоры, которые не видят разницу между рефлексией и деревом выражений в .net.
Даже при попытке создать комфортные условия для взращивания, ты не можешь помочь тому, кто хочет просто пилить в говнокод за денежки сеньора. И таких щас очень много.
Автор бы уделил побольше внимания следующим моментам:
Все эти проверки на мусорность - это же много IF? Сколько на них тратится тактов ЦП? Или мы только умножения FP считаем?
Разбитие на блоки - насколько это перспективно с точки зрения TensoFlow и пр. технологий GPGPU.
Хотя бы псевдокодом ключевые алгоритмы представили бы.
Без этих трёх моментов статья ну совсем вода водой. А хотелось бы пива склеивающего попу со стулом.
В статье вообще огромное количество воды. Вся как будто из кликбейтных тизеров состоит.
Тема затронута интересная. Особенно про PuLID, одна ко ж....
1. Какой-то кривой текст... "На MacBook не всё идеально quantised и оптимизировано". На Medium блог с рускоязычном именем, и при этом зачем-то перевод с английского да еще и будто бы сгенерирован ChatGPT.
Тема заголовка совершенно не раскрыта... это как-будто ликбеза обгрызок, а не разбор архитектуры. Статья на медиуме вообще названа как "Deep Dive", но тут мы видим поверхностная прогулка с парой растиражированных картинок.
Похоже на пустышку с кликбейтным заголовком.. АТАТАТ
Вот вам конкретный пример. Нужно сделать промо постер для помета собак. Обычно дизайнеры гуглят почтовый фон, поверх которого накладывают собак с градиентной альфа маской и с полупрозрачными прямоугольниками текстов. Весь постер - распадающийся винегрет элементов.
А с помощью SD можно бесшовно вписать собак прямо в пейзаж. Возможно статью мне стоит написать с описанием процесса, если интересно.
У меня была статья про концепцию коммуникации с восстановлением состояния запутанности. Ожидаемо заплеванная.
Если сейчас скажут что проверку спина можно сделать без коллапса запутанности, то можно поступить тупым способом.
Измерять на своей стороне C до тех пор пока не выпадет нужная сторона монетки. Как только выпала, перестать подбрасывать монетку и ждать таймаута.
Нужен лишь договор об окне измерений, за которое успеется гарантированно получить нужное состояние.
Ну и масштабировать коммуникацию количеством запутанных троек.
Синхросигналом выступает солнечная система. С учётом известных релятивистских эффектов от разных скоростей движения и гравитационного поля можно скорректировать достаточно точно и лишь изредка подводить если вдруг разойдутся.
С синхронизацией то проблем меньше. Уже предложено решение синхронизации часов в солнечной системе с коррекцией через приведение к центру масс системы. А вот по поводу восстановления состояния запутанности вопрос вроде бы открытый.
Есть кто разбирающийся в "слабых измерениях"?
А мне вот не понятен один момент. В "еньтих ваших тырнетах" восторгаются перфомансом и эффективностью таких сетей. И при этом обходят стороной тему количества параметров модели. Я ещё не углубился в тему KAN, но мне видится такое сравнение.
Традиционная модель со скалярным весами на рёбрах (например, Stable Diffusion) мы имеем одномчисло FP16 на ребро, видимо. При этом все нейроны в слое имеют одну функцию активации всегда. Т.е. не отличаются между разными чекпоинтами.
А тут получается мы на каждое ребро должны указать класс функции активации, плюс у каждой функции активации свой набор числовых параметров, наверное. Таким образом, одно ребро уже кодируется целым числом класса функции и как минимум одним параметром функции (масштабный коэффициент). И на самом деле коэффициентов должно быть несколько (масштабный и напр. наклон какой-нибудь). Логично предположить что длину параметров сделают фиксированной по максимальному количеству. Объем чекпоинта будет в несколько раз больше. Значит эта сетка должна кратно лучше справляться с задачей просто чтобы сравняться со стандартной архитектурой сетки.
А ещё не понятно как это все будет превращаться в тензор для GPU. Оператор IF или SWITCH для GPU завезли? Видеокарта же должна налёту при операциях "тензор-тензор" менять функцию активации для миллиардов связей между нейронами.
Автоматизировать через A1111 плохая затея имхо. Особенно с SDXL. У этого бэкенда память утекает быстро и нужно перезапускать.
Лучше ComfyUI
Я не понял зачем предлагается получать карту нормалей по отрендеренному в SD изображению. Для детализации?
Как бы то ни было, мне кажется лучше сначала взять оде карты глубины и нормалей из блендер, потом применить две ControlNet для SD (depth, normal map), а потом уже все остальное
Я зашёл на хабрапост по кликбейтному заголовку и вот что произошло...
Hidden text
У поста появился дополнительный минус.
Врёт или просто начитался некомпетентных форумчан.
Бессмысленно. Тренировать на такой вы сможете только lora. А для генерации слишком много памяти. Tesla P40 сильно дешевле, хотя и проц там медленнее.
Только тренить с шареной системной будет медленно
ComfyUI на 1050 ti даже SDXL может. И не забываем что новые драйвера от Nvidia позволяют шарить с GPU системную память