Comments 9
Так все-таки где CFG-scale в алгоритме SD, и как оно работает с математической точки зрения? За статьи и доки спасибо, но вы обещали "Самое понятное объяснения"
Самое понятное не может быть без научной базы, ибо для ученого простой пример понятен не будет)))
А для всех я привел аналогию с лизуном, к примеру, она вполне, как мне кажется, отражает суть понятия)
Да, возможно не затронул полностью все области, всех деталей, но считаю, что написал достаточно. Математику стоит изучить уже в статьях, там высшая алгебра и матан, я только часть формул понял и одну из них вынес в виде скрина
К сожалению, после прочтения статьи так и не получил внятного ответа, что такое CFG Scale...
PS: аналогии про лизуна не зашли, а сама суть - алгоритм "механика описывается парой строк кода" не раскрыт, было бы лучше пройти по этим строкам и разжевать их, что именно делается, где там текстовая подсказка, где там веса нейросети, что там семплится откуда и т.п.
Думаю, вы смекаете, что это самое бесполезное объяснение? Дмитрий, вы сами этот алгоритм понимаете или попробовали скомпилировать из разных статей?
В курсе ИИ графики от kibo про CFG Scale сказано так:
Если запрос условно представить себе в виде фильтра, через который пропускается начальный шум, то CFG Scale - это контрастность фильтра, причем как в визуальном, так и в смысловом плане.
Чем ниже CFG Scale, тем больше сторонней информации будет присутствовать в итоговом изображении. Это приводит к более хаотичным образам и к пониженной контрастности изображения.
Чем выше CFG Scale, тем более активно система ИИ графики выделяет запрос из шума. Это приводит к более явно выраженным образам и к повышенной контрастности изображения.
Самое понятное объяснения CFG Scale в нейросетях. Как эта штука повлияла на появление Stable Diffusion