Комментарии 4
Руки и обрезка не самые серьёзные проблемы: по крайней мере понятно, как их решать, и в следующих версиях SD-нейронок с ними очевидно справятся.
А вот т.н. "проблема Красной Шапочки" (Red Riding Hood Issue) является фундаментальной, и именно из-за неё многие предполагают, что модели, основанные на CLIP - это тупиковая ветвь развития генеративных сетей.
Проблема таких сеток в том, что они не ортогональны: любое слово в запросе влияет на всю картинку целиком и это влияние очень плохо локализуется. Попробуйте например сгенерировать связку воздушных шариков, чтобы в ней были одновременно синий, зелёный, красный и жёлтый шарики - и вы поймёте, что любой ключевик с цветами влияет сразу на всё, включая фон.
Точно так же очень сложно сгенерировать девочку в красной шапочке так, чтобы при этом глаза волка остались по-прежнему жёлтыми.
Fast-dreambooth. Имба для тонкой настройки StableDiffusion