Почему диффузия рисует швы на 40-мегапиксельных фото и как сделать тайлы с памятью

У видео-моделей есть память между кадрами. У диффузионных фото-моделей - нет. Именно поэтому стандартный тайлинг профессиональных кадров на 40-150 мегапикселей всегда даёт лестницу швов на градиенте неба, плывущий цвет на коже и драматический перепад текстур на границах тайлов.
Я двадцать лет работаю ретушёром и четвёртый год пытаюсь это починить, приспособить диффузионки к профессиональной съёмке. Все эти годы любой подход, что мой, что чужой, крутится вокруг одного: режем картинку на 100+ тайлов, обрабатываем каждый отдельно, склеиваем обратно. И каждый раз вылезает то же самое - тайлы не согласовываются между собой.
В статье разбираю три идеи о том, как у фото-модели может появиться память между соседями. Восемь архитектурных классов памяти из видео-диффузии (BCLA из SANA-Video, FramePack, SVD reshape, AnimateDiff и другие): какие переносятся на тайлы, какие нет и почему.



















