Пост @GarantexAi — Обработка изображений

27 мар в 14:11262

Обработка изображений * ДизайнИскусственный интеллект

Вышел новый генератор изображений Phota Studio и Phota API

Lightricks выпустила Phota — модель для генерации и редактирования фотографий с акцентом на сохранение идентичности лиц. По заявлениям, это первый публичный инструмент такого уровня для работы с реальными людьми в кадре. Разберём, что здесь технически интересно, а что — маркетинговое упрощение.

Что заявлено и что это значит на практике

Phota Studio позиционируется как персонализированная модель. На деле речь идёт о fine-tuned диффузионной архитектуре с технологией сохранения identity — вероятно, на базе IP-Adapter или схожего подхода. Lightricks не раскрывает архитектуру полностью, но по результатам похоже на encoder-based face embedding.

Три основных сценария:

Редактирование композиции — изменение позы, освещения, фона при сохранении лица
Стилизация портретов — журнальная эстетика, студийный свет
Восстановление и коррекция — добавление человека на групповое фото, исправление выражения лица

API отдельно — для разработчиков. Это принципиально: Lightricks явно целится в B2B-сегмент, а не только в мобильных пользователей.

Где реальный технический прогресс

Главная проблема генеративных моделей при работе с лицами — identity drift. Лицо «уплывает» при любом изменении: добавляешь шляпу — получаешь другого человека.

Судя по демо-примерам Phota, identity preservation работает существенно лучше, чем у Midjourney или SDXL с LoRA. Lightricks заявляют о возможности использования одной референсной фотографии — если это правда без оговорок, это серьёзное упрощение пайплайна по сравнению с обучением персонального LoRA (где нужно 10–20 фото).

Однако стоит учесть: Lightricks — разработчики Facetune и Videoleap, у них огромная база размеченных лиц для обучения. Это конкурентное преимущество, которое сложно воспроизвести.

Где стоит быть скептиком

«Добавить человека на групповое фото» — технически это требует не только identity preservation, но и точного матчинга освещения, перспективы и разрешения. По опыту с аналогичными задачами через inpainting — без ручной доработки результат заметно «вклеенный» в 60–70% случаев.

«Исправить выражение лица» — здесь ключевой вопрос: насколько сильное изменение? Убрать моргание — реалистично. Превратить недовольное лицо в радостное с сохранением идентичности — уже сложнее, особенно при наличии зубов, морщин и асимметрии.

Маркетинговые материалы, свадебная фотография — звучит заманчиво, но в этих сценариях любой артефакт критичен. Пока не видел независимых тестов на edge cases: плохое освещение, профильные ракурсы, частичное перекрытие лица.

Что это означает для продакшена

Для контент-пайплайнов это потенциально полезный инструмент в связке:

Быстрое прототипирование визуалов с конкретными людьми
Генерация вариаций для A/B-тестов (позы, фоны)
Восстановление архивных фото для презентаций

Но заменить фотографа на съёмках, где важна точность — пока нет. Это инструмент для итераций и черновиков, не для финальных материалов с высокими требованиями к достоверности.

Если честно

Phota выглядит как серьёзный шаг вперёд в узкой нише — персонализированная генерация с одной референсной фото. Lightricks умеет делать качественные продукты для массового рынка.

Но между «демо выглядит круто» и «работает в продакшене» — всегда есть зазор. Особенно когда речь о лицах реальных людей, где каждый артефакт бросается в глаза.

Кто уже тестировал Phota на реальных задачах — насколько результат соответствует демо? Интересует конкретика: сколько итераций до приемлемого результата и на каких сценариях откровенно не работает?