ByteDance представляет Seedream 3.0 — новую модель преобразования текста в изображение. Тесты показывают, что она превосходит GPT-4o и Midjourney по скорости, точности и качеству изображения.

Модель была обучена на вдвое большем объёме данных по сравнению с Seedream 2.0. Сюда входят изображения, которые ранее исключались из обучения из-за визуальных дефектов, которые теперь маскируются во время предварительной обработки. Новые методы обучения, такие как выборка с учётом разрешения и обучение со смешанным разрешением, направлены на повышение точности вывода при разных размерах изображений. Seedream 3.0 поддерживает исходное разрешение 2K и может сгенерировать изображение с разрешением 1K примерно за три секунды.
В таких тестах, как Artificial Analysis Arena, где пользователи сравнивают результаты работы разных моделей, Seedream 3.0 изначально занимал первое место на момент публикации статьи. Сейчас он отстаёт от GPT-4 всего на одно очко (Arena ELO 1156 против 1157). Модель особенно хорошо справляется с заданиями, содержащими много текста, достигая 94% точности при переводе на английский и китайский языки даже при плотной типографике.
Чтобы добиться таких результатов, модель обучалась на наборах данных с подробными эстетическими и стилистическими описаниями. По словам ByteDance, результаты не только превосходят GPT-4o, но и могут превзойти ориентированные на дизайн платформы, такие как Canva, в таких задачах, как создание плакатов и стикеров. Эти сравнения касаются качества типографики и интеграции текста в изображения.

В области фотореалистичных портретов ByteDance утверждает, что Seedream 3.0 также превосходит Midjourney v6.1. По словам компании, модель создаёт более реалистичные текстуры кожи и более мелкие детали, включая морщины и волосы, избегая при этом чрезмерной гладкости, характерной для многих портретов, созданных искусственным интеллектом. В отличие от некоторых конкурирующих систем, Seedream 3.0 не требует постобработки для создания изображений с высоким разрешением.
Компания ByteDance также представила SeedEdit — инструмент-компаньон для Seedream, который позволяет редактировать изображения и текст в сгенерированных визуальных материалах. По мнению специалистов компании, SeedEdit превосходит GPT-4o и Gemini 2.0 Flash в точности внесения изменений, сохраняя при этом общую идентичность изображения. По информации, система демонстрирует более высокую точность результатов при выполнении таких операций, как удаление, замена или вставка текста, с меньшим количеством заметных искажений.

В документе Seedream 3.0 представлено множество визуальных сравнений с результатами других моделей, которые, по-видимому, подтверждают заявления ByteDance. Хотя представленные примеры относятся к благоприятным сценариям использования, модель выглядит конкурентоспособной на самом высоком уровне. ByteDance планирует интегрировать Seedream 3.0 в свою платформу для чат-ботов Doubao.