Пост @ledevik — Блог компании Криптонит

6 ноя 2024 в 10:344.5K

Сегодня хотим рассказать про Imagen 3 — новую генеративную модель от Google, которая создаёт рисунки на основе текстовых запросов.

Главное отличие Imagen 3 от аналогичных text-to-image (T2I) моделей состоит в том, что Imagen 3 поддерживает сложные промпты с подробным описанием на несколько строк.

Также разработчики заявляют, что Imagen 3 точнее передаёт фотореализм, чем другие T2I модели. В частности, по результатам собственных тестов Google, Imagen 3 превосходит DALL·E 3, Midjourney v6, Stable Diffusion 3 Large и Stable Diffusion XL 1.0

Такой вывод был сделан по результатам 366 569 оценок в 5943 работах от 3225 различных людей. Они оценивали соответствие картинки промпту, точность передачи деталей, корректность отрисовки заданного числа объектов и общую визуальную привлекательность изображения.

В нашем собственном тесте Imagen 3 справился с длинным запросом не без ошибок. В 3 случаях из 4 он ошибся с количеством мониторов, а вместо протеза правой руки изобразил протез левой.

В конфигурации по умолчанию Imagen 3 генерирует изображения с разрешением 1024×1024, после чего их можно масштабировать в 2, 4 или 8 раз.

Imagen 3 уже доступен на платформе Google Labs ImageFX. Запросы лучше писать на английском языке.

Публикации

Информация