Сегодня хотим рассказать про Imagen 3 — новую генеративную модель от Google, которая создаёт рисунки на основе текстовых запросов.

Главное отличие Imagen 3 от аналогичных text-to-image (T2I) моделей состоит в том, что Imagen 3 поддерживает сложные промпты с подробным описанием на несколько строк.
Также разработчики заявляют, что Imagen 3 точнее передаёт фотореализм, чем другие T2I модели. В частности, по результатам собственных тестов Google, Imagen 3 превосходит DALL·E 3, Midjourney v6, Stable Diffusion 3 Large и Stable Diffusion XL 1.0
Такой вывод был сделан по результатам 366 569 оценок в 5943 работах от 3225 различных людей. Они оценивали соответствие картинки промпту, точность передачи деталей, корректность отрисовки заданного числа объектов и общую визуальную привлекательность изображения.
В нашем собственном тесте Imagen 3 справился с длинным запросом не без ошибок. В 3 случаях из 4 он ошибся с количеством мониторов, а вместо протеза правой руки изобразил протез левой.
В конфигурации по умолчанию Imagen 3 генерирует изображения с разрешением 1024×1024, после чего их можно масштабировать в 2, 4 или 8 раз.
Imagen 3 уже доступен на платформе Google Labs ImageFX. Запросы лучше писать на английском языке.