Как стать автором
Обновить

«Сбер» создал первую российскую диффузионную модель для генерации изображений по тексту на разных языках Kandinsky 2.0

Время на прочтение3 мин
Количество просмотров2.3K


«Сбер» представил первую российскую диффузионную модель для генерации изображений по тексту на разных языках Kandinsky 2.0.

Подробное описание проекта Kandinsky 2.0 от разработчиков есть на Хабре.

«Сбер» пояснил, что Kandinsky 2.0 — это первая российская мультиязычная диффузионная модель для генерации изображений по текстовому описанию с 2 млрд параметров.

Нейросеть разработали и обучили исследователи Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и SberDevices из 1 млрд пар «текст — изображение». Увидеть, как она рисует, можно на сайте FusionBrain, а также при помощи команды «Запусти художника» на умных устройствах Sber и в мобильном приложении «Салют».

Нейросеть «Сбера» Kandinsky 2.0 нарисовала пингвина с ноутбуком и мороженкой.

FusionBrain.ai – открытый портал для демонстрации моделей, приближающий мир к созданию AGI (Artificial General Intelligence, сильный искусственный интеллект) от Института AIRI, который «Сбер» решил поддержать, первым выложив свою модель на ресурсе. В будущем на сайте FusionBrain.ai будут доступны как генеративные, так и передовые мультимодальные и мультизадачные модели.

В Kandinsky 2.0 разработчики использовали набирающий популярность диффузионный подход, поскольку модели подобной архитектуры, в отличие от трансформеров, дают хорошие результаты почти во всех задачах генерации мультимедийного контента по текстовому описанию (синтез изображений, видео, 3D и аудио).

Модель Kandinsky 2.0 способна одинаково быстро и качественно обрабатывать запросы на 101 языке. Среди них как распространённые русский и английский, так и более редкие, например, монгольский. Система поймёт задачу, даже если в одном запросе будут слова на разных языках.

Kandinsky 2.0 отличается от своего предшественника более сочной, глубокой и реалистичной картинкой и расширенными возможностями. На сайте FusionBrain изображения можно генерировать в 20 различных стилях, среди которых ренессанс, классицизм, мультипликация, Новый год и даже хохлома. В модели также реализованы функции inpainting (замена любой части изображения и любого объекта на изображении на сгенерированные нейросетью) и outpainting (возможность дорисовывать готовое изображение и фон вокруг картинки).

Кроме того, в Kandinsky 2.0 пользователи могут оценить, как одинаковые с точки зрения смысла лингвистические конструкции и понятия отличаются в зависимости от языка и культурной окраски. Например, если сформулировать запрос «национальное блюдо» на русском языке, нейросеть чаще всего рисует щи, а на японском это будет мисо-суп и суши.

«Мы продолжаем развивать решения для автоматической генерации изображений по описанию на естественном языке — так называемый креативный ИИ. Kandinsky 2.0, который пришёл на смену первой версии модели, — прорыв в этой сфере. Наша модель позволяет за несколько секунд получить уникальную картинку под конкретную задачу и свободно распространять её без лицензии, что очень актуально для бизнеса. Генеративные модели развиваются очень быстро: ещё четыре года назад даже постановку такой задачи сложно было представить, а сегодня мы имеем работающую модель, которая понимает 101 язык и рисует реалистичные изображения, которые зачастую неотличимы от тех, что создают люди», — пояснил первый заместитель председателя правления «Сбера» Александр Ведяхин.

В июне 2022 года «Сбер» открыл доступ к модели генерации изображений по текстовому описанию на русском языке — нейросети Kandinsky, которая генерирует картинки по описанию на русском языке. Команды Sber AI и SberDevices смогли существенно улучшить качество работы базовой модели нейросети ruDALL-E, дообучив её на 179 млн изображений, снабжённых текстовыми описаниями, с помощью платформы SberCloud ML Space и суперкомпьютера Christofari Neo.

В ноябре 2021 года «Сбер» рассказал о процессе обучение нейросетей ruDALL-E Kandinsky (модель XXL с 12 миллиардами параметров) и ruDALL-E Malevich (модель XL с 1,3 миллиардами параметров), в котором активно участвовали команды Sber AI, SberDevices, Самарского университета, AIRI и SberCloud. Команды «Сбера» обучили две версии модели ruDALL-E разного размера и дали им имена великих российских абстракционистов — Василия Кандинского и Казимира Малевича.

19 мая 2022 года «Сбер» представил нейросетевые сервисы «Рерайтер» и «Суммаризатор», позволяющие сократить или переписать любой текст на русском языке без потери смысла.

21 апреля команда разработчиков SberDevices представила многоязычную версию нейросети GPT-3 под названием mGPT. Она может генерировать тексты на 61 языке мира, включая языки народов России и стран СНГ. «Сбер» уточнил, что mGPT — это первая в мире генеративная модель, которая поддерживает такое количество языков.

В 2020 году «Сбер» представил русскоязычную версию нейросети GPT-3, именно она используется в двух виртуальных ассистентах семейства «Салют» от «Сбера». Русскоязычная версия GPT-3, разработанная «Сбером», доступна на платформе SmartMarket.

В ноябре 2021 года «Сбер» обучил нейросеть ruGPT-3 автоматически писать код и назвал эту функцию JARVIS.
Теги:
Хабы:
Всего голосов 2: ↑2 и ↓0+2
Комментарии3

Другие новости

Работа

Data Scientist
43 вакансии

Ближайшие события