Как стать автором
Обновить

«Сбер» открыл доступ к модели генерации изображений по текстовому описанию на русском языке — нейросети Kandinsky

Время на прочтение3 мин
Количество просмотров14K

По заверению «Сбера», нейросеть Kandinsky рисует настоящие живописные картины.

14 июня 2022 года команда SberDevices от «Сбера» открыла для всех пользователей экосистемы компании доступ к новой мультимодальной нейросеть Kandinsky, которая генерирует картинки по описанию на русском языке. Нейросеть уже доступна в мобильном приложении Салют, на умных устройствах Sber по запросу «Включи художника».

«Сбер» пояснил, что Kandinsky может использоваться для создания любых изображений на основе текстового описания. Так, например, нейросеть способна создавать дизайн интерьера, иллюстрации, материалы для рекламы, архитектурного и промышленного дизайна и даже изображения в области цифрового искусства.

Разработчики рассказали, что нейросеть Kandinsky способна точнее сравнивать и анализировать различные изображения, чтобы создавать настоящие живописные картины. Автоматическая генерация изображений открывает новые возможности для бизнеса, который и станет одним из главных бенефициаров новой технологии.

Команды Sber AI и SberDevices смогли существенно улучшить качество работы базовой модели нейросети ruDALL-E, дообучив её на 179 млн изображений, снабжённых текстовыми описаниями, с помощью платформы SberCloud ML Space и суперкомпьютера Christofari Neo.

Дообученная модель нейросети Kandinsky умеет генерировать изображения с произвольным соотношением сторон, а также может использовать новый способ повышения разрешения сгенерированных картинок на основе диффузионного процесса для изображений с соотношением сторон 1:1 (помимо стандартного подхода с использованием Real-ESRGAN). Теперь модель значительно лучше справляется с созданием реалистичных изображений, качественно передавая различные текстуры, тени и отражения.

Разработчики из «Сбера» раскрыли, что создание изображений при помощи модели Kandinsky происходит в три этапа. Сначала одна нейросеть (непосредственно Kandinsky), используя текстовое описание, генерирует заданное число изображений. Затем вторая (ruCLIP Large) выбирает наиболее удачные и максимально соответствующие заданному текстовому описанию картинки, а потом третья увеличивает их в размере (доступны как диффузионная модель, так и генеративно-состязательная модель Real-ESRGAN). Итогом работы модели является набор сгенерированных изображений высокого качества. Отличительным преимуществом модели Kandinsky по сравнению с предыдущими версиями является более высокая степень детализации создаваемых изображений.



В ноябре 2021 года «Сбер» рассказал о процессе обучение нейросетей ruDALL-E Kandinsky (модель XXL с 12 миллиардами параметров) и ruDALL-E Malevich (модель XL с 1,3 миллиардами параметров), в котором активно участвовали команды Sber AI, SberDevices, Самарского университета, AIRI и SberCloud. Команды «Сбера» обучили две версии модели ruDALL-E разного размера и дали им имена великих российских абстракционистов — Василия Кандинского и Казимира Малевича.

19 мая 2022 года «Сбер» представил нейросетевые сервисы «Рерайтер» и «Суммаризатор», позволяющие сократить или переписать любой текст на русском языке без потери смысла.

Специалисты SberDevices пояснили, что данные модели работают на основе нейросетевых генеративных моделей из подборки ruGPT-3 & family. Инструменты «Рерайтер» и «Суммаризатор» могут быть использованы для любой быстрой переработки текста, например, в копирайтинге, новостях, рекламных блоках.

21 апреля команда разработчиков SberDevices представила многоязычную версию нейросети GPT-3 под названием mGPT. Она может генерировать тексты на 61 языке мира, включая языки народов России и стран СНГ. «Сбер» уточнил, что mGPT — это первая в мире генеративная модель, которая поддерживает такое количество языков.

В 2020 году «Сбер» представил русскоязычную версию нейросети GPT-3, именно она используется в двух виртуальных ассистентах семейства «Салют» от «Сбера». Русскоязычная версия GPT-3, разработанная «Сбером», доступна на платформе SmartMarket.

В ноябре 2021 года «Сбер» обучил нейросеть ruGPT-3 автоматически писать код и назвал эту функцию JARVIS.

С 13 апреля GitHub начал блокировку аккаунтов команд разработчиков «Сбера» и «Альфа-Банка», включая большую часть их открытых репозиториев из-за необходимости соблюдать санкции.

В «Сбере» прокомментировали, что оставят все open-sourсe модели в открытом доступе, сейчас команды переносят их в другие репозитории.

Многие ссылки на портале разработчиков «Сбера» на GitHub теперь ведут на заглушку с ошибкой 404.

Не заблокированы:


Заблокированы:

Теги:
Хабы:
Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку
Всего голосов 6: ↑6 и ↓0+6
Комментарии7

Другие новости

Истории

Работа

Data Scientist
72 вакансии

Ближайшие события

27 августа – 7 октября
Премия digital-кейсов «Проксима»
МоскваОнлайн
19 сентября
CDI Conf 2024
Москва
20 – 22 сентября
BCI Hack Moscow
Москва
24 сентября
Конференция Fin.Bot 2024
МоскваОнлайн
25 сентября
Конференция Yandex Scale 2024
МоскваОнлайн
28 – 29 сентября
Конференция E-CODE
МоскваОнлайн
28 сентября – 5 октября
О! Хакатон
Онлайн
30 сентября – 1 октября
Конференция фронтенд-разработчиков FrontendConf 2024
МоскваОнлайн
3 – 18 октября
Kokoc Hackathon 2024
Онлайн