Как стать автором
Обновить
154.88
Cloud4Y
#1 Корпоративный облачный провайдер

ERNIE-ViLG — бесплатная китайская нейросеть

Время на прочтение4 мин
Количество просмотров13K

Нейросети, генерирующие изображения, сейчас на пике популярности. В то время как все балуются Dall-E2 , MidJourney и Stable Diffusion, есть ещё одна модель, которая не так хорошо известна в интернете. Имя ей: ERNIE-ViLG.

ERNIE-ViLG — генератор изображений с открытым исходным кодом, разработанный китайским технологическим гигантом Baidu. Название нейросети расшифровывается как Enhanced Representation through Knowledge Integration — Vision Language Generation.

Несмотря на некоторую схожесть со Stable Diffusion, это разные нейросети. По крайней мере, если верить этому документу. Протестировать новый китайский инструмент можно здесь: ERNIE-ViLG Demo. Он бесплатен, и ограничений на количество сгенерированных изображений мы не увидели. Хотя генерация изображений идёт не быстро — придётся запастись терпением.

Интерфейс довольно прост: перед вами простейшая форма для ввода текста, почти два десятка разных художественных стилей и кнопка генерации изображений. Внизу ещё есть подсказки — примеры популярных запросов.

Ещё важно помнить, что ERNIE разработан на китайском языке. Это означает, что английская фраза сначала переводится на китайский язык, и только потом начинается генерация изображений.

Некоторые сотрудники Cloud4Y вдоволь поигрались с популярными нейросетями, поэтому мы решили потестировать и новинку. Вот что у нас получилось.

Тестируем фантазию

Начать мы решили с запроса, который требует некоторой доли фантазии: A cat with glasses fights for a laptop with a robot. Все запросы мы составляли таким образом, чтобы они выглядели максимально примитивно — тогда их лучше понимает машина.

Вот такой вариант в стиле "Футуризм" сгенерировал ERNIE.

Картинки побольше

Как вы можете видеть, есть пара интересных вариантов, но в целом результат не впечатляет. Первый DALL-E выдавал нечто похожее.

Хорошо, подумали мы. А если взять не абстракцию, а нечто более конкретное? Например, Dracula is learning Python program code. Увы, здесь нас постигло горькое разочарование. Нейронка упорно не хотела показывать мало-мальски приличные варианты.

Вот что получилось

Графа Дракулу нейросеть не знает. Но что насчёт просто вампиров? Итак, vampire learns Python program code on a laptop.

Ну, тоже "не ах"

Кое-что вампирское здесь уже проглядывается, но всё равно результаты не впечатлили. Может, надо попросить нарисовать что-то ещё более известное? Давайте скормим ERNIE запросы айтишной направленности.

Облака, нейросети и Россия

Докер-контейнеры пробовали многие, так что мы решили начать с них. А чтобы увеличить шансы на успех, добавили ещё пару элементов. Kubernetes with blackjack and kittens.

Похоже, ERNIE из этого набора слов нравятся только котики

Совсем далеко от того, что нужно. Сделаем такой запрос: Docker container, photos with laptop and kittens. Котиков добавляли по той простой причине, что без них на выходе получалась совсем уж причудливая абстракция.

Что-то рядом, но не то

Давайте немного уточним запрос. Kubernetes container, photos with laptop and kittens. А ещё выберем мультяшный стиль

Не, что-то контейнерное в этом есть

Да, с контейнерными технологиями Эрни не очень дружит. Интересно, нейросеть знакома с облачными технологиями? Проверяем: Russian cloud technology.

Hidden text

Некоторые изображения похожи на испорченные фотографии. И практически везде нам показывают собор Василия Блаженного. А если упростить ещё больше? Russian technology.

Вот такие вот технологии

Не совсем понятна логика машины, но ладно. Давайте без привязки к геополитике. Представим, что счастливый эльф купил видеокарту. Как его покажет ERNIE? Elf brings home a video card (cartoon).

Своеобразные эльфы, конечно

Мультяшные варианты пугают. А как насчёт реалистичного стиля? Будет хуже или лучше? Пробуем...

Elf brings home a video card (Realistic)

Не, верните всё как было. Получилось совсем уж странно. Похоже, китайкой нейросети ещё учиться и учиться, прежде чем она сможет показать результат, близкий к западным аналогам. Впрочем, китайцы быстро учатся.

Эксперименты с разными стилями

Пока что китайская нейросеть генерирует не самые удачные изображения. А что, если взять максимально простые вещи и нагенерировать их в нескольких популярных стилях? Возьмём, к пример, sun, flowers and children. Стиль — реалистичный

Реалистично?

А если это будет масляная живопись?

Масляная живопись

Попробуем добавить кукольности, режим Lolita

Lolita

Результаты вполне неплохие. Если не вглядываться в то, что на них изображено, то платья можно назвать красивыми. Следующий стиль — cyberpunk.

Cyberpunk

Некоторые изображения определённо имеют право на существование, хотя и нуждаются в доработке. Но мы не будем останавливаться, продолжаем эксперименты: Baroque.

Baroque

Стиль определённо прослеживается. А вот реалистичность — нет. Давайте тогда совсем оторвёмся от реальности и протестируем аниме-стиль.

Аниме

Как и у многих других изображений, сгенерированных нейросетью, здесь видны проблемы с конечностями, глазами, позами. Хотя и определённая красота имеется. Так что ERNIE вполне себе интересный инструмент для баловства и экспериментов.

Ещё немного картинок

ERNIE доступен через API

Следуйте инструкциям в руководстве GitHub, если захочется попробовать API (но не забывайте, это китайская нейросеть, поэтому многие инструкции тоже на китайском). Пример вызова API выглядит следующим образом.

def generate_image(
          text_prompts:str,
          style: Optional[str] = "探索无限",
          topk: Optional[int] = 6,
          output_dir: Optional[str] = 'ernievilg_output')
  • text_prompts — текст фразы;

  • style — стиль изображения;

  • topk — количество изображений (до 6);

  • output_dir — Каталог для сохранения выходного изображения.

Показывайте, что интересного получилось у вас!


Что ещё интересного есть в блоге Cloud4Y

→ Информационная безопасность и глупость: необычные примеры

→ It's Alive! Аккордеон из двух Commodore 64 и дискет

→ Как распечатать цветной механический телевизор на 3D-принтере

→ WD-40: средство, которое может почти всё

→ Подержите моё пиво, или как я сделал RGBeeb, перенеся BBC Micro в современный корпус

Подписывайтесь на наш Telegram-канал, чтобы не пропустить очередную статью. Пишем только по делу. А ещё напоминаем про второй сезон нашего сериала ITить-колотить. Его можно посмотреть на YouTube и ВКонтакте.

Теги:
Хабы:
Всего голосов 29: ↑28 и ↓1+28
Комментарии12

Публикации

Информация

Сайт
www.cloud4y.ru
Дата регистрации
Дата основания
2009
Численность
51–100 человек
Местоположение
Россия