SingularAI 7 сен 2021 в 19:22

Нейросети уже рисуют картины и пишут сценарии. Где ещё они догоняют человека

7 мин

36K

Блог компании SingularisИскусственный интеллект

По данным Всемирного Экономического Форума, к 2025 году искусственный интеллект заменит 85 миллионов рабочих мест, в том числе — творческих. Нейронные сети уже умеют рисовать картины, писать сценарии и создавать музыку, а их произведения продают на аукционах за огромные деньги.

В этой статье разберёмся, на что ещё способны нейросети, как у них получается так хорошо подражать людям и где они смогут заменить человека. И обязательно попробуем сгенерировать что-нибудь сами.

Живопись

Васнецов писал «Спящую царевну» 40 лет, Да Винчи рисовал губы Джоконды 12 лет, а нейросети генерируют десятки образов за несколько секунд. Посмотрим, как им это удаётся и как выглядит их «творчество».

Нейросеть Google

Google был одним из первых, кто научил нейронные сети создавать картины. Ещё в 2015 году команда инженеров, среди которых был россиянин Александр Мордвинцев, разработала алгоритм компьютерного зрения Deep Dream. Он использует свёрточные нейронные сети, которые хорошо распознают образы.

DeepDream не умеет полноценно писать картины, он лишь может генерировать новые изображения на основе полученного. Но работы нейросети всё равно пользуются спросом. Например, на аукционе Christie’s картину искусственного интеллекта продали за 432 тысячи долларов.

Как это работает

Сначала Deep Dream обучают. Нейросети показывают разные изображения, и она запоминает образы: людей, животных, здания.

Затем в Deep Dream загружают фотографию. Нейронка анализирует изображение, начинает искать знакомые элементы.

Потом DeepDream рисует замеченные образы. На первых этапах нейронная сеть «смотрит» на края и углы изображений, поэтому добавляет лишь небольшие завитки и штрихи, и картинка немного искажается.

Фотографию загружают в Deep Dream → Deep Dream добавляет небольшие искажения в виде завитков

Новую картинку с искажениями Deep Mind снова анализирует и искажает. Так происходит 10–30 раз. Изображение всё больше меняется, и в итоге на нём постепенно вырисовываются объекты, которые нейросеть видела при обучении. Например, на картинке — дерево, а нейронка насмотрелась на здания, поэтому дорисует дом.

Как это выглядит

Поскольку Deep Mind в процессе обучения показали очень много картинок с животными, она видит их везде. Показываешь небо — видит птиц. Показываешь Мону Лизу — видит собаку и очень много глаз.

До обработки Deep Mind / После обработки Deep Mind

Обработать изображение с помощью DeepDream →

Нейросеть «Яндекса»

В 2020 году «Яндекс» создал целую виртуальную выставку картин, которые написала нейросеть. Это уже больше похоже на традиционное искусство. Нейросеть повторяет архитектуру StyleGAN2 от NVIDIA, которую изначально создавали, чтобы генерировать лица, неотличимые от настоящих.

Сгенерировать лицо несуществующего человека с помощью StyleGAN2 →

Как это работает

StyleGAN2 — нейросеть, где есть два алгоритма, которые соревнуются между собой. Это как фальшивомонетчик и Центробанк: первый постоянно придумывает новые способы подделать деньги, а второй подстраивается и учится отделять настоящее от фальшивого. Так система эволюционирует.

StyleGAN2 устроен подобным оброзом: с одной стороны есть генератор — он «рисует» картины, а с другой, дискриминатор — он вычисляет, похоже это на реальную картину или нет.

Сначала дискриминатору показывают изображения — например, с котиками, чтобы он научился их «видеть».

Потом в генератор подают «случайный шум», то есть набор чисел. Он создаёт из них изображение и отправляет дискриминатору.

Дискриминатор анализирует изображение, и если оно похоже на котиков, пропускает.

Так генератор и дискриминатор самообучаются в процессе постоянного «соревнования». А мы получаем всё более реалистичные картинки.

Как это выглядит

Специалисты «Яндекса» обучили свою нейросеть на произведениях из разных направлений живописи: от фовизма и кубизма до минимализма и стрит-арта. Поэтому результат работы их алгоритма гораздо ближе к привычному искусству, чем у Google:

Самостоятельно сгенерировать картины с помощью StyleGAN2 →

Нейросеть OpenAI

В январе 2021 года OpenAI разработала новую нейронную сеть DALL·E, которая умеет переводить текст в изображение.

Нейронные алгоритмы Text-to-Image — новый тренд 2021 года. Это гораздо больше напоминает реального художника: формулируешь ТЗ → нейросеть пишет картину.

Как это работает

DALL·E тоже сначала обучают. Ей показывают пары текст–изображение, то есть объясняют: здесь — собака, там — машина, тут — человек.

Пользователь отправляет в нейросеть текстовый запрос. Он преобразуется в набор цифр, а цифры внутри нейронки с помощью сложных формул превращаются в изображение.

Созданные изображения отбирает другая нейросеть — CLIP. У DALL·E нет своего дискриминатора, приходится подключать дополнительные функции. CLIP умеет определять, что изображено на картинке без предварительного обучения. Например, может точно сказать, что на фото кинг-чарльз-спаниель, а не бретонский эпаньоль или кокер-спаниель.

DALL·E может сгенерировать полную чушь, но если CLIP разглядит на картинке что-то знакомое, он её отберёт.

Как это выглядит

Вот, какие изображения генерирует DALL·E на сразу два запроса: «синяя клубника» и «витражи».

А вот ещё несколько интересных картин по разным запросам:

Самостоятельно сгенерировать картины с помощью DALL·E mini →

Классификация картин по стилю и жанру

У Singularis Lab есть разработка на базе сверточной нейросети, которая позволяет определить жанр и стиль картины. Для этого достаточно загрузить файл в систему, и алгоритм выдаст результат.

Как это работает

Обучение нейросети “основам изобразительного искусства”. Мы показали нейросети множество различных картин. Система запомнила характерные признаки представленных ей академических стилей и жанров и научилась определять их самостоятельно.

Загрузка изображения с любого устройства. Демка доступна с любого устройства с выходом в интернет. Вы можете загрузить любое изображение, даже фотографию вашего блокнота. Нейросеть в любом случае классифицирует его по своей базе знаний.

Нейросеть классифицирует изображение, показывает вам результат и примеры похожих картин.

Подробнее о проекте рассказываем здесь.

Поиграться с нашей разработкой вы можете здесь →

Новости и статьи

Главный научный сотрудник Narrative Science Кристиан Хаммонд считает, что к 2030 году 90% новостей будут написан искусственным интеллектом.

Западные издания уже применяют нейросети для написания новостных заметок. Для этого используют передовую модель на нейронных сетях GPT-3 — самый мощный инструмент, который умеет генерировать текст.

GPT-3 настолько хорошо подражает человеку, что OpenAI держит нейросеть в закрытом доступе. Создатели боятся, что их разработку могут использовать для распространения дезинформации.

Как это работает

Нейросеть заранее обучают. Например, на старте GPT-3 показали 45 ТБ текста из интернета: статьи из «Википедии», книги, полезные материалы.

Нейросеть запоминает, как пишут люди: о чём они говорят, какие слова чаще ставят вместе, а какие — нет..

GPT-3 принимает начало текста от пользователя и начинает пристраивать к нему каждое следующее слово. Она перебирает все известные ей слова и оценивает, какое лучше подойдёт в каждом случае. Поскольку она видела очень много примеров, предсказания GPT-3 часто оказываются удачными.

Как это выглядит

Американский студент создал целый блог, который вела нейросеть GPT-3. Тексты публиковались на известном агрегаторе новостей Hacker News.

GPT-3 настолько хорошо генерирует тексты, что одна статья даже заняла первое место в топе — пользователи посчитали её самой интересной.

Подвох заметил лишь один юзер Hacker News, но его обвинили в некорректности и попросили не обижать автора.

— Похоже, что это написал GPT-3. Текст ни о чем.
— Может, вы здесь новенький, но ваш грубый комментарий неприемлем в этом сообществе. Если вы не согласны с текстом, приведите аргументы, а не оскорбляйте автора. — — Похоже, что это написал GPT-3. Текст ни о чем. — Может, вы здесь новенький, но ваш грубый комментарий неприемлем в этом сообществе. Если вы не согласны с текстом, приведите аргументы, а не оскорбляйте автора.

Ещё GPT-3 хорошо показала себя в создании новостных заголовков. В проекте Neural Meduza русскоязычная модель GPT-3 от «Сбера» занимается ровно этим: генерирует фейковые заголовки. Порой выходит очень правдоподобно:

Сгенерировать текст с помощью русскоязычной GPT-3 в Google Colab →

Сценарии

По сценариям, которые пишут нейросети, уже снимают короткометражные фильмы. Выходит странно, но по-своему интересно. На YouTube есть целый канал Calamity Ai, на который студенты калифорнийской киношколы выкладывают короткометражки по сценариям, написанным нейросетью.

Посмотреть короткометражку от нейросети вы можете здесь.

Такая нейросеть есть и у «Яндекса». В июне 2021 года компания представила сервис «Балабоба», который умеет достраивать тексты. В основе «Балабобы» — нейросеть YaLM, которая готовит ответы для «Поиска» и «Алисы».

«Балабоба» умеет генерировать сценарии фильмов, теории заговора, ТВ-репортажи, пацанские цитаты, тосты и рекламные слоганы.

Как это работает

YaLM работает по похожему с GPT-3 принципу.

«Яндекс» заранее обучил YaLM. Нейросетке показали веб-страницы с текстом на русском: статьи, новости, книги, посты в соцсетях и сообщениях на форумах.

Нейронка запомнила примеры. Она усвоила, что в предложения Толстого тянутся на полстраницы, а после «Мама мыла...» лучше поставить слово «рама», а не «бегать».

Теперь, когда пользователь пишет начало текста «Балабобе», нейронка начинает подбирать каждое следующее слово — как Т9 в смартфоне. YaLM перебирает слова и оценивает, какое лучше подойдёт для этого контекста и не нарушит ли нейросеть при этом правила русского языка.

Как это выглядит

Вот, какую концепцию для фильма «Балабоба» сгенерировал на основе зачина криминальной комедии «Карты, деньги, два ствола».

Создать синопсис фильма с помощью «Балабобы» →

Разработка

Искусственный интеллект так быстро развивается, что под угрозой оказались сами разработчики. В августе 2021 года OpenAI выпустила нейросеть Codex, которая однажды может заменить программистов.

Codex — это инструмент, который умеет преобразовывать команды на английском языке в программный код. Нейросеть лучше всего работает с Python, но спокойно может написать код на JavaScript, Go, Perl, PHP, Ruby, Swift, TypeScript и даже Shell.

Как это работает

Codex — по сути, тот же GPT-3, который просто гораздо лучше пишет код.

Сначала Codex изучает все открытые репозитории GitHub — это терабайты программного кода.

Затем нейронка анализирует код и комментарии к нему. Она запоминает, что пишет программист после определённого комментария и учитывает это при работе.

Пользователь на английском языке пишет Codex, что нужно сделать. Например, «выведи “Привет, мир”». А нейрость пишет строчку кода: print('Привет, мир'), если выбрали язык Python.

Как это выглядит

Вот, как с помощью Codex разработчик создаёт игру через команды нейросети:

Пользователь даёт команду — нейросеть её выполняет

Смотреть полную версию →

OpenAI Codex работает в закрытом бета-тестировании. Чтобы попробовать нейросетку, нужно попасть в список ожидания. Для этого придётся заполнить форму и немного подождать.

Присоединиться к списку ожидания Codex →

Самому поиграться с нейросетями

Теги:

Хабы:

Нейросети уже рисуют картины и пишут сценарии. Где ещё они догоняют человека

Живопись

Нейросеть Google

Как это работает

Как это выглядит

Нейросеть «Яндекса»

Как это работает

Как это выглядит

Нейросеть OpenAI

Как это работает

Как это выглядит

Классификация картин по стилю и жанру

Как это работает

Новости и статьи

Как это работает

Как это выглядит

Сценарии

Как это работает

Как это выглядит

Разработка

Как это работает

Как это выглядит

Самому поиграться с нейросетями

Публикации

Информация

Истории