Посты блогов с изображениями — это в 2,3 раза больше вовлечённости. Но проблема вот в чём — мы делаем движок запросов для потоковых таблиц. И как же выбирать изображения для технических тем?

Мы — небольшая команда, в основном из инженеров, поэтому у нас нет ни времени, ни бюджета, чтобы заказывать индивидуальные иллюстрации для каждого поста.

До сих пор мы проводили 10 минут за просмотром связанных, но в конце концов плохо подходящих изображений на сайтах стоковых фото, загружали что-нибудь не кошмарное, вставляли в блог и нажимали кнопку публикации. А сможет ли DALL-E сделать миниатюры б��ога лучше, дешевле и вообще просто забавнее? Да, поклонники квантов, это возможно.

Я потратил выходные и 45 долларов США на кредиты OpenAI, чтобы создать новые эскизы, которые лучше отражают содержание более чем 100 сообщений из нашего блога. И вот весь блог с более чем сотней миниатюр.

Замена миниатюр на изображения DALL-E, до и после

Замена миниатюр на изображения DALL-E, до и после

Больше всего мне нравится изображение ниже, для поста, где обсуждаются кое-какие наши готовые контейнеры Docker:

Blue whale with stacks of shipping containers on it’s back, cgsociety artstation trending 4k.jpg

Запрос: «Blue whale with stacks of shipping containers on its back, cgsociety artstation trending 4k».

10 вещей, которые я узнал о генерации изображений через ИИ

1. Подбор запроса — дело трудное, требует творческого подхода

Подбор запроса корректирует результат. И это сложно. Первая задача для технических тем — придумать творческую идею. Мой подход — быстро перечитать каждый пост, сделать заметки о любых изображениях, которые во время чтения приходили в голову, а ещё искать связанные с любой из этих тем изображения и логотипы.

Я думал о том, что приходит на ум при чтении, и придумывал творческий подход к содержанию или метафоре. Например, в нашей недавней статье анонсируется новая клиентская библиотека Go. В голову пришёл синий суслик — талисман Go, который просматривает потоки табличных данных на нескольких мониторах.

Звучит круто, но заставить его появиться на экране оказалось непросто. 4 попытки потребовалось, чтобы синим стал суслик, а не мониторы, и ещё 5, чтобы картинка мне понравилась. Я понял, что, чем конкретнее запрос, вплоть до избыточности, тем лучше.

Запрос: «a cute blue colored gopher with blue fur programming on multiple monitors displaying many spreadsheets, digital art».

Может быть, так случилось потому, что это была моя первая попытка. Но впереди было ещё 100 постов, и я надеялся, что с практикой смогу стать лучше. Очень круто было бы просто скормить DALL-E целую запись в блоге и получить что-нибудь классное, но даже с магией GPT-3 люди, наверное, ещё этого не достигли.

2. С практикой вы научитесь писать подсказки

Когда вы создаёте учётную запись, то получаете 50 кредитов. Вы можете купить больше кредитов. 1 кредит равен 1 подсказке (0,13 доллара США за изображение). Каждый запрос даёт 4 изображения на выбор. Несмотря на такую щедрость, на мой взгляд, чтобы хорошо генерировать подсказки этого недостаточно. Первые несколько запросов — это 6 или 7 попыток до чего-то приемлемого. И теперь, когда я написал сотни этих запросов, я часто могу получить желаемое за 2 или 3 попытки.

Первая попытка! Запрос: «А pipe coming out of the wall in a blue room with bitcoins pouring out of it, digital art 3d render».

3. Стилистические модификаторы имеют решающее значение

Обычный запрос без модификатора стиля часто выглядит довольно скучно. Получится или слегка мультяшно, как неудачная фотография, или как плохой коллаж, но стилистические подсказки сильно улучшают результаты. Вот несколько советов:

Добавьте такие фразы, как «A film still from ___ movie», и вставьте красивый фильм.
Добавьте визуальной эстетики
Добавьте имя известного художника.

Запрос: «cottagecore robot reading a book on a porch»

Ко многим статьям в блоге я добавил «artstation», «cgsociety», «4k» и «digital art». DALL-E также даёт полезные советы, пока вы ждёте 10 секунд до вывода картинки, и показывает вам примеры стилевых подсказок к запросам.

4. Стоит просмотреть r/dalle2, чтобы получить представление о том, что входит в хорошую подсказку

Немного поиграв, я понял, что практика — это хорошо, но совершенствоваться нужно быстрее. Меня вдохновило изучение изображений на r/dalle2, это дало идеи, как писать подсказки получше. А ещё я нашёл полезную электронную книгу в PDF.

5. Возможно, вам придётся отфотошопить бессмысленный текст

Иногда запрос генерировал картинку с текстом. К сожалению, DALL-E действительно затрудняется с текстом, и часто текст бессмысленный. Imagen от Google якобы лучше работает с текстом, и я с нетерпением жду возможности попробовать его. Буду признателен за любые советы по запросам, которые намекают, что я не хочу, чтобы выводился какой-то текст.

Удалить бессмысленный текст

Что не так с этим текстом? По крайней мере, его можно быстро отфотошопить.

6. Остерегайтесь неожиданных нарушений правил

Пару раз меня предупреждали о нарушении содержимого запроса: после предупреждения DALL-E ничего не выводит. Слишком большой список запрещённых слов может дать вам случайные ложные срабатывания. Однажды я использовал слово «shooting», чтобы описать луч света, пронизывающий небо. Звучит неплохо, но я думаю, DALL-E не нравится слово «shooting» в любом контексте. Было бы лучше, если бы в предупреждении прямо указывалось, какое слово не нравится DALL-E: иногда мне оставалось только гадать. В другой раз я имел в виду монитор сахара в крови. Полагаю, что DALL-E не будет генерировать ничего, что связано со словом «blood», даже если сам запрос не связан с насилием.

7. Изображения можно редактировать

Вы можете не получить всё, чего хотелось бы, в одном запросе, но, возможно, сможете добиться нужных фрагментов по отдельности и собрать их. А ещё можно загрузить изображение обратно в DALL-E, чтобы отредактировать с помощью ИИ или обрезать по-другому. Я намеренно очень мало редактировал наш блог и ограничился удалением тарабарщины. Если бы я использовал DALL-E для задачи серьёзнее, для создания предметов искусства, то собирал бы изображения чаще. Использование ИИ в качестве инструмента в традиционном рабочем процессе, похожем на фотошоп, может приносить пользу долгий срок.

8. Получить конкретную вещь, определённый цвет, определённое количество чего-то или что-то в определённом месте сложно

Если вы хотите, чтобы на картинке 12 индеек пересекли финишную черту, то получите от 4 до 20 индеек. Не важно, говорите ли вы «12», «двенадцать», «дюжина» или другими способами. Если вам нужно только 2 или 3 чего-то, DALL-E будет работать нормально, но она испытывает трудности с большими числами. Может быть, она немного похожа на маленького ребёнка, не может считать большие числа? Если вам нужны «сотни» чего-то, качество будет не очень.

Это не 12 индеек. Запрос: «Film still, establishing shot of 12 turkeys in marathon crossing a checkered finish line on a street in a race, golden hour, low angle».

9. Ии не вытеснет человека в искусстве

Генератор изображений с ИИ не сделает вас лучшим художником, так же как Canon 6D Mark II — лучшим фотографом. По-прежнему важны отбор и чувство вкуса. Уверен, что во времена дебюта фотошопа графические художники старой школы сетовали на то, что он убьёт индустрию, слишком упростив всё. Этого не случилось. Системы ИИ — всего лишь инструменты, которые хорошо впишутся в процесс любого художника.

Если бы я прямо сейчас был генеральным директором Adobe, я либо стремился бы обучить первоклассный конкурентоспособный генератор изображений с ИИ, либо запустил бы его с приобретением, таким как midjourney, а затем поставил бы всё на редактор на основе этого ИИ. Будущее, когда я могу открыть холст любого размера (а не только 1024х1024) или использовать существующую фотографию, затем начать выбирать произвольные её части, а затем подсказывать, что и где я хочу, было бы чертовски полезной программой. Figma стала огромным сдвигом, и сегодня она успешнее Adobe. Я мог бы увидеть, как редактор изображений на основе ИИ сокрушит Photoshop или станет его лучшей функцией.

10. Я бы не стал долго задерживаться на $GETY (Getty Images)

Хотя люди-художники в ближайшее время не исчезнут, исчезнуть могут сайты стоковых изображений. Как человек, который работал графическим дизайнером и потратил тысячи долларов на стоковые изображения, я определённо вижу будущее, когда смогу запросить синюю акулу в альфа-маске и использовать её как основу в любом Photoshop-проекте для клиента.

мем с акулой

Чтобы добраться до акулы справа от ИИ, потребовалось две секунды. До того, как реальностью станет вышесказанное, осталось всего несколько лет (или месяцев?).

Крупнейшая фотокомпания Getty Images недавно стала публичной (на самом деле они провели SPAC). Делать ставку на их долгосрочный успех я бы не стал. Может быть, они останутся только для исторических событий реальных людей?

Запрос киллер-фичи для Google

Я думаю, что генерация изображений с помощью ИИ идеально подходит для создания изображений слайдов. Очень часто требуется метафора изображения для сопровождения слайда, и это идеально для задачи. Я целыми днями собирал изображения для презентаций на конференциях, для генеральных директоров и отделов продаж. И вижу будущее, в котором это могло бы быть более эгоистичным. Вставьте Imagen прямо в слайды Google.

Вывод

Я был в восторге, заменив наши 100 или около того постов в блоге изображениями, сгенерированными ИИ. Это стоило 45 долларов? Думаю, да. В среднем, я бы сказал, что мне потребовалось несколько минут и около 4–5 подсказок на пост в блоге, чтобы получить то, что меня удовлетворило. В месяц мы тратили больше времени и денег на стоковые изображения и получали результат хуже, а уникальные, запоминающиеся изображения помогут читателям лучше запомнить наш контент.

Я обнаружил, что, как только находил что-то понравившееся, то, как правило, повторно использовал много одних и тех же стилистических модификаторов. Это заставило меня задуматься, должны ли мы разработать единый стиль для нашего блога, чтобы все наши изображения выглядели как связанный набор или имели фирменный стиль. Но как у вас вообще может быть фирменный стиль, когда изображения создаёт ИИ?

Как он изменит искусство? Сделает ли это новостные фотографии тем, чему нельзя доверять? Я не знаю ответа ни на один из этих вопросов.

А мы поможем прокачать ваши навыки или освоить востребованную профессию с самого начала:

Профессия Data Scientist

Профессия Data Analyst

Профессия Fullstack-разработчик на Python

Я заменил КДПВ техноблога на изображения от DALL E 2. Вот что я узнал