«Изображение, сгенерированное GPT-4o — так много всего, что можно изучить, используя только возможности создания изображений GPT-4o. Команда усердно работает, чтобы представить их миру», — пояснил Брокман.
GPT-4o может воспринимать и генерировать звук, изображение и текст и будет доступна всем пользователям бесплатно.
В официальном магазине Lego в Нью-Йорке установлен специальный сканер, который показывает пошаговую сборку моделей из элементов конструктора и финальный вид игрушек. Нужно поднести к устройству коробку и через несколько секунд система покажет на мониторе сборку конструктора в реальном времени.
PaintCam предлагает пользователям значительную степень контроля. Система оповещает владельца дома, когда обнаруживает неизвестного человека в компании известного, спрашивая, следует ли “сделать выстрел” или нет.
«Сбер» совместно с нейросетью Kandinsky спасает утерянные картины великих художников, включая Илью Репина.
Проект Kandinsky в рамках выставки «Возрождённая коллекция» сумел воссоздать 9 полотен из Сталинградской картинной галереи, которые пропали в годы Великой Отечественной войны.
В Kandinsky залили чёрно-белые снимки и архивные описания полотен — так ИИ смог восстановить работы Репина, Сурикова, Иванова и других авторов почти в первозданном виде.
Увидеть их все можно на выставке «Возрождённая коллекция» в Волгограде — как офлайн, так и онлайн.
Генератор изображений DALL-E от OpenAI получил несколько обновлений, которые помогут редактировать изображения с помощью ChatGPT как в Интернете, так и на мобильных устройствах. Кроме того, в DALL-E 3 появились предустановленные варианты стилей, которые помогут вдохновить на создание изображений.
Интеграция с ChatGPT избавляет пользователя от необходимости писать новые промты — достаточно задать команду, как при диалоге с ChatGPT.
Также стали доступны готовые подсказки (гравюра на дереве, готика, рисование от руки). При наведении на них курсора появляются визуальные примеры.
Google представила открытую библиотеку jpegli с реализацией кодировщика и декодировщика изображений в формате JPEG.
Библиотека включает дополнительные оптимизации для повышения эффективности кодирования, позволяющие на 35% увеличить степень сжатия высококачественных изображений, по сравнению с традиционными кодеками JPEG.
В сравнении с libjpeg-turbo проект jpegli позволяет добиться аналогичного уровня качества при снижении битрейта на 32%. На уровне API и ABI библиотека полностью совместима с libjpeg62 и может применяться для её прозрачной замены. Код jpegli написан на языке С++ и распространяется под лицензией BSD.
Библиотека jpegli позволяет кодировать изображения с выделением 10 и более битов на цветовой компонент. При этом результат работы алгоритмов кодирования адаптируется для традиционной для формата JPEG модели, допускающей использование только 8 бит на цветовой компонент. Подобная особенность позволяет сохранить совместимость с уже существующими декодировщиками, рассчитанными на 8-битовое представление цветовых составляющих.
Кодируемые при помощи jpegli изображения полностью соответствуют стандарту JPEG, не требуют специфичных декодировщиков и могут просматриваться в существующих просмотрщиках JPEG и веб‑браузерах. Применение для распаковки изображений, сжатых при помощи jpegli, собственного декодировщика позволяет добиться дополнительного снижения артефактов. Скорость кодирования при помощи jpegli сопоставима с библиотеками libjpeg‑turbo и MozJPEG.
Услуга Image stack сконвертирует изображения из форматов JPG и PNG в WebP или AVIF. Страницы, на которых много медиа-контента, станут загружаться быстрее. При этом изображения не поменяют свои URL и расширение.
Сжатие изображений — лишь одна из возможностей CDN. Это сеть кэширующих серверов, которые ускоряют доставку контента. Серверы расположены по всему миру, чтобы сокращать время ответа ресурса на запрос пользователя.
Департамент полиции Калифорнии придумал новый способ защитить личности подозреваемых и теперь публикует фотографии преступников, скрывая их лица за головами из Lego. Причём полицейские стараются подбирать голову Lego-человечка для точного описания эмоции преступника.
В департаменте объяснили, что новый закон Калифорнии от 1 января запрещает им делиться фотографиями и фотографиями подозреваемых в ненасильственных преступлениях, что вынуждает их медиа-команду проявлять творческий подход.
Google временно закрыла опцию генерации изображений людей в Gemini. Ранее выяснилось, что ИИ создаёт неточные исторические изображения.
«Мы уже работаем над решением недавних проблем с функцией генерации изображений Gemini», — говорится в заявлении компании.
Теперь модель реагирует на соответствующие запросы так: «Мы работаем над улучшением способности Gemini создавать изображения людей. Ожидается, что эта функция скоро вернётся, мы сообщим вам об этом в обновлениях выпуска».
С 15 февраля 2024 шестая версия Midjourney является моделью по умолчанию, хотя сами разработчики говорят, что она все еще находится в «раннем доступе».
Что стало действительно лучше
✔ Корректное написание слов. Больше никаких «WEILD WELLOLLD» вместо нужного «HELLO WORLD» (правда, с кириллицей и иероглифами еще не все гладко, да и длинные тексты пока даются нейросети с трудом);
✔ Поддержка консистентных стилей. Теперь можно сгенерировать одну картинку в стиле другой, не учитывая при этом текстовый запрос;
Что еще требует доработок
✔ Генерация пальцев. Если центральным объектом изображения будут кисти рук, которые что-то держат, вы можете разочароваться;
✔ Midjourney все еще не умеет считать. Попросите ее нарисовать 12 котов, и она не только изобразит другое количество, но и с высокой вероятностью сделает коллаж из отдельных картинок с котиками.
Если хотите узнать больше и погрузиться в детали нашего знакомства с Midjourney v6, добро пожаловать в статью. Здесь мы подробно рассказываем о первом взгляде на новую версию популярной нейросети.
Производитель готовит для Samsung Galaxy S24 Ultra обновление прошивки, чтобы смартфон стал лучше снимать Солнце. В частности, там будет улучшено качество снимков, когда в объектив попадает солнечный диск. Сейчас вокруг этого элемента возникает заметное затемнение. После обновления такая структура будет убрана.
В марте 2023 года пользователь обнаружил, что смартфоны Samsung S20 Ultra и новее улучшают детализацию Луны на любых фото с помощью ИИ. Он выяснил, что технология Space Zoom это маркетинговый ход, а не способ красиво снять ночью Луну, так как она делает любое фото Луны с низким разрешением красивой картинкой.
Парейдолия — зрительная иллюзия, когда восприятие обнаруживает объекты, узоры или значения там, где их нет и быть не может. Чаще всего под этим словом понимают то, как мы обнаруживаем человеческие лица в самых неожиданных местах — на снимках Марса, например. Хотя вообще-то это может любой другой объект.
На странице replicate.com/fofr/sdxl-hidden-faces запущен файнтюн для Stable Diffusion XL, который специально заточен для встраивания парейдолии на разные объекты.
Под «встраивать парейдолии» в данном случае понимается «добавлять лица на фотографии еды». Во всяком случае, в примерах только разнообразные блюда (бургеры, салат, блины и так далее). Впрочем, генерация неплохо работает и для других объектов.
Декорация в виде фонарика на новогодней ёлке
Более общий смысл термина не рассматривается. Вообще-то разновидностей парейдолии много: к примеру, в «Гамлете» Шекспира персонажи разглядывают зверей в облаках, что намекает на скрытые качества героев. Здесь же просто дорисываются два круглых глазика и что-то, похожее на рот.
Чтобы работало лучше, в промпте приходится явно упоминать pareidolia и hidden face.
К Новому году диффузионная нейросеть YandexART сгенерирует для пользователей реалистичные изображения ёлочных украшений в нескольких стилях. Ими можно украсить цифровую ёлку на главной странице «Яндекса» ya.ru.
Погрузиться в атмосферу новогоднего праздника поможет мобильное приложение «Шедеврум», где уже появился специальный режим «Ёлочная игрушка».
Чтобы украшение по запросу пользователя попало на главную страницу «Яндекса», необходимо сгенерировать изображение игрушки в новом режиме «Шедеврума» и выбрать опцию «Отправить на ёлку» перед его публикацией. Игрушка будет радовать её создателя и других пользователей до окончания праздников. Повесить на ёлку можно только одно украшение. Чтобы его заменить, нужно просто сгенерировать новую игрушку с опцией «Отправить на ёлку». При этом в «Шедевруме» можно создать любое количество новогодних украшений.
В «Яндексе» пообещали, что каждый участник новогоднего проекта сможет получить подарок: скидку на покупку умных устройств, специальные условия на подписку «Плюс» и повышенный кешбэк баллами, скидка «Маркета», «Лавки», «Еды», «Деливери», «Путешествий» и «Афиши», дополнительный объём хранилища на «Яндекс Диске» и так далее.
Разработчики пояснили. что «ёлочная игрушка» — первый специальный режим генерации «Шедеврума», который уже доступен всем пользователям.
Начиная с прошлого десятилетия смартфоны постепенно уничтожили рынок дешёвых «фотомыльниц». Компактные камеры никому не нужны, поскольку любой телефон умеет фотографировать в схожем качестве.
Да что фото — в последние годы у шестидюймовых смартфонов получается неплохо конкурировать даже с профессиональной видеоаппаратурой. К примеру, всю свою последнюю презентацию Apple сняла на iPhone 15 Pro Max.
Смартфоны вовсю хозяйничают даже там, где раньше требовались «зеркалки». Бороться честно с огромными фотоаппаратами с крупной оптикой и большими матрицами невозможно. Преодолевать недостатки крошечным смартфонам приходится за счёт ухищрений вычислительной фотографии.
Иногда случаются ошибки.
К примеру, Тесса Коутс недавно обнаружила изъян камеры iPhone. Британка сфотографировалась в свадебном платье перед двумя зеркалами. Результат напугал островитянку до тошноты: в одном зеркале обе верхние конечности опущены, в другом — сложены у живота, а в реальности она якобы опустила левую руку параллельно туловищу, а другую согнула. Лишь в магазине Apple ей объяснили ситуацию.
Даже для одного снимка iPhone быстро снимает серию фотографий слева направо, а потом выбирает лучшие фрагменты и склеивает всё воедино. Суммарно на фото три версии невесты: одна настоящая, две в отражениях. Вероятно, Тесса двигала руками во время съёмки.
Консультант магазина заверил, что такие случаи — редкость порядка единицы на миллион.
Sony и агентство Associated Press завершили второй раунд тестирования технологии аутентификации изображения при его создании. Она позволит верифицировать происхождение контента.
Технология Sony представляет собой машинную цифровую подпись, которая создаётся внутри камеры в момент захвата изображения в аппаратном чипсете.
Последнее испытание Sony и AP было завершено в октябре 2023 года. В течение месяца стороны оценивали качество аутентификации и удобство работы технологии.
Ранее Sony заключила соглашение с Camera Bits — компанией, создавшей стандартный инструмент рабочего процесса Photo Mechanic. Совместно с Sony и AP она создала в Photo Mechanic технологию цифровой подписи.
Встроенную подпись Sony и аутентификацию C2PA планируется реализовать в обновлении прошивки недавно анонсированных камер Alpha 9 III, Alpha 1 и Alpha 7S III, которые выйдут весной 2024 года.
Real-Time Latent Consistency Model — нейросеть, которая отслеживает движения через веб-камеру и тут же создаёт изображение.
Даём браузерное разрешение на использование камеры;
Пишем промпт или используем готовый;
Получаем генерацию, которая подстраивается в режиме реального времени.
Изменения в промпт можно вносить на ходу, заглядывание в Advanced options по желанию. Сессия запускается примерно на минуту, иногда выдаётся ошибка о том, что сейчас много пользователей и надо подождать.
Instagram** тестирует ИИ-функцию, которая позволит пользователям создавать стикеры из своих фотографий и размещать их в роликах или историях.
Им будет достаточно выбрать объект на фотографии, а инструмент удалит фон и создаст стикер, который можно будет разместить поверх другого контента.
Глава компании Адам Моссери кратко продемонстрировал на видео, как это будет работать.
Он рассказал, что, помимо создания стикеров из сохранённых в смартфоне фотографий, пользователи смогут выбирать «подходящие изображения в Instagram». Моссери не поделился подробностями, но, вероятно, речь идёт не только о собственных фотографиях пользователей, но и других снимках.
Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**: * — признана экстремистской организацией, её деятельность в России запрещена; ** — запрещены в России.
Джарет Баркетт [Jarett Burkett] представил LoRA для Stable Diffusion XL, которая помогает генерировать картинки в стиле инструкций «ИКЕА».
К многим предметам нидерландской компании приложены инструкции по сборке, выполненные в характерном стиле. Для простоты локализации товаров транснациональной сети магазинов слова на буклете (кроме названия) отсутствуют, что только усиливает запоминаемость образов. Поэтому икеевские инструкции любят пародировать за простоту и узнаваемость графического языка.
Простой промпт balalaika без уточнений
К файлам проекта Ikea Instructions Баркетт приложил примеры работ. С этой LoRA он сгенерировал как людей, персонажей или предметы (хиппи, Барби с Кеном, гамбургер), так и процессы (сон).
Забавно, что модель с удовольствием вставляет в инструкцию шестигранник даже там, где он вряд ли нужен. В примерах он появляется в гардеробе Кена.
Bing Chat AI заблокировала генерацию картинок с Дрейком. Если упомянуть Drake в запросе на картинку, фильтр по стоп-слову выдаст предупреждение о невозможности генерации.
Вообще, у Microsoft хватает проблем с новым инструментом. Bing Chat AI с трудом пытается отфильтровать башни-близнецы Всемирного торгового центра в Нью-Йорке, на которые повадились запускать самолёты с Марио и Спанч Бобом за штурвалом.
Комбо, где атаки 11 сентября проводит Дрейк, тоже есть.