Обработка изображений *

Работаем с фото и видео

Статьи Посты Новости Авторы Компании

ddimitrov 4 апр в 12:54

Kandinsky 3.1 — новая быстрая модель генерации изображений по тексту

Средний

15 мин

16K

Блог компании СберБлог компании SberDevicesОбработка изображений*Машинное обучение*Natural Language Processing*

Обзор

Прошёл ровно год с момента релиза модели Kandinsky 2.1 — именно эта модель принесла известность нашей исследовательской группе Sber AI Research и дала толчок развитию всей линейки моделей Kandinsky. В честь этой даты мы выпускаем новую версию модели Kandinsky 3.1, о которой я расскажу подробнее в этой статье.

+72

nmgtech 1 мар в 15:16

Они хотят, чтобы мы забыли, как выглядят фильмы

7 мин

22K

Блог компании Национальная Медиа ГруппаРабота с видео*Обработка изображений*Научно-популярное

Мнение

Перевод

Самая гротескная категория видео на YouTube — это старые киноплёнки, пропущенные через ИИ-апскейлер. Иногда видео придаётся цвет, иногда их интерполируют до 60 кадров в секунду. Если вы понимаете, как должно выглядеть видео, то все они кажутся одинаково ужасными, размазанными и кричащими. Но, похоже, этого не понимают в том числе и люди, отвечавшие за недавний апскейлинг фильма «Правдивая ложь» (и в меньшей мере «Чужих», «Титаника» и «Бездны»).

Таких фильмов уже миллион, и все они выглядят одинаково отвратительно.

Если вы никогда не смотрели фильм «Правдивая ложь», то вам, скорее всего, меньше тридцати. В нём Арнольд Шварценеггер играет роль агента правительственной контртеррористической организации, сражающегося со злодеями и хранящего этот опасный образ жизни втайне от своей непримечательной жены, которую играет Джейми Ли Кёртис. Это дурашливая крупнобюджетная комедия-экшн (ремейк французского фильма «Тотальная слежка») с фантастическими сценами, невероятным актёрским составом и несколькими прекрасными эпизодами. Сегодня он смотрится именно так, как должен смотреться незамысловатый экшн 1994 года. Вероятно, в карьере Джеймса Кэмерона это самый странный фильм, если не считать «Пиранья 2: Нерест».

+66

Firemoon 20 фев в 14:43

Midjourney до сих пор не умеет рисовать пальцы, но научилась писать тексты: обзор шестой версии модели

5 мин

7.3K

Блог компании SelectelОбработка изображений*Графический дизайн*Искусственный интеллект

Перед началом зимних каникул, 21 декабря 2023 года, Midjourney открыли «ранний доступ» к шестой версии. Спустя почти два месяца, 15 февраля 2024, она стала стала моделью по умолчанию, несмотря на сохранившийся статус альфа-тестирования.

Привет, Хабр! Меня зовут Вова Туров, я разработчик в Selectel. В этой статье расскажу, что нового в Midjourney v6 и почему она лучше предшественников. Разберем примеры генераций и протестируем новые функции.

Читать дальше →

+55

AndreyDmitriev 13 фев в 16:10

Об особенностях хранения 16 бит изображений в PNG формате

Простой

11 мин

4.2K

Обработка изображений*LabVIEW*

Кейс

Вашему вниманию предлагается небольшая заметка, посвящённая особенностям хранения одноканальных (серых) 16 бит изображений (как беззнаковых, так и знаковых) в PNG формате. В некоторых случаях интенсивности пикселей, получаемые из такого файла могут не соответствовать изначальным интенсивностям, под катом мы заглянем во внутренности PNG файла и разберёмся, почему так происходит.

+69

Bright_Translate 21 янв в 13:00

Разбираем самый маленький PNG в мире

Простой

9 мин

35K

Блог компании RUVDS.comАлгоритмы*Обработка изображений*Сжатие данных*

Обзор

Перевод

Самый миниатюрный PNG в мире весит 67 байт и представляет собой один чёрный пиксель. Выше вы видите его в 200-кратном увеличении.

Красота, не так ли?

Состоит этот файл из четырёх частей:

Сигнатура PNG, одинаковая во всех файлах этого формата: 8 байт.
Метаданные изображения, включая его размеры: 25 байт.
Данные пикселя: 22 байта.
Маркер «конец изображения»: 12 байт.

Далее я опишу этот файл подробнее и постараюсь объяснить принцип работы формата PNG.

В качестве небольшой затравки скажу, что в конце предстоит неожиданный поворот. Хотя, надеюсь, вам и без того интересно побольше узнать о PNG.

Читать дальше →

+124

112

ZlodeiBaal 18 янв в 03:50

«Пора ли гнать на мороз Computer Vision — scientist'ов ?» (Fondation Models и вокруг)

Средний

8 мин

15K

Блог компании RecognitorАлгоритмы*Обработка изображений*Машинное обучение*Искусственный интеллект

Аналитика

Прошлый год в Computer Vision запомнился тем, что появилось множество больших претрейненных сетей (Fondation Models). Самая известная - GPT4v (ChatGPT с обработкой изображений).
В статье я попробую простым языком объяснить что это такое (для тех кто пропустил), как меняет индустрию. Какие задачи стало проще решать. Какие продукты появились в последнее время и появятся в будущем.
И можно ли уже выгнать на мороз лишних "ресерчеров"?!

+65

Quled 7 янв в 17:54

AI-генераторы порно фото: этика, тренды и законодательство

Простой

6 мин

67K

Обработка изображений*Машинное обучение*История ITИскусственный интеллектЗдоровье

Аналитика

В последнее время, AI-генераторы порно фото стали частью большого обсуждения в сфере искусственного интеллекта, и порно индустрия не исключение. Интерес к этой теме растет, как и количество споров вокруг неё.

AI-генераторы порно фото — это программы, использующие алгоритмы машинного обучения для создания реалистичных изображений. Они могут генерировать фото, которые кажутся настоящими, но на самом деле являются продуктом алгоритма.

AI использует обширные базы данных изображений для обучения, а затем, основываясь на этом обучении, создает новые изображения. Это может включать и порно фото, что и вызывает этические дискуссии.

Читать дальше →

+72

247

ddimitrov 22 ноя 2023 в 11:54

Kandinsky 3.0 — новая модель генерации изображений по тексту

Средний

10 мин

42K

Блог компании СберБлог компании SberDevicesОбработка изображений*Машинное обучение*Natural Language Processing*

Обзор

В прошлом году на АI Journey мы представили модель Kandinsky 2.0 — первую диффузионную мультиязычную модель генерации изображений по тексту, которая может генерировать изображения на основе русскоязычного текста. За ней последовали новые версии — Kandinsky 2.1 и Kandinsky 2.2, которые значительно отличались по качеству и своим возможностям от версии 2.0, и стали для нашей команды серьёзными вехами на пути к достижению лучшего качества генерации.

Спустя год после релиза нашей первой диффузионной модели мы представляем новую версию модели генерации изображений по тексту — Kandinsky 3.0! Это результат длительной работы нашей команды, которую мы вели параллельно с разработками версий Kandinsky 2.1 и 2.2. Мы провели много экспериментов по выбору архитектуры и проделали большую работу с данными, чтобы сделать понимание текста и качество генераций лучше, а саму архитектуру — проще и лаконичнее. Также мы сделали нашу модель более «отечественной»: теперь она значительно лучше ориентируется в российском и советском культурном поле.

В этой статье я кратко опишу ключевые моменты новой архитектуры, стратегию работы с данными и, конечно, продемонстрирую возможности нашей модели на примере генераций.

+58

Weilard 20 ноя 2023 в 15:19

«Галоп пикселя — часть шестая» — Анимация персонажей. Бег

Средний

48 мин

8.8K

Разработка игр*Обработка изображений*Компьютерная анимация*

Туториал

«Галоп пикселя», часть I — базовые понятия, этапы взросления, прикладные упражнения (линк)
«Галоп пикселя», часть II — перспектива, цвет, анатомия и прикладные упражнения (линк)
«Галоп пикселя», часть III — Анимация (линк)
«Галоп пикселя», часть IV — Анимация света и тени (линк)
«Галоп пикселя», часть V — Анимация персонажей. Ходьба (линк)
«Галоп пикселя», часть VI — Анимация персонажей. Бег (линк)

Доброго времени суток, Хабр. Мы продолжаем цикл «Галоп Пикселя». И хотя паузы между главами этой саги достигли практически четырехлетнего перерыва — я рад (надеюсь и вы тоже) продолжить двигаться вперёд. Миля за милей, дорога за дорогой, в этой вечной былине о пиксель-арте. Пространном повествовании о пикселях, их жизни, способе их создания, приёмах и уловках в работе с ними.

На этот раз речь пойдёт о создании анимации бега, от истоков малых кадрами и цветами — к ренессансу больших разрешений и буйству цветов. В статье будут разобраны примеры самых разных типов анимаций, будет определена разница между шагом и бегом. Мы затронем как создание игровых ассетов, так и сущности близкие к анимационным заставкам, в простонародье известные как синематики.

Сегодняшняя публикация станет ещё одной вехой, которая могла бы стать финальным аккордом в нашей истории. Но мне думается, что это… скорее окончание базового цикла, но не истории в целом, которую можно продолжать ещё долго. Существует масса неисследованных территорий, нехоженых дорог и мест, куда ещё не ступала нога пытливых археологов от мира любителей пиксель-арта. Лопаты в руки, друзья. Лопаты в руки.

Лопатить пиксели

+92

mikerosoft 31 окт 2023 в 10:01

Приходите к нам на завод, у нас тяжело

10 мин

137K

Блог компании ОМК — ИТАнализ и проектирование систем*Обработка изображений*Промышленное программирование*Управление проектами*

Короче, ИТ на заводе — это вам не романтика, особенно в нашем цифровом направлении.

Между «давайте этим займёмся» и «о, смотрите, какая гламурная ML-модель» лежит очень много того, про что не рассказывают. Сейчас расскажу.

Вначале у нас была банда энтузиастов из разных подразделений: несколько человек из ИТ, АСУТП, технологи со знанием статистики — чтобы смотреть с разных углов и видеть всё в целом, насколько это возможно. Начали с оценки перспектив. Они были необъятные — наше производство размером с небольшой город. Стали формироваться подразделения и направления: кто-то пошёл собирать роботов, кто-то в видеоаналитику, кто-то в лайтовый анализ данных, кто-то в самый хардкор — в дата-сатанизм. Работы у нас всегда больше, чем рук.

И на каждой из этих дорожек нас поджидали свои чудеса и сюрпризы.

Вот, к примеру, видеоаналитика:

Мы поняли, что ML в 50% задач не нужны. Нужна, например, камера, которая по цвету определяет, где есть железка, и смотрит её геометрию в реальности. Всё. Или другая камера, которая следит, чтобы в нужной зоне ничего не шевелилось.
Всё это прекрасно до первого солнечного зайчика. ML отлично показывают себя там, где вам лень строить крышу или ставить прожектор над конвейером.
У нас была идея, что мы можем сами в нейросети. Чуть не написали свой сервис для распознавания номеров вагонов. Казалось, делов-то на 20 минут, а у подрядчика это стоит 25 копеек за фото. Сделали свой, сферические вагоны в вакууме он определял хорошо. Потом приехало вот это:

А потом внезапно пошёл дождь. Знаете что? Вагоны под дождём становятся мокрыми. Это было неожиданно. Ещё они бывают после снега, битые, немытые, обновлённые криворукими малярами и ПРОЧИЕ. И в солнечных зайчиках тоже.

Мы накалывались на получении данных (кто сказал, что прошивка станка без костылей?), на роботизации, инфраструктуре, связи, на всём. Мы облазили весь завод, испачкались в солидоле, мазуте и масле. Но стали делать то, что должны, — оптимизировать мир.

Читать дальше →

+268

278

atomlib 19 окт 2023 в 16:35

Гауссов сплэтинг: как это выглядит

Простой

11 мин

13K

Работа с 3D-графикой*Обработка изображений*Математика*Компьютерная анимация*CGI (графика)*

Обзор

Пример работы гауссова сплэтинга. Этот ролик — не видеосъёмка реального мира, а рендер в реальном времени на настольном компьютере

Всплеск внимания к технике сплэтинга связан с представленной в августе этого года статьей 3D Gaussian Splatting for Real-Time Radiance Field Rendering [Трёхмерный гауссов сплэтинг для рендера radiance field в реальном времени]. До этого, в июле, эта научная работа исследователей Университета Лазурного берега, Института информатики Общества Макса Планка и французского Национального института исследований в информатике и автоматике вошла в пятёрку лучших работ SIGGRAPH 2023.

В следующие два месяца новостные сайты, блоги и тематические форумы начали рекомендовать гауссов сплэтинг как будущее компьютерной графики. Новая техника позволит быстро отсканировать существующую сцену и после короткого обучения отрендерить её с высокой точностью, обещают восторженные голоса.

Сейчас исследователи бьются над поиском практического применения технологии и сканированием движения. В оригинальной работе речь идёт о воссоздании в первую очередь статичных сцен.

Читать дальше →

+65

enjoykaz 4 окт 2023 в 09:50

Чат GPT-4V, который видит — что он умеет

4 мин

52K

Блог компании ОрбитаОбработка изображений*Машинное обучение*

Случилось вот что: вышел большой отчёт про возможности GPT-4V. Внезапно оказалось, что LLM могут обращаться с картинками так же, как с текстовыми промптами, и никакой особой разницы нет. Что та фигня, что эта фигня, главное — научиться распознавать, дальше те же логические связки. Это давно ожидалось, потому что люди в основном смотрят, и большая часть информации приходит через глаза. Но мало кто ждал, что это так круто получится вот уже сейчас и с LLM.

Отчёт вот. Теперь давайте смотреть, а не читать.

Хорошие мультимодальные способности, чётко считывает указатели, хорошее общее понимание ситуации

Если вы пьяны, он пересчитает пиво и сверит с чеком:

Собственно, важное:

Хорошо понимает что за сцена изображена и какие взаимосвязи между объектами на ней.
Читает текст, ориентируется на местности, опознаёт конкретных людей
Умеет в абстракции и обратно
Отлично ищет то, чего не должно быть (отклонения от базовой идеи) — дефекты на деталях, дефекты в людях (в особенности на рентгене) и так далее.
Плохо считает.

Давайте к деталям.

Читать дальше →

+78

olzeykan 26 сен 2023 в 18:56

Топ 10 deepnude нейросетей 2023 года

5 мин

492K

Обработка изображений*Машинное обучение*Искусственный интеллект

Обзор

DeepNude — это технология, использующая нейросети для создания изображений обнаженных тел на основе одетых фотографий или видео. Суть этой технологии заключается в том, чтобы "снять" одежду с изображения человека с помощью искусственного интеллекта и показать, как, предположительно, выглядит тело человека под одеждой.

Итак, в данной статье поговорим о пикантных и для некоторых людей непристойных темах, которые больше всего интересуют наше общество - обнаженное тело. Сделаем обзор таких сервисов как: Deepnude .ai, Deepfake.com, DeepSwap.ai, SoulGen и прочих.

+85

Bright_Translate 17 сен 2023 в 13:00

Разбираем формат EXIF на примере Apple Photos

Средний

11 мин

8.4K

Блог компании RUVDS.comОбработка изображений*Фототехника

Туториал

Перевод

В этой статье мы познакомимся с форматом EXIF и узнаем, какую информацию содержат метаданные фотографий, как эту информацию можно получить, и каким образом использовать. В качестве примера будем использовать фототеку, управляемую с помощью Apple Photos.

Читать дальше →

+52

srg_kdmv 5 сен 2023 в 06:51

Я вижу как ты мусоришь со своего балкона

9 мин

52K

Работа с видео*Обработка изображений*

Кейс

✏️ Технотекст 2023

Вот выходишь ты утром на работу, а на газоне перед домом окурки и прочие отходы жизнедеятельности. Бывает, что приходишь домой, а у тебя на балконе пепел или даже окурок. Как же хочется понять, кто это сделал! Я вот терпеть не могу таких людей. Моя история о том, как найти вредителей и, возможно, сделать свой дом немного чище и безопаснее.

+244

318

Bright_Translate 11 авг 2023 в 16:00

Эти прекрасные древовидные карты (альтернатива pprint)

Средний

7 мин

5.1K

Блог компании RUVDS.comАлгоритмы*Обработка изображений*Визуализация данных*

Обзор

Перевод

Древовидные карты — это инструмент визуализации, позволяющий обобщать данные разной формы и размеров. На сегодня они чаще всего используются для отображения файлов, занимающих всё пространство диска, но путём некоторых доработок их можно сделать гибким инструментом для анализа и навигации по беспорядочным массивам данных.

Читать дальше →

+51

ru_vds 7 авг 2023 в 16:00

Как ID Software удалось выжать невозможное из EGA-карт

Средний

9 мин

16K

Блог компании RUVDS.comРазработка игр*Обработка изображений*История ITИгры и игровые консоли

Обзор

Перевод

Я прочитал превосходную книгу Doom Guy Джона Ромеро, которую крайне рекомендую. В девятой главе Джон рассказывает о том, как его поразила увиденная им технология Adaptive Tile Refresh (ATR). Благодаря этому я понял, что пока не анализировал очень важную методику, лежавшую в основе серии игр Commander Keen (CK).

В процессе исследований я выяснил, что ATR использовалась только в первой трилогии CK. Во второй разработчики начали использовать нечто гораздо лучшее.

Читать дальше →

+90

ddimitrov 12 июл 2023 в 15:14

Kandinsky 2.2 — новый шаг в направлении фотореализма

Средний

7 мин

51K

Блог компании СберБлог компании SberDevicesОбработка изображений*Машинное обучение*Natural Language Processing*

Обзор

2023 год можно смело называть годом бурного развития генеративного искусственного интеллекта. Это касается не только привычной нам модальности изображений (Kandinsky 2.1, Stable Diffusion XL, IF, Шедеврум и др.), но и текстовой (ChatGPT, LLaMA, Falcon и др.), и даже модальности видео (GEN-2, CogVideo и др.). При этом ни в одном из направлений выделить объективного лидера почти невозможно — все команды стараются равномерно двигаться вперёд и повышать качество синтеза. Текстовые чат‑боты научились взаимодействовать с внешними системами посредством плагинов, синтез изображений вышел на уровень фотореалистичных генераций, длина генерируемых видео постепенно увеличивается с сохранением сюжетной связности между кадрами. И такой прогресс обусловлен уже не только наращиванием вычислительных мощностей, но и большим числом неординарных архитектурных решений, которые позволяют добиваться лучшего качества.

С момента выхода Kandinsky 2.1 (4 апреля 2023 года) прошло чуть больше трёх месяцев, и вот сегодня мы анонсируем новую версию модели в линейке 2.X. И если архитектурно модель не претерпела кардинальных изменений, то в части расширения функционала получила существенное развитие. В первую очередь, мы сделали упор на повышение качества генераций и их разрешении, а также новых возможностях синтеза изображений.

+65

168

alizar 15 мая 2023 в 12:00

Форматы векторной графики. Замена «толстому» SVG

Простой

5 мин

14K

Блог компании RUVDS.comВеб-дизайн*Работа с векторной графикой*Обработка изображений*IT-стандарты*

Векторизация растровой графики, источник

Все знают стандарт векторной графики SVG (Scalable Vector Graphics). Великая вещь, которая незаменима в веб-дизайне. Но этот формат до сих пор полностью не поддерживается ни в одном браузере по одной простой причине: он невероятно сложный. Если посмотреть на спецификации, там более 200 подпунктов в 27 разделах (около 900 страниц на бумаге). Только оглавление занимает 19 экранов. Мягко говоря, это перебор.

К счастью, SVG — не единственный формат векторной графики. Есть более эффективные и минималистичные альтернативы.

Читать дальше →

+57

Gorislav 18 апр 2023 в 16:00

«Процедурное рисование» в ComfyUI

7 мин

35K

Интерфейсы*Обработка изображений*Машинное обучение*Искусственный интеллект

Туториал

Кто интересуется темой рисующих нейросетей знают, что сейчас самый продвинутый и часто используемый интерфейс для Stable Diffusion (далее SD) это Automatic1111. Он позволяет использовать, вероятно, все существующие возможности SD на сегодня. Множество расширений, регулярные обновления и поддержка сообщества делают его мощным и удобным инструментом для генерации изображений. Но есть и альтернативные решения, одно из которых я сегодня рассмотрю.

Статья подойдет как тем кто уже пользуется Automatic1111, так и тем кто только планирует более глубоко погрузиться в мир "процедурного рисования".

+70

2 3 ...

22 23

Обработка изображений *

Kandinsky 3.1 — новая быстрая модель генерации изображений по тексту

Новости

Они хотят, чтобы мы забыли, как выглядят фильмы

Midjourney до сих пор не умеет рисовать пальцы, но научилась писать тексты: обзор шестой версии модели

Об особенностях хранения 16 бит изображений в PNG формате

Истории

Разбираем самый маленький PNG в мире

«Пора ли гнать на мороз Computer Vision — scientist'ов ?» (Fondation Models и вокруг)

AI-генераторы порно фото: этика, тренды и законодательство

Kandinsky 3.0 — новая модель генерации изображений по тексту

«Галоп пикселя — часть шестая» — Анимация персонажей. Бег

Приходите к нам на завод, у нас тяжело

Гауссов сплэтинг: как это выглядит

Чат GPT-4V, который видит — что он умеет

Топ 10 deepnude нейросетей 2023 года

Ближайшие события

Разбираем формат EXIF на примере Apple Photos

Я вижу как ты мусоришь со своего балкона

Эти прекрасные древовидные карты (альтернатива pprint)

Как ID Software удалось выжать невозможное из EGA-карт

Kandinsky 2.2 — новый шаг в направлении фотореализма

Форматы векторной графики. Замена «толстому» SVG

«Процедурное рисование» в ComfyUI

Вклад авторов