Как стать автором
Обновить
163.18

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Цветовая вычислительная фотография. Часть 2: Стандарты CIE 1931

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров211

Всем привет! На связи снова Егор Ершов, руководитель группы «Цветовая вычислительная фотография» в AIRI и заведующий сектором репродукции и синтеза цвета ИППИ РАН. Это вторая статья из длинного цикла, которая, фактически, является конспектом лекций курса по алгоритмам вычислительной фотографии, которые я читаю для студентов МФТИ и ВШЭ.

В первой статье я ввёл читателя в проблему воспроизведения цвета, а также рассказал про первую математическую модель формирования изображения. На этот раз мы поговорим про формализацию цвета с технической точки зрения и связанные с этим стандарты.

Читать далее

Новости

Kandinsky 4.1 Image – новый генератор изображений от Сбера

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1.9K

В декабре прошлого года на конференции AI Journey наша команда представила  диффузионную генеративную модель Kandinsky 4.0 Video. Теперь мы рады представить новую версию нашей модели генерации изображений Kandinsky 4.1 Image!

Читать далее

3D-сканер из датчика Kinect Xbox 360

Время на прочтение6 мин
Количество просмотров3.9K

2009 год. На конференции E3 Стивен Спилберг (да, да — тот самый) вместе с старшим вице-президентом Microsoft Доном Мэттриком (Don Mattrick) презентуют Project Nata. Именно его весь мир узнает как Kinect, сокращение от слов kinetic и connection. Старт продаж был оглушительным, даже в Книгу рекордов Гиннесса попали. Аксессуар для Xbox 360 обещал подарить новый игровой опыт и поэтому многие, не задумываясь, выкладывали за него 149,99 $.

С тех пор много воды утекло. Две реинкарнации в виде Kinect for Xbox One и Kinect for Windows в итоге были переведены в статус discontinued. В феврале 2019 года Microsoft представила Azure Kinect уже не как игровой аксессуар, а как продвинутый датчик для разработки приложений всего за 399 $. Спустя четыре года производство было свернуто и корпорация вновь похоронила проект. Но там, где закончилась эта история, пока что есть множество энтузиастов (включая меня), которые по-прежнему используют значительно подешевевшие датчики в своих проектах.

В свой очередной поход на барахолку я как раз наткнулся на замечательный экземпляр Kinect Xbox 360, который обошелся мне в смешную сумму 10 €. Я давно хотел пощупать такой девайс, поэтому решил попробовать сделать из него 3D-сканер. Тогда я еще не представлял, насколько этот путь непрост.

Читать далее

Новый вид контента: ИИллюстрированная аудиокнига

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров1.3K

Недавно мне пришла в голову идея написать приложение для автоматической генерации иллюстраций к аудиокнигам. Видео-модели пока не умеют создавать длинные видео, но ведь можно экранизировать аудиокниги с помощью серии иллюстраций! Эта идея меня захватила, и я написал небольшой проект...

Читать далее

Симуляция жизни частиц в браузере на WebGPU

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров3.2K

Я люблю физические симуляции, а в особенности симуляции частиц. Обычно я реализую что-то на основе традиционной физики, но недавно наткнулся на забавную нефизическую модель, которая может демонстрировать поведение, напоминающее жизнь.

Я написал на C++ прототип для собственного движка, а потом решил, что будет интересно попробовать запустить его в браузере при помощи WebGPU API. Он заработал на удивление хорошо, позволяя создавать подобные симуляции.

В посте я расскажу, как он устроен внутри.

Читать далее

AntiqGPT. Неожиданное применение этих ваших LLM

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров17K

Во время отпуска в Турции я наткнулся на древнегреческую надпись в руинах Фаселиса и использовал ChatGPT для расшифровки и реконструкции текста. Статья про то, как нейросети позволяют поиграть в археологические исследования, которые ранее требовали работы узких специалистов.

Читать далее

Как Python помогает восстанавливать древние фрески: алгоритмы цифровой реставрации

Уровень сложностиСложный
Время на прочтение3 мин
Количество просмотров1.8K

Цифровая реставрация культурного наследия — не то, о чём часто пишут на IT-форумах. Но Python, OpenCV и немного безумной любви к истории могут буквально вдохнуть жизнь в древние фрески. В этой статье — живая техническая история о том, как написать свои алгоритмы цифровой реставрации, использовать машинное зрение и нейросети для восстановления утраченного и, возможно, спасти кусочек человечества от забвения.

Читать далее

Автоматизация без кода: как FastML справляется с документами за несколько кликов

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров846

Привет, Хабр!

В этом посте хотим рассказать, как технология FastML (о самой разработке уже рассказывали здесь) начала работать на российских документах разного типа в контуре нашего продукта ContentCapture и что из этого вышло.

Вкратце введем в курс дела. Многие компании сталкиваются с необходимостью обрабатывать большое количество однотипных (не одинаковых) документов, извлекать из них нужную информацию и экспортировать. Естественно, это долго, мучительно, а иногда еще и с ошибками. Для автоматизации такой рутины и используется ContentCapture, а точнее, встроенные в него две технологии — гибкие описания и теперь еще и FastML. 

Гибкие описания — это универсальный подход к извлечению данных, особенно если речь идет о сложных документах. Однако для их создания нужно время и навыки работы со специальным инструментом — Content AI Layout Studio. Для тех, у кого таких скиллов нет, и был создан FastML, с которым сможет справиться любой пользователь, независимо от техподготовки. С помощью FastML модели для новых типов документов создаются в несколько кликов на основе нескольких примеров, что значительно сокращает время их внедрения в контур компании и бизнес-процессы. 

Под катом рассказываем и показываем, какие теперь документы могут автоматически обрабатывать пользователи ContentCapture с помощью встроенного в него FastML, а также делимся данными тестирования и объясняем, в чем могут возникнуть сложности.

Читать далее

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

Уровень сложностиСредний
Время на прочтение19 мин
Количество просмотров9K

Эпоха умного редактирования изображений наступила: ChatGPT, Gemini и Grok — крупнейшие игроки мировой AI-арены — один за другим представили инструментарий «умного фотошопа». Достаточно прикрепить картинку, попросить что-нибудь на ней изменить — и желание будет исполнено! Или не будет? 

Проблема в том, что не каждый редактор изображений способен сохранять детали оригинала: изменяются люди, искажаются уникальные объекты, композиция, детали, ракурс и многое другое. Нередко хочется получить результат как от мастера фотошопа: чтобы менялись только требуемые участки, а остальное сохранялось неизменным. Например, удалить людей на заднем фоне фото из отпуска, оставив только безбрежное море за спиной. Вот бы можно было, валяясь на пляже, безо всяких сложностей отправить фотографию в удобный сервис на смартфоне, написать пару слов (что отредактировать), а результат просто репостнуть!

Наша команда загорелась этой задачей довольно давно — и сегодня, пройдя долгий путь проб и ошибок, мы с гордостью представляем вам проект с рабочим названием MALVINA (Multimodal Artificial Language VIsion Neural Assistant). Malvina уже стал частью сервиса GigaChat и доступна всем желающим! Более того: и по метрикам, и по мнению пользователей, наша модель обходит в редактировании изображений даже GPT-4o, Gemini и Grok!

Мы вас заинтриговали?

Тогда приятного прочтения!

Обучаемся основам компьютерного зрения с помощью Lichee Pi 4A и Python-библиотеки Pillow

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров3.2K

Привет, Хабр! На связи команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ им. Р. Е. Алексеева. При поддержке компании YADRO мы изучаем архитектуру RISC-V и компьютерное зрение, чтобы внедрить результаты в учебный процесс.

Предлагаем вместе с нами проверить, на что способен одноплатный компьютер Lichee Pi 4A в задачах обработки изображений, несмотря на его ограниченные ресурсы. А заодно — получить базовые навыки по разработке систем компьютерного зрения. Пройдем путь от настройки системы до отслеживания кликов по картинке и распознавания объектов с моделью YOLOX.

Читать далее

Машины могут видеть. Что показали и рассказали на конференции MCS 2025 в Дубае

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров707

ICLR 2025 — это крупнейшее событие весны в мире машинного обучения, на которое я… не поехал, в отличие от моих коллег из лаборатории FusionBrain AIRI. Почему? Потому что я посетил конференцию Machines can see 2025, которая проходила примерно в эти же дни в Дубае. О том, что это за мероприятие и что я там увидел, — в репортаже ниже.

Читать далее

Как лучше всего сортировать фото в 2025 – мой опыт

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров9.8K

Мой фотоархив к 2025 году превратился в настоящую головоломку. 40 тысяч снимков были разбросаны по трём внешним дискам, трём облачным хранилищам и давно забытым папкам на старом ноутбуке. Проблема усугублялась тем, что устройств стало больше, и каждый – смартфон, фотоаппарат, дрон, добавляют горы файлов в разных форматах и с противоречивыми метаданными. Например, геотеги из отпуска в Турции показывали координаты с ошибкой в 200 метров, а даты в EXIF не совпадали с реальными из-за смены часовых поясов. 

С масштабом проблемы я впервые столкнулся, когда попытался найти фотографии с первого дня школы сына. Вместо нужных кадров с линейки обнаружил огромное количество странных снимков – с размытыми лицами, случайные скриншоты с сайтов и мессенджеров, даже фото чужой собаки. Весь этот хлам незаметно копился годами, растворяясь между нормальными фотографиями. Знакомая ситуация?

В тот момент я понял — нужна система, которая работает в реалиях 2025 года, где объёмы данных уже достигают гигантских размеров, а ручная сортировка вряд ли поможет расчистить эти «Авгиевы конюшни». Ведь это тысячи фото, сваленных в множество самых разных папок на разных устройствах, многие из которых даже толком не подписаны. Здесь, наверное, вы заглянули в свой фотоархив и тоже ужаснулись.

Читать далее

Генерация видео: Обзор интересных подходов | Text-2-video | Part 2

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.9K

Освечу базовые концепты из области генерации видео, в этой части разберем уже более современные модели 2025 года, и парочку моделей, с которых все начиналось. Все кратко и четко, только самое основное.

Посмотрим на устройство современных топовых SOTA моделей для генерации видео: Wan2.1, Hunyuan video, недавно вышедший подход к облегчению вычислетильных требования FramePack.

Читать далее

Ближайшие события

Гениально или безумно: зачем инженеры изобрели электрический ластик

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров4.4K

Начало XX века — эпоха повальной электрификации. Электричество встраивали буквально во всё, что только можно: массажёры, чесалки, мухобойки и даже грелки для ушей. Изобретатели наперебой пытались создать что-нибудь по-настоящему полезное, неожиданное — или хотя бы просто эффектное. И вот кому-то приходит в голову идея: а не оснастить ли электромотором… ластик?

К ластику?! Казалось бы, зачем?! Неужели руками уже совсем стирать разучились? Но, как ни странно, у этой штуковины нашлись поклонники. Причём не среди ленивцев, а среди архитекторов, чертёжников, иллюстраторов и других профи, для которых точность и скорость в работе — не пустой звук.

Разбираемся, как появился электроластик и почему он не такая уж дикая идея.

Читать далее

GIMP: понижение шума по маске

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2K

Применение простых, не зависящих от версии GIMP, или установленных плагинов средств для понижения шума типа "Соль и перец" без повреждения важных контуров.

Читать далее

Я 25 лет настраивал фотоаппарат, выстраивал композицию, ставил свет, а потом пришла нейросеть

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров34K

Эту историю для моего блога рассказал профессиональный фотограф Олег Цербаев

В начале 2000-х появилась цифровая фотография, мир раскололся на два лагеря: «Это не искусство!» против «Это будущее!». За три года в рекламной индустрии почти не осталось фотографов старше 40 лет. Крупные журналы начали работать с молодыми ребятами, фотоиндустрия в итоге выросла в разы. То, что происходит сейчас с нейросетями — намного масштабнее. Это не просто новый инструмент в нашем арсенале, а целая новая реальность.

Представьте, что вместо кисти художнику вдруг дали соавтора — талантливого, с безграничной фантазией, но иногда непредсказуемого. Именно так работают нейросети в создании изображений. Они не просто выполняют команды — они интерпретируют, дополняют и иногда удивляют.

Читать далее

GIMP: устранение дефекта масштабирования

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров1.6K

В «GIMP: изменение размера изображения с соблюдением правил RIS» был рассмотрен рецепт масштабирования изображений с устранением «дефекта» (размытия смешением цветов). Но в основном дело приходится иметь с изображениями, полученными из сети. То есть изображения получаем «как есть». Они могут быть многократно масштабированы каким то образом и без соблюдения каких то правил.

Можно ли использовать ту же концепцию, что заложена в RIS, для постфильтрации изображения?

Попробуем. Попытаемся угадать метод интерполяции и масштабный фактор, применённый к изображению. «Угадав» эти характеристики, можно провести обратное масштабирование, после отмасштабировать к размеру исходного слоя и использовать наложения «GIMP: реверс фильтров» для обращения «дефекта».

А как «угадать» то характеристики?

Угадывать метод интерполяции особой нужды нет. Для изображений в сети вероятность кубической интерполяции близка к единице.

Для угадывания масштабного фактора могла бы помочь утилита resdet. Но её сборок под Windows я не видел, а альтернатив не знаю. Возможно существуют онлайн сервисы для определения/оценки исходных размеров масштабированных изображений.

Реализация?

Чтобы не производить муторные однотипные операции к скрипту «resize‑ris.scm» был добавлен скрипт «ris‑undefect.scm» в последнем релизе «gimp‑plugin‑resize‑ris 0.20 250 518». После копирования данного файла в папку со скриптами GIMP, в меню «Изображения» → «Преобразования» рядом с пунктом «Resize RIS» появится пункт «RIS undefect».

Для тестирования будем традиционно использовать изображение «Лена».

Читать далее

Генерация видео: Обзор интересных подходов | Text-2-video | Part 1

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2.8K

Разберу кратко основные подходы к генерации видео и историю их развития. Начнём с AnimateDiff — подхода, который позволяет превратить любой генератор изображений на основе Stable Diffusion в генератор видео. Будет интересно специалистам в ML и Computer Vision, а также всем, кто интересуется нейросетями и искусственным интеллектом.

Читать далее

Что же такое HDR?

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров35K

Эта сложность возникает не только у вас — HDR сбивает с толку множество людей. В этом посте мы наконец объясним, что же такое HDR, расскажем о проблеме и трёх способах её решения.

В прошлом году мы объявили до добавлении в наше приложение для работы с изображениями фотографий с HDR, или «High Dynamic Range». Большинство пользователей это порадовало, кого-то сбило с толку, а некоторые проявили откровенное беспокойство. Это связано с тем, что HDR может означать два разных, хотя и близких, понятия.

Читать далее

GIMP: фильтр Balance

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров1.1K

В практике обработки изображений часто встают задачи различных выравниваний цветовых компонент этих самых изображений. И в первую очередь это касается яркостной составляющей изображений. К этим задачам относится такой фильтр как Retinex. Этот фильтр хорошо выравнивает яркостную составляющую изображения, но беспощадно искажает соотношение цветовых составляющих - картинка становится "кислотной".

Для нужд STEX (ScanTailor-Experimental) была поставлена задача разработки фильтра, производящего выравнивание яркостной составляющей, но щадящей цвет. Это необходимо для вытягивания слабовыраженных контуров, не поддающихся отрисовке ни одним из имеющихся в STEX порогов без доп. префильтрации с сохранением гармоничности цветных иллюстраций.

Данный фильтр разрабатывался в GIMP и был реализован в STEX для яркостной компоненты, а позднее в виде CLI утилиты stbibalance на базе STB в полноцветовом исполнении.

Читать далее
1
23 ...