Обновить
93.33

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

Уровень сложностиСредний
Время на прочтение19 мин
Охват и читатели8.5K

Эпоха умного редактирования изображений наступила: ChatGPT, Gemini и Grok — крупнейшие игроки мировой AI-арены — один за другим представили инструментарий «умного фотошопа». Достаточно прикрепить картинку, попросить что-нибудь на ней изменить — и желание будет исполнено! Или не будет? 

Проблема в том, что не каждый редактор изображений способен сохранять детали оригинала: изменяются люди, искажаются уникальные объекты, композиция, детали, ракурс и многое другое. Нередко хочется получить результат как от мастера фотошопа: чтобы менялись только требуемые участки, а остальное сохранялось неизменным. Например, удалить людей на заднем фоне фото из отпуска, оставив только безбрежное море за спиной. Вот бы можно было, валяясь на пляже, безо всяких сложностей отправить фотографию в удобный сервис на смартфоне, написать пару слов (что отредактировать), а результат просто репостнуть!

Наша команда загорелась этой задачей довольно давно — и сегодня, пройдя долгий путь проб и ошибок, мы с гордостью представляем вам проект с рабочим названием MALVINA (Multimodal Artificial Language VIsion Neural Assistant). Malvina уже стал частью сервиса GigaChat и доступна всем желающим! Более того: и по метрикам, и по мнению пользователей, наша модель обходит в редактировании изображений даже GPT-4o, Gemini и Grok!

Мы вас заинтриговали?

Тогда приятного прочтения!

Обучаемся основам компьютерного зрения с помощью Lichee Pi 4A и Python-библиотеки Pillow

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели2.8K

Привет, Хабр! На связи команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ им. Р. Е. Алексеева. При поддержке компании YADRO мы изучаем архитектуру RISC-V и компьютерное зрение, чтобы внедрить результаты в учебный процесс.

Предлагаем вместе с нами проверить, на что способен одноплатный компьютер Lichee Pi 4A в задачах обработки изображений, несмотря на его ограниченные ресурсы. А заодно — получить базовые навыки по разработке систем компьютерного зрения. Пройдем путь от настройки системы до отслеживания кликов по картинке и распознавания объектов с моделью YOLOX.

Читать далее

Машины могут видеть. Что показали и рассказали на конференции MCS 2025 в Дубае

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели852

ICLR 2025 — это крупнейшее событие весны в мире машинного обучения, на которое я… не поехал, в отличие от моих коллег из лаборатории FusionBrain AIRI. Почему? Потому что я посетил конференцию Machines can see 2025, которая проходила примерно в эти же дни в Дубае. О том, что это за мероприятие и что я там увидел, — в репортаже ниже.

Читать далее

Как лучше всего сортировать фото в 2025 – мой опыт

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели12K

Мой фотоархив к 2025 году превратился в настоящую головоломку. 40 тысяч снимков были разбросаны по трём внешним дискам, трём облачным хранилищам и давно забытым папкам на старом ноутбуке. Проблема усугублялась тем, что устройств стало больше, и каждый – смартфон, фотоаппарат, дрон, добавляют горы файлов в разных форматах и с противоречивыми метаданными. Например, геотеги из отпуска в Турции показывали координаты с ошибкой в 200 метров, а даты в EXIF не совпадали с реальными из-за смены часовых поясов. 

С масштабом проблемы я впервые столкнулся, когда попытался найти фотографии с первого дня школы сына. Вместо нужных кадров с линейки обнаружил огромное количество странных снимков – с размытыми лицами, случайные скриншоты с сайтов и мессенджеров, даже фото чужой собаки. Весь этот хлам незаметно копился годами, растворяясь между нормальными фотографиями. Знакомая ситуация?

В тот момент я понял — нужна система, которая работает в реалиях 2025 года, где объёмы данных уже достигают гигантских размеров, а ручная сортировка вряд ли поможет расчистить эти «Авгиевы конюшни». Ведь это тысячи фото, сваленных в множество самых разных папок на разных устройствах, многие из которых даже толком не подписаны. Здесь, наверное, вы заглянули в свой фотоархив и тоже ужаснулись.

Читать далее

Генерация видео: Обзор интересных подходов | Text-2-video | Part 2

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели1.8K

Освечу базовые концепты из области генерации видео, в этой части разберем уже более современные модели 2025 года, и парочку моделей, с которых все начиналось. Все кратко и четко, только самое основное.

Посмотрим на устройство современных топовых SOTA моделей для генерации видео: Wan2.1, Hunyuan video, недавно вышедший подход к облегчению вычислетильных требования FramePack.

Читать далее

Гениально или безумно: зачем инженеры изобрели электрический ластик

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели3K

Начало XX века — эпоха повальной электрификации. Электричество встраивали буквально во всё, что только можно: массажёры, чесалки, мухобойки и даже грелки для ушей. Изобретатели наперебой пытались создать что-нибудь по-настоящему полезное, неожиданное — или хотя бы просто эффектное. И вот кому-то приходит в голову идея: а не оснастить ли электромотором… ластик?

К ластику?! Казалось бы, зачем?! Неужели руками уже совсем стирать разучились? Но, как ни странно, у этой штуковины нашлись поклонники. Причём не среди ленивцев, а среди архитекторов, чертёжников, иллюстраторов и других профи, для которых точность и скорость в работе — не пустой звук.

Разбираемся, как появился электроластик и почему он не такая уж дикая идея.

Читать далее

GIMP: понижение шума по маске

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели976

Применение простых, не зависящих от версии GIMP, или установленных плагинов средств для понижения шума типа "Соль и перец" без повреждения важных контуров.

Читать далее

Я 25 лет настраивал фотоаппарат, выстраивал композицию, ставил свет, а потом пришла нейросеть

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели28K

Эту историю для моего блога рассказал профессиональный фотограф Олег Цербаев

В начале 2000-х появилась цифровая фотография, мир раскололся на два лагеря: «Это не искусство!» против «Это будущее!». За три года в рекламной индустрии почти не осталось фотографов старше 40 лет. Крупные журналы начали работать с молодыми ребятами, фотоиндустрия в итоге выросла в разы. То, что происходит сейчас с нейросетями — намного масштабнее. Это не просто новый инструмент в нашем арсенале, а целая новая реальность.

Представьте, что вместо кисти художнику вдруг дали соавтора — талантливого, с безграничной фантазией, но иногда непредсказуемого. Именно так работают нейросети в создании изображений. Они не просто выполняют команды — они интерпретируют, дополняют и иногда удивляют.

Читать далее

GIMP: устранение дефекта масштабирования

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели966

В «GIMP: изменение размера изображения с соблюдением правил RIS» был рассмотрен рецепт масштабирования изображений с устранением «дефекта» (размытия смешением цветов). Но в основном дело приходится иметь с изображениями, полученными из сети. То есть изображения получаем «как есть». Они могут быть многократно масштабированы каким то образом и без соблюдения каких то правил.

Можно ли использовать ту же концепцию, что заложена в RIS, для постфильтрации изображения?

Попробуем. Попытаемся угадать метод интерполяции и масштабный фактор, применённый к изображению. «Угадав» эти характеристики, можно провести обратное масштабирование, после отмасштабировать к размеру исходного слоя и использовать наложения «GIMP: реверс фильтров» для обращения «дефекта».

А как «угадать» то характеристики?

Угадывать метод интерполяции особой нужды нет. Для изображений в сети вероятность кубической интерполяции близка к единице.

Для угадывания масштабного фактора могла бы помочь утилита resdet. Но её сборок под Windows я не видел, а альтернатив не знаю. Возможно существуют онлайн сервисы для определения/оценки исходных размеров масштабированных изображений.

Реализация?

Чтобы не производить муторные однотипные операции к скрипту «resize‑ris.scm» был добавлен скрипт «ris‑undefect.scm» в последнем релизе «gimp‑plugin‑resize‑ris 0.20 250 518». После копирования данного файла в папку со скриптами GIMP, в меню «Изображения» → «Преобразования» рядом с пунктом «Resize RIS» появится пункт «RIS undefect».

Для тестирования будем традиционно использовать изображение «Лена».

Читать далее

Генерация видео: Обзор интересных подходов | Text-2-video | Part 1

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели2.3K

Разберу кратко основные подходы к генерации видео и историю их развития. Начнём с AnimateDiff — подхода, который позволяет превратить любой генератор изображений на основе Stable Diffusion в генератор видео. Будет интересно специалистам в ML и Computer Vision, а также всем, кто интересуется нейросетями и искусственным интеллектом.

Читать далее

Что же такое HDR?

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели26K

Эта сложность возникает не только у вас — HDR сбивает с толку множество людей. В этом посте мы наконец объясним, что же такое HDR, расскажем о проблеме и трёх способах её решения.

В прошлом году мы объявили до добавлении в наше приложение для работы с изображениями фотографий с HDR, или «High Dynamic Range». Большинство пользователей это порадовало, кого-то сбило с толку, а некоторые проявили откровенное беспокойство. Это связано с тем, что HDR может означать два разных, хотя и близких, понятия.

Читать далее

GIMP: фильтр Balance

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели622

В практике обработки изображений часто встают задачи различных выравниваний цветовых компонент этих самых изображений. И в первую очередь это касается яркостной составляющей изображений. К этим задачам относится такой фильтр как Retinex. Этот фильтр хорошо выравнивает яркостную составляющую изображения, но беспощадно искажает соотношение цветовых составляющих - картинка становится "кислотной".

Для нужд STEX (ScanTailor-Experimental) была поставлена задача разработки фильтра, производящего выравнивание яркостной составляющей, но щадящей цвет. Это необходимо для вытягивания слабовыраженных контуров, не поддающихся отрисовке ни одним из имеющихся в STEX порогов без доп. префильтрации с сохранением гармоничности цветных иллюстраций.

Данный фильтр разрабатывался в GIMP и был реализован в STEX для яркостной компоненты, а позднее в виде CLI утилиты stbibalance на базе STB в полноцветовом исполнении.

Читать далее

Введение в RawTherapee

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели3.3K
В эту программу влюбился с первого запуска, так она мне понравилась продуманным и проработанным интерфейсом и огромным количеством настроек. К тому моменту у меня был опыт работы с Adobe Camera RAW, встроенным в Фотошоп, и Capture NX — фирменным проявщиком от Nikon. Но Rawtherapee вытеснила их, и я так к ней привык, что ни к одной программе для обработки RAW не притрагивался. Даже популярный Lightroom прошел мимо.

Я много лет увлекаюсь съёмкой и обработкой цифровых фотографий и подготовил для вас курс в формате быстрого старта. Расскажу только самое важное и постараюсь это сделать не скучно.


Rawtherapee ведёт свой жизненный путь с 2004 года, когда её автор Gábor Horváth экспериментировал с самописным софтом для обработки RAW с его цифровой камеры. Вначале код программы был закрытым, но с третьей версии (с 2011) автор публикует исходный код под лицензией GPL, и в проект приходят сторонние разработчики. Текущая версия 5.10 доступна для скачивания с официального сайта и работает под Windows, LINUX и macOS.
Читать дальше

Ближайшие события

GIMP: реверс фильтров

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели566

При выполнении некоторых задач в GIMP проще обратить действие некоторого фильтра, чем искать фильтр с противоположным воздействием. Непосредственного механизма обращения нет, но косвенный есть. Это производится определённым наложением слоёв. При этом возникает условие, при соблюдении которого не происходит усечение (клиппинг) цветовых значений и операция имеет характер обратимой.

Операция обращения (реверс) действия фильтра производится с помощью наложения "Grain Extract" ("Извлечения зерна"). Это наложение работает как diff/patch двух слоёв, при условии, что эти слои отличаются не более чем на половину цветового диапазона (256/2 = 128 для 8-ми битных изображений).

В данной статье будет рассмотрено применение "Извлечение зерна" только для обращения действия фильтров. Это будет определять порядок наложения слоёв. В зависимости от порядка наложения diff/patch слоёв будет инвертироваться.

Для примеров в качестве исходного возьмём изображение "Лена".

Читать далее

Немое кино: как инженеры превратили тени в магию экрана: «бегущие» картинки, фоторужья и 24 кадра в секунду

Время на прочтение16 мин
Охват и читатели1.2K

Кино всегда было территорией смелых экспериментов и технических прорывов. Сегодня это CGI, нейросети, виртуальная реальность и съёмка в 8K, но если вернуться на сотню лет назад, то окажется, что инженеры и режиссёры того времени были не менее безумными новаторами.

Они придумывали, как передать движение с помощью тяжёлых механических камер, экспериментировали с ручной покраской плёнки, строили огромные декорации и вручную монтировали плёнку — без всяких DaVinci и Premiere. И именно эти первые технологии заложили основу для того, что мы сегодня считаем кинематографом.

Давай посмотрим, как это всё началось — и почему немое кино всё ещё заслуживает своего места в зале славы великих изобретений.

Читать далее

GIMP: обзор классических апскейпов

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели717

К классическим методам апскейпа (увеличения) относятся методы, основанные на различных интерполяциях исходного изображения и фильтров, также не выходящих за рамки классических. Есть неклассические методы: нейросетевые (к исходному изображению добавляется память обученной нейросети и по этой смеси генерируется увеличенное изображение), или основанные на самоподобии (производится затратный поиск самоподобия, результат добавляется к исходному изображению и по этой смеси генерируется увеличенное изображение) методы. Но в данной статье будут рассмотрены только простые классические методы.

Во всех публикациях в сети по апскейпу в GIMP предлагается использование только встроенного средства "Размер изображения". А в большинстве указывается применение только фильтра "кубическая" для интерполяции. Продемонстрируем:

Читать далее

GIMP: «Сложный» порог

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели2K

В данной статье будет изложено проектирование "сложного" порога в GIMP. "Сложность" заключается в том, что к порогу изначально предъявлялись строго определённые характеристики.

Здесь уже никак не обойтись без указания продукта, для которого проектировался порог, и причин таких строгих требований.

Читать далее

GIMP: пороговые карты и их применение

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели494

В GIMP: префильтрация перед порогом было рассказано, как используется префильтрация перед порогом и насколько сильно она оказывает влияние на результат порога. Также было указано, что возможно воспроизведение пороговых карт (TM) локальных порогов с помощью стандартных фильтров GIMP. И также было указано, что пороговые карты можно использовать для нормировки изображения в виде префильтра для более гибкого использования этих пороговых карт.

В данной статье будет показано воспроизведение (неточное) пороговой карты локального порога Niblack и использование её для нормировки исходного изображения.

Читать далее

Распознавание орхоно-енисейских рунических надписей методами машинного обучения

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели4.2K

Орхоно-енисейские руны — это древнейшая система письма тюркских народов, использовавшаяся с VI по X век на территории Центральной Азии (включая современную Монголию, южную Сибирь и часть Казахстана). Это были надгробные и памятные тексты, выбитые на камне. Они отражают политические, военные и культурные события тюркских племён. Их расшифровка началась во второй половине XIX века и остаётся предметом научных исследований и дискуссий. Исследование символов рунической письменности актуально, так как может помочь в понимании истории и культуры народов этой местности. Интерпретация енисейских надписей с памятников – очень сложная задача. Каменная поверхность разрушена временем, из-за чего символы могут быть плохо различимы. Многие памятники находятся в удаленных, диких местах, где долгий процесс исследования слишком трудозатратен. По этой причине надписи с памятников переносятся на бумажные или цифровые носители для последующей расшифровки. Как отмечал Кормушин И. В. – профессор филологии, тюрколог и алтаевед, перед чтением надписей, необходимо идентифицировать ее символы отдельным этапом. Эта ручная обработка надписей с памятников осложнена не только деформацией самих памятников, но и отсутствием строгой определенности с принадлежностью символов к тому или иному алфавиту. Достаточно распространенной оказалась проблема неточного определения состава рунических символов во многих изданиях XX века. Эти неточности приводят к ошибкам чтения и перевода древних текстов. Поэтому целесообразно автоматизировать этот процесс для повышения точности и скорости определения символов.

Читать далее

Как на самом деле хранятся изображения?

Время на прочтение29 мин
Охват и читатели8.2K

Этот пост — погружение в кроличью нору. Разработчик Монсеф Аббад задумался о изображениях — вероятно, после недавнего изучения им некоторых схем компрессии. Общеизвестно, что изображения бывают либо полутоновыми, либо RGB, когда новые цвета создаются на основе смешения красного, зелёного и синего. Но для хранения изображения требуется нечто большее, чем просто выравнивание трехбайтовых значений RGB.

Что-то в этой идее пробудило любопытство автора, поэтому в статье он попытался удовлетворить его и ответить на вопрос: как на самом деле хранятся изображения?

Читать далее

Вклад авторов