Обновить
56.37

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Обзор 10 лучших аналогов Лайтрум на компьютер: личный опыт

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров6.6K

Lightroom остается стандартом для работы с изображениями. Если вы, как и я, хотите попробовать что-то новое — этот обзор для вас. Хотя я не отказался от ПО полностью, но нашел 2-3 аналога Лайтрум на компьютер, которые теперь использую в зависимости от задачи.

Тестировал по ключевым параметрам, среди них качество RAW-конвертации, организация фото, стоимость и средства коррекции. Добавил профессиональные продукты, бесплатные варианты — выбрать есть из чего.

Читать далее

Flux Kontext проигрывает ControlNET: уроки новичкам

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.9K

В первой части мы уже баловали Flux Kontext «девушками и котиками». Сегодня усложним задачу и проверим, как модель справляется с контурными подсказками, заменой цвета/фона и текстурированием 3D‑объектов в интерфейсе Forge WebUI — а заодно сравним результаты с классическим ControlNet (ControlNET для SD 1.5 и SDXL и FluxTools-V2 для Flux) и с ChatGPT.

В рамках этой статьи мы рассмотрим:

1.     Генерацию замка по контуру, с дальнейшей заменой кирпича на розовый цвет;

2.     Генерацию ювелирных часов, с дальнейшей заменой фона на чёрный цвет;

3.     Генерация текстур (битое стекло, лёд, хвоя, шерсть, морская пена) для 3D-текста "DMITRII DAK" (мой никнейм в сети);

4.     Сравнение Flux Kontext с ChatGPT, FluxTools-V2 и с ControlNet SD1.5 и SDXL.

По ходу покажу метрики времени и VRAM, а в финале подведу итоги: где Flux Kontext выигрывает, а где ControlNet остаётся незаменимым. Так же по стандарту проверим генерацию по плану на ChatGPT и с помощью FluxTools-V2.

Читать далее

Как рёбра графа 3D-сцены помогают LLM отвечать на вопросы?

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров1K

Привет, Хабр! Меня зовут Татьяна Земскова, я аспирантка МФТИ и младший научный сотрудник команды Embodied Agents лаборатории Cognitive AI Systems AIRI. Областью моих научных интересов является компьютерное зрение для робототехники. Я изучаю, в частности, то, каким образом робот может использовать различные модальности (текст, 3D‑облака точек) для лучшего понимания 3D‑сцены.

Сегодня мы поговорим о понимании 3D‑сцены в контексте задач, где требуется одновременно и трёхмерное компьютерное зрение, и обработка естественного языка, а также о том, как представление 3D‑сцены в виде графа с рёбрами помогает в их решении. Главной особенностью графового представления 3D‑сцены является его компактность, поэтому граф можно использовать для сжатого описания 3D‑сцены, подающегося на вход в LLM. Это позволяет получать качественные ответы на вопросы о 3D‑сцене до 5 раз быстрее по сравнению с методами, использующими последовательности изображений для LVLM. Это мы показали вместе с моим научным руководителем Дмитрием Юдиным в недавней работе 3DGraphLLM: Сombining Semantic Graphs and Large Language Models for 3D Scene Understanding, принятой на ведущую конференцию по компьютерному зрению ICCV 2025.

Мы предоставляем открытый исходный код метода 3DGraphLLM с инструкциями по запуску, а также публикуем предварительно обученные веса модели на Hugging Face. Это позволяет каждому желающему легко воспроизвести результаты и опробовать все описанные методы на собственных данных. Здесь же хочется подробнее рассказать о новом методе и пути, по которому мы к нему пришли.

Читать далее

Математическая живопись Иньиго Килеса

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров7.1K

Иньиго Килес (iq) более тридцати лет профессионально занимается компьютерной графикой (CG). За это время он опубликовал массу учебных проектов, курсов и лекций. Известен как автор нескольких выдающихся демок и программных проектов, включая Quill — инструмент для рисования и анимации в VR и Shadertoy — сайт для обучения компьютерной графике, создания и публикации работ.

Читать далее

Как писать промт для генерации изображения/видео и получить лучший результат?

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров28K

Вслед за текстовыми нейросетями появились модели, которые могут генерировать фотографии и видео. Что одно, что другое — инструмент, которым нужно уметь управлять. Сегодня разберем вопрос: как правильно писать промт для успешной генерации изображения или видео?

Кстати, в своей предыдущей статье я рассказывал о промтах для текстовых моделей, если вам интересно — можете глянуть тут.

Занимайте позицию поудобнее, наливайте чай или кофе, если вы его больше предпочитаете, ну а я начну свое повествование.

Читать далее

OpenCV. Начало

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров24K

В прошедшем июне исполнилось 25 лет первому релизу OpenCV. Господи, как летит время! Кажется, только вчера мы писали первые строчки. А уже четверть века с тех пор прошло. Самое время вспомнить, как все начиналось. Я не ставил себе целью рассказать в этой статье полную историю OpenCV — есть замечательная книга Гари, отличная статья в интеловом блоге и много других материалов. А у меня — скорее взгляд изнутри на то, как зарождался де-факто стандарт компьютерного зрения, размышления о причудливых развилках пути и факторе везения в технологии и дань уважения людям, с которыми мне довелось поработать.

Читать далее

Как приручить AI-пиксель-арт

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров16K

За последние пару лет генеративные нейросети стали волшебной кисточкой для всего: концепт‑артов, иконок, иллюстраций, обложек, аватаров, спрайтов… Особенно — пиксель‑арта. В Midjourney, Stable Diffusion, Dall‑E, Image-1 и в других моделях можно просто вбить: «Pixel art goose with goggles in the style of SNES» — и получить шикарного пиксельного гуся за 10 секунд.

Но если ты пробовал вставить такого гуся в игру — ты уже знаешь боль.

Я решил вкопаться в эту тему поглубже и сделать open‑source‑инструмент, который автоматизирует превращение AI‑generated pixel art в pixel‑perfect pixel art.

Читать далее

Как мы оживили DPED: собираем датасет для обучения модели

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров702

Привет, Хабр! Сегодня с вами команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ им. Р. Е. Алексеева. Продолжаем рассказывать о нашей работе по возрождению и улучшению DPED (Deep Photo Enhancement Dataset). Это открытый проект исследователей из ETH Zurich, который включает как датасет парных изображений, так и нейросетевую модель для повышения качества мобильных фотографий до уровня DSLR. В нашем случае мы хотим довести снимки с планшета YADRO KVADRA_T до качества полупрофессиональной камеры Sony Alpha ILCE 6600.

Отметим, что цель проекта не только исследование и обучение модели, но и последующее внедрение полученных наработок в приложение камеры планшета. Мы рассматриваем варианты локального инференса на самом устройстве, включая оптимизацию модели под мобильные вычислительные платформы с использованием TensorRT или ONNX Runtime. Так улучшать изображения можно прямо на устройстве — либо в момент съемки, либо в фоновом режиме.

Читать далее

GPU сервер для FLUX и ComfyUI: Как выбрать железо для моделей нового поколения и не переплатить

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2.3K

Генеративные нейросети (FLUX, ComfyUI, Stable Diffusion) — мощный инструмент для бизнеса, стартапов и разработчиков. Но чтобы добыть золото, нужна правильная кирка (подходящий сервер с GPU). Пока многие все еще обсуждают Stable Diffusion, на сцену выходят новые, более эффективные архитектуры, такие как FLUX. Выбор сервера для них — это минное поле: можно потратить тысячи долларов на избыточное железо или застрять с машиной, которая «не тянет» ваши задачи.

Эта статья — ваше руководство по выживанию в мире SD 2025 года. Мы честно разберем, какое железо вам действительно нужно для работы с FLUX, ComfyUI и дообучения моделей нового поколения. Никаких завышенных требований — только практика.

ОК, если без броских фраз, то мы помогали клиенту, сведущему в ComfyUI и FLUX запустить сервис под Ubuntu и сделали скрипт под его требования. Решил им поделиться, а ChatGPT помогала описать детали, за что я прошу меня простить 😇.

Читать далее

ИИ Детокс: DuckDuckGo запускает фильтр для удаления изображений, сгенерированных ИИ

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров2.4K

Поисковик DuckDuckGo представил новую функцию, позволяющую пользователям скрывать изображения, созданные с помощью искусственного интеллекта, из результатов поиска. Это решение направлено на борьбу с "ИИ-мусором" — навязчивым, некачественным синтетическим контентом, всё чаще появляющимся в выдаче.

Читать далее

Лучшие бесплатные программы для поиска дубликатов фото

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров28K

Вам знакомо это чувство лёгкой паники, когда ваш ноутбук внезапно начинает жалобно пищать, а на экране возникает зловещее предупреждение: «Диск почти заполнен»? Со мной это тоже недавно случилось. Я открыл «Проводник» и остолбенел – мой внешний диск на 1 ТБ был забит под завязку – на 95%!

Виновниками оказались не фильмы и не игры, а гигантское кладбище фотографий. Двенадцать папок с безликим именем «DCIM», горы скриншотов, которые я копировал по пять раз «на всякий случай», и целые россыпи почти одинаковых снимков заката, сделанных в режиме серийной съёмки. Попытка вручную найти идентичные фото напоминала поиск иголки в стоге сена размером с Сибирь.

В предыдущей статье я разбирал, как лучше сортировать фото, и ещё тогда я понял: пора объявлять войну дубликатам. И вот этот момент настал. После тестирования более 15 инструментов (и кучи потраченных нервов) я отобрал 5 бесплатных программ, которые реально помогают решить проблему. Этим опытом и поделюсь.

Читать далее

Девушки, котики и Flux Kontext: как выжать максимум из WebUI Forge?

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров11K

У кошачьих лапок, женской анатомии и квантованных Checkpoint есть одно общее - все они начинают «страдать», если генератору не хватает шагов и VRAM.

В этой статье мы рассмотрим сравнение моделей Flux dev Q8_0.GGUF с новой, недавно вышедшей в открытый доступ комьюнити версией Flux Kontext dev Q8_0.GGUF и Flux Kontext dev bnb-nf4 + Hyper Flux.1 dev-8steps Lora и с Flux Kontext dev.safetensors для генерации одиночных изображений и совмещения одного изображения с другим.

Читать далее

Топ нейросетей для создания и редактирования фото

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров20K

С развитием нейросетей обработка и редактирование изображений перешли на новый уровень — больше не требуется проводить большое количество часов за работой в таких программах, как Adobe Photoshop, потому что нейросеть может справиться практически с любым запросом всего за пару минут — будь то ретуширование, удаление фона или шумов с фотографий и многое другое.

В данной статье мы рассмотрим наиболее популярные и эффективные нейросети, которые помогут вам создавать и редактировать фото быстро и качественно — без лишних усилий и временных затрат.

Читать далее

Ближайшие события

Как мы строили KidFolio — цифровую платформу для родителей и детских садов

Время на прочтение10 мин
Количество просмотров820

Массовые фото из детского сада в родительских чатах редко бывают персональными: на десятках снимков сложно найти именно своего ребенка. Выпускники онлайн-магистратуры «Науки о данных» Центра «Пуск» МФТИ предложили решение — платформу KidFolio, которая с помощью технологий компьютерного зрения и мультимодальных моделей автоматически формирует и отправляет родителям персонализированные фото- и видеоотчеты.

В статье — подробности разработки: от сбора датасета детских лиц до создания собственного бенчмарка и дообучения моделей для генерации текстов.

Читать далее

Как мы улучшили режим ночной съемки в планшетах KVADRA_T

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров2K

Привет, Хабр! На связи Полина Лукичева, инженер команды AI ML Kit в компании YADRO. В первой статье я рассказала о проблемах режима ночной съемки и методах их решения. Сегодня перехожу к практике — проведу предметное сравнение алгоритмов, выберу наиболее подходящие и покажу, как они работают в реальных условиях на планшетах KVADRA_T.

Для наших заказчиков качественные снимки в условиях низкой освещенности — рабочая необходимость. Планшет поможет снять показания со счетчика в темном подвале или сфотографировать паспорт клиента в коридоре с минимальными шумами и максимальной четкостью.

Читать далее

Современные форматы изображений или почему мы до сих пор на JPEG?

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров6.7K

Формат JPEG появился в 1992 году и стал де-факто стандартом хранения фотографий в интернете. Спустя более 30 лет появляются всё более эффективные и продвинутые альтернативы: WebP, AVIF, JPEG XL и другие. Однако даже в 2025 году JPEG продолжает доминировать. Почему так происходит, несмотря на очевидные преимущества новых форматов? В этой статье мы проведем обзор форматов и разберёмся в причинах.

Читать далее

VHS-Decode — новый метод оцифровки видео

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров26K

Несмотря на то, что видеокассеты уже давно вышли из повседневной жизни, услуги по их оцифровке продолжают пользоваться спросом. Кассеты с любительскими записями есть почти в каждой семье, и рано или поздно их нужно перевести в цифру, ведь срок жизни магнитной ленты ограничен.

Зимой 2025 года в мои руки попало 35 кассет формата VHS и VHS-C из семейного архива, и встала задача по их оцифровке. С учетом того, что на каждой кассете было записано приблизительно по 60 минут видео, а средний ценник услуг по захвату сейчас составляет 400 рублей в час, общая стоимость конвертации составила бы около 14 тысяч рублей. Эта сумма показалась мне слишком большой, и было решено сделать все самостоятельно. В данной статье я хочу рассказать об относительно новом методе оцифровки видеокассет, на котором я остановился, и сравнить его с классическими подходами.

Читать далее

Создаем датасет печатных букв с любым шрифтом за 170 строк

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров948

В этой работе разбирается простой способ генерации изображений букв для подготовки данных для обучения нейронной сети для классификации (распознавания) букв русского алфавита.

Читать далее

Сравнение форматов PNG: от первой до третьей редакции

Уровень сложностиПростой
Время на прочтение30 мин
Количество просмотров3.3K

Недавно опубликованная третья редакция спецификации Portable Network Graphics (PNG) 2025 года, разработанная World Wide Web Consortium (W3C), привлекла внимание к эволюции этого формата (W3C PNG Specification (Third Edition, 2025)). Ранее я, как и многие, использовал PNG, не задумываясь о его развитии и различных редакциях. Углубившись в изучение спецификаций PNG (1996, 2003, 2025), я решил подготовить данную статью, чтобы обобщить ключевые изменения и их значение для веб-дизайна, разработки игр и мультимедиа. Статья не претендует на исчерпывающий охват, но стремится предоставить полезный обзор для всех заинтересованных, включая начинающих. Приветствуются любые замечания и предложения по улучшению материала в комментариях к публикации. Весь код, приведённый ниже, выложил в репозиторий. Надеюсь, чтение будет полезным и увлекательным.

Читать далее

Часть 3: Diffusion Transformer (DiT) — Stable Diffusion 3 как она есть

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.7K

В этой статье погрузимся в мир генерации изображений с Diffusion Transformer (DiT) — сердцем Stable Diffusion 3. Разберем как она устроена и как работает

Читать далее

Вклад авторов