Как стать автором
Поиск
Написать публикацию
Обновить
132.54

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Krea AI: подробный обзор нейросети для генерации изображений и видео по тексту

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров2K

Доброго времени суток, «Хабр»!

Сегодня мы поговорим о Krea AI — агрегаторе нейросетей, объединяющем популярные модели ИИ, что позволяет создавать и пошагово редактировать изображения и видео, строить сложные 3D‑сцены с помощью текстовых промтов и существенно повышать качество картинок или видеоматериалов.

Здесь постараюсь раскрыть функциональность данного сервиса. Присаживайтесь удобнее, приступаем к статье.

Читать далее

Новости

Комикс: Ищу работу. Приключения соискателя: Часть 1

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.7K

Вечер пятницы — время чтобы улыбнуться и отдохнуть. Хочется чего‑то лёгкого и при этом полезного для работы. Я проверил свежее обновление Gemini 2.5 и его режим Storybook — теперь можно описать идею, а на выходе получить 10-страничную иллюстрированную историю с озвучкой и поддержкой множества стилей. В статье покажу, как я собрал «юмористический хоррор» про рынок труда-2025 и какие промпты использовал.

Читать далее

Как изменить эмоции на фото с помощью нейросети онлайн бесплатно

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.2K

Загружаете серьезный портрет, а получаете улыбающегося персонажа. Или наоборот делаете из счастливого лица задумчивого мудреца. Multi-Expression Portrait Generator в TensorArt позволяет управлять каждой мимической мышцей: от легкого наклона головы до интенсивности улыбки.

В статье: подробный разбор 15+ параметров управления эмоциями, готовые настройки для популярных выражений лица и пошаговые инструкции для новичков.

Читать далее

Оптимизация инференса больших языковых моделей: комплексный анализ современных подходов и практических реализаций

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров1.5K

В процессе разработки RAG-системы для обработки видеоконтента передо мной встала задача генерации качественных описаний для большого объема видео-клипов с использованием мультимодальных языковых моделей. Клипы имели продолжительность около 10 секунд, в отдельных экспериментах мы тестировали материал длиной в несколько десятков секунд. Финальные описания составляли от 300 до 2000 токенов и после генерации разбивались на чанки для индексации в векторной базе данных. При тестировании различных подходов обнаружились значительные различия в скорости и качестве обработки. Компактные модели, работающие с отдельными кадрами изображений (Phi, DeepSeekVL2, Moondream), демонстрировали существенно более высокую скорость по сравнению с моделями полноценной обработки видео, однако качество генерируемых описаний оставляло желать лучшего. Типичный workflow включал конкатенацию описаний отдельных кадров, при этом в DeepSeekVL2 дополнительно использовался system prompt для более интеллигентного объединения результатов анализа кадров. Модели для обработки изображений стабильно укладывались в временные рамки 3-5 секунд на клип, что значительно быстрее требуемого лимита. Полноценные видео-модели, получающие на вход целые видеоклипы, изначально генерировали описания за 30 секунд на vanilla PyTorch. Применение VLLM ускорило процесс до 12-15 секунд, а SGLang позволил достичь целевых 8-10 секунд на клип. Эти временные рамки позволили настроить обработку на кластере из 20 RTX 4090 и сгенерировать около миллиона описаний за месяц для production-системы. Благодаря применению различных техник оптимизации инференса удалось не только достичь поставленных временных целей, но и существенно превзойти их, завершив генерацию необходимого объема описаний за две недели вместо месяца. Система успешно развернута в продакшене и демонстрирует стабильную производительность. Данная статья представляет систематизированный анализ практического опыта оптимизации инференса мультимодальных LLM, полученного в ходе решения реальной production-задачи. Особое внимание уделяется сравнению эффективности различных подходов к ускорению, включая современные специализированные фреймворки VLLM и SGLang, а также аппаратные оптимизации на базе TensorRT.

Читать далее

Обзор 10 лучших аналогов Лайтрум на компьютер: личный опыт

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров3.8K

Lightroom остается стандартом для работы с изображениями. Если вы, как и я, хотите попробовать что-то новое — этот обзор для вас. Хотя я не отказался от ПО полностью, но нашел 2-3 аналога Лайтрум на компьютер, которые теперь использую в зависимости от задачи.

Тестировал по ключевым параметрам, среди них качество RAW-конвертации, организация фото, стоимость и средства коррекции. Добавил профессиональные продукты, бесплатные варианты — выбрать есть из чего.

Читать далее

Flux Kontext проигрывает ControlNET: уроки новичкам

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.4K

В первой части мы уже баловали Flux Kontext «девушками и котиками». Сегодня усложним задачу и проверим, как модель справляется с контурными подсказками, заменой цвета/фона и текстурированием 3D‑объектов в интерфейсе Forge WebUI — а заодно сравним результаты с классическим ControlNet (ControlNET для SD 1.5 и SDXL и FluxTools-V2 для Flux) и с ChatGPT.

В рамках этой статьи мы рассмотрим:

1.     Генерацию замка по контуру, с дальнейшей заменой кирпича на розовый цвет;

2.     Генерацию ювелирных часов, с дальнейшей заменой фона на чёрный цвет;

3.     Генерация текстур (битое стекло, лёд, хвоя, шерсть, морская пена) для 3D-текста "DMITRII DAK" (мой никнейм в сети);

4.     Сравнение Flux Kontext с ChatGPT, FluxTools-V2 и с ControlNet SD1.5 и SDXL.

По ходу покажу метрики времени и VRAM, а в финале подведу итоги: где Flux Kontext выигрывает, а где ControlNet остаётся незаменимым. Так же по стандарту проверим генерацию по плану на ChatGPT и с помощью FluxTools-V2.

Читать далее

Как рёбра графа 3D-сцены помогают LLM отвечать на вопросы?

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров935

Привет, Хабр! Меня зовут Татьяна Земскова, я аспирантка МФТИ и младший научный сотрудник команды Embodied Agents лаборатории Cognitive AI Systems AIRI. Областью моих научных интересов является компьютерное зрение для робототехники. Я изучаю, в частности, то, каким образом робот может использовать различные модальности (текст, 3D‑облака точек) для лучшего понимания 3D‑сцены.

Сегодня мы поговорим о понимании 3D‑сцены в контексте задач, где требуется одновременно и трёхмерное компьютерное зрение, и обработка естественного языка, а также о том, как представление 3D‑сцены в виде графа с рёбрами помогает в их решении. Главной особенностью графового представления 3D‑сцены является его компактность, поэтому граф можно использовать для сжатого описания 3D‑сцены, подающегося на вход в LLM. Это позволяет получать качественные ответы на вопросы о 3D‑сцене до 5 раз быстрее по сравнению с методами, использующими последовательности изображений для LVLM. Это мы показали вместе с моим научным руководителем Дмитрием Юдиным в недавней работе 3DGraphLLM: Сombining Semantic Graphs and Large Language Models for 3D Scene Understanding, принятой на ведущую конференцию по компьютерному зрению ICCV 2025.

Мы предоставляем открытый исходный код метода 3DGraphLLM с инструкциями по запуску, а также публикуем предварительно обученные веса модели на Hugging Face. Это позволяет каждому желающему легко воспроизвести результаты и опробовать все описанные методы на собственных данных. Здесь же хочется подробнее рассказать о новом методе и пути, по которому мы к нему пришли.

Читать далее

Математическая живопись Иньиго Килеса

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров6.4K

Иньиго Килес (iq) более тридцати лет профессионально занимается компьютерной графикой (CG). За это время он опубликовал массу учебных проектов, курсов и лекций. Известен как автор нескольких выдающихся демок и программных проектов, включая Quill — инструмент для рисования и анимации в VR и Shadertoy — сайт для обучения компьютерной графике, создания и публикации работ.

Читать далее

Как писать промт для генерации изображения/видео и получить лучший результат?

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров15K

Вслед за текстовыми нейросетями появились модели, которые могут генерировать фотографии и видео. Что одно, что другое — инструмент, которым нужно уметь управлять. Сегодня разберем вопрос: как правильно писать промт для успешной генерации изображения или видео?

Кстати, в своей предыдущей статье я рассказывал о промтах для текстовых моделей, если вам интересно — можете глянуть тут.

Занимайте позицию поудобнее, наливайте чай или кофе, если вы его больше предпочитаете, ну а я начну свое повествование.

Читать далее

OpenCV. Начало

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров21K

В прошедшем июне исполнилось 25 лет первому релизу OpenCV. Господи, как летит время! Кажется, только вчера мы писали первые строчки. А уже четверть века с тех пор прошло. Самое время вспомнить, как все начиналось. Я не ставил себе целью рассказать в этой статье полную историю OpenCV — есть замечательная книга Гари, отличная статья в интеловом блоге и много других материалов. А у меня — скорее взгляд изнутри на то, как зарождался де-факто стандарт компьютерного зрения, размышления о причудливых развилках пути и факторе везения в технологии и дань уважения людям, с которыми мне довелось поработать.

Читать далее

Как приручить AI-пиксель-арт

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров12K

За последние пару лет генеративные нейросети стали волшебной кисточкой для всего: концепт‑артов, иконок, иллюстраций, обложек, аватаров, спрайтов… Особенно — пиксель‑арта. В Midjourney, Stable Diffusion, Dall‑E, Image-1 и в других моделях можно просто вбить: «Pixel art goose with goggles in the style of SNES» — и получить шикарного пиксельного гуся за 10 секунд.

Но если ты пробовал вставить такого гуся в игру — ты уже знаешь боль.

Я решил вкопаться в эту тему поглубже и сделать open‑source‑инструмент, который автоматизирует превращение AI‑generated pixel art в pixel‑perfect pixel art.

Читать далее

Как мы оживили DPED: собираем датасет для обучения модели

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров611

Привет, Хабр! Сегодня с вами команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ им. Р. Е. Алексеева. Продолжаем рассказывать о нашей работе по возрождению и улучшению DPED (Deep Photo Enhancement Dataset). Это открытый проект исследователей из ETH Zurich, который включает как датасет парных изображений, так и нейросетевую модель для повышения качества мобильных фотографий до уровня DSLR. В нашем случае мы хотим довести снимки сэто планшета YADRO KVADRA_T, снимки с которого мы хотим довести по качеству до качествауровня полупрофессиональной камеры Sony Alpha ILCE 6600.

Отметим, что цель проекта не только исследование и обучение модели, но и последующее внедрение полученных наработок в приложение камеры планшета. Мы рассматриваем варианты локального инференса на самом устройстве, включая оптимизацию модели под мобильные вычислительные платформы с использованием TensorRT или ONNX Runtime. Так улучшать изображения можно прямо на устройстве — либо в момент съемки, либо в фоновом режиме.

Читать далее

GPU сервер для FLUX и ComfyUI: Как выбрать железо для моделей нового поколения и не переплатить

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.1K

Генеративные нейросети (FLUX, ComfyUI, Stable Diffusion) — мощный инструмент для бизнеса, стартапов и разработчиков. Но чтобы добыть золото, нужна правильная кирка (подходящий сервер с GPU). Пока многие все еще обсуждают Stable Diffusion, на сцену выходят новые, более эффективные архитектуры, такие как FLUX. Выбор сервера для них — это минное поле: можно потратить тысячи долларов на избыточное железо или застрять с машиной, которая «не тянет» ваши задачи.

Эта статья — ваше руководство по выживанию в мире SD 2025 года. Мы честно разберем, какое железо вам действительно нужно для работы с FLUX, ComfyUI и дообучения моделей нового поколения. Никаких завышенных требований — только практика.

ОК, если без броских фраз, то мы помогали клиенту, сведущему в ComfyUI и FLUX запустить сервис под Ubuntu и сделали скрипт под его требования. Решил им поделиться, а ChatGPT помогала описать детали, за что я прошу меня простить 😇.

Читать далее

Ближайшие события

ИИ Детокс: DuckDuckGo запускает фильтр для удаления изображений, сгенерированных ИИ

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров2.3K

Поисковик DuckDuckGo представил новую функцию, позволяющую пользователям скрывать изображения, созданные с помощью искусственного интеллекта, из результатов поиска. Это решение направлено на борьбу с "ИИ-мусором" — навязчивым, некачественным синтетическим контентом, всё чаще появляющимся в выдаче.

Читать далее

Лучшие бесплатные программы для поиска дубликатов фото

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров7.7K

Вам знакомо это чувство лёгкой паники, когда ваш ноутбук внезапно начинает жалобно пищать, а на экране возникает зловещее предупреждение: «Диск почти заполнен»? Со мной это тоже недавно случилось. Я открыл «Проводник» и остолбенел – мой внешний диск на 1 ТБ был забит под завязку – на 95%!

Виновниками оказались не фильмы и не игры, а гигантское кладбище фотографий. Двенадцать папок с безликим именем «DCIM», горы скриншотов, которые я копировал по пять раз «на всякий случай», и целые россыпи почти одинаковых снимков заката, сделанных в режиме серийной съёмки. Попытка вручную найти идентичные фото напоминала поиск иголки в стоге сена размером с Сибирь.

В предыдущей статье я разбирал, как лучше сортировать фото, и ещё тогда я понял: пора объявлять войну дубликатам. И вот этот момент настал. После тестирования более 15 инструментов (и кучи потраченных нервов) я отобрал 5 бесплатных программ, которые реально помогают решить проблему. Этим опытом и поделюсь.

Читать далее

Девушки, котики и Flux Kontext: как выжать максимум из WebUI Forge?

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров7.3K

У кошачьих лапок, женской анатомии и квантованных Checkpoint есть одно общее - все они начинают «страдать», если генератору не хватает шагов и VRAM.

В этой статье мы рассмотрим сравнение моделей Flux dev Q8_0.GGUF с новой, недавно вышедшей в открытый доступ комьюнити версией Flux Kontext dev Q8_0.GGUF и Flux Kontext dev bnb-nf4 + Hyper Flux.1 dev-8steps Lora и с Flux Kontext dev.safetensors для генерации одиночных изображений и совмещения одного изображения с другим.

Читать далее

Топ нейросетей для создания и редактирования фото

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров16K

С развитием нейросетей обработка и редактирование изображений перешли на новый уровень — больше не требуется проводить большое количество часов за работой в таких программах, как Adobe Photoshop, потому что нейросеть может справиться практически с любым запросом всего за пару минут — будь то ретуширование, удаление фона или шумов с фотографий и многое другое.

В данной статье мы рассмотрим наиболее популярные и эффективные нейросети, которые помогут вам создавать и редактировать фото быстро и качественно — без лишних усилий и временных затрат.

Читать далее

Как мы строили KidFolio — цифровую платформу для родителей и детских садов

Время на прочтение10 мин
Количество просмотров727

Массовые фото из детского сада в родительских чатах редко бывают персональными: на десятках снимков сложно найти именно своего ребенка. Выпускники онлайн-магистратуры «Науки о данных» Центра «Пуск» МФТИ предложили решение — платформу KidFolio, которая с помощью технологий компьютерного зрения и мультимодальных моделей автоматически формирует и отправляет родителям персонализированные фото- и видеоотчеты.

В статье — подробности разработки: от сбора датасета детских лиц до создания собственного бенчмарка и дообучения моделей для генерации текстов.

Читать далее

Как мы улучшили режим ночной съемки в планшетах KVADRA_T

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.9K

Привет, Хабр! На связи Полина Лукичева, инженер команды AI ML Kit в компании YADRO. В первой статье я рассказала о проблемах режима ночной съемки и методах их решения. Сегодня перехожу к практике — проведу предметное сравнение алгоритмов, выберу наиболее подходящие и покажу, как они работают в реальных условиях на планшетах KVADRA_T.

Для наших заказчиков качественные снимки в условиях низкой освещенности — рабочая необходимость. Планшет поможет снять показания со счетчика в темном подвале или сфотографировать паспорт клиента в коридоре с минимальными шумами и максимальной четкостью.

Читать далее

Современные форматы изображений или почему мы до сих пор на JPEG?

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров6.4K

Формат JPEG появился в 1992 году и стал де-факто стандартом хранения фотографий в интернете. Спустя более 30 лет появляются всё более эффективные и продвинутые альтернативы: WebP, AVIF, JPEG XL и другие. Однако даже в 2025 году JPEG продолжает доминировать. Почему так происходит, несмотря на очевидные преимущества новых форматов? В этой статье мы проведем обзор форматов и разберёмся в причинах.

Читать далее
1
23 ...

Вклад авторов