Как стать автором
Поиск
Написать публикацию
Обновить
128.01

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Как приручить AI-пиксель-арт

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров7.4K

За последние пару лет генеративные нейросети стали волшебной кисточкой для всего: концепт‑артов, иконок, иллюстраций, обложек, аватаров, спрайтов… Особенно — пиксель‑арта. В Midjourney, Stable Diffusion, Dall‑E, Image-1 и в других моделях можно просто вбить: «Pixel art goose with goggles in the style of SNES» — и получить шикарного пиксельного гуся за 10 секунд.

Но если ты пробовал вставить такого гуся в игру — ты уже знаешь боль.

Я решил вкопаться в эту тему поглубже и сделать open‑source‑инструмент, который автоматизирует превращение AI‑generated pixel art в pixel‑perfect pixel art.

Читать далее

Новости

Как мы оживили DPED: собираем датасет для обучения модели

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров465

Привет, Хабр! Сегодня с вами команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ им. Р. Е. Алексеева. Продолжаем рассказывать о нашей работе по возрождению и улучшению DPED (Deep Photo Enhancement Dataset). Это открытый проект исследователей из ETH Zurich, который включает как датасет парных изображений, так и нейросетевую модель для повышения качества мобильных фотографий до уровня DSLR. В нашем случае мы хотим довести снимки сэто планшета YADRO KVADRA_T, снимки с которого мы хотим довести по качеству до качествауровня полупрофессиональной камеры Sony Alpha ILCE 6600.

Отметим, что цель проекта не только исследование и обучение модели, но и последующее внедрение полученных наработок в приложение камеры планшета. Мы рассматриваем варианты локального инференса на самом устройстве, включая оптимизацию модели под мобильные вычислительные платформы с использованием TensorRT или ONNX Runtime. Так улучшать изображения можно прямо на устройстве — либо в момент съемки, либо в фоновом режиме.

Читать далее

GPU сервер для FLUX и ComfyUI: Как выбрать железо для моделей нового поколения и не переплатить

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров729

Генеративные нейросети (FLUX, ComfyUI, Stable Diffusion) — мощный инструмент для бизнеса, стартапов и разработчиков. Но чтобы добыть золото, нужна правильная кирка (подходящий сервер с GPU). Пока многие все еще обсуждают Stable Diffusion, на сцену выходят новые, более эффективные архитектуры, такие как FLUX. Выбор сервера для них — это минное поле: можно потратить тысячи долларов на избыточное железо или застрять с машиной, которая «не тянет» ваши задачи.

Эта статья — ваше руководство по выживанию в мире SD 2025 года. Мы честно разберем, какое железо вам действительно нужно для работы с FLUX, ComfyUI и дообучения моделей нового поколения. Никаких завышенных требований — только практика.

ОК, если без броских фраз, то мы помогали клиенту, сведущему в ComfyUI и FLUX запустить сервис под Ubuntu и сделали скрипт под его требования. Решил им поделиться, а ChatGPT помогала описать детали, за что я прошу меня простить 😇.

Читать далее

ИИ Детокс: DuckDuckGo запускает фильтр для удаления изображений, сгенерированных ИИ

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров2.2K

Поисковик DuckDuckGo представил новую функцию, позволяющую пользователям скрывать изображения, созданные с помощью искусственного интеллекта, из результатов поиска. Это решение направлено на борьбу с "ИИ-мусором" — навязчивым, некачественным синтетическим контентом, всё чаще появляющимся в выдаче.

Читать далее

Лучшие бесплатные программы для поиска дубликатов фото

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров4K

Вам знакомо это чувство лёгкой паники, когда ваш ноутбук внезапно начинает жалобно пищать, а на экране возникает зловещее предупреждение: «Диск почти заполнен»? Со мной это тоже недавно случилось. Я открыл «Проводник» и остолбенел – мой внешний диск на 1 ТБ был забит под завязку – на 95%!

Виновниками оказались не фильмы и не игры, а гигантское кладбище фотографий. Двенадцать папок с безликим именем «DCIM», горы скриншотов, которые я копировал по пять раз «на всякий случай», и целые россыпи почти одинаковых снимков заката, сделанных в режиме серийной съёмки. Попытка вручную найти идентичные фото напоминала поиск иголки в стоге сена размером с Сибирь.

В предыдущей статье я разбирал, как лучше сортировать фото, и ещё тогда я понял: пора объявлять войну дубликатам. И вот этот момент настал. После тестирования более 15 инструментов (и кучи потраченных нервов) я отобрал 5 бесплатных программ, которые реально помогают решить проблему. Этим опытом и поделюсь.

Читать далее

Девушки, котики и Flux Kontext: как выжать максимум из WebUI Forge?

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров5.5K

У кошачьих лапок, женской анатомии и квантованных Checkpoint есть одно общее - все они начинают «страдать», если генератору не хватает шагов и VRAM.

В этой статье мы рассмотрим сравнение моделей Flux dev Q8_0.GGUF с новой, недавно вышедшей в открытый доступ комьюнити версией Flux Kontext dev Q8_0.GGUF и Flux Kontext dev bnb-nf4 + Hyper Flux.1 dev-8steps Lora и с Flux Kontext dev.safetensors для генерации одиночных изображений и совмещения одного изображения с другим.

Читать далее

Топ нейросетей для создания и редактирования фото

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров14K

С развитием нейросетей обработка и редактирование изображений перешли на новый уровень — больше не требуется проводить большое количество часов за работой в таких программах, как Adobe Photoshop, потому что нейросеть может справиться практически с любым запросом всего за пару минут — будь то ретуширование, удаление фона или шумов с фотографий и многое другое.

В данной статье мы рассмотрим наиболее популярные и эффективные нейросети, которые помогут вам создавать и редактировать фото быстро и качественно — без лишних усилий и временных затрат.

Читать далее

Как мы строили KidFolio — цифровую платформу для родителей и детских садов

Время на прочтение10 мин
Количество просмотров669

Массовые фото из детского сада в родительских чатах редко бывают персональными: на десятках снимков сложно найти именно своего ребенка. Выпускники онлайн-магистратуры «Науки о данных» Центра «Пуск» МФТИ предложили решение — платформу KidFolio, которая с помощью технологий компьютерного зрения и мультимодальных моделей автоматически формирует и отправляет родителям персонализированные фото- и видеоотчеты.

В статье — подробности разработки: от сбора датасета детских лиц до создания собственного бенчмарка и дообучения моделей для генерации текстов.

Читать далее

Как мы улучшили режим ночной съемки в планшетах KVADRA_T

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.8K

Привет, Хабр! На связи Полина Лукичева, инженер команды AI ML Kit в компании YADRO. В первой статье я рассказала о проблемах режима ночной съемки и методах их решения. Сегодня перехожу к практике — проведу предметное сравнение алгоритмов, выберу наиболее подходящие и покажу, как они работают в реальных условиях на планшетах KVADRA_T.

Для наших заказчиков качественные снимки в условиях низкой освещенности — рабочая необходимость. Планшет поможет снять показания со счетчика в темном подвале или сфотографировать паспорт клиента в коридоре с минимальными шумами и максимальной четкостью.

Читать далее

Современные форматы изображений или почему мы до сих пор на JPEG?

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров6.2K

Формат JPEG появился в 1992 году и стал де-факто стандартом хранения фотографий в интернете. Спустя более 30 лет появляются всё более эффективные и продвинутые альтернативы: WebP, AVIF, JPEG XL и другие. Однако даже в 2025 году JPEG продолжает доминировать. Почему так происходит, несмотря на очевидные преимущества новых форматов? В этой статье мы проведем обзор форматов и разберёмся в причинах.

Читать далее

VHS-Decode — новый метод оцифровки видео

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров20K

Несмотря на то, что видеокассеты уже давно вышли из повседневной жизни, услуги по их оцифровке продолжают пользоваться спросом. Кассеты с любительскими записями есть почти в каждой семье, и рано или поздно их нужно перевести в цифру, ведь срок жизни магнитной ленты ограничен.

Зимой 2025 года в мои руки попало 35 кассет формата VHS и VHS-C из семейного архива, и встала задача по их оцифровке. С учетом того, что на каждой кассете было записано приблизительно по 60 минут видео, а средний ценник услуг по захвату сейчас составляет 400 рублей в час, общая стоимость конвертации составила бы около 14 тысяч рублей. Эта сумма показалась мне слишком большой, и было решено сделать все самостоятельно. В данной статье я хочу рассказать об относительно новом методе оцифровки видеокассет, на котором я остановился, и сравнить его с классическими подходами.

Читать далее

Создаем датасет печатных букв с любым шрифтом за 170 строк

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров814

В этой работе разбирается простой способ генерации изображений букв для подготовки данных для обучения нейронной сети для классификации (распознавания) букв русского алфавита.

Читать далее

Сравнение форматов PNG: от первой до третьей редакции

Уровень сложностиПростой
Время на прочтение30 мин
Количество просмотров2.7K

Недавно опубликованная третья редакция спецификации Portable Network Graphics (PNG) 2025 года, разработанная World Wide Web Consortium (W3C), привлекла внимание к эволюции этого формата (W3C PNG Specification (Third Edition, 2025)). Ранее я, как и многие, использовал PNG, не задумываясь о его развитии и различных редакциях. Углубившись в изучение спецификаций PNG (1996, 2003, 2025), я решил подготовить данную статью, чтобы обобщить ключевые изменения и их значение для веб-дизайна, разработки игр и мультимедиа. Статья не претендует на исчерпывающий охват, но стремится предоставить полезный обзор для всех заинтересованных, включая начинающих. Приветствуются любые замечания и предложения по улучшению материала в комментариях к публикации. Весь код, приведённый ниже, выложил в репозиторий. Надеюсь, чтение будет полезным и увлекательным.

Читать далее

Ближайшие события

Часть 3: Diffusion Transformer (DiT) — Stable Diffusion 3 как она есть

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.4K

В этой статье погрузимся в мир генерации изображений с Diffusion Transformer (DiT) — сердцем Stable Diffusion 3. Разберем как она устроена и как работает

Читать далее

Часть 2: Vision Transformer (ViT) — Когда трансформеры научились видеть

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.5K

Представьте, что лингвист внезапно стал экспертом по живописи. Именно это произошло в 2020 году, когда архитектура для обработки текста — трансформеры — научилась "видеть" изображения. Vision Transformer (ViT) доказал: для понимания картинок не обязательны свёртки! Разберем "на пальцах" как она устроена и как изображения превращаются в предсказания.

Читать далее

NAVIS — многоцелевой быстросборный беспилотный катамаран

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров4K

Создание быстросборного маломерного беспилотного судна с возможностью быстрой интеграции различных полезных нагрузок для решения задач на воде и под водой в автономном режиме.

Читать далее

Как мы создавали технологию валидации печатей

Время на прочтение3 мин
Количество просмотров735

На рынке можно найти разные технологии по поиску печатей и подписей на документах. Мы в Content AI решили на этом не останавливаться и пошли дальше — помимо распознавания подписей и печатей, мы научились их валидировать. Обе технологии станут частью нашей универсальной платформы для интеллектуальной обработки информации ContentCapture и помогут пользователям еще быстрее обрабатывать большой поток документов. 

О том, как верифицировать подписи, мы поделились в предыдущем посте, а про технологию валидации печатей рассказываем под катом. 

Читать далее

Режим ночной съемки: три алгоритма улучшения мобильных фотографий

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров4.2K

Привет, Хабр! Меня зовут Полина Лукичева, я инженер команды AI ML Kit в YADRO. Наша задача — улучшить ночной режим камеры в планшете KVADRA_T. В статье я расскажу об основных ограничениях камеры мобильного устройства при съемке в условиях низкой освещенности, а также поделюсь алгоритмами, с помощью которых можно получить качественный снимок даже в темноте.

Читать далее

Заставляем компьютер видеть цвета без нейросетей: сегментация изображений по старинке

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2.1K

Привет, Хабр! В предыдущей части мы рассматривали базовые методы цифровой обработки изображений для задачи сегментации спутникового снимка.

В этой статье рассмотрим ещё парочку методов решения этой задачи, всё ещё «классических», то есть без применения машинного обучения или нейросетей. Помогут нам во всём разобраться, как и в прошлый раз, язык программирования Julia и среда технических расчётов Engee!

Читать далее

Компьютерное зрение для начинающих

Время на прочтение7 мин
Количество просмотров6.4K

Тема компьютерного зрения наряду с искусственным интеллектом в последние годы стала очень популярной. Сегодня компьютерное зрение — это динамичная и быстро развивающаяся область, постоянно расширяющая границы того, что могут видеть и понимать машины.

Однако, зачастую многие публикации посвященные computer vision являются достаточно сложными для тех, кто только погружается в данную тему.

В этой статье мы поговорим о том, как все это работает и какие основные технологии и алгоритмы используются. Мы не будем глубоко погружаться в вопросы, связанные с реализацией методов компьютерного зрения, так как задача этой статьи объяснить основные принципы.

Читать далее
1
23 ...

Вклад авторов