Обновить
140.61

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга

Представлен открытый проект rembg — легковесный скрипт на Python, который поможет убрать фон даже с самых сложных картинок. Удаляет фон за секунды и не грузит ПК.

Теги:
+2
Комментарии0

Желтая майка лидера: о соревновании технологий, мастерстве и границах творчества.

Я не фотограф. Я — человек с камерой. Именно так я себя позиционирую. Сколько себя помню, столько снимаю. Портретная съемка — мое особое предпочтение. Я почти не зарабатываю на этом поприще, поэтому можно говорить о чистом творчестве и сильном увлечении.

Мое знакомство с AI началось буквально два-три месяца назад, и оно практически сразу стало перекликаться и пересекаться с реальной фотографией. В этом параллельном пути двух разных технологий для меня кроется особый, захватывающий интерес. Изначально, по неопытности, я решил, что смогу творить, используя AI, и это будет полная аналогия настоящей фотографии. Достаточно быстро я понял, что это не так. По крайней мере, на сегодняшний день.

Однако это не ослабляет моего интереса. AI — всего лишь инструмент высокого уровня. Как и камера в руках — тоже просто инструмент. Результат, которого я добиваюсь с помощью своего мастерства, знаний и опыта — это всегда сумма факторов, где инструмент значит много, но далеко не всё. Я постоянно сравниваю глобальные возможности нейросетей и свои локальные навыки. Это соревнование, в котором нет постоянного лидера: «желтая майка» постоянно переходит из рук в руки.

Главным остается задача, которую я ставлю перед собой. Именно из нее вытекает необходимость в том или ином инструменте. На текущий момент ни один из них не является универсальным или исчерпывающим. И это соревнование технологий мне нравится. Оно дает как платные качественные возможности, так и бесплатные решения, не уступающие по качеству, но имеющие свои плюсы и минусы. Как и всё в этой непростой жизни.

Недавно я провел масштабный эксперимент. Изображение с женщиной на кубе, которое мне очень нравится, я опубликовал в десятках групп на Facebook, в том числе в профессиональных сообществах с многочисленной аудиторией. В начале эксперимента я никак не обозначал, что это результат генерации. Позже я добавил пояснение, указав инструменты, с помощью которых было получено изображение. Те, кто хотел, всегда могли удостовериться, что это генеративный контент.

Я получил и продолжаю получать сотни, если не тысячи восторженных комментариев и лайков. И только три или четыре человека написали: «Это же AI, зачем это здесь?». Это говорит о двух вещах. Во-первых, творчество есть творчество. Любуясь результатом, нам не особенно важно, как мастер его добился: водил кистью по полотну или просто вылил ведро краски на холст (утрирую).

Во-вторых, генерация изображения в сочетании с коррекцией в Photoshop сделали картинку настолько реалистичной, что большинство людей даже не задумались о ее происхождении, приняв за обычную фотографию. Я потратил на эту работу два рабочих дня: замысел, написание prompts, генерации, затем Photoshop, доводка, коррекция, многочисленные варианты и исправления. Этого не видно на конечном изображении — оно просто «вкусно» выглядит. Но для меня это безусловное творчество, а не просто нажатие кнопки «Generate».

Если поначалу я стремился к стопроцентной реалистичности, чтобы никто не догадался о вмешательстве нейросетей, то сейчас я к этому остыл. Возможно, через пару лет появятся инструменты, позволяющие добиться качества, абсолютно неотличимого от реальной фотографии, но сейчас это практически невозможно.

Поэтому остается просто творить. AI — это инструмент, который позволяет фантазировать, мечтать и создавать, практически не имея границ. Генеративная фотография — отдельный вид искусства, использующий современные, запредельные технологии, которые лишь обогащают наши возможности. «Черный квадрат» Малевича по сравнению с этим — просто результат неудачной генерации из-за неверного выбора text encoder. Шутка... :)

Теги:
-4
Комментарии11

Представлен открытый веб-редактор изображений DPaint.js (онлайн-версия) на JavaScript, созданный по образцу легендарного Deluxe Paint, с упором на ретро-форматы файлов Amiga. Помимо современных форматов изображений, DPaint.js может читать и записывать файлы иконок Amiga и изображения IFF ILBM.

Основные возможности проекта: слои, выделение, маскирование, инструменты трансформации, эффекты и фильтры, множественная отмена/повтор действий, копирование/вставка из любой другой программы обработки изображений или источника изображений, настраиваемые инструменты дизеринга и циклическая смена цветов.

Теги:
+2
Комментарии0

Представлена открытая ИИ-студия для работы с видео и лицами — VisoMaster Fusion, включая замену лиц, обработку видео и редактирование изображений. Работает локально, без облаков и подписок. Возможности сервиса: реалистичная замена лиц в видео и фото, работа с несколькими персонажами в кадре, инструменты улучшения качества изображения и лица, контроль над параметрами генерации. Подойдёт тем, кто работает с видео, контентом, ИИ-инструментами или просто хочет попробовать современные технологии без ограничений и подписок.

Теги:
+2
Комментарии0

Представлен открытый проект EyeOfWeb. Это локальный OSINT-поисковик с точных распознаванием лиц на базе нейросети InsightFace, которая сканирует черты лица с фото и сравнивает с тысячами изображений в сети. Источники поиска можно задать вручную: сайты, форумы, соцсети, тематические порталы и другие ресурсы. Также можно добавить поиск по метаданным фото. Сервис помогает устроить даже мультипоиск нескольких людей с фото. Для работы нужно 8 ГБ памяти. 

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Cloud vs Local: где сегодня реально генерируют изображения и видео

Генерация изображений в "облаке" и локально
Генерация изображений в "облаке" и локально

За последний год генерация изображений и видео стала для многих повседневным инструментом - как в дизайне и маркетинге, так и в разработке, создании ивентов и выставок.

При этом индустрия явно разделилась на два подхода:

  • Облачные сервисы (Veo 3.1, Runway ML, Midjorney, Kling AI) - быстрый старт, минимальный порог входа, подписки, кредиты и токены, высокая стабильность.

  • Локальная генерация (ComfyUI, InvokeAI, Forge и др.) - полный контроль над пайплайном, моделями (Flux 2, Z-Image, Wan 2.2, LTX 2), VRAM и качеством, но ценой времени на настройку и поддержку.

На практике всё чаще видно, что это не «противостояние», а разные инструменты под разные задачи:

  • быстрые концепты и презентации - чаще в облаке;

  • сложные пайплайны, кастомные модели, LoRA, видео и эксперименты - локально;

  • многие используют оба подхода параллельно.

Интересно посмотреть на реальную картину в сообществе.

Буду рад, если в комментариях поделитесь почему выбрали именно такой подход: что для вас оказалось решающим - скорость, контроль, стоимость, стабильность или масштабируемость.

Теги:
Всего голосов 5: ↑2 и ↓3+1
Комментарии8

Представлен открытый сервис SmartImage, который проверяет ресурсы в сети и ищет первоисточник картинки на базе нескольких алгоритмов поиска: SauceNao, IQDB, Ascii2D, trаce.mоe и других. Можно искать через перетаскивание и загрузку изображений, в текстовом поле, через буфер обмена, а также через командную строку.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Представлен локальный и бесплатный сервис BentoPDF для работы с PDF. Вся обработка происходит в браузере. Умеет объединение, разделение, поворот, удаление страниц и кроппинг, а также в нём можно быстро добавить вотермарку, сделать нумерацию страниц и поменять текст в файлах. При этом бесплатно, без лимитов и даже регистрацию не просят.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии2

Глава Apple Тим Кук создал «праздничное оформление» в канун Рождества, «сделанное на MacBook Pro». Картинка с молоком и печеньем должна была подразнить фанатов финал 1 сезона сериала «Из многих» (Pluribus) от Apple TV. Там написано «Счастливого сочельника, Кэрол...». Эксперты считают, что это странное изображение было создано искусственным интеллектом.

Технический блогер Джон Грубер прямолинеен по этой ситуации. «Тим Кук публикует ИИ‑слопы в рождественском послании в X, якобы для продвижения „Плюрибуса“». «Что касается неаккуратных деталей, то на упаковке написано как „Цельное молоко“, так и „Молоко с низким содержанием жира“, а лабиринт „Коровьи забавы“ просто нелепо оформлен. Я не могу припомнить, чтобы когда‑либо видел какую‑либо головоломку на упаковке из‑под молока, потому что они восковые и на них трудно писать. Это похоже на смешение упаковок из‑под молока и хлопьев», — пояснил Грубер.

Теги:
Рейтинг0
Комментарии3

OpenAI представила гайд по созданию картинок в различных стилях в GPT-image-1.5, включая инфографику, карты, логотипы, копирование стиля и перенос на другие работы, создание карточек товаров и примерка одежды.

Ранее OpenAI объявила о запуске модели ChatGPT Images на базе GPT-5.2, предназначенной для генерации изображений с использованием технологий искусственного интеллекта. Новая модель поддерживает широкий спектр функций редактирования, включая добавление и удаление элементов, комбинирование и смешивание изображений, а также их транспонирование. Обновление интегрировано в приложение ChatGPT и доступно пользователям во вкладке «Изображения».

Теги:
Рейтинг0
Комментарии0

3D из 2D: Как получить карту глубины с одной камеры?

Для построения карты глубины иногда достаточно одной камеры и алгоритма Depth from Focus (DfF).

Как это работает:

  1. Меняем фокус на камере несколько раз и делаем снимки. Сначала фокус на переднем плане, потом в середине, потом на заднем.

  2. Фиксируем «резкость» каждого элемента на каждом кадре

  3. Строим карту. Для каждого элемента с «резкого» кадра, алгоритм вычисляет, на каком отделении от камеры находится эта точка. Всё вместе и даёт трёхмерную карту.

А как быстро менять фокус?

Классический моторный привод слишком медленный. Поэтому в таких системах часто используют жидкие линзы.

Пример устройства жидкой линзы
Пример устройства жидкой линзы

Это не стекло, а капля в гибкой оболочке. Её кривизну (а значит, и фокусное расстояние) можно менять мгновенно, подавая напряжение.

Где это применяют?

  • Контроль пайки компонентов на платах (проверка высоты).

  • Контроль на производстве (например, закрутка винтов).

  • Навигация роботов, где важно понимать рельеф местности.

Я использовал объективы с жидкими линзами в нескольких проектах, где это действительно было очень удобным и элегантным решением. Один из таких – была система контроля сборки блоков предохранителей для автомобилей. В ней за счёт технологии глубины из фокуса удалось бюджетно решить задачу контроля качества сборки и выявить ошибки установки предохранителей.

Теги:
Всего голосов 4: ↑4 и ↓0+5
Комментарии1

OpenAI объявила о запуске модели ChatGPT Images на базе GPT-5.2, предназначенной для генерации изображений с использованием технологий искусственного интеллекта. Новая модель поддерживает широкий спектр функций редактирования, включая добавление и удаление элементов, комбинирование и смешивание изображений, а также их транспонирование. Обновление будет интегрировано в приложение ChatGPT и станет доступно пользователям во вкладке «Изображения».

В ChatGPT появился новый раздел «Изображения», в котором собраны все ваши картинки, а также есть набор из нескольких стилей для быстрого редактирования без составления промта.

Новый генератор изображений уже доступен бесплатно всем пользователям ChatGPT.

Несколько ключевых улучшений:

  • Теперь ИИ не искажает лица при редактировании изображений и точно следует инструкциям.

  • Улучшена работа с различными стилями. Например, можно сделать из своей фотографии новогоднюю игрушку.

  • Скорость работы выросла в 4 раза. Это реально заметно.

  • Улучшена работа с текстом. Генератор понимает Markdown и может добавлять код на картинки.

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии2

Шифруем любой файл в PNG-картинку. Представлен открытый проект дешифратора ShadeofColor. Возможности: обход фильтров и блокировок (вместе .exe, .zip или .docx присылаем обычные изображение), незаметная передача файлов (PNG не вызывает подозрений), удобная архивация для визуальной сортировки, предпросмотра и каталогов. Это наглядный пример, как можно кодировать данные в цвета.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии5

Ближайшие события

Киберстоматолог для экскаваторов: как мы следим за здоровьем зубов карьерной техники?

Запускаем серию роликов о том, как применяем компьютерное зрение в «Северстали».

У нас в гостях Олег Карташев, руководитель отдела компьютерного зрения в «Северстали»! В этом ролике мы расскажем о стоматологии в добыче железной руды, и вы узнаете:
💼 как сохранить здоровье зубов карьерной техники;
💼 как следить за шатающимися, но уже не молочными зубами;
💼 сколько зубов выпадает в месяц;
💼 зачем на технике коронки и как за ними следить;
💼 как мы искали зубья ковшей и погрузчиков.

Приятного просмотра. Увидимся в следующем ролике!

Теги:
Рейтинг0
Комментарии0

На полках швейцарского супермаркета Migros нашли упаковку рождественского печенья со сгенерированной иллюстрацией на коробке. У оленя на картинке пять ног. Пользователи Reddit детальнее рассмотрели изображение и нашли ещё несколько ошибок, которые допустила нейросеть:

  • Рога оленя странной формы, либо их три.

  • Задние ноги оленя не касаются земли.

  • У Санта-Клауса непропорциональные ноги или он стоит на коленях.

  • Поводья крепятся к саням, а не удилам. Кроме того, они разорваны, и одна из частей стала частью пояса.

  • На задней части саней видны неразборчивые символы.

  • Руки Санты превратились в «кашу».

  • Все шары на ёлке красные, кроме одного слева — он жёлтый.

В комментариях пользователи отмечают, что эти ошибки можно было исправить в графическом редакторе или даже с помощью нейросеть. Некоторые даже делятся отредактированными вариантами.

Представители сети Migros заявили, что получили упаковку с таким изображением от производителя в Азии. Товар сезонный, поэтому времени на изготовление пробной партии и правок не было. Руководство приняло решение выпустить в продажу то, что есть.

Комментарии на Reddit:

Сегодня держал эту коробку в руках. Интересно, что вся поверхность тиснённая, то есть они сделали пресс-форму для изображения, включая пятую ногу. Никто во время производства не заметил, что она лишняя… Коробка сейчас на распродаже — 5 франков вместо 9. Может быть куплю одну завтра.

Меня бесит, что у нас есть такие крутые инструменты для создания классных изображений, но никто даже не удосуживается посмотреть на результат хотя бы 5 секунд перед тем, как его использовать.

Все люди, которые говорят о «контроле качестве», будто кому-то в компании вообще есть до этого дело. Скорее всего, племянник генерального директора сделал картинку бесплатно, и ни один человек даже не взглянул на неё перед тем, как отправить PNG в станок для печати. Это просто продукт, который они продают. Им всё равно. И вам тоже должно быть всё равно. Вы не собирались вешать это на стену.

Теги:
Всего голосов 4: ↑4 и ↓0+6
Комментарии5

Команда Datalab выпустила бесплатную OCR модель Chandra, которая превращает любые PDF и картинки в обычные текстовые документы. Просто закидываем файл и получаем вывод в формате HTML, Markdown и JSON. Легко вытаскивает таблицы, формулы и диаграммы. Понимает 40+ языков. Можно пользоваться в браузере или поставить локально. Ставим локально с GitHub или пользуемся онлайн — здесь.

Теги:
Всего голосов 8: ↑8 и ↓0+12
Комментарии2

Инструмент Depixelization PoC вытаскивает текст из скриншотов и фото, убирает пиксельный хаос и делает буквы читаемыми. Починит даже самые безнадёжные блоки текста. Использует метод De Bruijn sequence для точного восстановления букв. Подходит для документов, конспектов, рефератов и всего учебного.

Теги:
Всего голосов 6: ↑6 и ↓0+9
Комментарии0

Представлен ресурс Uchinoko, который восстанавливает справедливость между пушистыми питомцами и людьми. Можно детально воссоздать своего кота/собакена в цифровом формате. Результат выгружается в SNS-иконку.

Теги:
Рейтинг0
Комментарии0

В Кремниевой долине наступила эпоха трудоголизма, и в стартаперских кругах всё больше говорят про рабочую культуру 996. Остаётся открытым вопрос, что это — просто интересная тема для светской беседы или реальность длиной 72 часа в неделю. Тем не менее общий настрой — отсутствие отдыха и максимальная продолжительность рабочего дня.

Подобные веяния точно отразил Лоран Дель Рей, новый сотрудник Superintelligence Labs компании Meta¹. Продакт-дизайнер запустил простенькое приложение-фоторедактор Endless Summer, где пользователь делает селфи, а затем генеративная модель встраивает человека в различные отпускные контексты. Пользователь получает фотки, где он гуляет по курорту или осматривает виды европейских городов с балкона.

Конкретная модель внутри Endless Summer не указывается. В политике приватности написано лишь, что запросы идут в API сервиса Replicate, то есть это может быть что угодно — от распространённых диффузионок уровня Stable Diffusion с LoRA-надстройками до более новых пайплайнов вроде FLUX или Playground. Однако издание TechCrunch с уверенностью пишет, что это Nano-Banana компании Google.

Насколько необычно и грустно то, что люди вместо настоящего отпуска генерируют фальшивые фотки с него? На самом деле ничего уникального в этом нет.

Как пишет индонезийский стартапер Тим Виджая, для многих ИИ становится именно такой отдушиной. Тим рассказал, что в этом году он в роли консультанта помогал OpenAI проводить исследование, как индонезийцы используют ChatGPT. Там обнаружилось ровно такое же явление.

В рамках анализа Виджая была обнаружена целая группа на Facebook² на 30 тысяч участников, где индонезийцы выкладывали сгенерированные ИИ фотографии с собственным участием, при этом значительно повышая уровень своего достатка. На картинках пользователи окружали себя атрибутами роскошной жизни: суперкары Lamborghini, жизнь в Париже, шопинг в магазине Guccci и так далее. При этом подобным эскапизмом занимались в основном люди среднего или низкого достатка из глубинки Индонезии, их заработок не превышал $400 в месяц.

Дель Рей со своим Endless Summer довёл это явление до логического завершения. В приложении есть даже опция Room Service (обслуживание в номер), которая будет присылать две отпускные фотки каждое утро.

Владеющая социальной сетью Facebook (2) транснациональная холдинговая компания Meta (1) — экстремистcкая организация, деятельность обеих запрещена.

Теги:
Всего голосов 4: ↑4 и ↓0+8
Комментарии2

ImageSorcery 06 - MVP

Это серия постов от идеи ImageSorcery до 100+ звёзд на гитхабе и ~100 ежедневных установок с PyPi.

ImageSorcery 01 - Как я свой open source вайбкодил
ImageSorcery 02 - Превращение ImageWizard в ImageSorcery
ImageSorcery 03 - шаг за шагом: PoC, Initial commit
ImageSorcery 04 - README.MD
ImageSorcery 05 - автотесты; просто покажи ему пример

По результатам предыдущих приседаний с ИИ у нас на руках прототипы detect, crop и get_metainfo - функций на python, которые понадобятся ИИ агенту чтобы выполнить задачу вроде “вырежи здание на этом фото”. Также у нас уже есть git репозиторий с работающим MCP сервером подключенным в Cline. С полным покрытием одного единственного tool hello_world тестами формата e2e на pytest. И линтер rufus.

Приступаю к тулзам. По одной за шаг. С покрытием тестами и актуализацией README. От самой простой get_metainfo к самой сложной detect. Благо есть работающие реализации от PoC, которые нужны были как пример и подстраховка.

“Изучи @README.MD и следуй правилам работы с кодом от туда. Прочитай код hello_world tool и тесты на него. Прочитай код прототипа get_metainfo/crop/detect. Реализуй соответствующий tool. Напиши тесты. Актуализируй README. Не завершай задачу пока все тесты не пройдут, а также линтер.

С реализацией проблем конечно уже не было, вот с тестами detect снова пришлось повозиться. Лентяй Gemini flash решил, что если detect tool запускается и возвращает хоть что-то - этого уже достаточно. Пришлось гонять его и в хвост и в гриву чтобы были написаны позитивные и негативные сценарии и прочие едж кейсы.

Каждый отдельный тул разумеется коммитил.

Где-то в процессе обнаружил что тесты на объявление tool могут быть также достаточно подробными. И самое главное - результаты crop (сохранение файла) оказывается есть в /tmp/pytest/.  Это означало что я могу проверять тесты, которые работают с изображениями, а не слепо доверять их коду и статусу passed. Это меня в будущем много раз выручит. Например, когда при реализации blur для теста генерировался полностью черный квадрат и после выполнения blur контрольный пиксель проверялся на соответствие цвета заблюренному черному - черному 🤦. С точки зрения алгоритма всё идеально - не прикопаешься 😅 А я глядя на два одинаковых черных квадрата ржал в голосину. Пришлось заставить его тестировать на шахматке.

blur области поверх шахматки
blur области поверх шахматки

Шаг выполнен ✅

Теперь у меня был MCP сервер, который позволял подключенному к нему MCP клиенту вроде Cline выполнить заветное “вырежи с этого фото собаку”. Был ведь? ...

В дев сборке всё работало. Но если я хотел публиковать это как MVP, мне нужно было убедиться, что те, кто найдут его на просторах гитхаба, смогут им воспользоваться. В будущем мне понадобится опубликовать пакет на pypi, но на данном этапе нужно было убедиться что хотя бы через клонирование репозитория всё заведётся.

Я удалил MCP из Cline, склонировал репу в новую директорию и попросил Cline доустановить, подключить и проверить. 

🫠 Разумеется ничего не заработало в этом моем стейдже.

Оказывается модели Ultralytics не качаются по неведомой мне причине, когда MCP запущен как процесс(?). Пока я писал прототипы, и запускал detect как отдельный python скрипт, а не как модуль в составе сервера, все нужные мне модели скачались и могли переиспользоваться в последующем. А чистая установка доступа к ним не имела и всё падало.

Такую нетривиальную проблему конечно же не смогли решить никакие ИИ, но день плотного дебага и глубоких обсуждений с Gemini и параллельно Claude (на всякий случай. По факту ничего такого, чего не знал Gemini он не сказал) привёл меня к реализации –post-installation режима и архитектурному решению с выделением отдельно от tools директории scripts, куда попали скрипты установки и скачивания моделей.

Теперь ImageSorcery была готова к публикации как MVP!

P.S. если кто-то знает как обойти проблему со скачиванием моделей в рантайме - дайте знать. Я бы очень хотел найти альтернативные решения.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0