Обновить
36.72

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга

Представлен открытый веб-редактор изображений DPaint.js (онлайн-версия) на JavaScript, созданный по образцу легендарного Deluxe Paint, с упором на ретро-форматы файлов Amiga. Помимо современных форматов изображений, DPaint.js может читать и записывать файлы иконок Amiga и изображения IFF ILBM.

Основные возможности проекта: слои, выделение, маскирование, инструменты трансформации, эффекты и фильтры, множественная отмена/повтор действий, копирование/вставка из любой другой программы обработки изображений или источника изображений, настраиваемые инструменты дизеринга и циклическая смена цветов.

Теги:
+1
Комментарии0

Представлена открытая ИИ-студия для работы с видео и лицами — VisoMaster Fusion, включая замену лиц, обработку видео и редактирование изображений. Работает локально, без облаков и подписок. Возможности сервиса: реалистичная замена лиц в видео и фото, работа с несколькими персонажами в кадре, инструменты улучшения качества изображения и лица, контроль над параметрами генерации. Подойдёт тем, кто работает с видео, контентом, ИИ-инструментами или просто хочет попробовать современные технологии без ограничений и подписок.

Теги:
+1
Комментарии0

Представлен открытый проект EyeOfWeb. Это локальный OSINT-поисковик с точных распознаванием лиц на базе нейросети InsightFace, которая сканирует черты лица с фото и сравнивает с тысячами изображений в сети. Источники поиска можно задать вручную: сайты, форумы, соцсети, тематические порталы и другие ресурсы. Также можно добавить поиск по метаданным фото. Сервис помогает устроить даже мультипоиск нескольких людей с фото. Для работы нужно 8 ГБ памяти. 

Теги:
+2
Комментарии0

Cloud vs Local: где сегодня реально генерируют изображения и видео

Генерация изображений в "облаке" и локально
Генерация изображений в "облаке" и локально

За последний год генерация изображений и видео стала для многих повседневным инструментом - как в дизайне и маркетинге, так и в разработке, создании ивентов и выставок.

При этом индустрия явно разделилась на два подхода:

  • Облачные сервисы (Veo 3.1, Runway ML, Midjorney, Kling AI) - быстрый старт, минимальный порог входа, подписки, кредиты и токены, высокая стабильность.

  • Локальная генерация (ComfyUI, InvokeAI, Forge и др.) - полный контроль над пайплайном, моделями (Flux 2, Z-Image, Wan 2.2, LTX 2), VRAM и качеством, но ценой времени на настройку и поддержку.

На практике всё чаще видно, что это не «противостояние», а разные инструменты под разные задачи:

  • быстрые концепты и презентации - чаще в облаке;

  • сложные пайплайны, кастомные модели, LoRA, видео и эксперименты - локально;

  • многие используют оба подхода параллельно.

Интересно посмотреть на реальную картину в сообществе.

Буду рад, если в комментариях поделитесь почему выбрали именно такой подход: что для вас оказалось решающим - скорость, контроль, стоимость, стабильность или масштабируемость.

Теги:
+1
Комментарии8

Представлен открытый сервис SmartImage, который проверяет ресурсы в сети и ищет первоисточник картинки на базе нескольких алгоритмов поиска: SauceNao, IQDB, Ascii2D, trаce.mоe и других. Можно искать через перетаскивание и загрузку изображений, в текстовом поле, через буфер обмена, а также через командную строку.

Теги:
+3
Комментарии0

Представлен локальный и бесплатный сервис BentoPDF для работы с PDF. Вся обработка происходит в браузере. Умеет объединение, разделение, поворот, удаление страниц и кроппинг, а также в нём можно быстро добавить вотермарку, сделать нумерацию страниц и поменять текст в файлах. При этом бесплатно, без лимитов и даже регистрацию не просят.

Теги:
+3
Комментарии2

Глава Apple Тим Кук создал «праздничное оформление» в канун Рождества, «сделанное на MacBook Pro». Картинка с молоком и печеньем должна была подразнить фанатов финал 1 сезона сериала «Из многих» (Pluribus) от Apple TV. Там написано «Счастливого сочельника, Кэрол...». Эксперты считают, что это странное изображение было создано искусственным интеллектом.

Технический блогер Джон Грубер прямолинеен по этой ситуации. «Тим Кук публикует ИИ‑слопы в рождественском послании в X, якобы для продвижения „Плюрибуса“». «Что касается неаккуратных деталей, то на упаковке написано как „Цельное молоко“, так и „Молоко с низким содержанием жира“, а лабиринт „Коровьи забавы“ просто нелепо оформлен. Я не могу припомнить, чтобы когда‑либо видел какую‑либо головоломку на упаковке из‑под молока, потому что они восковые и на них трудно писать. Это похоже на смешение упаковок из‑под молока и хлопьев», — пояснил Грубер.

Теги:
Рейтинг0
Комментарии3

OpenAI представила гайд по созданию картинок в различных стилях в GPT-image-1.5, включая инфографику, карты, логотипы, копирование стиля и перенос на другие работы, создание карточек товаров и примерка одежды.

Ранее OpenAI объявила о запуске модели ChatGPT Images на базе GPT-5.2, предназначенной для генерации изображений с использованием технологий искусственного интеллекта. Новая модель поддерживает широкий спектр функций редактирования, включая добавление и удаление элементов, комбинирование и смешивание изображений, а также их транспонирование. Обновление интегрировано в приложение ChatGPT и доступно пользователям во вкладке «Изображения».

Теги:
Рейтинг0
Комментарии0

3D из 2D: Как получить карту глубины с одной камеры?

Для построения карты глубины иногда достаточно одной камеры и алгоритма Depth from Focus (DfF).

Как это работает:

  1. Меняем фокус на камере несколько раз и делаем снимки. Сначала фокус на переднем плане, потом в середине, потом на заднем.

  2. Фиксируем «резкость» каждого элемента на каждом кадре

  3. Строим карту. Для каждого элемента с «резкого» кадра, алгоритм вычисляет, на каком отделении от камеры находится эта точка. Всё вместе и даёт трёхмерную карту.

А как быстро менять фокус?

Классический моторный привод слишком медленный. Поэтому в таких системах часто используют жидкие линзы.

Пример устройства жидкой линзы
Пример устройства жидкой линзы

Это не стекло, а капля в гибкой оболочке. Её кривизну (а значит, и фокусное расстояние) можно менять мгновенно, подавая напряжение.

Где это применяют?

  • Контроль пайки компонентов на платах (проверка высоты).

  • Контроль на производстве (например, закрутка винтов).

  • Навигация роботов, где важно понимать рельеф местности.

Я использовал объективы с жидкими линзами в нескольких проектах, где это действительно было очень удобным и элегантным решением. Один из таких – была система контроля сборки блоков предохранителей для автомобилей. В ней за счёт технологии глубины из фокуса удалось бюджетно решить задачу контроля качества сборки и выявить ошибки установки предохранителей.

Теги:
Всего голосов 4: ↑4 и ↓0+5
Комментарии1

OpenAI объявила о запуске модели ChatGPT Images на базе GPT-5.2, предназначенной для генерации изображений с использованием технологий искусственного интеллекта. Новая модель поддерживает широкий спектр функций редактирования, включая добавление и удаление элементов, комбинирование и смешивание изображений, а также их транспонирование. Обновление будет интегрировано в приложение ChatGPT и станет доступно пользователям во вкладке «Изображения».

В ChatGPT появился новый раздел «Изображения», в котором собраны все ваши картинки, а также есть набор из нескольких стилей для быстрого редактирования без составления промта.

Новый генератор изображений уже доступен бесплатно всем пользователям ChatGPT.

Несколько ключевых улучшений:

  • Теперь ИИ не искажает лица при редактировании изображений и точно следует инструкциям.

  • Улучшена работа с различными стилями. Например, можно сделать из своей фотографии новогоднюю игрушку.

  • Скорость работы выросла в 4 раза. Это реально заметно.

  • Улучшена работа с текстом. Генератор понимает Markdown и может добавлять код на картинки.

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии2

Шифруем любой файл в PNG-картинку. Представлен открытый проект дешифратора ShadeofColor. Возможности: обход фильтров и блокировок (вместе .exe, .zip или .docx присылаем обычные изображение), незаметная передача файлов (PNG не вызывает подозрений), удобная архивация для визуальной сортировки, предпросмотра и каталогов. Это наглядный пример, как можно кодировать данные в цвета.

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии5

Киберстоматолог для экскаваторов: как мы следим за здоровьем зубов карьерной техники?

Запускаем серию роликов о том, как применяем компьютерное зрение в «Северстали».

У нас в гостях Олег Карташев, руководитель отдела компьютерного зрения в «Северстали»! В этом ролике мы расскажем о стоматологии в добыче железной руды, и вы узнаете:
💼 как сохранить здоровье зубов карьерной техники;
💼 как следить за шатающимися, но уже не молочными зубами;
💼 сколько зубов выпадает в месяц;
💼 зачем на технике коронки и как за ними следить;
💼 как мы искали зубья ковшей и погрузчиков.

Приятного просмотра. Увидимся в следующем ролике!

Теги:
Рейтинг0
Комментарии0

На полках швейцарского супермаркета Migros нашли упаковку рождественского печенья со сгенерированной иллюстрацией на коробке. У оленя на картинке пять ног. Пользователи Reddit детальнее рассмотрели изображение и нашли ещё несколько ошибок, которые допустила нейросеть:

  • Рога оленя странной формы, либо их три.

  • Задние ноги оленя не касаются земли.

  • У Санта-Клауса непропорциональные ноги или он стоит на коленях.

  • Поводья крепятся к саням, а не удилам. Кроме того, они разорваны, и одна из частей стала частью пояса.

  • На задней части саней видны неразборчивые символы.

  • Руки Санты превратились в «кашу».

  • Все шары на ёлке красные, кроме одного слева — он жёлтый.

В комментариях пользователи отмечают, что эти ошибки можно было исправить в графическом редакторе или даже с помощью нейросеть. Некоторые даже делятся отредактированными вариантами.

Представители сети Migros заявили, что получили упаковку с таким изображением от производителя в Азии. Товар сезонный, поэтому времени на изготовление пробной партии и правок не было. Руководство приняло решение выпустить в продажу то, что есть.

Комментарии на Reddit:

Сегодня держал эту коробку в руках. Интересно, что вся поверхность тиснённая, то есть они сделали пресс-форму для изображения, включая пятую ногу. Никто во время производства не заметил, что она лишняя… Коробка сейчас на распродаже — 5 франков вместо 9. Может быть куплю одну завтра.

Меня бесит, что у нас есть такие крутые инструменты для создания классных изображений, но никто даже не удосуживается посмотреть на результат хотя бы 5 секунд перед тем, как его использовать.

Все люди, которые говорят о «контроле качестве», будто кому-то в компании вообще есть до этого дело. Скорее всего, племянник генерального директора сделал картинку бесплатно, и ни один человек даже не взглянул на неё перед тем, как отправить PNG в станок для печати. Это просто продукт, который они продают. Им всё равно. И вам тоже должно быть всё равно. Вы не собирались вешать это на стену.

Теги:
Всего голосов 4: ↑4 и ↓0+6
Комментарии5

Ближайшие события

Команда Datalab выпустила бесплатную OCR модель Chandra, которая превращает любые PDF и картинки в обычные текстовые документы. Просто закидываем файл и получаем вывод в формате HTML, Markdown и JSON. Легко вытаскивает таблицы, формулы и диаграммы. Понимает 40+ языков. Можно пользоваться в браузере или поставить локально. Ставим локально с GitHub или пользуемся онлайн — здесь.

Теги:
Всего голосов 8: ↑8 и ↓0+12
Комментарии2

Инструмент Depixelization PoC вытаскивает текст из скриншотов и фото, убирает пиксельный хаос и делает буквы читаемыми. Починит даже самые безнадёжные блоки текста. Использует метод De Bruijn sequence для точного восстановления букв. Подходит для документов, конспектов, рефератов и всего учебного.

Теги:
Всего голосов 6: ↑6 и ↓0+9
Комментарии0

Представлен ресурс Uchinoko, который восстанавливает справедливость между пушистыми питомцами и людьми. Можно детально воссоздать своего кота/собакена в цифровом формате. Результат выгружается в SNS-иконку.

Теги:
Рейтинг0
Комментарии0

В Кремниевой долине наступила эпоха трудоголизма, и в стартаперских кругах всё больше говорят про рабочую культуру 996. Остаётся открытым вопрос, что это — просто интересная тема для светской беседы или реальность длиной 72 часа в неделю. Тем не менее общий настрой — отсутствие отдыха и максимальная продолжительность рабочего дня.

Подобные веяния точно отразил Лоран Дель Рей, новый сотрудник Superintelligence Labs компании Meta¹. Продакт-дизайнер запустил простенькое приложение-фоторедактор Endless Summer, где пользователь делает селфи, а затем генеративная модель встраивает человека в различные отпускные контексты. Пользователь получает фотки, где он гуляет по курорту или осматривает виды европейских городов с балкона.

Конкретная модель внутри Endless Summer не указывается. В политике приватности написано лишь, что запросы идут в API сервиса Replicate, то есть это может быть что угодно — от распространённых диффузионок уровня Stable Diffusion с LoRA-надстройками до более новых пайплайнов вроде FLUX или Playground. Однако издание TechCrunch с уверенностью пишет, что это Nano-Banana компании Google.

Насколько необычно и грустно то, что люди вместо настоящего отпуска генерируют фальшивые фотки с него? На самом деле ничего уникального в этом нет.

Как пишет индонезийский стартапер Тим Виджая, для многих ИИ становится именно такой отдушиной. Тим рассказал, что в этом году он в роли консультанта помогал OpenAI проводить исследование, как индонезийцы используют ChatGPT. Там обнаружилось ровно такое же явление.

В рамках анализа Виджая была обнаружена целая группа на Facebook² на 30 тысяч участников, где индонезийцы выкладывали сгенерированные ИИ фотографии с собственным участием, при этом значительно повышая уровень своего достатка. На картинках пользователи окружали себя атрибутами роскошной жизни: суперкары Lamborghini, жизнь в Париже, шопинг в магазине Guccci и так далее. При этом подобным эскапизмом занимались в основном люди среднего или низкого достатка из глубинки Индонезии, их заработок не превышал $400 в месяц.

Дель Рей со своим Endless Summer довёл это явление до логического завершения. В приложении есть даже опция Room Service (обслуживание в номер), которая будет присылать две отпускные фотки каждое утро.

Владеющая социальной сетью Facebook (2) транснациональная холдинговая компания Meta (1) — экстремистcкая организация, деятельность обеих запрещена.

Теги:
Всего голосов 4: ↑4 и ↓0+8
Комментарии2

ImageSorcery 06 - MVP

Это серия постов от идеи ImageSorcery до 100+ звёзд на гитхабе и ~100 ежедневных установок с PyPi.

ImageSorcery 01 - Как я свой open source вайбкодил
ImageSorcery 02 - Превращение ImageWizard в ImageSorcery
ImageSorcery 03 - шаг за шагом: PoC, Initial commit
ImageSorcery 04 - README.MD
ImageSorcery 05 - автотесты; просто покажи ему пример

По результатам предыдущих приседаний с ИИ у нас на руках прототипы detect, crop и get_metainfo - функций на python, которые понадобятся ИИ агенту чтобы выполнить задачу вроде “вырежи здание на этом фото”. Также у нас уже есть git репозиторий с работающим MCP сервером подключенным в Cline. С полным покрытием одного единственного tool hello_world тестами формата e2e на pytest. И линтер rufus.

Приступаю к тулзам. По одной за шаг. С покрытием тестами и актуализацией README. От самой простой get_metainfo к самой сложной detect. Благо есть работающие реализации от PoC, которые нужны были как пример и подстраховка.

“Изучи @README.MD и следуй правилам работы с кодом от туда. Прочитай код hello_world tool и тесты на него. Прочитай код прототипа get_metainfo/crop/detect. Реализуй соответствующий tool. Напиши тесты. Актуализируй README. Не завершай задачу пока все тесты не пройдут, а также линтер.

С реализацией проблем конечно уже не было, вот с тестами detect снова пришлось повозиться. Лентяй Gemini flash решил, что если detect tool запускается и возвращает хоть что-то - этого уже достаточно. Пришлось гонять его и в хвост и в гриву чтобы были написаны позитивные и негативные сценарии и прочие едж кейсы.

Каждый отдельный тул разумеется коммитил.

Где-то в процессе обнаружил что тесты на объявление tool могут быть также достаточно подробными. И самое главное - результаты crop (сохранение файла) оказывается есть в /tmp/pytest/.  Это означало что я могу проверять тесты, которые работают с изображениями, а не слепо доверять их коду и статусу passed. Это меня в будущем много раз выручит. Например, когда при реализации blur для теста генерировался полностью черный квадрат и после выполнения blur контрольный пиксель проверялся на соответствие цвета заблюренному черному - черному 🤦. С точки зрения алгоритма всё идеально - не прикопаешься 😅 А я глядя на два одинаковых черных квадрата ржал в голосину. Пришлось заставить его тестировать на шахматке.

blur области поверх шахматки
blur области поверх шахматки

Шаг выполнен ✅

Теперь у меня был MCP сервер, который позволял подключенному к нему MCP клиенту вроде Cline выполнить заветное “вырежи с этого фото собаку”. Был ведь? ...

В дев сборке всё работало. Но если я хотел публиковать это как MVP, мне нужно было убедиться, что те, кто найдут его на просторах гитхаба, смогут им воспользоваться. В будущем мне понадобится опубликовать пакет на pypi, но на данном этапе нужно было убедиться что хотя бы через клонирование репозитория всё заведётся.

Я удалил MCP из Cline, склонировал репу в новую директорию и попросил Cline доустановить, подключить и проверить. 

🫠 Разумеется ничего не заработало в этом моем стейдже.

Оказывается модели Ultralytics не качаются по неведомой мне причине, когда MCP запущен как процесс(?). Пока я писал прототипы, и запускал detect как отдельный python скрипт, а не как модуль в составе сервера, все нужные мне модели скачались и могли переиспользоваться в последующем. А чистая установка доступа к ним не имела и всё падало.

Такую нетривиальную проблему конечно же не смогли решить никакие ИИ, но день плотного дебага и глубоких обсуждений с Gemini и параллельно Claude (на всякий случай. По факту ничего такого, чего не знал Gemini он не сказал) привёл меня к реализации –post-installation режима и архитектурному решению с выделением отдельно от tools директории scripts, куда попали скрипты установки и скачивания моделей.

Теперь ImageSorcery была готова к публикации как MVP!

P.S. если кто-то знает как обойти проблему со скачиванием моделей в рантайме - дайте знать. Я бы очень хотел найти альтернативные решения.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Упрашивал ChatGPT нарисовать мне картинку с человеком. Ни в какую! Отказывается!

Сегодня с помощью ChatGPT генерировал картинку к Норм ЦРМ.

Я добавил мета-теги, заголовки на двух языках. Ну и картинку, которая будет подтягиваться, когда кто-то будет делиться ссылкой на проект.

Попросил нарисовать фрилансера-одиночку за уютным домашним рабочим местом. И тут — хопа — отказ. Мол, это не соответствует нашим политикам.

Тогда попросил нарисовать человека, лица которого мы не видим. Просто фигуру. Снова отказ.

Затем попросил нарисовать антропоморфного кота. И тоже нельзя.

Я удивился. Раньше никаких подобных ограничений не было. В итоге попросил сгенерировать картинку без людей, а сам пошёл разбираться, какая нейронка мне теперь подойдёт для этих целей вместо ChatGPT.

Если что, использую пятую версию с подпиской Plus.

——
Апдейт:

В комментариях пишут, что никаких ограничений нет.

Я попробовал сгенерировать в новом диалоге — и тоже ограничений не оказалось.

А вот внутри папки с проектом — не разрешает по какой-то причине.

Буду разбираться дальше.

Теги:
Всего голосов 3: ↑2 и ↓1+2
Комментарии4

RFC 9828: стандарт, который, странным образом, опоздал лет на двадцать

JPEG 2000, появившийся ещё в начале нулевых, давно используется в задачах, где требуется высокое качество изображения, а RTP как транспорт для данных реального времени уже более двадцати лет обеспечивает надёжность. Однако, и это удивительно, всё это время отсутствовал формализованный стандарт, позволяющий передавать JPEG 2000 с минимальной задержкой, по кускам кадра, не дожидаясь его полной готовности, — и лишь в 2025 году он был наконец принят. Можно только гадать, почему в мире, где запускают ракеты в космос по подписке, инженеры продолжали смиренно ждать, пока кадр целиком упадёт в буфер.

Теперь же, с появлением RFC 9828, ситуация меняется: простое на первый взгляд решение — передавать кадр частями, а не целиком, — становится официальной нормой. Как только кодер начинает производить данные, пакеты уже могут быть отправлены в сеть, а приёмник, не дожидаясь окончания всего кадра, начинает сборку изображения. И именно это означает, что впервые JPEG 2000 становится пригодным для таких сценариев, где маркетинговый термин «low latency» оборачивается критическим требованием: телевещание в прямом эфире, дистанционная хирургия или работа со сверхкачественным изображением в реальном времени.

Вместо прежнего порядка «сначала кадр, затем поток» появляется обратный — «сначала поток, затем кадр». Благодаря этому сеть получает ту самую гибкость, о которой раньше говорили как о недостижимой: лишние уровни разрешения и качества можно отбрасывать на лету, даже не вскрывая содержимое. Приёмник, в свою очередь, обретает resync-точки, благодаря которым потеря пары пакетов больше не превращается в катастрофу, а разработчики, наконец, могут избавиться от бесконечных костылей, изобретённых в обход RFC 5371.

Выгоды для бизнеса очевидны, хотя каждый сектор формулирует их по-своему. В телевидении по IP режиссёр теперь видит кадр практически сразу, а не спустя полсекунды, и значит — работа в реальном времени перестаёт быть фикцией. В медицине появляется возможность стримить эндоскопию или МРТ с качеством вплоть до lossless и при этом не терять драгоценные секунды, от которых зависит исход операции. Кинопроизводство перестаёт таскать гигабайты по дискам, потому что мастер-кадры наконец-то могут пересылаться по сети. Даже государственные сервисы, включая суды и видеоконференции, приобретают шанс выглядеть не как мем из 2008 года, а как инструмент XXI века.

Да, пока это лишь бумага. Но, как обычно бывает: сначала RFC, затем — первые SDK и FPGA-решения, а чуть позже — перепакованные в отраслевые документы SMPTE и ITU стандарты. В горизонте двух-трёх лет мы увидим первые реальные внедрения в телевидении и медицине, в горизонте пяти — широкое распространение. А дальше, возможно, даже lossless-видеозвонки без лагов перестанут казаться фантастикой.

RFC 9828 — это не просто ещё один формат. Это признание индустрии в том, что ждать конца кадра всё это время было, мягко говоря, глупо.

Ссылки, как обычно, в моём канале

——————
Менеджер? Давай сюда!
Ищи работу здесь
Технологии и архитектура

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии2

Вклад авторов