Обновить
256K+

Обработка изображений *

Работаем с фото и видео

100,84
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Дообучаем FLUX.2 [klein] за час на одной видеокарте: LoRA, Diffusers и Gradio без лишней боли

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели2.4K

FLUX.2 [klein] достаточно компактна, чтобы дообучать её на одной потребительской видеокарте. Прогон обучения LoRA для 4B-модели укладывается в 24 ГБ VRAM, занимает около часа на RTX 4090 и стоит примерно $0.50, если арендовать GPU. В этом гайде пройдём весь цикл: соберём датасет, настроим тренер, запустим обучение, загрузим результат в diffusers и завернём всё в Gradio-приложение, которое можно выложить как Hugging Face Space.

К концу у вас будет LoRA в формате .safetensors, которая научит klein конкретному стилю, персонажу, визуальному образу или поведению при редактировании. А ещё — несколько важных нюансов, от которых зависит, получится ли результат пригодным или превратится в кашу.

Собрать свою LoRA

Новости

Проверка возраста без персональных данных и биометрии: встраиваем в веб-страницу за 5 минут

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели2.7K

Продолжаем рассказывать об альтернативном способе подтверждения возраста на веб-ресурсах без использования биометрии, интеграции с ЕБС и раскрытия персональных данных. О том, как это можно сделать, мы подробно писали в прошлой статье. Теперь разберемся, как реализовать подобный сценарий с помощью WebAssembly и какие возможности это открывает для веб-платформ. В этом материале показываем код, ищите под катом. 

Читать далее

Как я сделал Smart Select для Krita: локальное AI-выделение объектов по лассо

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели4.5K

Я недавно начал пользоваться Krita, и после Фотошопа основной болью для меня было отсутствие удобного инструмента для умного выделения объектов выделения объектов.

Мне захотелось попробовать сделать плагин, который будет реализовывать такую функцию, используя локальную модель.

Идея простая:

1. Пользователь обводит объект лассо.
2. Нажимает кнопку Select object with AI.
3. Плагин локально строит мягкую alpha-маску.
4. Krita получает обычное выделение, с которым дальше можно работать штатными
   инструментами.

Назвать плагин я решил Krita Smart Select.

Репозиторий:
https://github.com/BMFreed/krita-smart-select

Релизы:
https://github.com/BMFreed/krita-smart-select/releases

Читать далее

Совершеннолетний без лишних разглашений: можно ли проверить возраст пользователя без биометрии, ЕБС и рисков утечек

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели7.2K

Привет, Хабр! Пока Минцифры изучает введение возрастной идентификации на онлайн-платформах и весь мир ищет способы проверять возраст пользователей, не подвергая риску конфиденциальность их персональных данных, мы в Smart Engines пришли с готовым решением. В этой статье рассказываем о простом способе идентификации возраста пользователей в веб-среде, который не требует биометрии, раскрытия персональных данных и не несет рисков утечек. Мы реализовали это с помощью WASM-модуля, который позволяет решать задачу проверки возраста в интернете также надежно и безопасно для пользователя, как и в обычной жизни. Заглядывайте под кат!

Читать далее

Видеоаналитика на промышленном объекте: почему большинство внедрений разочаровывают и как сделать правильно

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели5.5K

Там, где нет людей, нет времени и нет права на ошибку

Хочу поделится одной историей из жизни. На удалённом нефтепромысле в -30С° за бортом бригада выполняет огневые работы — сварка, рядом с действующим трубопроводом. По регламенту каждый должен быть в полном комплекте СИЗ, с газоанализатором. Мастер провел инструктаж, расписался в наряде‑допуске и уехал на следующий объект. Инспектор по ТБ появится через два часа.

Что происходит в эти два часа — не знает никто.

Вот именно здесь я и хочу начать наш разговор о видеоаналитике в промышленности. Не о красивых дашбордах и не о технологиях будущего. А о конкретной задаче — увидеть то, что происходит на объекте прямо сейчас, когда физически там нет возможности присутствовать ответственному.

Последние три года я плотно погрузился в сферу промышленной видеоаналитики — от пресейла и проектирования до запуска систем на объектах нефтегазового сектора и не только. До этого прошёл через телекоммуникации, управление ИТ‑инфраструктурой крупных нефтяных компаний, промышленную безопасность. Этот путь дал главное — понимание задачи изнутри, с обеих сторон: и как технический заказчик, который принимает систему, и как специалист, который её проектирует и внедряет.

В этой статье — не маркетинг и не обзор рынка. Личный опыт, реальные цифры и честный разговор о том почему большинство внедрений не работают так как обещают.

Читать далее

Забытый мультиколор (часть 3)

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели6.4K

Полное руководство по аппаратному мультиколору для тех, кто не знает, что это такое и зачем он нужен.

Совместимость, алгоритмы, эффекты и градиенты

Читать далее

Локальная Gemma 4 на MacBook читает графики и таблицы — и врёт красивее, чем говорит правду

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели11K

MacBook M3, 16 ГБ, никакого облака. Поставил свежую Gemma 4, написал инструмент: кидаешь картинку с графиком или таблицей — получаешь CSV. Три кейса из семи — идеально. На остальных модель начала врать, причём аккуратнее, чем говорила правду: вместо рваных реальных чисел подсовывала гладкие выдуманные. Разобрал по шагам — сетап на маке, грабли с llama.cpp, сам инструмент — и собрал карту, где локальному зрению можно верить, а где оно тихо галлюцинирует

Читать далее

Неоднозначные выводы о ROI в УЗИ классификации

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели7.3K

В медицинском компьютерном зрении есть идея, перед которой трудно устоять: сначала найти патологический объект, а потом классифицировать уже не весь снимок, а только его. Для УЗИ это звучит почти как здравый смысл. В полном кадре хватает всего, что модели, казалось бы, видеть не нужно: подписи аппарата, измерительные маркеры, шум, лишний фон. Логика простая: берём маску опухоли, оставляем область интереса, всё остальное закрашиваем — и даём классификатору «чистую» картинку.

Но с УЗИ быстро выясняется, что «лишнее» — не такая очевидная категория. Клиницист смотрит не только на то, что находится внутри образования. Ему важны контур, стенка, перегородки, акустические эффекты, соседние ткани, масштаб и даже положение объекта в кадре. Поэтому жёсткая обрезка по маске может сработать не как фильтр от шума, а как ножницы: вместе с фоном мы рискуем отрезать часть диагностического сигнала.

Мы проверили это на открытом наборе данных MMOTU / OTU-2D с УЗИ-изображениями опухолей яичника. Суммарно мы обучили 64 модели с различными вариантами обучающих данных, обучение проводили в течении 8 часов на видеокарте A100 в Google Colab.

Коротко:

Читать далее

Большинство исследований в компьютерной томографии нельзя воспроизвести

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели8.5K

Мы не собирались писать эту статью. Мы всего лишь хотели воспроизвести результаты открытого бенчмарка ICASSP-2024 по низкодозовой компьютерной томографии, сравнить их с алгоритмами Smart Tomo Engine и понять свое место относительно опубликованных baseline и SOTA-решений.

Сначала всё шло по плану. Потом более быстрый алгоритм неожиданно оказался точнее более медленного. Затем на картах ошибок начали повторяться странные структуры. А спустя несколько дней выяснилось, что часть измеряемого качества может определяться не реконструкцией томографических данных, а особенностями самого бенчмарка.

Так обычная задача воспроизведения результатов превратилась в расследование. В этой статье мы покажем, что именно удалось обнаружить, почему воспроизводимость в компьютерной томографии оказывается намного сложнее, чем кажется, и почему хороший результат в таблице лидеров не всегда означает хороший алгоритм.

Читать далее

Как шахматный подход помог разобраться с фотолентой Яндекс Диска

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели9.2K

Когда вы загружаете фотографии на Яндекс Диск, они не просто лежат в облаке: ML‑модели анализируют снимки, группируют их в альбомы и выбирают хайлайты для фотоленты в Яндекс Диске. Но чтобы улучшать такую систему, нужно уметь измерять качество её работы. И здесь начинается проблема: модель выбирает «красивые» и «удачные» кадры, а эстетика — вещь субъективная. Одному важны насыщенные цвета, другому — композиция, третьему — эмоции и лица в кадре. Если попросить асессоров ставить оценки от 1 до 10, мы быстро получим не объективную шкалу, а смесь личных вкусов, разной строгости и шума.

Поэтому мы подошли к задаче не как к обычной разметке, а как к исследованию. Вместо абсолютных оценок использовали шахматный подход. Каждая фотография стала «игроком», который соревнуется с другими по 16 признакам эстетики — цветам, фокусу, геометрии, эмоциональности и другим параметрам. Это позволило получить не просто рейтинг кадров, а инструмент для анализа того, какие визуальные признаки учитывают ML‑модели Диска.

Всем привет! Я Всеволод Мещеряков из службы разметки Yandex Crowd Solutions. Мы собираем и размечаем фото, видео, тексты — в общем, готовим данные, на которых учатся ML‑модели. В этой статье расскажу, как подход из мира шахмат помог нам связать субъективное восприятие фотографий с математическими оценками и сделать фотоленту Яндекс Диска ещё красивее.

Читать далее

3D‑лидар против кривого кузова: как мы автоматизировали осмотр фур

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели12K

На складе производителя стройматериалов под погрузку приходят десятки фур в день: габариты фиксированные, машины разные. Часть фур приезжает с кривым кузовом: занижена высота к кабине, неровные борта, наваренные крючки и кронштейны на стойках у дверей. Внутрь такой кузов выглядит нормально, пока в него не заедет погрузчик с паллетой шириной 2,40 м и не упрётся в выступ, которого там быть не должно.

Цена ошибки — повреждённый груз, развёрнутая на КПП машина, простой ворот и сорванный график отгрузки. Для исключения таких ошибок, было принято решение об инспекции фуры человеком: кто‑то заглядывает в кузов и по визуальному осмотру решает, грузить фуру или разворачивать. Это медленно, субъективно и не масштабируется — а отказы по геометрии кузова составляют заметную долю разворотов.

Задача, которая стояла перед командой: автоматизировать этот осмотр. Убрать человека из точки принятия решения и выдавать вердикт «грузить / не грузить» по объективным числам, а не по взгляду грузчика.

Требования заказчика сразу задали высокую планку. Нужно мерить три габарита: ширину свободного прохода, высоту от пола до горизонтальной балки, длину — и находить посторонние предметы внутри кузова. Пороги жёсткие: ширина меньше 2,43 м — отказ, высота меньше 2,60 м — отказ, длина меньше 8 м — отказ. Зазор между «входит» и «не входит» — 2 см: паллета шириной 2,40 м идёт впритык, и выступающий на стойке крючок, съедающий эти 2 см, делает кузов непригодным. То есть мерить надо с точностью лучше сантиметра — и не у ворот, а на всей глубине кузова, до 15 м от точки установки.

Читать далее

Ускоряем в 10+ раз вычисление расстояния Хаусдорфа на упорядоченных контурах

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели8.1K

История о том, как реальная performance-проблема привела к простой exact-оптимизации Hausdorff distance на упорядоченных контурах.

как ускорить Hausdorff distance

Настоящие HDR фото — от съемки до просмотра

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели9.6K

Всем привет! Это моя первая статья на Хабре. Я постарался максимально понятно изложить проблематику получения HDR изображений на современных мониторах и операционных системах.

Давайте сразу проясним, что подразумевается под HDR фото, а что нет. В начале двухтысячных было модное занятие сначала фоткать высококонтрастный объект с разными экспозициями, проводить так называемый  брекетинг экспозиции, а затем с помощью софта склеивать все в одно изображение. Изначальный огромный перепад яркостей сужался до обычного JPG и демонстрировался как достижение. Да, достижение было в виде сохранённых деталей в светах и тенях, но минимальный  и, что самое важное, максимальный уровень яркости был далек от натуры. К тому же неизбежным следствием являлось падение общего контраста. Так вот, это не HDR. Это, назовем его, прокрустово ложе, куда надо впихнуть невпихуемое, и на выходе получить псевдо-HDR. Данная статья просвещена получению настоящего HDR, где узость диапазона уже не мешает делать высококонтрастные снимки. И не только делать, но и увидеть.

Читать далее

Ближайшие события

Забытый мультиколор (часть 2)

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели7.1K

Полное руководство по аппаратному мультиколору для тех, кто не знает, что это такое и зачем он нужен.

Создание графики, форматы, вывод на экран

Читать далее

Используем фотограмметрию для распознавания и геолокации объекта

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели11K

В статье будет описан способ, как можно использовать фотограмметрию для определения координат подвижных и статичных объектов с летательных аппаратов. Практическое применение данного метода пока что затруднено по причинам, которые будут указаны ниже.

Задача: В системе координат, для которой известны GPS координаты (обозначена на рисунке красным цветом) определить расстояние и вектор направления для объекта, обозначенным на рисунке желтым крестиком. Затем, соответственно определить GPS координаты этого объекта.

Читать далее

Зачем мне фото- и видеоредакторы с GUI, когда есть FFmpeg?

Уровень сложностиПростой
Время на прочтение17 мин
Охват и читатели18K

...или записки из палаты Линуксоида

Часто ли вам пригождается базовая обработка фото или видео? Понизить разрешение, вырезать область, нанести текст, перекодировать в другой формат и другие задачи. Раньше я пользовался для этих целей самыми разными средствами - загрузка в веб-редакторы, Paint, Photoshop, Sony Vegas.

Пока в один прекрасный момент не пересел на Linux...Удобного видеоредактора для себя не нашёл, а к рабочему процессу в командной строке и установке через dnf install уже привык (я использую Fedora). И понеслась...

Внутри - интересная справка по FFmpeg. Ничего лишнего, максимум примеров с визуализацией и компактными объяснениями. Покажу, какие задачи можно решать с помощью этого инструмента не выходя из командной строки - а таких очень много. В конце - личный опыт: зачем мне эта шизофрения понадобилась и что она мне дала.

Увидеть нестандартный workflow

Нейросетевой апскейлинг: как собрать все грабли и почему очевидные настройки всё портят

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели12K

В своих прошлых статьях «Три пути к 4K» и «Нейросетевой апскейлинг дома» я рассказывал о выборе софта, базовых принципах нейросетевого апскейлинга и реставрации исходников уровня DVD и VHS. Но время идёт, навыки растут, и вот от простого (кусок дерева -> игрушка) мы переходим к сложному (игрушка -> коллекционная фигурка), а именно на территорию 720p–1080p исходников, Blu-ray и вебки.

И именно здесь для меня началось то, что я назвал «долиной отчаяния».

Вы берёте отличный исходник, выбираете крутую open-source модель, запускаете рендер… и всегда получаете что-то странное на выходе. Цвета поплыли, контраст упал, на градиентах неба появились какие-то искажённые линии, а ваш FPS в процессе ужасен. Кажется, что ПО сломано, а ИИ-модели взбесились и вместо «качественного апскейла» портят картинку.

Но я не сдался и пробыл в этой кроличьей норе из медиаформатов и апскейлеров более чем полмесяца, собрав все грабли с до смешного прозаичными, но не всегда очевидными решениями. И прежде чем найти истоки проблем, мы кратко разберём теорию, а после — практические решения по каждому из шагов. И, забегая вперёд: на первый взгляд здесь абсолютно всё контринтуитивно.

Читать далее

Google предлагает единый «водяной знак» для изображений, видео и текста, созданных ИИ

Время на прочтение5 мин
Охват и читатели12K

Изображения, видео, музыка и тексты, производимые искусственным интеллектом, сейчас становятся куда более качественными, чем на старте развития генеративных моделей, и отличать их от контента, созданного человеком, дается все с большим трудом. Проблема давно вышла за пределы обычных экспериментов и теперь затрагивает соцсети, новости, поисковики и другие ресурсы, которыми люди пользуются каждый день, что неминуемо ведет к распространению недостоверной информации.

Google и команда DeepMind уже несколько лет разрабатывают SynthID — систему скрытой маркировки контента, созданного искусственным интеллектом. Недавно компания объявила, что помимо использования в собственных сервисах технология начинает внедряться и в продукты других крупных разработчиков ИИ. SynthID уже на этапе генерации добавляет в изображение, видео, аудио или текст специальный незаметный сигнал. Такой маркер сохраняется даже после редактирования, сжатия или пересылки и помогает определить, что материал был создан нейросетью.

Читать далее

Забытый мультиколор (часть 1)

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели7.9K

Полное руководство по аппаратному мультиколору для тех, кто не знает, что это такое и зачем он нужен.

История, порты, включение режима

Читать далее

Детекция чужого почерка в экзаменационных бланках без эталонного образца

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели12K

Один ученик писал экзаменационную работу, а кто-то чужой дописал часть за него. Как мы научили нейросеть распознавать это.

Дано: государственная аттестация, бумажные бланки, никакого онлайн-контроля. Классический способ фальсификации: ученик начинает работу сам, потом часть дописывает кто-то другой: сосед, нанятый человек, преподаватель. Проверяющий смотрит на текст, но не оценивает почерк.

Задача ИИ: поймать фальсификацию почерка без эталона: система не знает заранее, как пишет конкретный ученик. Единственное, от чего можно отталкиваться - начало бланка, мы предполагаем, что первые строки написал сам экзаменуемый.

Цель: определить, написан ли весь бланк экзаменационной работы одним человеком. На входе - скан бланка, порой низкого качества. На выходе — координаты подозрительных фрагментов для ручной проверки. Все это в режиме потоковой обработки. Основной вызов: экзаменационный бланк — это смешанный документ. Рукописный текст соседствует с формулами, графиками, схемами, печатной подложкой бланка.

Читать далее
1
23 ...