Все потоки

Обработка изображений *

Работаем с фото и видео

149,67

Рейтинг

СтатьиПостыНовостиАвторыКомпании

mefdayy 29 мар в 10:53

Промпты для генерации изображений: как правильно сформулировать инструкцию для ИИ

Простой

11 мин

6.4K

Блог компании BotHubИскусственный интеллектМашинное обучение * Обработка изображений *

Туториал

Вы когда-нибудь получали от нейросети изображение, которое хочется сразу удалить и сделать вид, что этого не было? Допустим, вы открыли Midjourney, DALL-E или Kandinsky. Пишете: "нарисуй красивого кота". ИИ выдает что-то с тремя хвостами, шестью глазами и текстурой мокрой тряпки. Знакомо?

Нейросети для генерации изображений - отличные исполнители, но ужасные телепаты. Они не знают, что значит красиво, атмосферно или немного грустно. Им нужны конкретные слова: тип освещения, угол съемки, материалы, стиль художника. И даже порядок этих слов имеет значение. Да, они капризные, как заказчик, который не знает, чего хочет, но "это точно не то".

В этой статье мы соберем четкую инструкцию о том, как разговаривать с ИИ на его языке, основываясь только на конкретных приемах: структура промпта, вес слов, негативные инструкции и настройки.

Под конец вы сможете превращать кота-уродца в фотореалистичного мейн-куна в золотистом свете, 85 мм, f/1.4. Или в акварельного кота в стиле гравюр XIX века. ИИ перестанет вас бесить. Ну, хотя бы чуть-чуть.

Готовы? Тогда поехали, приятного прочтения!

Читать далее

+7

ternaus 28 мар в 05:57

Как подбирать аугментации: гипотезы, протокол и метрики

Средний

56 мин

5.8K

Искусственный интеллектМашинное обучение * Обработка изображений * Python * Open source *

Туториал

Перевод

Новый пайплайн аугментаций редко собирается за один раз: базовые кропы и отражения, потом куски из старых проектов, статей и соревнований — и в какой-то момент уже много трансформаций, а ясной логики выбора нет.

Статья про то, как к этому подойти системно: зачем конкретная трансформация, что она симулирует, насколько сильно её включать и какое допущение о данных она закладывает. Ключевая мысль: аугментация — явное утверждение о том, какие вариации не должны менять смысл метки. Отсюда проще решать, что оставить и что убрать, и отличить реальную пользу от ситуации, когда обучение просто стало шумнее.

Без «волшебной таблетки»: не готовая формула, а интуиция, ментальная модель и пошаговый протокол для реальных систем. Внутри — инженерный взгляд, два уровня, пайплайн в семь шагов, настройка силы и бюджета, продвинутые приёмы, диагностика и метрики, признаки вреда, автопоиск, выкат и примеры.

Исходный гайд в документации. (Документация)[https://albumentations.ai/docs/] Репозиторий

Albumentations — открытая библиотека аугментаций изображений (15k+ звёзд на GitHub, 140M+ загрузок).

Читать далее

+6

oopatow 27 мар в 14:36

TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация

Средний

4 мин

5.1K

Искусственный интеллектМашинное обучение * Data Engineering * Обработка изображений *

В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации.

В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта...

Читать про кожу

-1

oopatow 26 мар в 15:03

TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

Средний

4 мин

5.4K

Искусственный интеллектМашинное обучение * Data Engineering * Обработка изображений *

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят.

Долой трансформеры

-1

oopatow 25 мар в 15:15

TAPe-дневник, день 5: 98% на 2% COCO, меньше “фона” и первые боксы

Средний

4 мин

6.8K

Искусственный интеллектМашинное обучение * Data Engineering * Обработка изображений *

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Кратко: подняли точность до ~98% на двухпроцентной выборке, уменьшили количество ложных срабатываний и начали переход от поиска центроидов к детекции прямоугольников вокруг объектов.

Скорее узреть

+2

i_alakey 25 мар в 11:16

Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts

Средний

18 мин

8.5K

Python * Анализ и проектирование систем * Искусственный интеллектМашинное обучение * Обработка изображений *

Кейс

Из песочницы

Привет, Хабр!

Последние месяцы я строил систему, которую внутри называю «аниме-заводом»: на вход она получает исходный эпизод, а на выходе собирает готовый YouTube Shorts с динамическим кадрированием, субтитрами, постобработкой и метаданными для публикации.

Интереснее всего здесь не сам факт автоматического монтажа, а то, что значительную часть такой работы удалось разложить на инженерные этапы: транскрибацию, анализ аудио и сцены, поиск удачных моментов, управление «виртуальной камерой» и контур обратной связи по метрикам.

В статье я покажу, как устроен этот пайплайн, почему я пошел в модульную архитектуру вместо end-to-end black box, где система ломалась и какие решения в итоге сделали ее реально рабочей.

Читать далее

+4

AAKVAS 24 мар в 14:13

Строим перспективу по изображению

Средний

12 мин

8.8K

Обработка изображений * Алгоритмы * Kotlin *

Туториал

Преобразование Хафа, оператор Собеля и немного линейной алгебры: как я добавил в приложение автоматическое построение перспективы по изображению.

Читать далее

+9

inkedsymon 24 мар в 09:17

В каждом JPEG зашита модель вашей сетчатки. Буквально

Простой

8 мин

50K

Алгоритмы * Обработка изображений * Научно-популярноеСжатие данных * Python *

Обзор

После того как я написал статью про то, что ваш монитор не умеет показывать бирюзовый и 65% видимых цветов для него просто не существуют, один мой знакомый (далекий правда от технической отрасли) спросил: «Окей, монитор врёт, а что тогда делает JPEG с оставшимися 35%?» И это хороший вопрос. Я полез в спеку, а через полчаса забыл, зачем вообще полез. Потому меня уже интересовало другое: ребята, которые в 1992-м финализировали этот стандарт, по сути заревёрсили человеческое зрение и запихнули его в алгоритм сжатия.

И я хочу вам про это рассказать, потому что это самый красивый кусок инженерии, который я видел. В той статье я разбирал, как мало мы на самом деле видим. Здесь — как мало нам на самом деле нужно видеть, чтобы мозг поверил, что видит всё. А потом я решил это проверить руками.

Читать далее

+233

alizar 23 мар в 09:01

RAW — единственный оригинал фотографии. Всё остальное постобработка

Простой

8 мин

27K

Блог компании RUVDS.comФототехникаОбработка изображений * СмартфоныIT-стандарты *

Обзор

В эпоху смартфонов искусство фотографии почти утеряно. Фотография стала массовым явлением, а большинство современных фотографов-любителей даже не слышали о таких понятиях, как выдержка или баланс белого. И не знают, какие манипуляции цифровая камера в смартфоне выполняет, чтобы сгенерировать картинку. Да, именно сгенерировать, потому что итоговый результат на экране кардинально отличается от того, что «видит» светочувствительный сенсор.

В более профессиональных цифровых камерах и некоторых топовых смартфонах информация сохраняется в формате RAW — в виде значений яркости, снятых с матрицы. Это «цифровой негатив», который мы можем конвертировать в RGB и отредактировать как угодно, сохранив исходник. Вот где начинается искусство современного цифрового фотографа — в обработке RAW.

Читать далее

+85

anvilarth 23 мар в 06:14

First Principles расчёт realtime видеогенерации

Средний

7 мин

4.5K

Обработка изображений * Машинное обучение *

Мнение

Сколько FLOPS нужно для генерации одной секунды видео в реальном времени? Можно ли достичь этого на одном GPU? А на телефоне? В этой статье я разбираю задачу realtime видеогенерации «от первых принципов» — начинаю с конкретной архитектуры (Wan2.1-14B), считаю FLOPS по каждому слою, калибрую по реальным замерам и последовательно применяю оптимизации: от FlashAttention и step distillation до квантизации и новых GPU. Спойлер: на серверах realtime уже почти здесь, а вот с мобилками всё сложнее.

Читать далее

0

Livadies 22 мар в 08:02

От вет-ИИ для коров до имперского глянца: хардкорный MLOps на бесплатных GPU

Средний

3 мин

5.7K

Open source * Машинное обучение * Python * Обработка изображений * Биотехнологии

Кейс

В начале 2026 года ленты новостей принесли тревожные сообщения из Сибири: массовые вспышки опасных заболеваний у КРС (крупного рогатого скота) привели к необходимости вынужденного забоя тысяч голов. Для многих фермеров это означало потерю бизнеса и средств к существованию.

Мы задались вопросом: может ли доступный Computer Vision стать первой линией обороны? Инструментом, который позволит фермеру в отдаленном районе провести первичный скрининг (триаж) животного с помощью обычного смартфона и вовремя вызвать ветеринара, не дожидаясь начала эпидемии.

Так родился проект AI-Vet-Scanner (наше пространство на Hugging Face), определяющий признаки заболеваний по фотографии.

Читать далее

+3

pokrovsk 20 мар в 13:59

Топ приложений и программ для создания коллажей из фото (мой выбор)

Простой

11 мин

5.8K

ДизайнИнфографикаКонтент и копирайтинг * Обработка изображений * Софт

Обзор

За годы работы над собственными проектами я перепробовал десятки программ для создания коллажей. В этом рейтинге я постарался собрать лучшие приложения, которые без проблем скачиваются в РФ. Также в список попали онлайн-сервисы, с которыми можно работать прямо из браузера с любого устройства. Думаю, среди них вы найдете что-то для себя: удобное и с нужным набором функций.

Читать далее

-2

inkedsymon 20 мар в 08:07

Почему ваш монитор не умеет показывать бирюзовый (и ещё 65% цветов)

Простой

8 мин

28K

Компьютерное железоPython * Научно-популярноеВекторная графика * Обработка изображений *

Кейс

Всё началось с принтера. Точнее — с 1700 рублей, типографии на Театральной и фотографии моря в Абхазии. Кадр был невероятный: бирюзовая вода, низкое солнце, плачущие эвкалипты, и такой цвет, что хотелось окунуться в дисплей. Я выбрал баритовую бумагу, хотел потом вставить в рамку. Прождал сорок минут в очереди и... На выходе грязно-голубая лужа.

Нормальный человек сказал бы «плохая типография» и пошёл дальше. Но у меня профдеформация, я полез дебажить цвет. И через пару вечеров кроличьей норы и экспериментов на коленке я знал о мониторах столько, что мне стало физически некомфортно на них смотреть.

Читать далее

+194

oopatow 18 мар в 06:58

FAQ по TAPe‑детекции объектов (как мы учимся детектить объекты одномоментно и в десятки раз эффективней/дешевле ML)

Простой

5 мин

3.1K

Искусственный интеллектМашинное обучение * Data Engineering * Обработка изображений *

FAQ

Этот текст не претендует на «академический» обзор TAPe и не заменяет будущие формальные бенчмарки на COCO‑подобных датасетах. Скорее это рабочие ответы на самые частые вопросы инженеров и исследователей, которые всерьёз присматриваются к проекту.

О чем речь

Мы делаем TAPe‑модель (вот здесь понятней, о чем речь: тыц, другой тыц) под задачи детекции объектов на COCO‑подобных данных, с возможностью добавлять свои классы и кастомизировать под конкретного заказчика. TAPe работает не с пикселями и не с жёсткой N×N‑сеткой, как YOLO, а с осмысленными регионами (патчами) в TAPe‑представлении. В экспериментах стремимся к тому, чтобы за один «ход» модель отсекала точно неинтересные области и выделяла кандидатов, где вообще есть смысл что‑то детектировать.

На маленьком датасете из 4 классов и 1256 изображений с частично шумной разметкой пилотный TAPe‑детектор с ≈115k параметров даёт 98.94% попаданий по объектам по прикладной метрике «центроид бокса в 32 пикселя от центра разметки», причём без аугментаций и с обучением на CPU. В роли baseline’а брали YOLO11s (линейка Ultralytics/YOLOv8‑s): на том же датасете она плохо сходилась, давала низкую детекцию и много ложных срабатываний. Впрочем, выводы пока делать рано.

TAPe‑архитектура за несколько итераций ушла от громоздкого (для нас) dictionary‑подхода с 100k+ параметров к более компактной схеме без классического градиентного спуска: описания классов собираются из TAPe‑векторов и сжимаются через k‑means, а не обучаются как отдельная нейросеть. На подмножестве COCO (около 2% датасета, ~2400 изображений) эта же компактная модель без спецоптимизаций даёт 60.59% попаданий по центрам объектов — для такого размера детектора это неожиданно много и хороший аргумент в пользу того, что TAPe‑данные позволяют «маленьким» моделям сходиться там, где стандартные подходы ожидаемо захлёбываются.

Очень интересно

0

andrivasg 17 мар в 15:55

Как маскировать персональные данные на изображениях: наш эксперимент с OCR и NER

4 мин

9K

Блог компании red_mad_robotОбработка изображений * Информационная безопасность * Natural Language Processing * Визуализация данных *

Всем привет! Меня зовут Андрей Иванов, я NLP-исследователь в R&D red_mad_robot. Мы разрабатываем систему Guardrails для защиты персональных данных (PII) и фильтрации небезопасного контента.

В этой статье расскажу, как мы решали задачу точечного маскирования PII на картинках без обучения специальных визуальных детекторов. Разберём связку оптического распознавания символов (OCR) с NER-моделью, покажем метрики на реальных данных, раскроем ограничения подхода и наши решения для их преодоления.

Читать далее

+6

okoloboga 16 мар в 14:20

Как я учил компьютер понимать 122 000 фотографий — и почему сложностью оказались не нейронки, а слова

Средний

14 мин

6.3K

TensorFlow * Машинное обучение * Обработка изображений * Поисковые технологии *

Кейс

Recovery Mode

Я крайне редко на фрилансе получал заказы связанные с DS/ML, специалистов для таких задач обычно ищут не там. Причины разные: они требуют долгой интеграции, заказчик сам не понимает задачу, DS более конфиденциален, DS часто возникают внутри продукта, да и в последнее время этот сегмент на фрилансе съедается при помощи LLM: AI integration, RAG боты например.

Но, внезапно, мне в личку постучались с таким проектом.

Читать далее

+3

banka_lecho 12 мар в 14:37

Как научить планшет видеть несколько объектов в кадре одновременно: multi-label классификация

Простой

11 мин

8.1K

Блог компании YADROИскусственный интеллектОбработка изображений * Машинное обучение *

Кейс

Представьте, что вам нужно научить камеру планшета почти мгновенно определять, что происходит в кадре. И это не просто «автомобиль» или «человек»: нужно различать и связывать разные категории объектов: документы, людей, QR, штрихкоды и так далее. Казалось бы, достаточно взять предобученную модель и заточить для запуска на конкретном железе, в нашем случае это планшет KVADRA_T.

Привет, Хабр! Меня зовут Анастасия Шпилёва, и я работаю в команде разработки программных ИИ-компонент MLKit компании YADRO. В статье расскажу, почему я остановилась на multi-label классификации изображений. А также — как я собирала, размечала и валидировала датасет, от которого во многом зависит эффективность модели.

Читать далее

+31

AI-SHA 12 мар в 07:12

Право на забвение: как удалить образ человека из системы распознавания лиц и не сломать её

Средний

4 мин

6.6K

Блог компании КриптонитИскусственный интеллектОбработка изображений * Машинное обучение * Законодательство в IT

У каждого из нас есть право контролировать использование своих биометрических данных, к которым относится и цифровое описание уникальных черт лица. Проблема в том, что системы видеонаблюдения и аутентификации с функцией распознавания лиц основаны на «патологически памятливых» нейросетях. Однажды увидев лицо, нейросетевая модель запоминает его навсегда, создавая риски для приватности. Из-за этой особенности глубокой нейросети вас могут отслеживать, даже когда это не является необходимым и правомерным. Юридическое «право на забвение» вступает в конфликт со сложностью его реализации.

Эту проблему исследовал специалист лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» Михаил Захаров. Он разработал уникальный метод выборочного забывания лиц системами компьютерного зрения (CVS). Предложенный метод можно использовать для удаления образов лиц из различных систем биометрической идентификации, не нарушая их функциональность.

Читать далее

+5

ternaus 11 мар в 03:30

Аугментации изображений: как улучшить качество моделей без новых данных

Средний

32 мин

8.3K

Машинное обучение * Искусственный интеллектОбработка изображений * Python * Open source *

Туториал

Перевод

Аугментация данных — один из самых мощных инструментов улучшения качества моделей машинного обучения. В компьютерном зрении она почти всегда критична: без неё модели быстро переобучаются и плохо обобщаются.

Но на практике её часто используют поверхностно: «добавим флип, поворот и color jitter».

В этой статье разбираем аугментации глубже:
— два режима аугментаций (in-distribution и out-of-distribution)
— почему нереалистичные трансформации могут улучшать обобщающую способность
— когда аугментации начинают вредить
— как строить устойчивый пайплайн аугментаций

Материал основан на ~10 годах практики обучения моделей компьютерного зрения (на работе, при написании научных статей, в ML соревнованиях) и ~7 годах разработки библиотеки Albumentations.

Читать далее

+11

PureNothing 10 мар в 12:15

От OCR до ADE: как машины научились не просто читать, а понимать документы

Средний

13 мин

7K

Машинное обучение * Обработка изображений * Python * Искусственный интеллект

Обзор

Из песочницы

Ещё 10 лет назад машина видела в документе просто набор пикселей. Сегодня она понимает структуру страницы, читает таблицы, графики и рукописи — и автоматически извлекает нужные данные. Разбираем как это работает под капотом и почему это меняет целые индустрии.

Читать далее

+7

1

2 3 ...