Обновить
256K+

Обработка изображений *

Работаем с фото и видео

82,23
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

RAW — единственный оригинал фотографии. Всё остальное постобработка

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели11K

В эпоху смартфонов искусство фотографии почти утеряно. Фотография стала массовым явлением, а большинство современных фотографов-любителей даже не слышали о таких понятиях, как выдержка или баланс белого. И не знают, какие манипуляции цифровая камера в смартфоне выполняет, чтобы сгенерировать картинку. Да, именно сгенерировать, потому что итоговый результат на экране кардинально отличается от того, что «видит» светочувствительный сенсор.

В более профессиональных цифровых камерах и некоторых топовых смартфонах информация сохраняется в формате RAW — в виде значений яркости, снятых с матрицы. Это «цифровой негатив», который мы можем конвертировать в RGB и отредактировать как угодно, сохранив исходник. Вот где начинается искусство современного цифрового фотографа — в обработке RAW.

Читать далее

Новости

First Principles расчёт realtime видеогенерации

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели4K

Сколько FLOPS нужно для генерации одной секунды видео в реальном времени? Можно ли достичь этого на одном GPU? А на телефоне? В этой статье я разбираю задачу realtime видеогенерации «от первых принципов» — начинаю с конкретной архитектуры (Wan2.1-14B), считаю FLOPS по каждому слою, калибрую по реальным замерам и последовательно применяю оптимизации: от FlashAttention и step distillation до квантизации и новых GPU. Спойлер: на серверах realtime уже почти здесь, а вот с мобилками всё сложнее.

Читать далее

От вет-ИИ для коров до имперского глянца: хардкорный MLOps на бесплатных GPU

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели5.3K

В начале 2026 года ленты новостей принесли тревожные сообщения из Сибири: массовые вспышки опасных заболеваний у КРС (крупного рогатого скота) привели к необходимости вынужденного забоя тысяч голов. Для многих фермеров это означало потерю бизнеса и средств к существованию.

Мы задались вопросом: может ли доступный Computer Vision стать первой линией обороны? Инструментом, который позволит фермеру в отдаленном районе провести первичный скрининг (триаж) животного с помощью обычного смартфона и вовремя вызвать ветеринара, не дожидаясь начала эпидемии.

Так родился проект AI-Vet-Scanner (наше пространство на Hugging Face), определяющий признаки заболеваний по фотографии.

Читать далее

Топ приложений и программ для создания коллажей из фото (мой выбор)

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели5.4K

За годы работы над собственными проектами я перепробовал десятки программ для создания коллажей. В этом рейтинге я постарался собрать лучшие приложения, которые без проблем скачиваются в РФ. Также в список попали онлайн-сервисы, с которыми можно работать прямо из браузера с любого устройства. Думаю, среди них вы найдете что-то для себя: удобное и с нужным набором функций.

Читать далее

Почему ваш монитор не умеет показывать бирюзовый (и ещё 65% цветов)

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели20K

Всё началось с принтера. Точнее — с 1700 рублей, типографии на Театральной и фотографии моря в Абхазии. Кадр был невероятный: бирюзовая вода, низкое солнце, плачущие эвкалипты, и такой цвет, что хотелось окунуться в дисплей. Я выбрал баритовую бумагу, хотел потом вставить в рамку. Прождал сорок минут в очереди и... На выходе грязно-голубая лужа.

Нормальный человек сказал бы «плохая типография» и пошёл дальше. Но у меня профдеформация, я полез дебажить цвет. И через пару вечеров кроличьей норы и экспериментов на коленке я знал о мониторах столько, что мне стало физически некомфортно на них смотреть.

Читать далее

FAQ по TAPe‑детекции объектов (как мы учимся детектить объекты одномоментно и в десятки раз эффективней/дешевле ML)

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели3.1K

Этот текст не претендует на «академический» обзор TAPe и не заменяет будущие формальные бенчмарки на COCO‑подобных датасетах. Скорее это рабочие ответы на самые частые вопросы инженеров и исследователей, которые всерьёз присматриваются к проекту.

О чем речь

Мы делаем TAPe‑модель (вот здесь понятней, о чем речь: тыц, другой тыц) под задачи детекции объектов на COCO‑подобных данных, с возможностью добавлять свои классы и кастомизировать под конкретного заказчика. TAPe работает не с пикселями и не с жёсткой N×N‑сеткой, как YOLO, а с осмысленными регионами (патчами) в TAPe‑представлении. В экспериментах стремимся к тому, чтобы за один «ход» модель отсекала точно неинтересные области и выделяла кандидатов, где вообще есть смысл что‑то детектировать.​

На маленьком датасете из 4 классов и 1256 изображений с частично шумной разметкой пилотный TAPe‑детектор с ≈115k параметров даёт 98.94% попаданий по объектам по прикладной метрике «центроид бокса в 32 пикселя от центра разметки», причём без аугментаций и с обучением на CPU.​ В роли baseline’а брали YOLO11s (линейка Ultralytics/YOLOv8‑s): на том же датасете она плохо сходилась, давала низкую детекцию и много ложных срабатываний. Впрочем, выводы пока делать рано.​

TAPe‑архитектура за несколько итераций ушла от громоздкого (для нас) dictionary‑подхода с 100k+ параметров к более компактной схеме без классического градиентного спуска: описания классов собираются из TAPe‑векторов и сжимаются через k‑means, а не обучаются как отдельная нейросеть.​ На подмножестве COCO (около 2% датасета, ~2400 изображений) эта же компактная модель без спецоптимизаций даёт 60.59% попаданий по центрам объектов — для такого размера детектора это неожиданно много и хороший аргумент в пользу того, что TAPe‑данные позволяют «маленьким» моделям сходиться там, где стандартные подходы ожидаемо захлёбываются.

Очень интересно

Как маскировать персональные данные на изображениях: наш эксперимент с OCR и NER

Время на прочтение4 мин
Охват и читатели8.8K

Всем привет! Меня зовут Андрей Иванов, я NLP-исследователь в R&D red_mad_robot. Мы разрабатываем систему Guardrails для защиты персональных данных (PII) и фильтрации небезопасного контента.

В этой статье расскажу, как мы решали задачу точечного маскирования PII на картинках без обучения специальных визуальных детекторов. Разберём связку оптического распознавания символов (OCR) с NER-моделью, покажем метрики на реальных данных, раскроем ограничения подхода и наши решения для их преодоления.

Читать далее

Как я учил компьютер понимать 122 000 фотографий — и почему сложностью оказались не нейронки, а слова

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели6.2K

Я крайне редко на фрилансе получал заказы связанные с DS/ML, специалистов для таких задач обычно ищут не там. Причины разные: они требуют долгой интеграции, заказчик сам не понимает задачу, DS более конфиденциален, DS часто возникают внутри продукта, да и в последнее время этот сегмент на фрилансе съедается при помощи LLM: AI integration, RAG боты например.

Но, внезапно, мне в личку постучались с таким проектом.

Читать далее

Как научить планшет видеть несколько объектов в кадре одновременно: multi-label классификация

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели7.9K

Представьте, что вам нужно научить камеру планшета почти мгновенно определять, что происходит в кадре. И это не просто «автомобиль» или «человек»: нужно различать и связывать разные категории объектов: документы, людей, QR, штрихкоды и так далее. Казалось бы, достаточно взять предобученную модель и заточить для запуска на конкретном железе, в нашем случае это планшет KVADRA_T.  

Привет, Хабр! Меня зовут Анастасия Шпилёва, и я работаю в команде разработки программных ИИ-компонент MLKit компании YADRO. В статье расскажу, почему я остановилась на multi-label классификации изображений. А также — как я собирала, размечала и валидировала датасет, от которого во многом зависит эффективность модели.

Читать далее

Право на забвение: как удалить образ человека из системы распознавания лиц и не сломать её

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели6.5K

У каждого из нас есть право контролировать использование своих биометрических данных, к которым относится и цифровое описание уникальных черт лица. Проблема в том, что системы видеонаблюдения и аутентификации с функцией распознавания лиц основаны на «патологически памятливых» нейросетях. Однажды увидев лицо, нейросетевая модель запоминает его навсегда, создавая риски для приватности. Из-за этой особенности глубокой нейросети вас могут отслеживать, даже когда это не является необходимым и правомерным. Юридическое «право на забвение» вступает в конфликт со сложностью его реализации. 

Эту проблему исследовал специалист лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» Михаил Захаров. Он разработал уникальный метод выборочного забывания лиц системами компьютерного зрения (CVS). Предложенный метод можно использовать для удаления образов лиц из различных систем биометрической идентификации, не нарушая их функциональность.

Читать далее

Аугментации изображений: как улучшить качество моделей без новых данных

Уровень сложностиСредний
Время на прочтение32 мин
Охват и читатели8.2K

Аугментация данных — один из самых мощных инструментов улучшения качества моделей машинного обучения. В компьютерном зрении она почти всегда критична: без неё модели быстро переобучаются и плохо обобщаются.

Но на практике её часто используют поверхностно: «добавим флип, поворот и color jitter».

В этой статье разбираем аугментации глубже:
— два режима аугментаций (in-distribution и out-of-distribution)
— почему нереалистичные трансформации могут улучшать обобщающую способность
— когда аугментации начинают вредить
— как строить устойчивый пайплайн аугментаций

Материал основан на ~10 годах практики обучения моделей компьютерного зрения (на работе, при написании научных статей, в ML соревнованиях) и ~7 годах разработки библиотеки Albumentations.

Читать далее

От OCR до ADE: как машины научились не просто читать, а понимать документы

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели6.9K

Ещё 10 лет назад машина видела в документе просто набор пикселей. Сегодня она понимает структуру страницы, читает таблицы, графики и рукописи — и автоматически извлекает нужные данные. Разбираем как это работает под капотом и почему это меняет целые индустрии.

Читать далее

Nano Banana 2: Обзор возможностей Gemini 3.1 Flash

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели14K

Новая нейросеть от Google для генерации изображений выглядит чертовски впечатляюще.

Темпы, с которыми Google выпускает нейросети для создания изображений, поражают воображение. Не успели мы в ноябре 2025 года привыкнуть к Nano Banana Pro, как уже в феврале 2026-го компания представила Nano Banana 2. Задумка подкупает: качество уровня “Pro” на скорости “Flash”.

Но оправдывает ли новинка ожидания? Мы протестировали Nano Banana 2 вдоль и поперек, чтобы проверить её главные козыри: улучшенную отрисовку текста, сохранение заданных персонажей и интеграцию с актуальными знаниями из сети. Делимся результатами.

Читать далее

Ближайшие события

Оптика в техническом зрении. Лекция 4: Разрешающая способность

Уровень сложностиСредний
Время на прочтение53 мин
Охват и читатели5K

Привет, Хабр!

Меня зовут Андрей, я – специалист по оптическим системам, расчётчик и конструктор в одном лице.

Это четвёртая, последняя и самая сложная статья из курса основ прикладной оптики, который был создан несколько лет назад для внутреннего обучения CV-разработчиков в моей компании.

В этой статье мы поговорим о разрешающей способности: насколько чётко и насколько далеко может увидеть конкретный объектив с конкретным сенсором.

Статья сочетает как упрощённые идеи из теории оптических систем, так и мой личный опыт, накопленный при работе с системами технического зрения.

Читать далее

Сравнения ИИ-моделей для генерации изображений: Nano Banana Pro vs GPT Image 1.5

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели10K

Если вы хоть раз пытались сгенерировать картинку в нейросети, вы знаете этот фокус. Пишешь: "Красивый закат на море, девушка с зонтиком, реализм". Получаешь: девушку с шестью пальцами, зонтик, парящий в воздухе, и закат ядерного взрыва. Знакомо?

Последние полгода на рынке генеративных моделей творится что-то невероятное. Сначала Google DeepMind тихо, без лишнего шума, выпустила Nano Banana Pro (она же Gemini 3 Pro Image Preview). А через пару месяцев OpenAI выкатила GPT Image 1.5, пообещав ускорение в 4 раза и прорывное качество.

И началось. В одних обзорах Nano Banana Pro называют королём фотореализма и скорости. В других - ругают за полное непонимание русского языка. Про GPT Image 1.5 пишут, что он наконец-то научился редактировать изображения, но тут же жалуются, что он тормозит и режет текст на полуслове.

Кто врёт? Да никто. Просто модели реально разные. И задачи у них разные.

Я решила не гадать на кофейной гуще, а устроить этим двум художникам полноценный конкурс. Взяла 8 промптов разной степени извращённости, прогнала каждую модель по 3-5 раз, замерила скорость, проверила анатомию, русский язык, редактирование и способность помнить персонажа от кадра к кадру.

Выбрать лучшую не получится. Придётся выбирать под свою задачу. Но после этой статьи вы будете знать точно, какая модель для чего нужна.

Поехали, приятного прочтения!

Читать далее

Как нейросеть «заглянула» в пиролизную печь

Время на прочтение15 мин
Охват и читатели15K

ИИ — отличный помощник в быту и творчестве. Нейросети заменяют нам гугл, мы спрашиваем у них рецепты, просим помочь с рабочими письмами, вайбкодим. 

А в СИБУРе мы используем нейросети на производстве в самых разных задачах: от диагностики оборудования до оптимизации производственных процессов. Но сегодня расскажу про одну конкретную задачу — как ИИ следит за температурой в печах пиролиза, чтобы предотвратить образование кокса и прогорание труб.

Меня зовут Сергей, я Data Scientist в СИБУРе. Сейчас расскажу, как мы учим нейросеть видеть то, что человек физически увидеть не может.

Читать далее

Gemini 3.1 Pro vs Claude Opus 4.6 – сравнение февральских новинок

Уровень сложностиПростой
Время на прочтение15 мин
Охват и читатели11K

Две недели. Именно столько понадобилось, чтобы гонка ИИ-гигантов превратилась в полноценную войну миров.

5 февраля Anthropic выпускает Claude Opus 4.6 – короля экспертных задач, который мгновенно захватывает вершины рейтингов качества и пользовательских симпатий. Ажиотаж, восторг, заголовки.

Но 19 февраля Google берёт паузу... и выстреливает Gemini 3.1 Pro. Результат? +46 процентных пунктов в тесте ARC-AGI-2 (77,1% против 31,1% у предшественника), лидерство в 12 из 18 бенчмарков и ценник, от которого у конкурентов округляются глаза.

Gemini 3.1 Pro вдвое обходит предшественника в тестах на рассуждение, стоит в 6,5 раза дешевле флагмана конкурента и штампует 3D-симуляции птичьих стай по текстовому описанию. Claude Opus 4.6, который не гонится за скоростью, а размышляет вслух, взвешивает моральные дилеммы и остаётся любимцем людей в слепых тестах.

Как не запутаться в этом треугольнике и выбрать модель под свои задачи? И почему эксперты в финансах и юриспруденции отдают предпочтение Sonnet 4.6, оставляя “тяжеловесов” далеко позади?

Разобрали 18 бенчмарков, чтобы вы поняли, за какой моделью – ваше завтра. В этом материале мы свели все цифры, графики и пользовательские ощущения, чтобы у вас была полная картина февральской перезагрузки. Узнайте, какая модель сделает вашу работу лучше, быстрее и дешевле и кто победит в этой дуэли – цифровой гений-отличник или философ с душой.

Читать далее

Скриншоты не победить, но скрейпинг можно удорожить: 4 слоя защиты изображений на UGC-платформе

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели9.5K

У меня есть платформа для работы с метафорическими ассоциативными картами. Это инструмент психологов, коучей: колода картинок, вопросы, разговор. Звучит нишево, но суть задачи универсальна – авторский визуальный контент в вебе, который надо защитить от массового скачивания и пиратства. При этом контент загружают сами пользователи.

Если вы делаете галерею, маркетплейс иллюстраций, образовательную платформу с визуалами или любой сервис, где картинки – это ценность, а не декорация, эта статья для вас. Я расскажу, как выстроил многослойную защиту изображений, не превращая при этом продукт в крепость, из которой неудобно пользоваться.

Читать далее

Russtech + Стажеры + ML: история разработки решения для мониторинга цифровых экранов

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели4.4K

Всем привет! Меня зовут Никита Крестьянинов, я руководитель группы управления бизнес-процессами служб сервиса в команде Russtech. Сегодня я хочу рассказать, как мы совместно со стажерами разработали ИИ-инструмент, способный отслеживать состояние работы цифровых рекламных конструкций.

Читать далее

ТОП-15 бесплатных сервисов для генерации изображений в 2026 году

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели17K

Нейросети для генерации изображений уже давно перестали быть “игрушкой для вау-эффекта”. Сейчас это рабочий инструмент для контента, дизайна, карточек товаров, баннеров, презентаций и даже быстрых прототипов интерфейсов. Но если открыть поиск по запросам вроде «генерация изображений бесплатно» или «нейросеть для генерации изображений бесплатно», чаще всего попадаются одни и те же сервисы, а реально удобные варианты теряются.

Я собрал подборку из 15 сервисов, где можно делать генерацию картинок онлайн бесплатно — с разным уровнем входа: от “ввел промпт и получил результат” до площадок с моделями, LoRA и тонкой настройкой. Список не про “самые хайповые бренды”, а про инструменты, которые действительно полезны в повседневной работе.

Сразу оговорка: у большинства платформ free-режимы и лимиты периодически меняются (кредиты, очередь, доступные модели), поэтому я ориентировался на актуальные условия на момент подготовки статьи и официальные страницы сервисов.

Читать далее
1
23 ...