Все потоки

Обработка изображений *

Работаем с фото и видео

СтатьиПостыНовостиАвторыКомпании

banka_lecho 12 мар в 14:37

Как научить планшет видеть несколько объектов в кадре одновременно: multi-label классификация

Простой

11 мин

7.2K

Блог компании YADROИскусственный интеллектОбработка изображений * Машинное обучение *

Кейс

Представьте, что вам нужно научить камеру планшета почти мгновенно определять, что происходит в кадре. И это не просто «автомобиль» или «человек»: нужно различать и связывать разные категории объектов: документы, людей, QR, штрихкоды и так далее. Казалось бы, достаточно взять предобученную модель и заточить для запуска на конкретном железе, в нашем случае это планшет KVADRA_T.

Привет, Хабр! Меня зовут Анастасия Шпилёва и я работаю в команде разработки программных ИИ-компонент MLKit компании YADRO. В статье расскажу, почему я остановилась на multi-label классификации изображений. А также — как я собирала, размечала и валидировала датасет, от которого во многом зависит эффективность модели.

Читать далее

+15

AI-SHA 12 мар в 07:12

Право на забвение: как удалить образ человека из системы распознавания лиц и не сломать её

Средний

4 мин

6.2K

Блог компании КриптонитИскусственный интеллектОбработка изображений * Машинное обучение * Законодательство в IT

У каждого из нас есть право контролировать использование своих биометрических данных, к которым относится и цифровое описание уникальных черт лица. Проблема в том, что системы видеонаблюдения и аутентификации с функцией распознавания лиц основаны на «патологически памятливых» нейросетях. Однажды увидев лицо, нейросетевая модель запоминает его навсегда, создавая риски для приватности. Из-за этой особенности глубокой нейросети вас могут отслеживать, даже когда это не является необходимым и правомерным. Юридическое «право на забвение» вступает в конфликт со сложностью его реализации.

Эту проблему исследовал специалист лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» Михаил Захаров. Он разработал уникальный метод выборочного забывания лиц системами компьютерного зрения (CVS). Предложенный метод можно использовать для удаления образов лиц из различных систем биометрической идентификации, не нарушая их функциональность.

Читать далее

+5

ternaus 11 мар в 03:30

Аугментации изображений: как улучшить качество моделей без новых данных

Средний

32 мин

8K

Машинное обучение * Искусственный интеллектОбработка изображений * Python * Open source *

Туториал

Перевод

Аугментация данных — один из самых мощных инструментов улучшения качества моделей машинного обучения. В компьютерном зрении она почти всегда критична: без неё модели быстро переобучаются и плохо обобщаются.

Но на практике её часто используют поверхностно: «добавим флип, поворот и color jitter».

В этой статье разбираем аугментации глубже:
— два режима аугментаций (in-distribution и out-of-distribution)
— почему нереалистичные трансформации могут улучшать обобщающую способность
— когда аугментации начинают вредить
— как строить устойчивый пайплайн аугментаций

Материал основан на ~10 годах практики обучения моделей компьютерного зрения (на работе, при написании научных статей, в ML соревнованиях) и ~7 годах разработки библиотеки Albumentations.

Читать далее

+8

PureNothing 10 мар в 12:15

От OCR до ADE: как машины научились не просто читать, а понимать документы

Средний

13 мин

6.6K

Машинное обучение * Обработка изображений * Python * Искусственный интеллект

Обзор

Из песочницы

Ещё 10 лет назад машина видела в документе просто набор пикселей. Сегодня она понимает структуру страницы, читает таблицы, графики и рукописи — и автоматически извлекает нужные данные. Разбираем как это работает под капотом и почему это меняет целые индустрии.

Читать далее

+3

dmitrifriend 9 мар в 17:04

Nano Banana 2: Обзор возможностей Gemini 3.1 Flash

Простой

10 мин

13K

Блог компании BotHubОбработка изображений * Искусственный интеллектИнфографикаГрафический дизайн *

Обзор

Новая нейросеть от Google для генерации изображений выглядит чертовски впечатляюще.

Темпы, с которыми Google выпускает нейросети для создания изображений, поражают воображение. Не успели мы в ноябре 2025 года привыкнуть к Nano Banana Pro, как уже в феврале 2026-го компания представила Nano Banana 2. Задумка подкупает: качество уровня “Pro” на скорости “Flash”.

Но оправдывает ли новинка ожидания? Мы протестировали Nano Banana 2 вдоль и поперек, чтобы проверить её главные козыри: улучшенную отрисовку текста, сохранение заданных персонажей и интеграцию с актуальными знаниями из сети. Делимся результатами.

Читать далее

+3

AndreyWinter 8 мар в 19:25

Оптика в техническом зрении. Лекция 4: Разрешающая способность

Средний

53 мин

4.7K

Научно-популярноеИнженерные системы * Обработка изображений * Фототехника

FAQ

Привет, Хабр!

Меня зовут Андрей, я – специалист по оптическим системам, расчётчик и конструктор в одном лице.

Это четвёртая, последняя и самая сложная статья из курса основ прикладной оптики, который был создан несколько лет назад для внутреннего обучения CV-разработчиков в моей компании.

В этой статье мы поговорим о разрешающей способности: насколько чётко и насколько далеко может увидеть конкретный объектив с конкретным сенсором.

Статья сочетает как упрощённые идеи из теории оптических систем, так и мой личный опыт, накопленный при работе с системами технического зрения.

Читать далее

+19

mefdayy 5 мар в 18:36

Сравнения ИИ-моделей для генерации изображений: Nano Banana Pro vs GPT Image 1.5

Простой

11 мин

10K

Блог компании BotHubИскусственный интеллектМашинное обучение * Будущее здесьОбработка изображений *

Обзор

Если вы хоть раз пытались сгенерировать картинку в нейросети, вы знаете этот фокус. Пишешь: "Красивый закат на море, девушка с зонтиком, реализм". Получаешь: девушку с шестью пальцами, зонтик, парящий в воздухе, и закат ядерного взрыва. Знакомо?

Последние полгода на рынке генеративных моделей творится что-то невероятное. Сначала Google DeepMind тихо, без лишнего шума, выпустила Nano Banana Pro (она же Gemini 3 Pro Image Preview). А через пару месяцев OpenAI выкатила GPT Image 1.5, пообещав ускорение в 4 раза и прорывное качество.

И началось. В одних обзорах Nano Banana Pro называют королём фотореализма и скорости. В других - ругают за полное непонимание русского языка. Про GPT Image 1.5 пишут, что он наконец-то научился редактировать изображения, но тут же жалуются, что он тормозит и режет текст на полуслове.

Кто врёт? Да никто. Просто модели реально разные. И задачи у них разные.

Я решила не гадать на кофейной гуще, а устроить этим двум художникам полноценный конкурс. Взяла 8 промптов разной степени извращённости, прогнала каждую модель по 3-5 раз, замерила скорость, проверила анатомию, русский язык, редактирование и способность помнить персонажа от кадра к кадру.

Выбрать лучшую не получится. Придётся выбирать под свою задачу. Но после этой статьи вы будете знать точно, какая модель для чего нужна.

Поехали, приятного прочтения!

Читать далее

+7

Serjik92 5 мар в 12:59

Как нейросеть «заглянула» в пиролизную печь

15 мин

14K

Блог компании Цифровой СИБУРПромышленное программирование * Машинное обучение * Искусственный интеллектОбработка изображений *

Кейс

Сезон Heavy Digital

ИИ — отличный помощник в быту и творчестве. Нейросети заменяют нам гугл, мы спрашиваем у них рецепты, просим помочь с рабочими письмами, вайбкодим.

А в СИБУРе мы используем нейросети на производстве в самых разных задачах: от диагностики оборудования до оптимизации производственных процессов. Но сегодня расскажу про одну конкретную задачу — как ИИ следит за температурой в печах пиролиза, чтобы предотвратить образование кокса и прогорание труб.

Меня зовут Сергей, я Data Scientist в СИБУРе. Сейчас расскажу, как мы учим нейросеть видеть то, что человек физически увидеть не может.

Читать далее

+42

dmitrifriend 2 мар в 19:17

Gemini 3.1 Pro vs Claude Opus 4.6 – сравнение февральских новинок

Простой

15 мин

10K

Блог компании BotHubИскусственный интеллектИсследования и прогнозы в IT * Программирование * Обработка изображений *

Обзор

Две недели. Именно столько понадобилось, чтобы гонка ИИ-гигантов превратилась в полноценную войну миров.

5 февраля Anthropic выпускает Claude Opus 4.6 – короля экспертных задач, который мгновенно захватывает вершины рейтингов качества и пользовательских симпатий. Ажиотаж, восторг, заголовки.

Но 19 февраля Google берёт паузу... и выстреливает Gemini 3.1 Pro. Результат? +46 процентных пунктов в тесте ARC-AGI-2 (77,1% против 31,1% у предшественника), лидерство в 12 из 18 бенчмарков и ценник, от которого у конкурентов округляются глаза.

Gemini 3.1 Pro вдвое обходит предшественника в тестах на рассуждение, стоит в 6,5 раза дешевле флагмана конкурента и штампует 3D-симуляции птичьих стай по текстовому описанию. Claude Opus 4.6, который не гонится за скоростью, а размышляет вслух, взвешивает моральные дилеммы и остаётся любимцем людей в слепых тестах.

Как не запутаться в этом треугольнике и выбрать модель под свои задачи? И почему эксперты в финансах и юриспруденции отдают предпочтение Sonnet 4.6, оставляя “тяжеловесов” далеко позади?

Разобрали 18 бенчмарков, чтобы вы поняли, за какой моделью – ваше завтра. В этом материале мы свели все цифры, графики и пользовательские ощущения, чтобы у вас была полная картина февральской перезагрузки. Узнайте, какая модель сделает вашу работу лучше, быстрее и дешевле и кто победит в этой дуэли – цифровой гений-отличник или философ с душой.

Читать далее

+6

dpetrakov 27 фев в 12:55

Скриншоты не победить, но скрейпинг можно удорожить: 4 слоя защиты изображений на UGC-платформе

Средний

15 мин

9.5K

Информационная безопасность * JavaScript * Разработка публичных облаков * Обработка изображений *

Из песочницы

У меня есть платформа для работы с метафорическими ассоциативными картами. Это инструмент психологов, коучей: колода картинок, вопросы, разговор. Звучит нишево, но суть задачи универсальна – авторский визуальный контент в вебе, который надо защитить от массового скачивания и пиратства. При этом контент загружают сами пользователи.

Если вы делаете галерею, маркетплейс иллюстраций, образовательную платформу с визуалами или любой сервис, где картинки – это ценность, а не декорация, эта статья для вас. Я расскажу, как выстроил многослойную защиту изображений, не превращая при этом продукт в крепость, из которой неудобно пользоваться.

Читать далее

+11

n_krst 25 фев в 09:00

Russtech + Стажеры + ML: история разработки решения для мониторинга цифровых экранов

Простой

7 мин

4.3K

Блог компании Wildberries & RussМашинное обучение * Обработка изображений * Искусственный интеллект

Кейс

Всем привет! Меня зовут Никита Крестьянинов, я руководитель группы управления бизнес-процессами служб сервиса в команде Russtech. Сегодня я хочу рассказать, как мы совместно со стажерами разработали ИИ-инструмент, способный отслеживать состояние работы цифровых рекламных конструкций.

Читать далее

+2

Mystery_master 21 фев в 01:20

ТОП-15 бесплатных сервисов для генерации изображений в 2026 году

Простой

13 мин

16K

Машинное обучение * Обработка изображений * Искусственный интеллект

Обзор

Нейросети для генерации изображений уже давно перестали быть “игрушкой для вау-эффекта”. Сейчас это рабочий инструмент для контента, дизайна, карточек товаров, баннеров, презентаций и даже быстрых прототипов интерфейсов. Но если открыть поиск по запросам вроде «генерация изображений бесплатно» или «нейросеть для генерации изображений бесплатно», чаще всего попадаются одни и те же сервисы, а реально удобные варианты теряются.

Я собрал подборку из 15 сервисов, где можно делать генерацию картинок онлайн бесплатно — с разным уровнем входа: от “ввел промпт и получил результат” до площадок с моделями, LoRA и тонкой настройкой. Список не про “самые хайповые бренды”, а про инструменты, которые действительно полезны в повседневной работе.

Сразу оговорка: у большинства платформ free-режимы и лимиты периодически меняются (кредиты, очередь, доступные модели), поэтому я ориентировался на актуальные условия на момент подготовки статьи и официальные страницы сервисов.

Читать далее

-2

Zelenyikot 19 фев в 07:35

Естественный интеллект против искусственного: противостояние на Луне

5 мин

24K

Обработка изображений * Искусственный интеллектКосмонавтикаБудущее здесьНаучно-популярное

Пока я сажал зрение ночами рассматривая черные фотографии Луны в поисках «Луны-9», группа британских и японских ученых решила поручить ту же работу искусственному интеллекту. В результате, к 60-й годовщине первой мягкой посадки на Луну, вышло сразу два исследования с попытками обнаружить советский космический аппарат «Луна-9» на поверхности естественного спутника Земли. Обе команды показали предполагаемое место посадки, но это разные места.

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН, РАСПРОСТРАНЕН И (ИЛИ) НАПРАВЛЕН ИНОСТРАННЫМ АГЕНТОМ ЕГОРОВЫМ ВИТАЛИЕМ ЮРЬЕВИЧЕМ ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА ЕГОРОВА ВИТАЛИЯ ЮРЬЕВИЧА

Читать далее

+165

r3dfx 18 фев в 12:16

VHS Decode: перед употреблением прочитать

Средний

14 мин

11K

DIY или Сделай самВидеотехникаОбработка изображений * Работа с видео *

Из песочницы

Входим в VHS Decode нежно и плавно. Пытаемся понять, как собрать сетап без потери интереса и визитов в ПНД.

Пакет ld-decode произвёл мини-революцию в сфере оцифровки и сделал доступным захват сырого FM сигнала для последующего декодирования. VHS Decode продолжил развитие ld-decode и значительно расширил список поддерживаемых форматов, а также увеличил скорость и улучшил качество работы.

Данная заметка рассчитана на аудиторию, уже знакомую с феноменом RF декодирования и ориентирована в первую очередь на новичков, которые хотят «вкатиться» или уже сделали первые шаги. Для более опытных юзеров были припасены не совсем очевидные факты о формате и оборудовании.

Заглянуть глубже

+37

Uriit 18 фев в 10:13

Лес под прицелом нейросетей: сравниваем модели для выявления рубок со спутника

Средний

6 мин

5.8K

Машинное обучение * Геоинформационные сервисы * Искусственный интеллектBig Data * Обработка изображений *

Кейс

Ханты-Мансийский автономный округ (ХМАО) – это не только 50% российской нефти, но и 530 тыс. кв. км лесов. Развитие инфраструктуры месторождений и интенсивные заготовки требуют жесткого контроля вырубок. С 2014 года здесь ведут мониторинг по снимкам со спутников, собрав базу из 15000 записей, включающих информацию о выявленных лесных рубках, но есть проблема: ручное дешифрирование происходит слишком долго и дорого.

Читать далее

+4

HelloLena 17 фев в 10:40

Модели, гипотезы и планирование: хроники ML-инженера на крупнейшем хакатоне

Простой

7 мин

5K

Блог компании NtechLabМашинное обучение * Обработка изображений * Хакатоны

Обзор

В прошлом году наша команда неожиданно для себя стала призером на хакатоне «Лидеры Цифровой трансформации». В первой части статьи моя коллега рассказала о своих открытиях и эмоциях. В этой части мы расскажем технические детали решения задачи по распознаванию поврежденных и больных деревьев в городской среде.

Читать далее

+1

Flampanzer 9 фев в 12:00

Qwen-Image-Layered: будущая замена Photoshop (или нет)

Простой

6 мин

14K

Блог компании SelectelИскусственный интеллектМашинное обучение * Графический дизайн * Обработка изображений *

Обзор

Привет, Хабр! Я Антон, инженер по информационной безопасности в Selectel. В 2023 году Adobe расширила возможности Photoshop генеративными AI-функциями вроде Generative Fill — они заметно упростили редактирование сцен и отдельных объектов. Параллельно развивались и универсальные модели, работающие с изображениями вне привычных графических редакторов. Так, всего месяцем ранее Alibaba представила Tongyi Qianwen (Qwen) — семейство генеративных моделей, которое со временем вышло далеко за рамки чат-ботов.

Сегодня эти два мира пересекаются еще плотнее. Недавно Alibaba выпустила Qwen-Image-Layered — модель, предназначенную для разбиения изображения на семантические слои. Под катом проверим, насколько хорошо она справляется с этой задачей на практике — на иллюстрациях и фотографиях.

+50

GEOGRAMMA 6 фев в 18:09

Архитектура будущего: как должны эволюционировать наземные комплексы обработки данных дистанционного зондирования Земли

Средний

6 мин

8.5K

Облачные вычисления * КосмонавтикаBig Data * Геоинформационные сервисы * Обработка изображений *

Обзор

Аналитический обзор ключевых архитектурных проблем и перспективных подходов к построению систем обработки спутниковых данных на фоне взрывного роста группировок космических аппаратов и требований потребителей.

Читать далее

0

ContentAI_Team 6 фев в 12:13

Классический IDP и VLM в обработке документов: почему выигрывает комбинация подходов

Средний

7 мин

5.8K

Блог компании Content AIPDFИскусственный интеллектМашинное обучение * Обработка изображений *

Аналитика

В прошлых материалах мы уже рассказывали о том, как мультимодальные модели (VLM) справляются с извлечением данных из финансовых документов, и показывали, что в ряде сценариев они могут конкурировать с оптимизированными классическими IDP-решениями. Однако мы решили не ограничиваться одним типом документов и продолжили исследование, сравнив технологии на широком спектре материалов. В пул вошли сканы высокого качества и фотографии со сложным фоном, структурированные табличные формы и документы с элементами рукописного текста, русскоязычные и англоязычные тексты.

Сегодня мы готовы поделиться сводными итогами.

Читать далее

+4

ZlodeiBaal 6 фев в 01:33

VLM / VLA / World Models / Physical AI

Средний

11 мин

9K

Блог компании RecognitorОбработка изображений * Искусственный интеллектМашинное обучение * Алгоритмы *

Туториал

Нейроночки в последнее время заполонили всё. Ну, почти всё. Cейчас подбираются к роботам. Настоящего прогресса почти так же много как нейрослопа, пиара и преувеличений.
В этой статье попробую рассказать про нейроночки для управления роботами:

🤖 Расскажу немного про теорию
🤖 Покажу как обучить всё это дома на коленке ~~(и стать экспертом в Physical AI конечно)~~

Читать далее

+16

1

2 3 ...