Обновить
82.13

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Право на забвение: как удалить образ человека из системы распознавания лиц и не сломать её

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели3.9K

У каждого из нас есть право контролировать использование своих биометрических данных, к которым относится и цифровое описание уникальных черт лица. Проблема в том, что системы видеонаблюдения и аутентификации с функцией распознавания лиц основаны на «патологически памятливых» нейросетях. Однажды увидев лицо, нейросетевая модель запоминает его навсегда, создавая риски для приватности. Из-за этой особенности глубокой нейросети вас могут отслеживать, даже когда это не является необходимым и правомерным. Юридическое «право на забвение» вступает в конфликт со сложностью его реализации. 

Эту проблему исследовал специалист лаборатории искусственного интеллекта российской ИТ-компании «Криптонит» Михаил Захаров. Он разработал уникальный метод выборочного забывания лиц системами компьютерного зрения (CVS). Предложенный метод можно использовать для удаления образов лиц из различных систем биометрической идентификации, не нарушая их функциональность.

Читать далее

Новости

Аугментации изображений: как улучшить качество моделей без новых данных

Уровень сложностиСредний
Время на прочтение32 мин
Охват и читатели7.7K

Аугментация данных — один из самых мощных инструментов улучшения качества моделей машинного обучения. В компьютерном зрении она почти всегда критична: без неё модели быстро переобучаются и плохо обобщаются.

Но на практике её часто используют поверхностно: «добавим флип, поворот и color jitter».

В этой статье разбираем аугментации глубже:
— два режима аугментаций (in-distribution и out-of-distribution)
— почему нереалистичные трансформации могут улучшать обобщающую способность
— когда аугментации начинают вредить
— как строить устойчивый пайплайн аугментаций

Материал основан на ~10 годах практики обучения моделей компьютерного зрения (на работе, при написании научных статей, в ML соревнованиях) и ~7 годах разработки библиотеки Albumentations.

Читать далее

От OCR до ADE: как машины научились не просто читать, а понимать документы

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели6.3K

Ещё 10 лет назад машина видела в документе просто набор пикселей. Сегодня она понимает структуру страницы, читает таблицы, графики и рукописи — и автоматически извлекает нужные данные. Разбираем как это работает под капотом и почему это меняет целые индустрии.

Читать далее

Nano Banana 2: Обзор возможностей Gemini 3.1 Flash

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели12K

Новая нейросеть от Google для генерации изображений выглядит чертовски впечатляюще.

Темпы, с которыми Google выпускает нейросети для создания изображений, поражают воображение. Не успели мы в ноябре 2025 года привыкнуть к Nano Banana Pro, как уже в феврале 2026-го компания представила Nano Banana 2. Задумка подкупает: качество уровня “Pro” на скорости “Flash”.

Но оправдывает ли новинка ожидания? Мы протестировали Nano Banana 2 вдоль и поперек, чтобы проверить её главные козыри: улучшенную отрисовку текста, сохранение заданных персонажей и интеграцию с актуальными знаниями из сети. Делимся результатами.

Читать далее

Оптика в техническом зрении. Лекция 4: Разрешающая способность

Уровень сложностиСредний
Время на прочтение53 мин
Охват и читатели2.9K

Привет, Хабр!

Меня зовут Андрей, я – специалист по оптическим системам, расчётчик и конструктор в одном лице.

Это четвёртая, последняя и самая сложная статья из курса основ прикладной оптики, который был создан несколько лет назад для внутреннего обучения CV-разработчиков в моей компании.

В этой статье мы поговорим о разрешающей способности: насколько чётко и насколько далеко может увидеть конкретный объектив с конкретным сенсором.

Статья сочетает как упрощённые идеи из теории оптических систем, так и мой личный опыт, накопленный при работе с системами технического зрения.

Читать далее

Сравнения ИИ-моделей для генерации изображений: Nano Banana Pro vs GPT Image 1.5

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели10K

Если вы хоть раз пытались сгенерировать картинку в нейросети, вы знаете этот фокус. Пишешь: "Красивый закат на море, девушка с зонтиком, реализм". Получаешь: девушку с шестью пальцами, зонтик, парящий в воздухе, и закат ядерного взрыва. Знакомо?

Последние полгода на рынке генеративных моделей творится что-то невероятное. Сначала Google DeepMind тихо, без лишнего шума, выпустила Nano Banana Pro (она же Gemini 3 Pro Image Preview). А через пару месяцев OpenAI выкатила GPT Image 1.5, пообещав ускорение в 4 раза и прорывное качество.

И началось. В одних обзорах Nano Banana Pro называют королём фотореализма и скорости. В других - ругают за полное непонимание русского языка. Про GPT Image 1.5 пишут, что он наконец-то научился редактировать изображения, но тут же жалуются, что он тормозит и режет текст на полуслове.

Кто врёт? Да никто. Просто модели реально разные. И задачи у них разные.

Я решила не гадать на кофейной гуще, а устроить этим двум художникам полноценный конкурс. Взяла 8 промптов разной степени извращённости, прогнала каждую модель по 3-5 раз, замерила скорость, проверила анатомию, русский язык, редактирование и способность помнить персонажа от кадра к кадру.

Выбрать лучшую не получится. Придётся выбирать под свою задачу. Но после этой статьи вы будете знать точно, какая модель для чего нужна.

Поехали, приятного прочтения!

Читать далее

Как нейросеть «заглянула» в пиролизную печь

Время на прочтение15 мин
Охват и читатели13K

ИИ — отличный помощник в быту и творчестве. Нейросети заменяют нам гугл, мы спрашиваем у них рецепты, просим помочь с рабочими письмами, вайбкодим. 

А в СИБУРе мы используем нейросети на производстве в самых разных задачах: от диагностики оборудования до оптимизации производственных процессов. Но сегодня расскажу про одну конкретную задачу — как ИИ следит за температурой в печах пиролиза, чтобы предотвратить образование кокса и прогорание труб.

Меня зовут Сергей, я Data Scientist в СИБУРе. Сейчас расскажу, как мы учим нейросеть видеть то, что человек физически увидеть не может.

Читать далее

Gemini 3.1 Pro vs Claude Opus 4.6 – сравнение февральских новинок

Уровень сложностиПростой
Время на прочтение15 мин
Охват и читатели10K

Две недели. Именно столько понадобилось, чтобы гонка ИИ-гигантов превратилась в полноценную войну миров.

5 февраля Anthropic выпускает Claude Opus 4.6 – короля экспертных задач, который мгновенно захватывает вершины рейтингов качества и пользовательских симпатий. Ажиотаж, восторг, заголовки.

Но 19 февраля Google берёт паузу... и выстреливает Gemini 3.1 Pro. Результат? +46 процентных пунктов в тесте ARC-AGI-2 (77,1% против 31,1% у предшественника), лидерство в 12 из 18 бенчмарков и ценник, от которого у конкурентов округляются глаза.

Gemini 3.1 Pro вдвое обходит предшественника в тестах на рассуждение, стоит в 6,5 раза дешевле флагмана конкурента и штампует 3D-симуляции птичьих стай по текстовому описанию. Claude Opus 4.6, который не гонится за скоростью, а размышляет вслух, взвешивает моральные дилеммы и остаётся любимцем людей в слепых тестах.

Как не запутаться в этом треугольнике и выбрать модель под свои задачи? И почему эксперты в финансах и юриспруденции отдают предпочтение Sonnet 4.6, оставляя “тяжеловесов” далеко позади?

Разобрали 18 бенчмарков, чтобы вы поняли, за какой моделью – ваше завтра. В этом материале мы свели все цифры, графики и пользовательские ощущения, чтобы у вас была полная картина февральской перезагрузки. Узнайте, какая модель сделает вашу работу лучше, быстрее и дешевле и кто победит в этой дуэли – цифровой гений-отличник или философ с душой.

Читать далее

Скриншоты не победить, но скрейпинг можно удорожить: 4 слоя защиты изображений на UGC-платформе

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели9.5K

У меня есть платформа для работы с метафорическими ассоциативными картами. Это инструмент психологов, коучей: колода картинок, вопросы, разговор. Звучит нишево, но суть задачи универсальна – авторский визуальный контент в вебе, который надо защитить от массового скачивания и пиратства. При этом контент загружают сами пользователи.

Если вы делаете галерею, маркетплейс иллюстраций, образовательную платформу с визуалами или любой сервис, где картинки – это ценность, а не декорация, эта статья для вас. Я расскажу, как выстроил многослойную защиту изображений, не превращая при этом продукт в крепость, из которой неудобно пользоваться.

Читать далее

Russtech + Стажеры + ML: история разработки решения для мониторинга цифровых экранов

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели4.3K

Всем привет! Меня зовут Никита Крестьянинов, я руководитель группы управления бизнес-процессами служб сервиса в команде Russtech. Сегодня я хочу рассказать, как мы совместно со стажерами разработали ИИ-инструмент, способный отслеживать состояние работы цифровых рекламных конструкций.

Читать далее

ТОП-15 бесплатных сервисов для генерации изображений в 2026 году

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели15K

Нейросети для генерации изображений уже давно перестали быть “игрушкой для вау-эффекта”. Сейчас это рабочий инструмент для контента, дизайна, карточек товаров, баннеров, презентаций и даже быстрых прототипов интерфейсов. Но если открыть поиск по запросам вроде «генерация изображений бесплатно» или «нейросеть для генерации изображений бесплатно», чаще всего попадаются одни и те же сервисы, а реально удобные варианты теряются.

Я собрал подборку из 15 сервисов, где можно делать генерацию картинок онлайн бесплатно — с разным уровнем входа: от “ввел промпт и получил результат” до площадок с моделями, LoRA и тонкой настройкой. Список не про “самые хайповые бренды”, а про инструменты, которые действительно полезны в повседневной работе.

Сразу оговорка: у большинства платформ free-режимы и лимиты периодически меняются (кредиты, очередь, доступные модели), поэтому я ориентировался на актуальные условия на момент подготовки статьи и официальные страницы сервисов.

Читать далее

Естественный интеллект против искусственного: противостояние на Луне

Время на прочтение5 мин
Охват и читатели24K

Пока я сажал зрение ночами рассматривая черные фотографии Луны в поисках «Луны-9», группа британских и японских ученых решила поручить ту же работу искусственному интеллекту. В результате, к 60-й годовщине первой мягкой посадки на Луну, вышло сразу два исследования с попытками обнаружить советский космический аппарат «Луна-9» на поверхности естественного спутника Земли. Обе команды показали предполагаемое место посадки, но это разные места.

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН, РАСПРОСТРАНЕН И (ИЛИ) НАПРАВЛЕН ИНОСТРАННЫМ АГЕНТОМ ЕГОРОВЫМ ВИТАЛИЕМ ЮРЬЕВИЧЕМ ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА ЕГОРОВА ВИТАЛИЯ ЮРЬЕВИЧА

Читать далее

VHS Decode: перед употреблением прочитать

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели11K

Входим в VHS Decode нежно и плавно. Пытаемся понять, как собрать сетап без потери интереса и визитов в ПНД.

Пакет ld-decode произвёл мини-революцию в сфере оцифровки и сделал доступным захват сырого FM сигнала для последующего декодирования. VHS Decode продолжил развитие ld-decode и значительно расширил список поддерживаемых форматов, а также увеличил скорость и улучшил качество работы.

Данная заметка рассчитана на аудиторию, уже знакомую с феноменом RF декодирования и ориентирована в первую очередь на новичков, которые хотят «вкатиться» или уже сделали первые шаги. Для более опытных юзеров были припасены не совсем очевидные факты о формате и оборудовании.

Заглянуть глубже

Ближайшие события

Лес под прицелом нейросетей: сравниваем модели для выявления рубок со спутника

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели5.7K

Ханты-Мансийский автономный округ (ХМАО) – это не только 50% российской нефти, но и 530 тыс. кв. км лесов. Развитие инфраструктуры месторождений и интенсивные заготовки требуют жесткого контроля вырубок. С 2014 года здесь ведут мониторинг по снимкам со спутников, собрав базу из 15000 записей, включающих информацию о выявленных лесных рубках, но есть проблема: ручное дешифрирование происходит слишком долго и дорого.

Читать далее

Модели, гипотезы и планирование: хроники ML-инженера на крупнейшем хакатоне

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели5K

В прошлом году наша команда неожиданно для себя стала призером на хакатоне «Лидеры Цифровой трансформации». В первой части статьи моя коллега рассказала о своих открытиях и эмоциях. В этой части мы расскажем технические детали решения задачи по распознаванию поврежденных и больных деревьев в городской среде.

Читать далее

Qwen-Image-Layered: будущая замена Photoshop (или нет)

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели14K

Привет, Хабр! Я Антон, инженер по информационной безопасности в Selectel. В 2023 году Adobe расширила возможности Photoshop генеративными AI-функциями вроде Generative Fill — они заметно упростили редактирование сцен и отдельных объектов. Параллельно развивались и универсальные модели, работающие с изображениями вне привычных графических редакторов. Так, всего месяцем ранее Alibaba представила Tongyi Qianwen (Qwen) — семейство генеративных моделей, которое со временем вышло далеко за рамки чат-ботов.

Сегодня эти два мира пересекаются еще плотнее. Недавно Alibaba выпустила Qwen-Image-Layered — модель, предназначенную для разбиения изображения на семантические слои. Под катом проверим, насколько хорошо она справляется с этой задачей на практике — на иллюстрациях и фотографиях.

Под кат!

Архитектура будущего: как должны эволюционировать наземные комплексы обработки данных дистанционного зондирования Земли

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели8.5K

Аналитический обзор ключевых архитектурных проблем и перспективных подходов к построению систем обработки спутниковых данных на фоне взрывного роста группировок космических аппаратов и требований потребителей.

Читать далее

Классический IDP и VLM в обработке документов: почему выигрывает комбинация подходов

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели5.8K

В прошлых материалах мы уже рассказывали о том, как мультимодальные модели (VLM) справляются с извлечением данных из финансовых документов, и показывали, что в ряде сценариев они могут конкурировать с оптимизированными классическими IDP-решениями. Однако мы решили не ограничиваться одним типом документов и продолжили исследование, сравнив технологии на широком спектре материалов. В пул вошли сканы высокого качества и фотографии со сложным фоном, структурированные табличные формы и документы с элементами рукописного текста, русскоязычные и англоязычные тексты.  

Сегодня мы готовы поделиться сводными итогами.

Читать далее

VLM / VLA / World Models / Physical AI

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели9K

Нейроночки в последнее время заполонили всё. Ну, почти всё. Cейчас подбираются к роботам. Настоящего прогресса почти так же много как нейрослопа, пиара и преувеличений.
В этой статье попробую рассказать про нейроночки для управления роботами:

🤖 Расскажу немного про теорию
🤖 Покажу как обучить всё это дома на коленке (и стать экспертом в Physical AI конечно)

Читать далее

Как мы искали «Луну-9»

Уровень сложностиСредний
Время на прочтение20 мин
Охват и читатели34K

Ровно 60 лет назад, 3 февраля 1966 года советский космический аппарат «Луна-9» совершил первую в истории человечества мягкую посадку на Луну. И только сейчас мы можем точно узнать, где именно он находится на Луне.

18+ НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН, РАСПРОСТРАНЕН И (ИЛИ) НАПРАВЛЕН ИНОСТРАННЫМ АГЕНТОМ ЕГОРОВЫМ ВИТАЛИЕМ ЮРЬЕВИЧЕМ ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА ЕГОРОВА ВИТАЛИЯ ЮРЬЕВИЧА

Сразу после посадки «Луны-9» в советской прессе были опубликованы координаты места высадки, и сейчас их можно найти в Википедии и других источниках. Но тогда в прессе не уточняли, что это лишь центр области, в которой действительно произошла посадка, а точное местоположение аппарата тогда было невозможно установить, так же, как и рассмотреть его в телескопы с Земли или со спутников.

Зачем вообще искать «Луну-9», которая уже 60 лет не подает признаков жизни?

Для планетологии это может быть полезно как средство сравнения снимков поверхности Луны из космоса и на месте. Можно оценить, насколько верны были исследования 60-70-х на основе данных с «Луны-9». Для истории — это археологический памятник, свидетель зари космонавтики. Для меня, как энтузиаста космонавтики, это возможность прикоснуться к истории, о которой я читал ещё в детстве. С точки зрения популяризации космонавтики, это способ показать современные достижения науки и техники, которые позволяют простому пользователю интернета, не выходя из дома, провести своё собственное исследование в космосе.

Прямой поиск на Луне космических аппаратов разных стран стал возможен только после запуска американского лунного спутника NASA LRO в 2009 году. Его камера высокого разрешения NAC LROC отсняла почти всю поверхность Луны с разрешением 0,5-1 м на пиксель, а местами и до 0,35 м на пиксель. С её помощью были осмотрены следы американских астронавтов и найдены советские «Луноходы», обнаружены американские зонды Surveyor и советские станции серии «Луна», начиная с «Луны-16». 

Читать далее
1
23 ...