Обновить
92.83

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Определение положения объектов на изображении: как найти пространственные координаты объекта, используя OpenCV

Время на прочтение26 мин
Охват и читатели15K

Как найти 3D координаты объектов на изображении?

Статья о задаче пространственной локализации объектов на изображении с одной камеры и о её решении с помощью OpenCV

Читать далее

Как ContentCapture и LLM автоматизируют обработку судебных приказов, определений и постановлений ФССП

Время на прочтение6 мин
Охват и читатели6.7K

Ранее мы уже делились опытом использования LLM для обработки юридических документов и доверенностей. Сегодня расскажем о другом подходе, который применил наш технологический партнер ООО «ЕСМ-Консалтинг». При реализации нескольких показательных кейсов для крупных российских энергосбытовых компаний, автоматизировав в них обработку судебных документов с помощью платформы ContentCapture и больших языковых моделей (LLM).

Изначально мы рассматривали два подхода к реализации подобных проектов. Первый – предполагал классическую работу с гибкими описаниями документов, когда правила извлечения информации задаются человеком. Второй вариант – комбинированный, с использованием больших языковых моделей (LLM). Наш опыт показал, что последний подход как минимум в три раза экономичнее, при работе с неструктурированными документами. Он обеспечивает хорошую скорость и высокое качество извлечения данных (более 95% правильно извлеченных данных), что позволяет нашим заказчикам масштабировать обработку документов без роста операционных расходов.

Узнать подробности

Трекинг объектов по видео: как мы повышали точность, снижали ресурсоемкость, и к каким изменениям в продукте это привело

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели4.3K

Привет! Мы в Macroscop разрабатываем ПО для систем видеонаблюдения, которое умеет распознавать автономера, чекать спецодежду на рабочих, детектировать по видео задымленность и возгорания и решать еще около 20 задач, касающихся анализа видео.
Один из фокусов нашей команды - разработка собственной видеоаналитики, а также постоянное ее улучшение, выражающееся в росте точности, функциональности и производительности. 

Пару месяцев назад мы выпустили новую версию ПО, в которой в том числе значительно обновился нейросетевой модуль трекинга, отслеживающий траектории перемещения объектов, пересечение контрольных линий и длительное пребывание в охраняемых зонах.
Необходимость модернизации трекинга назрела, потому что за годы, прошедшие с момента разработки предыдущей версии, к нему накопился ряд пожеланий. Часть из них касалась повышения точности работы, часть - производительности модуля.
Возникла задача, обычно вызывающая холодный пот у разработчика: сделать так, чтобы трекинг работал точнее и при этом - быстрее.

К счастью, причины указанных проблем скрывались в разных частях алгоритма трекинга и были в большой степени независимы друг от друга. В результате нам удалось добиться повышения точности модуля при одновременном снижении затрат вычислительных ресурсов. А как мы это сделали- расскажем дальше.

Все смешалось – люди, кони кошки...

Первая сложность, связанная с точностью, лежала внутри обученного нами детектора-классификатора (YOLO), который обнаруживает в кадре объекты интересующих нас классов: транспорт разных типов, люди, животные. Выражалась она довольно специфическим образом: некоторые животные, особенно кошки и собаки, в определенных ракурсах (вид со спины и видны задние лапы, направленные параллельно туловищу) классифицировались как люди.

Как мы перестали путать кошек и людей

Nano Banana от Google: генерация и редактирование изображений на новой архитектуре Gemini 2.5

Уровень сложностиСредний
Время на прочтение2 мин
Охват и читатели29K

26 августа 2025 года Google представила новую preview-модель под кодовым названием Nano Banana — это часть экосистемы Gemini 2.5 Flash Image, ориентированной на генерацию и редактирование изображений с помощью текстовых и мультимодальных запросов. Несмотря на шутливое название, перед нами — серьёзный инструмент с претензией на роль нового стандарта в визуальном ИИ.

Читать далее

Дилемма, которая привела к краху Kodak

Уровень сложностиПростой
Время на прочтение25 мин
Охват и читатели13K

Люди вспоминают Kodak со смесью ностальгии и недоверия. Ностальгия по тем временам, когда её жёлтые коробки определяли мир фотографии для миллионов, и недоверие к тому, что столь доминирующая компания может всё потерять. От первой камеры для масс до изобретения самой цифровой камеры, Kodak помогала формировать будущее. Но оказавшись в тисках дилеммы инноватора, где прошлый успех порождает осторожность, а осторожность подавляет импульс, Kodak колебалась, пока другие адаптировались, и цифровая революция оставила её позади. Это история о том, как компания, когда-то определившая мир фотографии, стала её самой известной жертвой.

Читать далее

Добавление OCR-слоя и другие преобразования PDF

Время на прочтение3 мин
Охват и читатели11K

При сканировании и сохранении в формате PDF зачастую документы сохраняются в виде графических изображений. Это неудобно, потому что делает невозможным полнотекстовый поиск по содержанию. Утилита OCRmyPDF решает эту проблему: она одной командой из консоли добавляет к PDF-документу слой OCR с распознанным текстом.

Ниже упомянуты ещё несколько полезных инструментов для парсинга PDF, в том числе для преобразования сложных математических PDF-документов в текстовый формат Markdown.

Читать далее

Заселяем привидение в старый телевизор

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели11K

В этом году пришла идея: воплотить классическое клише из фильмов ужасов — скримера с зеркалом. Помните те сцены, где отражение внезапно показывает монстра, призрака или что-то подобное? Камера, Raspberry Pi, и библиотека OpenCV могут напугать кого угодно. Не верите?! Поскольку на телевидение не пускают (и правильно делают), создадим жуткую видеотрансляцию в старом черно-белом телевизоре. Система активируется при обнаружении лица или глаз.

Когда Raspberry Pi замечает лицо, он включает телевизор и выводит на него живое изображение с камеры. Как только человек отворачивается, на заднем плане появляется призрак (с помощью технологии вычитания фона). Несчастный снова смотрит на экран, видит фантома, радуется, хватается за сердце и оборачивается во второй раз — призрак исчезает. Через несколько секунд телевизор выключается, и цикл начинается заново.

Осторожно, под катом много картинок!

Читать далее

Из туризма в стеганографию: история создания ChameleonLab и наш новый взгляд на контент

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели8K

Привет, Хабр!

Нас часто просили рассказать историю создания нашей программы Chameleon Lab и объяснить, зачем она вообще нужна. Что ж, эта статья — ответ на ваши вопросы. Это история о том, как мы прошли путь от яростной защиты своего контента до идеи, что культурное наследие должно быть абсолютно бесплатным, но при этом продолжили упорно развивать созданный нами инструмент.

Читать далее

Невидимые чернила в цифровом мире: технология сокрытия данных в DOCX/XLSX

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели10K

Привет, Хабр!

Стеганография — искусство сокрытия информации — чаще всего ассоциируется с изображениями и аудиофайлами. Но что если нам нужно спрятать данные не в медиафайле, а в обычном офисном документе, например, в .docx или .xlsx?

На первый взгляд, задача кажется сложной. Документы имеют строгую структуру, и любое неосторожное изменение может повредить файл. Однако современные форматы Office, основанные на Open XML, предоставляют удивительно элегантные и надежные способы для встраивания сторонних данных.

Читать далее

ChameleonLab: Как мы портировали стеганографический инструмент на macOS. Грабли, решения и планы на Android

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели12K

Привет, Хабр!

В наших прошлой и позапрошлой статьях мы рассказывали о создании нашего инструмента для стеганографии и стеганоанализа ChameleonLab. Мы получили массу ценных отзывов, и один из самых частых запросов был: «А когда версия для macOS?». Что ж, по вашим многочисленным просьбам, мы сделали это — ChameleonLab теперь доступен для macOS!

Этот путь оказался не просто «взять и пересобрать». Нам пришлось столкнуться с рядом специфичных для macOS проблем, начиная от сборки .app-пакетов и заканчивая борьбой с «замороженной» иконкой в Dock при запуске. В этой статье мы хотим поделиться нашим опытом, рассказать о сложностях переноса, показать конкретные решения в коде и заглянуть в будущее.

Читать далее

Как мы построили систему нагрузочного тестирования для обработки документов: метрики, инструменты, примеры

Время на прочтение5 мин
Охват и читатели6.4K

В системах интеллектуальной обработки документов корректность извлечения данных — это лишь половина дела. Гораздо важнее, чтобы при скачке нагрузки сервис не превратился в бутылочное горлышко.

В этой статье расскажем, как мы:

● автоматизировали нагрузочное тестирование, сократив ручную работу инженеров на 85%;
● встроили стресс-тесты в CI/CD, чтобы каждая фича доказывала свою устойчивость перед релизом;
● научились предсказывать поведение системы не на глаз, а по данным — даже при росте объемов в несколько раз.

Узнать подробности

GPT, Gemini, Qwen и Шедеврум переделывает мужского ГГ в женского. Часть 1

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели6.9K

Я решил проверить, как популярные генераторы изображений справляются с одной и той же задачей: сделать фотореалистичный женский вариант известного персонажа игры. Участники: GPT (DALL·E), Gemini, Qwen и «Шедеврум» (Яндекс).

Читать далее

Как извлечь текст с изображения с помощью нейросети: распознавание текста на фото онлайн

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели12K

Доброго времени суток, «Хабр»!

Вероятно, многим уже известно, что современные нейронные сети способны обрабатывать изображения в качестве входящего запроса. Пользователи активно применяют эту возможность, загружая фото с заданиями или вопросами, — особенно часто так поступают учащиеся школ и вузов, получая от нейросети готовые решения задач или правильные ответы на интересующие вопросы.

Сегодня я рассмотрю перечень нейросетей и сервисов, проверю их на фотографиях с разными форматами заданий и постараюсь подсказать, какие из них лучше всего подходят для распознавания текста с изображений.

Присаживайтесь поудобнее, начинается мое повествование.

Читать далее

Ближайшие события

Часть 2: ChameleonLab — не просто утилита, а учебная лаборатория

Уровень сложностиСложный
Время на прочтение9 мин
Охват и читатели8.9K

Привет, Хабр!

Честно говоря, публикуя первую статью, мы и представить не могли, какой отклик она получит. В ней мы представили наш новый проект — ChameleonLab, утилиту для стеганографии с дружелюбным интерфейсом, позволяющую скрывать данные в изображениях и документах. После этого нашу почту буквально завалили письмами: люди делились идеями, задавали вопросы и рассказывали, как используют программу. Этот невероятный интерес и стал главной причиной, по которой мы с удвоенной энергией взялись за развитие проекта. Сегодня мы хотим поделиться тем, что нового появилось в ChameleonLab, во многом благодаря вам.

А для всех, кто хочет опробовать новые функции прямо сейчас, мы собрали свежую версию. Скачать ее можно по ссылке: ChameleonLab 1.3.0.0

Читать далее

Хамелеон в цифровых джунглях: Пишем десктопное приложение для стеганографии на Python и PyQt6

Уровень сложностиСложный
Время на прочтение9 мин
Охват и читатели25K

Привет, Хабр!

Сегодня я хочу поделиться историей создания одного из моих проектов — десктопного приложения для стеганографии, которое я назвал "ChameleonLab". Это не просто очередной скрипт для LSB-метода, а полноценный инструмент с графическим интерфейсом, поддержкой разных типов файлов, шифрованием и, что самое интересное, встроенными утилитами для стегоанализа.

Идея заключалась в том, чтобы создать удобную «лабораторию», где можно не только спрятать данные, но и исследовать, насколько незаметно это получилось. Мы пройдем путь от базового алгоритма до интеграции с Matplotlib и анализа аномалий в Office-документах.

Читать далее

Krea AI: подробный обзор нейросети для генерации изображений и видео по тексту

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели14K

Доброго времени суток, «Хабр»!

Сегодня мы поговорим о Krea AI — агрегаторе нейросетей, объединяющем популярные модели ИИ, что позволяет создавать и пошагово редактировать изображения и видео, строить сложные 3D‑сцены с помощью текстовых промтов и существенно повышать качество картинок или видеоматериалов.

Здесь постараюсь раскрыть функциональность данного сервиса. Присаживайтесь удобнее, приступаем к статье.

Читать далее

Комикс: Ищу работу. Приключения соискателя: Часть 1

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели8.5K

Вечер пятницы — время чтобы улыбнуться и отдохнуть. Хочется чего‑то лёгкого и при этом полезного для работы. Я проверил свежее обновление Gemini 2.5 и его режим Storybook — теперь можно описать идею, а на выходе получить 10-страничную иллюстрированную историю с озвучкой и поддержкой множества стилей. В статье покажу, как я собрал «юмористический хоррор» про рынок труда-2025 и какие промпты использовал.

Читать далее

Как изменить эмоции на фото с помощью нейросети онлайн бесплатно

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели7.5K

Загружаете серьезный портрет, а получаете улыбающегося персонажа. Или наоборот делаете из счастливого лица задумчивого мудреца. Multi-Expression Portrait Generator в TensorArt позволяет управлять каждой мимической мышцей: от легкого наклона головы до интенсивности улыбки.

В статье: подробный разбор 15+ параметров управления эмоциями, готовые настройки для популярных выражений лица и пошаговые инструкции для новичков.

Читать далее

Оптимизация инференса больших языковых моделей: комплексный анализ современных подходов и практических реализаций

Уровень сложностиСредний
Время на прочтение17 мин
Охват и читатели6.4K

В процессе разработки RAG-системы для обработки видеоконтента передо мной встала задача генерации качественных описаний для большого объема видео-клипов с использованием мультимодальных языковых моделей. Клипы имели продолжительность около 10 секунд, в отдельных экспериментах мы тестировали материал длиной в несколько десятков секунд. Финальные описания составляли от 300 до 2000 токенов и после генерации разбивались на чанки для индексации в векторной базе данных. При тестировании различных подходов обнаружились значительные различия в скорости и качестве обработки. Компактные модели, работающие с отдельными кадрами изображений (Phi, DeepSeekVL2, Moondream), демонстрировали существенно более высокую скорость по сравнению с моделями полноценной обработки видео, однако качество генерируемых описаний оставляло желать лучшего. Типичный workflow включал конкатенацию описаний отдельных кадров, при этом в DeepSeekVL2 дополнительно использовался system prompt для более интеллигентного объединения результатов анализа кадров. Модели для обработки изображений стабильно укладывались в временные рамки 3-5 секунд на клип, что значительно быстрее требуемого лимита. Полноценные видео-модели, получающие на вход целые видеоклипы, изначально генерировали описания за 30 секунд на vanilla PyTorch. Применение VLLM ускорило процесс до 12-15 секунд, а SGLang позволил достичь целевых 8-10 секунд на клип. Эти временные рамки позволили настроить обработку на кластере из 20 RTX 4090 и сгенерировать около миллиона описаний за месяц для production-системы. Благодаря применению различных техник оптимизации инференса удалось не только достичь поставленных временных целей, но и существенно превзойти их, завершив генерацию необходимого объема описаний за две недели вместо месяца. Система успешно развернута в продакшене и демонстрирует стабильную производительность. Данная статья представляет систематизированный анализ практического опыта оптимизации инференса мультимодальных LLM, полученного в ходе решения реальной production-задачи. Особое внимание уделяется сравнению эффективности различных подходов к ускорению, включая современные специализированные фреймворки VLLM и SGLang, а также аппаратные оптимизации на базе TensorRT.

Читать далее

Обзор 10 лучших аналогов Лайтрум на компьютер: личный опыт

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели8.7K

Lightroom остается стандартом для работы с изображениями. Если вы, как и я, хотите попробовать что-то новое — этот обзор для вас. Хотя я не отказался от ПО полностью, но нашел 2-3 аналога Лайтрум на компьютер, которые теперь использую в зависимости от задачи.

Тестировал по ключевым параметрам, среди них качество RAW-конвертации, организация фото, стоимость и средства коррекции. Добавил профессиональные продукты, бесплатные варианты — выбрать есть из чего.

Читать далее

Вклад авторов