Обновить
57.35

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Учебник под микроскопом. Часть 1: из PDF в TXT

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.7K

Автоматический способ превращения учебника в текстовый файл (TXT) для дальнейшего анализа. В статье пишем о том, как с помощью Python и OCR извлечь текст из PDF, даже если это сканированные страницы в плохом качестве.

Читать далее

Определение положения объектов на изображении: как найти пространственные координаты объекта, используя OpenCV

Время на прочтение26 мин
Количество просмотров9.3K

Как найти 3D координаты объектов на изображении?

Статья о задаче пространственной локализации объектов на изображении с одной камеры и о её решении с помощью OpenCV

Читать далее

Как ContentCapture и LLM автоматизируют обработку судебных приказов, определений и постановлений ФССП

Время на прочтение6 мин
Количество просмотров1.6K

Ранее мы уже делились опытом использования LLM для обработки юридических документов и доверенностей. Сегодня расскажем о другом подходе, который применил наш технологический партнер ООО «ЕСМ-Консалтинг». При реализации нескольких показательных кейсов для крупных российских энергосбытовых компаний, автоматизировав в них обработку судебных документов с помощью платформы ContentCapture и больших языковых моделей (LLM).

Изначально мы рассматривали два подхода к реализации подобных проектов. Первый – предполагал классическую работу с гибкими описаниями документов, когда правила извлечения информации задаются человеком. Второй вариант – комбинированный, с использованием больших языковых моделей (LLM). Наш опыт показал, что последний подход как минимум в три раза экономичнее, при работе с неструктурированными документами. Он обеспечивает хорошую скорость и высокое качество извлечения данных (более 95% правильно извлеченных данных), что позволяет нашим заказчикам масштабировать обработку документов без роста операционных расходов.

Узнать подробности

Трекинг объектов по видео: как мы повышали точность, снижали ресурсоемкость, и к каким изменениям в продукте это привело

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.4K

Привет! Мы в Macroscop разрабатываем ПО для систем видеонаблюдения, которое умеет распознавать автономера, чекать спецодежду на рабочих, детектировать по видео задымленность и возгорания и решать еще около 20 задач, касающихся анализа видео.
Один из фокусов нашей команды - разработка собственной видеоаналитики, а также постоянное ее улучшение, выражающееся в росте точности, функциональности и производительности. 

Пару месяцев назад мы выпустили новую версию ПО, в которой в том числе значительно обновился нейросетевой модуль трекинга, отслеживающий траектории перемещения объектов, пересечение контрольных линий и длительное пребывание в охраняемых зонах.
Необходимость модернизации трекинга назрела, потому что за годы, прошедшие с момента разработки предыдущей версии, к нему накопился ряд пожеланий. Часть из них касалась повышения точности работы, часть - производительности модуля.
Возникла задача, обычно вызывающая холодный пот у разработчика: сделать так, чтобы трекинг работал точнее и при этом - быстрее.

К счастью, причины указанных проблем скрывались в разных частях алгоритма трекинга и были в большой степени независимы друг от друга. В результате нам удалось добиться повышения точности модуля при одновременном снижении затрат вычислительных ресурсов. А как мы это сделали- расскажем дальше.

Все смешалось – люди, кони кошки...

Первая сложность, связанная с точностью, лежала внутри обученного нами детектора-классификатора (YOLO), который обнаруживает в кадре объекты интересующих нас классов: транспорт разных типов, люди, животные. Выражалась она довольно специфическим образом: некоторые животные, особенно кошки и собаки, в определенных ракурсах (вид со спины и видны задние лапы, направленные параллельно туловищу) классифицировались как люди.

Как мы перестали путать кошек и людей

Nano Banana от Google: генерация и редактирование изображений на новой архитектуре Gemini 2.5

Уровень сложностиСредний
Время на прочтение2 мин
Количество просмотров40K

26 августа 2025 года Google представила новую preview-модель под кодовым названием Nano Banana — это часть экосистемы Gemini 2.5 Flash Image, ориентированной на генерацию и редактирование изображений с помощью текстовых и мультимодальных запросов. Несмотря на шутливое название, перед нами — серьёзный инструмент с претензией на роль нового стандарта в визуальном ИИ.

Читать далее

Дилемма, которая привела к краху Kodak

Уровень сложностиПростой
Время на прочтение25 мин
Количество просмотров11K

Люди вспоминают Kodak со смесью ностальгии и недоверия. Ностальгия по тем временам, когда её жёлтые коробки определяли мир фотографии для миллионов, и недоверие к тому, что столь доминирующая компания может всё потерять. От первой камеры для масс до изобретения самой цифровой камеры, Kodak помогала формировать будущее. Но оказавшись в тисках дилеммы инноватора, где прошлый успех порождает осторожность, а осторожность подавляет импульс, Kodak колебалась, пока другие адаптировались, и цифровая революция оставила её позади. Это история о том, как компания, когда-то определившая мир фотографии, стала её самой известной жертвой.

Читать далее

Добавление OCR-слоя и другие преобразования PDF

Время на прочтение3 мин
Количество просмотров4K

При сканировании и сохранении в формате PDF зачастую документы сохраняются в виде графических изображений. Это неудобно, потому что делает невозможным полнотекстовый поиск по содержанию. Утилита OCRmyPDF решает эту проблему: она одной командой из консоли добавляет к PDF-документу слой OCR с распознанным текстом.

Ниже упомянуты ещё несколько полезных инструментов для парсинга PDF, в том числе для преобразования сложных математических PDF-документов в текстовый формат Markdown.

Читать далее

Заселяем привидение в старый телевизор

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров6K

В этом году пришла идея: воплотить классическое клише из фильмов ужасов — скримера с зеркалом. Помните те сцены, где отражение внезапно показывает монстра, призрака или что-то подобное? Камера, Raspberry Pi, и библиотека OpenCV могут напугать кого угодно. Не верите?! Поскольку на телевидение не пускают (и правильно делают), создадим жуткую видеотрансляцию в старом черно-белом телевизоре. Система активируется при обнаружении лица или глаз.

Когда Raspberry Pi замечает лицо, он включает телевизор и выводит на него живое изображение с камеры. Как только человек отворачивается, на заднем плане появляется призрак (с помощью технологии вычитания фона). Несчастный снова смотрит на экран, видит фантома, радуется, хватается за сердце и оборачивается во второй раз — призрак исчезает. Через несколько секунд телевизор выключается, и цикл начинается заново.

Осторожно, под катом много картинок!

Читать далее

Из туризма в стеганографию: история создания ChameleonLab и наш новый взгляд на контент

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.2K

Привет, Хабр!

Нас часто просили рассказать историю создания нашей программы Chameleon Lab и объяснить, зачем она вообще нужна. Что ж, эта статья — ответ на ваши вопросы. Это история о том, как мы прошли путь от яростной защиты своего контента до идеи, что культурное наследие должно быть абсолютно бесплатным, но при этом продолжили упорно развивать созданный нами инструмент.

Читать далее

Невидимые чернила в цифровом мире: технология сокрытия данных в DOCX/XLSX

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров4.1K

Привет, Хабр!

Стеганография — искусство сокрытия информации — чаще всего ассоциируется с изображениями и аудиофайлами. Но что если нам нужно спрятать данные не в медиафайле, а в обычном офисном документе, например, в .docx или .xlsx?

На первый взгляд, задача кажется сложной. Документы имеют строгую структуру, и любое неосторожное изменение может повредить файл. Однако современные форматы Office, основанные на Open XML, предоставляют удивительно элегантные и надежные способы для встраивания сторонних данных.

Читать далее

ChameleonLab: Как мы портировали стеганографический инструмент на macOS. Грабли, решения и планы на Android

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров7.1K

Привет, Хабр!

В наших прошлой и позапрошлой статьях мы рассказывали о создании нашего инструмента для стеганографии и стеганоанализа ChameleonLab. Мы получили массу ценных отзывов, и один из самых частых запросов был: «А когда версия для macOS?». Что ж, по вашим многочисленным просьбам, мы сделали это — ChameleonLab теперь доступен для macOS!

Этот путь оказался не просто «взять и пересобрать». Нам пришлось столкнуться с рядом специфичных для macOS проблем, начиная от сборки .app-пакетов и заканчивая борьбой с «замороженной» иконкой в Dock при запуске. В этой статье мы хотим поделиться нашим опытом, рассказать о сложностях переноса, показать конкретные решения в коде и заглянуть в будущее.

Читать далее

Как мы построили систему нагрузочного тестирования для обработки документов: метрики, инструменты, примеры

Время на прочтение5 мин
Количество просмотров1.4K

В системах интеллектуальной обработки документов корректность извлечения данных — это лишь половина дела. Гораздо важнее, чтобы при скачке нагрузки сервис не превратился в бутылочное горлышко.

В этой статье расскажем, как мы:

● автоматизировали нагрузочное тестирование, сократив ручную работу инженеров на 85%;
● встроили стресс-тесты в CI/CD, чтобы каждая фича доказывала свою устойчивость перед релизом;
● научились предсказывать поведение системы не на глаз, а по данным — даже при росте объемов в несколько раз.

Узнать подробности

GPT, Gemini, Qwen и Шедеврум переделывает мужского ГГ в женского. Часть 1

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров1.7K

Я решил проверить, как популярные генераторы изображений справляются с одной и той же задачей: сделать фотореалистичный женский вариант известного персонажа игры. Участники: GPT (DALL·E), Gemini, Qwen и «Шедеврум» (Яндекс).

Читать далее

Ближайшие события

Как извлечь текст с изображения с помощью нейросети: распознавание текста на фото онлайн

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров8.3K

Доброго времени суток, «Хабр»!

Вероятно, многим уже известно, что современные нейронные сети способны обрабатывать изображения в качестве входящего запроса. Пользователи активно применяют эту возможность, загружая фото с заданиями или вопросами, — особенно часто так поступают учащиеся школ и вузов, получая от нейросети готовые решения задач или правильные ответы на интересующие вопросы.

Сегодня я рассмотрю перечень нейросетей и сервисов, проверю их на фотографиях с разными форматами заданий и постараюсь подсказать, какие из них лучше всего подходят для распознавания текста с изображений.

Присаживайтесь поудобнее, начинается мое повествование.

Читать далее

Часть 2: ChameleonLab — не просто утилита, а учебная лаборатория

Уровень сложностиСложный
Время на прочтение9 мин
Количество просмотров3.3K

Привет, Хабр!

Честно говоря, публикуя первую статью, мы и представить не могли, какой отклик она получит. В ней мы представили наш новый проект — ChameleonLab, утилиту для стеганографии с дружелюбным интерфейсом, позволяющую скрывать данные в изображениях и документах. После этого нашу почту буквально завалили письмами: люди делились идеями, задавали вопросы и рассказывали, как используют программу. Этот невероятный интерес и стал главной причиной, по которой мы с удвоенной энергией взялись за развитие проекта. Сегодня мы хотим поделиться тем, что нового появилось в ChameleonLab, во многом благодаря вам.

А для всех, кто хочет опробовать новые функции прямо сейчас, мы собрали свежую версию. Скачать ее можно по ссылке: ChameleonLab 1.3.0.0

Читать далее

Хамелеон в цифровых джунглях: Пишем десктопное приложение для стеганографии на Python и PyQt6

Уровень сложностиСложный
Время на прочтение9 мин
Количество просмотров22K

Привет, Хабр!

Сегодня я хочу поделиться историей создания одного из моих проектов — десктопного приложения для стеганографии, которое я назвал "ChameleonLab". Это не просто очередной скрипт для LSB-метода, а полноценный инструмент с графическим интерфейсом, поддержкой разных типов файлов, шифрованием и, что самое интересное, встроенными утилитами для стегоанализа.

Идея заключалась в том, чтобы создать удобную «лабораторию», где можно не только спрятать данные, но и исследовать, насколько незаметно это получилось. Мы пройдем путь от базового алгоритма до интеграции с Matplotlib и анализа аномалий в Office-документах.

Читать далее

Krea AI: подробный обзор нейросети для генерации изображений и видео по тексту

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров8.2K

Доброго времени суток, «Хабр»!

Сегодня мы поговорим о Krea AI — агрегаторе нейросетей, объединяющем популярные модели ИИ, что позволяет создавать и пошагово редактировать изображения и видео, строить сложные 3D‑сцены с помощью текстовых промтов и существенно повышать качество картинок или видеоматериалов.

Здесь постараюсь раскрыть функциональность данного сервиса. Присаживайтесь удобнее, приступаем к статье.

Читать далее

Комикс: Ищу работу. Приключения соискателя: Часть 1

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.1K

Вечер пятницы — время чтобы улыбнуться и отдохнуть. Хочется чего‑то лёгкого и при этом полезного для работы. Я проверил свежее обновление Gemini 2.5 и его режим Storybook — теперь можно описать идею, а на выходе получить 10-страничную иллюстрированную историю с озвучкой и поддержкой множества стилей. В статье покажу, как я собрал «юмористический хоррор» про рынок труда-2025 и какие промпты использовал.

Читать далее

Как изменить эмоции на фото с помощью нейросети онлайн бесплатно

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.8K

Загружаете серьезный портрет, а получаете улыбающегося персонажа. Или наоборот делаете из счастливого лица задумчивого мудреца. Multi-Expression Portrait Generator в TensorArt позволяет управлять каждой мимической мышцей: от легкого наклона головы до интенсивности улыбки.

В статье: подробный разбор 15+ параметров управления эмоциями, готовые настройки для популярных выражений лица и пошаговые инструкции для новичков.

Читать далее

Оптимизация инференса больших языковых моделей: комплексный анализ современных подходов и практических реализаций

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров2K

В процессе разработки RAG-системы для обработки видеоконтента передо мной встала задача генерации качественных описаний для большого объема видео-клипов с использованием мультимодальных языковых моделей. Клипы имели продолжительность около 10 секунд, в отдельных экспериментах мы тестировали материал длиной в несколько десятков секунд. Финальные описания составляли от 300 до 2000 токенов и после генерации разбивались на чанки для индексации в векторной базе данных. При тестировании различных подходов обнаружились значительные различия в скорости и качестве обработки. Компактные модели, работающие с отдельными кадрами изображений (Phi, DeepSeekVL2, Moondream), демонстрировали существенно более высокую скорость по сравнению с моделями полноценной обработки видео, однако качество генерируемых описаний оставляло желать лучшего. Типичный workflow включал конкатенацию описаний отдельных кадров, при этом в DeepSeekVL2 дополнительно использовался system prompt для более интеллигентного объединения результатов анализа кадров. Модели для обработки изображений стабильно укладывались в временные рамки 3-5 секунд на клип, что значительно быстрее требуемого лимита. Полноценные видео-модели, получающие на вход целые видеоклипы, изначально генерировали описания за 30 секунд на vanilla PyTorch. Применение VLLM ускорило процесс до 12-15 секунд, а SGLang позволил достичь целевых 8-10 секунд на клип. Эти временные рамки позволили настроить обработку на кластере из 20 RTX 4090 и сгенерировать около миллиона описаний за месяц для production-системы. Благодаря применению различных техник оптимизации инференса удалось не только достичь поставленных временных целей, но и существенно превзойти их, завершив генерацию необходимого объема описаний за две недели вместо месяца. Система успешно развернута в продакшене и демонстрирует стабильную производительность. Данная статья представляет систематизированный анализ практического опыта оптимизации инференса мультимодальных LLM, полученного в ходе решения реальной production-задачи. Особое внимание уделяется сравнению эффективности различных подходов к ускорению, включая современные специализированные фреймворки VLLM и SGLang, а также аппаратные оптимизации на базе TensorRT.

Читать далее

Вклад авторов