Как стать автором
Поиск
Написать публикацию
Обновить
99.1

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Добавление OCR-слоя и другие преобразования PDF

Время на прочтение3 мин
Количество просмотров2.3K

При сканировании и сохранении в формате PDF зачастую документы сохраняются в виде графических изображений. Это неудобно, потому что делает невозможным полнотекстовый поиск по содержанию. Утилита OCRmyPDF решает эту проблему: она одной командой из консоли добавляет к PDF-документу слой OCR с распознанным текстом.

Ниже упомянуты ещё несколько полезных инструментов для парсинга PDF, в том числе для преобразования сложных математических PDF-документов в текстовый формат Markdown.

Читать далее

Новости

Заселяем привидение в старый телевизор

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров4.4K

В этом году пришла идея: воплотить классическое клише из фильмов ужасов — скримера с зеркалом. Помните те сцены, где отражение внезапно показывает монстра, призрака или что-то подобное? Камера, Raspberry Pi, и библиотека OpenCV могут напугать кого угодно. Не верите?! Поскольку на телевидение не пускают (и правильно делают), создадим жуткую видеотрансляцию в старом черно-белом телевизоре. Система активируется при обнаружении лица или глаз.

Когда Raspberry Pi замечает лицо, он включает телевизор и выводит на него живое изображение с камеры. Как только человек отворачивается, на заднем плане появляется призрак (с помощью технологии вычитания фона). Несчастный снова смотрит на экран, видит фантома, радуется, хватается за сердце и оборачивается во второй раз — призрак исчезает. Через несколько секунд телевизор выключается, и цикл начинается заново.

Осторожно, под катом много картинок!

Читать далее

Из туризма в стеганографию: история создания ChameleonLab и наш новый взгляд на контент

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров978

Привет, Хабр!

Нас часто просили рассказать историю создания нашей программы Chameleon Lab и объяснить, зачем она вообще нужна. Что ж, эта статья — ответ на ваши вопросы. Это история о том, как мы прошли путь от яростной защиты своего контента до идеи, что культурное наследие должно быть абсолютно бесплатным, но при этом продолжили упорно развивать созданный нами инструмент.

Читать далее

Невидимые чернила в цифровом мире: технология сокрытия данных в DOCX/XLSX

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров3.2K

Привет, Хабр!

Стеганография — искусство сокрытия информации — чаще всего ассоциируется с изображениями и аудиофайлами. Но что если нам нужно спрятать данные не в медиафайле, а в обычном офисном документе, например, в .docx или .xlsx?

На первый взгляд, задача кажется сложной. Документы имеют строгую структуру, и любое неосторожное изменение может повредить файл. Однако современные форматы Office, основанные на Open XML, предоставляют удивительно элегантные и надежные способы для встраивания сторонних данных.

Читать далее

ChameleonLab: Как мы портировали стеганографический инструмент на macOS. Грабли, решения и планы на Android

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров3.2K

Привет, Хабр!

В наших прошлой и позапрошлой статьях мы рассказывали о создании нашего инструмента для стеганографии и стеганоанализа ChameleonLab. Мы получили массу ценных отзывов, и один из самых частых запросов был: «А когда версия для macOS?». Что ж, по вашим многочисленным просьбам, мы сделали это — ChameleonLab теперь доступен для macOS!

Этот путь оказался не просто «взять и пересобрать». Нам пришлось столкнуться с рядом специфичных для macOS проблем, начиная от сборки .app-пакетов и заканчивая борьбой с «замороженной» иконкой в Dock при запуске. В этой статье мы хотим поделиться нашим опытом, рассказать о сложностях переноса, показать конкретные решения в коде и заглянуть в будущее.

Читать далее

Как мы построили систему нагрузочного тестирования для обработки документов: метрики, инструменты, примеры

Время на прочтение5 мин
Количество просмотров834

В системах интеллектуальной обработки документов корректность извлечения данных — это лишь половина дела. Гораздо важнее, чтобы при скачке нагрузки сервис не превратился в бутылочное горлышко.

В этой статье расскажем, как мы:

● автоматизировали нагрузочное тестирование, сократив ручную работу инженеров на 85%;
● встроили стресс-тесты в CI/CD, чтобы каждая фича доказывала свою устойчивость перед релизом;
● научились предсказывать поведение системы не на глаз, а по данным — даже при росте объемов в несколько раз.

Узнать подробности

GPT, Gemini, Qwen и Шедеврум переделывает мужского ГГ в женского. Часть 1

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров1.4K

Я решил проверить, как популярные генераторы изображений справляются с одной и той же задачей: сделать фотореалистичный женский вариант известного персонажа игры. Участники: GPT (DALL·E), Gemini, Qwen и «Шедеврум» (Яндекс).

Читать далее

Как извлечь текст с изображения с помощью нейросети: распознавание текста на фото онлайн

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3.3K

Доброго времени суток, «Хабр»!

Вероятно, многим уже известно, что современные нейронные сети способны обрабатывать изображения в качестве входящего запроса. Пользователи активно применяют эту возможность, загружая фото с заданиями или вопросами, — особенно часто так поступают учащиеся школ и вузов, получая от нейросети готовые решения задач или правильные ответы на интересующие вопросы.

Сегодня я рассмотрю перечень нейросетей и сервисов, проверю их на фотографиях с разными форматами заданий и постараюсь подсказать, какие из них лучше всего подходят для распознавания текста с изображений.

Присаживайтесь поудобнее, начинается мое повествование.

Читать далее

Часть 2: ChameleonLab — не просто утилита, а учебная лаборатория

Уровень сложностиСложный
Время на прочтение9 мин
Количество просмотров2.4K

Привет, Хабр!

Честно говоря, публикуя первую статью, мы и представить не могли, какой отклик она получит. В ней мы представили наш новый проект — ChameleonLab, утилиту для стеганографии с дружелюбным интерфейсом, позволяющую скрывать данные в изображениях и документах. После этого нашу почту буквально завалили письмами: люди делились идеями, задавали вопросы и рассказывали, как используют программу. Этот невероятный интерес и стал главной причиной, по которой мы с удвоенной энергией взялись за развитие проекта. Сегодня мы хотим поделиться тем, что нового появилось в ChameleonLab, во многом благодаря вам.

А для всех, кто хочет опробовать новые функции прямо сейчас, мы собрали свежую версию. Скачать ее можно по ссылке: ChameleonLab 1.3.0.0

Читать далее

Хамелеон в цифровых джунглях: Пишем десктопное приложение для стеганографии на Python и PyQt6

Уровень сложностиСложный
Время на прочтение9 мин
Количество просмотров5.4K

Привет, Хабр!

Сегодня я хочу поделиться историей создания одного из моих проектов — десктопного приложения для стеганографии, которое я назвал "ChameleonLab". Это не просто очередной скрипт для LSB-метода, а полноценный инструмент с графическим интерфейсом, поддержкой разных типов файлов, шифрованием и, что самое интересное, встроенными утилитами для стегоанализа.

Идея заключалась в том, чтобы создать удобную «лабораторию», где можно не только спрятать данные, но и исследовать, насколько незаметно это получилось. Мы пройдем путь от базового алгоритма до интеграции с Matplotlib и анализа аномалий в Office-документах.

Читать далее

Krea AI: подробный обзор нейросети для генерации изображений и видео по тексту

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров3.6K

Доброго времени суток, «Хабр»!

Сегодня мы поговорим о Krea AI — агрегаторе нейросетей, объединяющем популярные модели ИИ, что позволяет создавать и пошагово редактировать изображения и видео, строить сложные 3D‑сцены с помощью текстовых промтов и существенно повышать качество картинок или видеоматериалов.

Здесь постараюсь раскрыть функциональность данного сервиса. Присаживайтесь удобнее, приступаем к статье.

Читать далее

Комикс: Ищу работу. Приключения соискателя: Часть 1

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2K

Вечер пятницы — время чтобы улыбнуться и отдохнуть. Хочется чего‑то лёгкого и при этом полезного для работы. Я проверил свежее обновление Gemini 2.5 и его режим Storybook — теперь можно описать идею, а на выходе получить 10-страничную иллюстрированную историю с озвучкой и поддержкой множества стилей. В статье покажу, как я собрал «юмористический хоррор» про рынок труда-2025 и какие промпты использовал.

Читать далее

Как изменить эмоции на фото с помощью нейросети онлайн бесплатно

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.8K

Загружаете серьезный портрет, а получаете улыбающегося персонажа. Или наоборот делаете из счастливого лица задумчивого мудреца. Multi-Expression Portrait Generator в TensorArt позволяет управлять каждой мимической мышцей: от легкого наклона головы до интенсивности улыбки.

В статье: подробный разбор 15+ параметров управления эмоциями, готовые настройки для популярных выражений лица и пошаговые инструкции для новичков.

Читать далее

Ближайшие события

Оптимизация инференса больших языковых моделей: комплексный анализ современных подходов и практических реализаций

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров1.6K

В процессе разработки RAG-системы для обработки видеоконтента передо мной встала задача генерации качественных описаний для большого объема видео-клипов с использованием мультимодальных языковых моделей. Клипы имели продолжительность около 10 секунд, в отдельных экспериментах мы тестировали материал длиной в несколько десятков секунд. Финальные описания составляли от 300 до 2000 токенов и после генерации разбивались на чанки для индексации в векторной базе данных. При тестировании различных подходов обнаружились значительные различия в скорости и качестве обработки. Компактные модели, работающие с отдельными кадрами изображений (Phi, DeepSeekVL2, Moondream), демонстрировали существенно более высокую скорость по сравнению с моделями полноценной обработки видео, однако качество генерируемых описаний оставляло желать лучшего. Типичный workflow включал конкатенацию описаний отдельных кадров, при этом в DeepSeekVL2 дополнительно использовался system prompt для более интеллигентного объединения результатов анализа кадров. Модели для обработки изображений стабильно укладывались в временные рамки 3-5 секунд на клип, что значительно быстрее требуемого лимита. Полноценные видео-модели, получающие на вход целые видеоклипы, изначально генерировали описания за 30 секунд на vanilla PyTorch. Применение VLLM ускорило процесс до 12-15 секунд, а SGLang позволил достичь целевых 8-10 секунд на клип. Эти временные рамки позволили настроить обработку на кластере из 20 RTX 4090 и сгенерировать около миллиона описаний за месяц для production-системы. Благодаря применению различных техник оптимизации инференса удалось не только достичь поставленных временных целей, но и существенно превзойти их, завершив генерацию необходимого объема описаний за две недели вместо месяца. Система успешно развернута в продакшене и демонстрирует стабильную производительность. Данная статья представляет систематизированный анализ практического опыта оптимизации инференса мультимодальных LLM, полученного в ходе решения реальной production-задачи. Особое внимание уделяется сравнению эффективности различных подходов к ускорению, включая современные специализированные фреймворки VLLM и SGLang, а также аппаратные оптимизации на базе TensorRT.

Читать далее

Обзор 10 лучших аналогов Лайтрум на компьютер: личный опыт

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров4.2K

Lightroom остается стандартом для работы с изображениями. Если вы, как и я, хотите попробовать что-то новое — этот обзор для вас. Хотя я не отказался от ПО полностью, но нашел 2-3 аналога Лайтрум на компьютер, которые теперь использую в зависимости от задачи.

Тестировал по ключевым параметрам, среди них качество RAW-конвертации, организация фото, стоимость и средства коррекции. Добавил профессиональные продукты, бесплатные варианты — выбрать есть из чего.

Читать далее

Flux Kontext проигрывает ControlNET: уроки новичкам

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.5K

В первой части мы уже баловали Flux Kontext «девушками и котиками». Сегодня усложним задачу и проверим, как модель справляется с контурными подсказками, заменой цвета/фона и текстурированием 3D‑объектов в интерфейсе Forge WebUI — а заодно сравним результаты с классическим ControlNet (ControlNET для SD 1.5 и SDXL и FluxTools-V2 для Flux) и с ChatGPT.

В рамках этой статьи мы рассмотрим:

1.     Генерацию замка по контуру, с дальнейшей заменой кирпича на розовый цвет;

2.     Генерацию ювелирных часов, с дальнейшей заменой фона на чёрный цвет;

3.     Генерация текстур (битое стекло, лёд, хвоя, шерсть, морская пена) для 3D-текста "DMITRII DAK" (мой никнейм в сети);

4.     Сравнение Flux Kontext с ChatGPT, FluxTools-V2 и с ControlNet SD1.5 и SDXL.

По ходу покажу метрики времени и VRAM, а в финале подведу итоги: где Flux Kontext выигрывает, а где ControlNet остаётся незаменимым. Так же по стандарту проверим генерацию по плану на ChatGPT и с помощью FluxTools-V2.

Читать далее

Как рёбра графа 3D-сцены помогают LLM отвечать на вопросы?

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров965

Привет, Хабр! Меня зовут Татьяна Земскова, я аспирантка МФТИ и младший научный сотрудник команды Embodied Agents лаборатории Cognitive AI Systems AIRI. Областью моих научных интересов является компьютерное зрение для робототехники. Я изучаю, в частности, то, каким образом робот может использовать различные модальности (текст, 3D‑облака точек) для лучшего понимания 3D‑сцены.

Сегодня мы поговорим о понимании 3D‑сцены в контексте задач, где требуется одновременно и трёхмерное компьютерное зрение, и обработка естественного языка, а также о том, как представление 3D‑сцены в виде графа с рёбрами помогает в их решении. Главной особенностью графового представления 3D‑сцены является его компактность, поэтому граф можно использовать для сжатого описания 3D‑сцены, подающегося на вход в LLM. Это позволяет получать качественные ответы на вопросы о 3D‑сцене до 5 раз быстрее по сравнению с методами, использующими последовательности изображений для LVLM. Это мы показали вместе с моим научным руководителем Дмитрием Юдиным в недавней работе 3DGraphLLM: Сombining Semantic Graphs and Large Language Models for 3D Scene Understanding, принятой на ведущую конференцию по компьютерному зрению ICCV 2025.

Мы предоставляем открытый исходный код метода 3DGraphLLM с инструкциями по запуску, а также публикуем предварительно обученные веса модели на Hugging Face. Это позволяет каждому желающему легко воспроизвести результаты и опробовать все описанные методы на собственных данных. Здесь же хочется подробнее рассказать о новом методе и пути, по которому мы к нему пришли.

Читать далее

Математическая живопись Иньиго Килеса

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров6.5K

Иньиго Килес (iq) более тридцати лет профессионально занимается компьютерной графикой (CG). За это время он опубликовал массу учебных проектов, курсов и лекций. Известен как автор нескольких выдающихся демок и программных проектов, включая Quill — инструмент для рисования и анимации в VR и Shadertoy — сайт для обучения компьютерной графике, создания и публикации работ.

Читать далее

Как писать промт для генерации изображения/видео и получить лучший результат?

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров16K

Вслед за текстовыми нейросетями появились модели, которые могут генерировать фотографии и видео. Что одно, что другое — инструмент, которым нужно уметь управлять. Сегодня разберем вопрос: как правильно писать промт для успешной генерации изображения или видео?

Кстати, в своей предыдущей статье я рассказывал о промтах для текстовых моделей, если вам интересно — можете глянуть тут.

Занимайте позицию поудобнее, наливайте чай или кофе, если вы его больше предпочитаете, ну а я начну свое повествование.

Читать далее

OpenCV. Начало

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров22K

В прошедшем июне исполнилось 25 лет первому релизу OpenCV. Господи, как летит время! Кажется, только вчера мы писали первые строчки. А уже четверть века с тех пор прошло. Самое время вспомнить, как все начиналось. Я не ставил себе целью рассказать в этой статье полную историю OpenCV — есть замечательная книга Гари, отличная статья в интеловом блоге и много других материалов. А у меня — скорее взгляд изнутри на то, как зарождался де-факто стандарт компьютерного зрения, размышления о причудливых развилках пути и факторе везения в технологии и дань уважения людям, с которыми мне довелось поработать.

Читать далее
1
23 ...

Вклад авторов