Все потоки
Поиск
Написать публикацию
Обновить
55.54

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Lens Blur Fields: нейросетевая ФРТ на службе улучшения фотографий и идентификации камеры

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров566

Оптическое размытие — обобщающий термин для различных факторов деградации изображения, таких как расфокусировка, дифракция и аберрации. Математически оно описывается функцией рассеяния точки. Форма ФРТ, как правило, пространственно-вариантна и зависит от координат в поле изображения, настройки фокуса, расстояния до объекта (глубины резкости), апертуры и длины волны. Поэтому любые попытки точно описать размытие реальной камеры сталкиваются с необходимостью измерять слишком большое количество параметров, что на практике выполнить почти невозможно.

Метод Lens Blur Fields предлагает новое решение: использовать многослойные перцептроны, которые обучаются представлять ФРТ в виде непрерывной функции высокой размерности (arXiv:2310.11535). Такая модель способна обобщать по всем параметрам сразу и восстанавливать плавные изменения ФРТ вместо того, чтобы хранить её в виде разрозненной таблицы замеров.

В теории это значит, что метод Lens Blur Fields позволит не только сделать очередной красивый фильтр с боке, но и различать экземпляры камер по снимкам с них.

Читать далее

Новости

Оптимизация функций компьютерного зрения (библиотека OpenCV) для RISC-V

Уровень сложностиСложный
Время на прочтение9 мин
Количество просмотров978

OpenCV — популярная библиотека, включающая множество алгоритмов компьютерного зрения и функций для них. Оптимизация их под RISC-V — большая и интересная задача, которой в рамках Зимней школы RISC-V YADRO сезона 2024–2025 занимались студенты Университета Лобачевского (ННГУ). В этой статье они подробно расскажут о своей работе.

Читать далее

Промт: как получать лучшие результаты в Midjourney

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2K

Доброго времени суток, «Хабр»!

Не так давно я рассказывал про промты для нейросетей, которые способны генерировать фотографии и видео. Да и можно вспомнить, что у меня выходили статьи про Krea AI и Playground AI, которые тоже являются инструментами для работы с изображениями. В этой статье мной было принято решение немного углубиться в части генерации фотографий и рассмотреть одну из более популярных моделей, предназначенных для этого, — Midjourney. Точнее как, сегодня мы поговорим о некой конкретике и изюминке в промтах для этой нейросети, а также узнаем (а некоторые вспомнят), как их грамотно составлять.

Итак, присаживаемся поудобнее, достаем свои кисточки, кхм, точнее достаем вкусняшки, ну а я перехожу к своему повествованию.

Читать далее

Математика и веб-разработка: как мы добавили интерактивную кривую Безье в редактор изображений

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2.3K

Добрый день, меня зовут Богдан, я фронтенд-разработчик в компании iSpring. В статье расскажу про интерактивную стрелку в редакторе изображений. Вы узнаете: как строятся кривые Безье и какие полезные свойства имеют; как вычислить кривую Безье, проходящую через заданные точки; как найти ограничивающую площадь этой кривой. Рассмотрим плюсы и минусы реализаций на Canvas и SVG.

Читать далее

Какая LLM лучше распознает чертежи? Мы сравнили 6 LLM и узнали ответ

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров9K

Инженерные чертежи содержат десятки типов размеров и допусков: линейные и угловые, радиальные и диаметральные, справочные и базовые, а также геометрические характеристики вроде плоскостности или перпендикулярности. Для инженера это привычный язык, но для автоматической обработки такие документы представляют серьёзную задачу.

С появлением мультимодальных LLM возник вопрос: способны ли они заменить классические OCR-решения и специализированные пайплайны постобработки? Насколько хорошо современные модели справляются с извлечением размеров и допусков из коробки, без дообучения? Какие модели дают максимальную точность, какие быстрее, а какие дешевле? И можно ли комбинировать разные подходы, чтобы повысить результат?

Чтобы ответить на эти вопросы, мы протестировали шесть актуальных vision-LLM на одном наборе реальных механических чертежей и сравнили их точность, скорость и стоимость обработки.

Читать далее

Генерация изображений: краткий обзор на PlayGround AI

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.2K

Доброго времени суток, «Хабр»!
Сегодня мы обсудим Playground AI — это многофункциональная онлайн-платформа, позволяющая создавать и свободно редактировать разнообразные изображения при помощи искусственного интеллекта. Сервис представляет собой уникальный инструмент для тех, кто хочет быстро и достаточно качественно получать различные изображения.

Постараемся охватить моменты работы данного инструмента, начиная от описания основных возможностей до выявления сильных сторон и возможных недостатков. По итогам обзора вы сможете сформировать собственное мнение относительно данной платформы для ваших личных нужд.

Итак, устраивайтесь поудобнее, запасайтесь вкусняшками и приготовьтесь узнать больше о Playground AI прямо сейчас.

Читать далее

Как убедить стол не таскать за собой чашки. Пошаговая отладка промпта в txt2img-сервисах

Время на прочтение5 мин
Количество просмотров1.3K

Летнее утро на даче… Как такое не запечатлеть с помощью нейросетей! Цветущий сад, собака под ногами и тихо урчащая кофемашина, наливающая чашку крепкого ароматного напитка. Одну чашку.

Казалось бы, ничего сложного. Садимся и набираем простой линейный промпт «что вижу, то пою», а модель сама всё нарисует. Не тут-то было.

Зачастую простейшая казалось бы задача упирается в серьезную проблему в результате скрытых настроек и правил инструмента. Например, мы просим нарисовать одну чашку, а на картинке их постоянно две или больше.

Исправить это можно либо с помощью множества итераций с применением средств отладки и перебором промптов. Но также интересно решить задачу через понимание и использование принципов работы нейросетей. Тут я покажу второй путь.

Читать далее

Учебник под микроскопом. Часть 1: из PDF в TXT

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.4K

Автоматический способ превращения учебника в текстовый файл (TXT) для дальнейшего анализа. В статье пишем о том, как с помощью Python и OCR извлечь текст из PDF, даже если это сканированные страницы в плохом качестве.

Читать далее

Определение положения объектов на изображении: как найти пространственные координаты объекта, используя OpenCV

Время на прочтение26 мин
Количество просмотров7.4K

Как найти 3D координаты объектов на изображении?

Статья о задаче пространственной локализации объектов на изображении с одной камеры и о её решении с помощью OpenCV

Читать далее

Как ContentCapture и LLM автоматизируют обработку судебных приказов, определений и постановлений ФССП

Время на прочтение6 мин
Количество просмотров1.4K

Ранее мы уже делились опытом использования LLM для обработки юридических документов и доверенностей. Сегодня расскажем о другом подходе, который применил наш технологический партнер ООО «ЕСМ-Консалтинг». При реализации нескольких показательных кейсов для крупных российских энергосбытовых компаний, автоматизировав в них обработку судебных документов с помощью платформы ContentCapture и больших языковых моделей (LLM).

Изначально мы рассматривали два подхода к реализации подобных проектов. Первый – предполагал классическую работу с гибкими описаниями документов, когда правила извлечения информации задаются человеком. Второй вариант – комбинированный, с использованием больших языковых моделей (LLM). Наш опыт показал, что последний подход как минимум в три раза экономичнее, при работе с неструктурированными документами. Он обеспечивает хорошую скорость и высокое качество извлечения данных (более 95% правильно извлеченных данных), что позволяет нашим заказчикам масштабировать обработку документов без роста операционных расходов.

Узнать подробности

Трекинг объектов по видео: как мы повышали точность, снижали ресурсоемкость, и к каким изменениям в продукте это привело

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.1K

Привет! Мы в Macroscop разрабатываем ПО для систем видеонаблюдения, которое умеет распознавать автономера, чекать спецодежду на рабочих, детектировать по видео задымленность и возгорания и решать еще около 20 задач, касающихся анализа видео.
Один из фокусов нашей команды - разработка собственной видеоаналитики, а также постоянное ее улучшение, выражающееся в росте точности, функциональности и производительности. 

Пару месяцев назад мы выпустили новую версию ПО, в которой в том числе значительно обновился нейросетевой модуль трекинга, отслеживающий траектории перемещения объектов, пересечение контрольных линий и длительное пребывание в охраняемых зонах.
Необходимость модернизации трекинга назрела, потому что за годы, прошедшие с момента разработки предыдущей версии, к нему накопился ряд пожеланий. Часть из них касалась повышения точности работы, часть - производительности модуля.
Возникла задача, обычно вызывающая холодный пот у разработчика: сделать так, чтобы трекинг работал точнее и при этом - быстрее.

К счастью, причины указанных проблем скрывались в разных частях алгоритма трекинга и были в большой степени независимы друг от друга. В результате нам удалось добиться повышения точности модуля при одновременном снижении затрат вычислительных ресурсов. А как мы это сделали- расскажем дальше.

Все смешалось – люди, кони кошки...

Первая сложность, связанная с точностью, лежала внутри обученного нами детектора-классификатора (YOLO), который обнаруживает в кадре объекты интересующих нас классов: транспорт разных типов, люди, животные. Выражалась она довольно специфическим образом: некоторые животные, особенно кошки и собаки, в определенных ракурсах (вид со спины и видны задние лапы, направленные параллельно туловищу) классифицировались как люди.

Как мы перестали путать кошек и людей

Nano Banana от Google: генерация и редактирование изображений на новой архитектуре Gemini 2.5

Уровень сложностиСредний
Время на прочтение2 мин
Количество просмотров27K

26 августа 2025 года Google представила новую preview-модель под кодовым названием Nano Banana — это часть экосистемы Gemini 2.5 Flash Image, ориентированной на генерацию и редактирование изображений с помощью текстовых и мультимодальных запросов. Несмотря на шутливое название, перед нами — серьёзный инструмент с претензией на роль нового стандарта в визуальном ИИ.

Читать далее

Дилемма, которая привела к краху Kodak

Уровень сложностиПростой
Время на прочтение25 мин
Количество просмотров10K

Люди вспоминают Kodak со смесью ностальгии и недоверия. Ностальгия по тем временам, когда её жёлтые коробки определяли мир фотографии для миллионов, и недоверие к тому, что столь доминирующая компания может всё потерять. От первой камеры для масс до изобретения самой цифровой камеры, Kodak помогала формировать будущее. Но оказавшись в тисках дилеммы инноватора, где прошлый успех порождает осторожность, а осторожность подавляет импульс, Kodak колебалась, пока другие адаптировались, и цифровая революция оставила её позади. Это история о том, как компания, когда-то определившая мир фотографии, стала её самой известной жертвой.

Читать далее

Ближайшие события

Добавление OCR-слоя и другие преобразования PDF

Время на прочтение3 мин
Количество просмотров3.3K

При сканировании и сохранении в формате PDF зачастую документы сохраняются в виде графических изображений. Это неудобно, потому что делает невозможным полнотекстовый поиск по содержанию. Утилита OCRmyPDF решает эту проблему: она одной командой из консоли добавляет к PDF-документу слой OCR с распознанным текстом.

Ниже упомянуты ещё несколько полезных инструментов для парсинга PDF, в том числе для преобразования сложных математических PDF-документов в текстовый формат Markdown.

Читать далее

Заселяем привидение в старый телевизор

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров5.7K

В этом году пришла идея: воплотить классическое клише из фильмов ужасов — скримера с зеркалом. Помните те сцены, где отражение внезапно показывает монстра, призрака или что-то подобное? Камера, Raspberry Pi, и библиотека OpenCV могут напугать кого угодно. Не верите?! Поскольку на телевидение не пускают (и правильно делают), создадим жуткую видеотрансляцию в старом черно-белом телевизоре. Система активируется при обнаружении лица или глаз.

Когда Raspberry Pi замечает лицо, он включает телевизор и выводит на него живое изображение с камеры. Как только человек отворачивается, на заднем плане появляется призрак (с помощью технологии вычитания фона). Несчастный снова смотрит на экран, видит фантома, радуется, хватается за сердце и оборачивается во второй раз — призрак исчезает. Через несколько секунд телевизор выключается, и цикл начинается заново.

Осторожно, под катом много картинок!

Читать далее

Из туризма в стеганографию: история создания ChameleonLab и наш новый взгляд на контент

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.1K

Привет, Хабр!

Нас часто просили рассказать историю создания нашей программы Chameleon Lab и объяснить, зачем она вообще нужна. Что ж, эта статья — ответ на ваши вопросы. Это история о том, как мы прошли путь от яростной защиты своего контента до идеи, что культурное наследие должно быть абсолютно бесплатным, но при этом продолжили упорно развивать созданный нами инструмент.

Читать далее

Невидимые чернила в цифровом мире: технология сокрытия данных в DOCX/XLSX

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров3.9K

Привет, Хабр!

Стеганография — искусство сокрытия информации — чаще всего ассоциируется с изображениями и аудиофайлами. Но что если нам нужно спрятать данные не в медиафайле, а в обычном офисном документе, например, в .docx или .xlsx?

На первый взгляд, задача кажется сложной. Документы имеют строгую структуру, и любое неосторожное изменение может повредить файл. Однако современные форматы Office, основанные на Open XML, предоставляют удивительно элегантные и надежные способы для встраивания сторонних данных.

Читать далее

ChameleonLab: Как мы портировали стеганографический инструмент на macOS. Грабли, решения и планы на Android

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров7K

Привет, Хабр!

В наших прошлой и позапрошлой статьях мы рассказывали о создании нашего инструмента для стеганографии и стеганоанализа ChameleonLab. Мы получили массу ценных отзывов, и один из самых частых запросов был: «А когда версия для macOS?». Что ж, по вашим многочисленным просьбам, мы сделали это — ChameleonLab теперь доступен для macOS!

Этот путь оказался не просто «взять и пересобрать». Нам пришлось столкнуться с рядом специфичных для macOS проблем, начиная от сборки .app-пакетов и заканчивая борьбой с «замороженной» иконкой в Dock при запуске. В этой статье мы хотим поделиться нашим опытом, рассказать о сложностях переноса, показать конкретные решения в коде и заглянуть в будущее.

Читать далее

Как мы построили систему нагрузочного тестирования для обработки документов: метрики, инструменты, примеры

Время на прочтение5 мин
Количество просмотров1.2K

В системах интеллектуальной обработки документов корректность извлечения данных — это лишь половина дела. Гораздо важнее, чтобы при скачке нагрузки сервис не превратился в бутылочное горлышко.

В этой статье расскажем, как мы:

● автоматизировали нагрузочное тестирование, сократив ручную работу инженеров на 85%;
● встроили стресс-тесты в CI/CD, чтобы каждая фича доказывала свою устойчивость перед релизом;
● научились предсказывать поведение системы не на глаз, а по данным — даже при росте объемов в несколько раз.

Узнать подробности

GPT, Gemini, Qwen и Шедеврум переделывает мужского ГГ в женского. Часть 1

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров1.5K

Я решил проверить, как популярные генераторы изображений справляются с одной и той же задачей: сделать фотореалистичный женский вариант известного персонажа игры. Участники: GPT (DALL·E), Gemini, Qwen и «Шедеврум» (Яндекс).

Читать далее
1
23 ...

Вклад авторов