Обработка изображений *

Работаем с фото и видео

68,42

Рейтинг

СтатьиПостыНовостиАвторыКомпании

AnSa8 7 часов назад

OneOCR — скрытая OCR внутри Windows 11

Простой

7 мин

7.1K

Windows * Машинное обучение * Обработка изображений * C * C++ *

Туториал

Из песочницы

OneOCR — это набор из двух динамических библиотек и одной модели ONNX для распознавания текста в приложениях Snipping Tool и Photos в Windows 11.

+29

Alexey42o вчера в 17:13

Свой маленький GIS: приложение для мультиспектральных и гиперспектральных снимков

Средний

18 мин

13K

C# * Визуализация данных * Геоинформационные сервисы * Обработка изображений * Алгоритмы *

Обзор

Привет, Хабр. Меня зовут Алексей, я C#-разработчик. В этой статье хочу рассказать о своём дипломном проекте очень запавшем мне в душу, который я делал на тему обработки изображений, GIS и дистанционного зондирования Земли. Даже спустя годы мне интересна данная тема и она по-прежнему остаётся очень перспективной в различных отраслях.

Идея была в том, чтобы собрать небольшое настольное приложение, которое умеет работать с реальными спутниковыми данными: Landsat 8, Sentinel-2 и AVIRIS. То есть открывать не готовую RGB-картинку, а набор спектральных каналов, собирать из них естественные и псевдоцветные изображения, считать растровые индексы, выделять эталоны прямо на снимке, классифицировать пиксели, сегментировать изображение и пробовать более исследовательские вещи вроде EMD-разложения.

В итоге получилась учебно-исследовательская программа, но с полным рабочим циклом: от чтения спутникового архива до сохранения информативного результата обработки. Ниже расскажу, зачем вообще нужны такие снимки, какие особенности есть у разных спутниковых данных, что делает приложение и какие алгоритмы оказались самыми интересными.

+10

Alt_Tab вчера в 11:55

OCR в кармане: как HunyuanOCR на 1B параметров потеснил гигантов в задачах парсинга документов

Простой

8 мин

12K

Блог компании RaftМашинное обучение * Обработка изображений * Искусственный интеллект

Кейс

Всем привет! Меня зовут Артем, я Data Scientist в компании Raft Digital Solutions. В этой статье расскажу про свой опыт работы с HunyuanOCR end-to-end моделью от Tencent для распознавания текста на 1B параметров. Несмотря на громкие заявления о «SOTA-результатах» и компактности, в публичных обзорах практически не описано, как эта модель ведет себя в реальных задачах: с чем приходится столкнуться при настройке окружения, почему она может уйти в бесконечное зацикливание и как заставить её эффективно парсить сложные таблицы на обычном «железе».

Поделюсь результатами своих экспериментов, покажу боевые промпты и объясню, в каких сценариях этот OCR-инструмент реально помогает экономить время, а где лучше даже не пытаться его использовать.

+16

avsolovyev 4 мая в 12:23

Как из смарт-камеры сделать машинное зрение: дружим Hikrobot ID3000 + OpenCV через Python

Простой

14 мин

7.8K

Промышленное программирование * Обработка изображений *

Кейс

Можно ли из смарт-камеры сделать полноценную систему машинного зрения? Можно, нужно подружить её C-библиотеку Hikrobot IDMVS SDK с OpenCV через Python. О том, как это сделать — расскажу на примере кейса печати маркировки на мешках строительной смеси: как мы проверяли синхронность печати кодов маркировки, искали белые квадраты, попадали в них кодами, дублировали по 4 кода на один мешок.

oopatow 4 мая в 12:09

Мы можем решать задачи компьютерного зрения без видеокарт. И вам советуем

Простой

9 мин

9.6K

Искусственный интеллектМашинное обучение * Обработка изображений *

Мнение

Когда‑нибудь спрашивали себя, какие технологии должны быть в башке терминатора из фильмов Джеймса Кэмерона, чтобы он (терминатор) мог обрабатывать данные так, как он это делает в дилогии? (Остальные сиквелы/приквелы за фильмы мы не считаем — третья часть получилась вопреки желаниям создателей плохой комедией; последующие — попсовой стыдобой; более‑менее спин‑офф «Да придет спаситель», но и там слишком часто приходится протирать экран от липкой тонкой пленки плохого пафоса).

Если бы терминатор работал на современных технологиях, ему понадобилась бы голова размером с дом. Наверно, ему бы пришлось таскать с собой холодильники, которые охлаждали его постоянно перегревающиеся «мозги» — ну и все равно у него ничего не вышло бы. Потому что человечество еще не изобрело технологии такого уровня* — речь именно об эффективном (и энергоэффективном) компьютерном зрении. Только не приводите в пример Tesla, пожалуйста: терминатор в фильме умеет видеть, распознавать, классифицировать объекты примерно как человек; Tesla в этой точке не окажется никогда (и автопилота там тоже никогда не будет, если не появятся принципиально другие технологии).

*А мы изобрели.

узнать что-нибудь про индексацию видео

dalopq 3 мая в 00:41

Как сделать локальный генератор изображений через ComfyUI

Простой

5 мин

16K

Искусственный интеллектОбработка изображений * Машинное обучение * Open source * Учебный процесс в IT

Туториал

Чтобы не зависеть от онлайн-сервисов с их лимитами, очередями и закрытыми настройками, локальный генератор изображений можно собрать прямо на своём компьютере. Такой подход даёт больше контроля: можно самостоятельно выбирать модель, менять параметры генерации, подключать LoRA, использовать апскейл, ControlNet и другие инструменты.

+13

TimurZhoraev 1 мая в 18:13

Вспомнить всё. Спектр весов нейросети

13 мин

14K

Python * Data Mining * Искусственный интеллектОбработка изображений * Машинное обучение *

Туториал

В данной публикации попробуем сформировать простейшую нейросеть. Будем использовать Colab. Данный выбор также хорош тем, что то, что позволено Юpyтеру не позволено быку. Иметь локальные вычислительные мощности. В принципе довольно неплохая инфраструктура для проверки базовых алгоритмов налету. Если есть что то подобное на других платформах или можно сделать с использованием иных агентов, пожалуйста, прокомментируйте.

Целью является демонстрация сохранения информации об обучении в спектре весов, при его фильтрации и постеризации происходит не полное стирание этих данных, что можно использовать для дообучения в качестве начальных условий. При этом, после постеризации, коэффициенты весов выраженные в спектральных составляющих занимают существенно меньшее место. Также этот эффект интересен с точки зрения проектирования ИНС.

Вместо кода будут md-саммари по разделам, их можно использовать для генерации в качестве промптов для ИИ-агента.

>>ЧТЕНИЕ>>

AnPages 1 мая в 12:39

Могут ли нейросети сгенерировать «живое» искусство?

Простой

6 мин

9.9K

Аналитика

Из песочницы

Нейросети уже давно научились имитировать стиль известных художников. Стоит всего лишь написать в промте имена вроде Ван Гога или Ренуара — и получаешь картину в характерной технике. Разумеется любитель искусства или, тем более, профессионального искусствоведа такие работы раскусит моментально. Нейросети часто ошибаются в деталях: в костюмах определённой эпохи вдруг появляются современные элементы, в натюрморте может появиться продукт, которого при жизни художника просто не существовало, искажаются перспектива и текстуры.

Но ведь существует абстрактное искусство — где нет очевидных элементов, которые тут же выдают цифровое происхождение. И тогда возникает вопрос: сможет ли нейросеть создать такую абстрактную картину, что даже опытный знаток будет в сомнении — сделала ли её рука человека или алгоритм? И, что не менее интересно, как это объективно проверить? Опросы и тесты работают, но требуют большого числа респондентов и серьёзной статистики. Для небольших экспериментов больше подходят числовые характеристики, которые можно подсчитать и сравнить.

Вот тут на помощь приходит нейроэстетика — наука, которая пытается объяснить, что мы считаем красивым или гармоничным не через философские размышления, а анализируя сенсорные реакции мозга и измеримые параметры изображений. В случае с абстрактными картинами ключевые параметры — это фрактальная размерность, мультифрактальный спектр, энтропия и анизотропность.

Фрактальная размерность — мера того, насколько пространство заполнено сложной структурой. Например, линия — это размерность 1, полностью закрашенное полотно — размерность 2, а абстрактные «узоры» — что-то между ними.

ShyDamn 1 мая в 09:01

3D-кино с трекингом глаз: технический разбор моей реализации и открытые вопросы

Сложный

15 мин

6.1K

JavaScript * WebGL * Машинное обучение * Обработка изображений *

Кейс

В моей коллекции лежат фильмы в формате Top-Bottom стереопары. Без 3D-телевизора или VR-очков смотреть их без потерь нельзя. Поляризованные очки и активные затворы на десктопе работают плохо или дорого. Анаглифные красно-синие очки убивают цвет.

Хотелось третьего варианта — смотреть на обычном мониторе, без очков, с минимальным железом. Идея, на которую опирался: head-coupled perspective, известный с 2008 года по знаменитому Wii-демо Johnny Chung Lee. В октябре 2025 бывший инженер Meta Daniel Habib опубликовал True3D — head-tracked Window Mode, где экран ведёт себя как окно в 3D-сцену. У них под капотом MediaPipe FaceLandmarker + iris tracking + off-axis projection matrix + volumetric scene на Gaussian splats. Я попробовал перенести подход на готовую Top-Bottom стереопару из коммерческих фильмов. И тут начались интересные компромиссы.

В статье — технический разбор моей реализации: пайплайн сглаживания трекинга в четыре ступени (EMA + velocity buffer + jump threshold + adaptive scaling), predictive tracker на double exponential smoothing (метод Холта) для компенсации end-to-end лага в 65 ms, фрагментный шейдер на GLSL с view switching и blend zone через smoothstep, попытка извлечения disparity через OpenCV StereoSGBM. Подробное сравнение моего подхода и True3D с таблицей: где в их волюметрической архитектуре получается то, что у меня в принципе невыводимо из двух фиксированных 2D-видов.

Финал — пять документированных проблем (jitter на резких движениях, ghosting в blend zone, потеря половины разрешения, латентность, UV-параллакс vs настоящий off-axis) и шесть открытых вопросов к читателю: про DepthAnything в WebGPU+ONNX, про RIFE/DAIN как view-интерполяторы, про DIBR на compute shader, про принципиальную возможность восстановить volumetric scene из стереопары в реальном времени.

ContentAI_Team 30 апр в 08:40

ИИ для работы с документами: как меняются PDF-редакторы и куда все это движется

Средний

7 мин

5.5K

Блог компании Content AIМашинное обучение * PDFОбработка изображений *

Аналитика

Привет, Хабр! Меня зовут Алена Ивличева, я менеджер продукта в Content AI. Мы делаем ContentReader PDF — редактор PDF, в который теперь встроен ИИ-ассистент.

Сегодня я хочу поговорить о том, куда движутся технологии, как искусственный интеллект меняет наше привычное взаимодействие с документами и что все это значит для наших продуктов.

На рынке сейчас огромное количество трендов, но я выделю те, что реально меняют правила игры.

Adamowicz_I 29 апр в 08:05

Методы обнаружения контуров в изображении: пространственные фильтры

Средний

10 мин

11K

Блог компании Timeweb CloudPython * Математика * Искусственный интеллектОбработка изображений *

Туториал

Большинство современных CV-алгоритмов невозможно представить без выделения границ объектов. В этой статье разбираем, как работают пространственные фильтры — от простейших масок 2×2 до полноценного детектора Канни.

Рассмотрим математическую базу: производные первого и второго порядка, градиент, дискретный Лапласиан. Как из аппроксимации производных получаются операторы — Робертса, Прюитта, Собеля, Лапласа. Разберем детектор Канни по шагам: сглаживание Гаусса, поиск градиентов, подавление не-максимумов, двойная пороговая фильтрация. Отдельно — адаптивный фильтр Уоллеса для автоматического подбора порога.

+37

nikgerasimenko 28 апр в 11:00

Kandinsky 6.0 Image Pro — новый уровень редактирования изображений

Простой

3 мин

12K

Блог компании СберМашинное обучение * Искусственный интеллектОбработка изображений *

Обзор

В конце прошлого года на конференции AI Journey мы открыли доступ к линейке моделей Kandinsky 5. Сегодня мы представляем масштабное обновление — единую модель генерации и редактирования изображений Kandinsky 6.0 Image Pro!

+21

Andrey_Biryukov 27 апр в 09:40

Трекинг объектов с подвижной камеры: когда компьютерное зрение встречается с механикой

Средний

9 мин

Блог компании OTUSРобототехникаМашинное обучение * МультикоптерыОбработка изображений *

Обзор

В лабораторных условиях трекинг объектов обычно выглядит предсказуемо: камера статична, освещение стабильно, масштаб меняется плавно. На подвижной платформе всё иначе. Дрон вибрирует, камера смещается вместе с фоном, объект меняет размер в кадре, а задержки обработки и подвеса начинают влиять на результат не меньше, чем сам алгоритм. В статье разберём, почему классического CV‑трекера недостаточно для промышленного сценария и как связать компьютерное зрение, геометрию камеры и механику gimbal в единую систему.

+11

dmtgoncharov 26 апр в 14:51

Динамический ресайзинг изображений (Image Previewer)

Средний

6 мин

8.3K

Анализ и проектирование систем * Обработка изображений * Программирование * Go *

В данной статье рассматривается создание сервиса для динамического изменения размеров изображений с функциями проксирования и кэширования, а также приводится вариант его применения.

r00taccess 24 апр в 17:41

OpenAI представила ChatGPT Image 2.0: как пользоваться, получить доступ и насколько она лучше конкурентов

Простой

8 мин

12K

Искусственный интеллектБудущее здесьОбработка изображений *

Обзор

Перевод

В то время пока все думали, что крупные ИИ-лаборатории слишком заняты выпуском моделей для генерации видео и разработкой агентов для программирования, OpenAI незаметно представила новый флагманский продукт.

Он называется ChatGPT Image 2.0 и пришел на смену GPT Image 1.5 в качестве модели по умолчанию для генерации изображений с помощью ChatGPT.

На странице анонса почти нет текста. В основном там представлены только примеры изображений, что, вероятно, является правильным решением. Можно целый день описывать рендеринг текста словами, а можно просто показать плакат, на котором каждая буква идеально отображена, и позволить пользователю самостоятельно принять решение.

chestny_znak 24 апр в 12:30

Как мы оценивали OCR на русских документах — и почему все, что «распозналось», можно читать без смеха

Простой

13 мин

8.9K

Блог компании 43TechИскусственный интеллектОбработка изображений * Подготовка технической документации *

Обзор

Каждый день через системы «Честного знака» проходят тысячи страниц: контракты, акты, техдокументация, анкеты. Всё это нужно не просто перевести в текст — а сразу пустить в работу: поиск, анализ, генерация выжимок, передача в другие сервисы. Одна ошибка OCR — и вместо «субподрядчика» система получает «cy6пoдpялчика», а дальше никакие регулярки не спасут.

Меня зовут Искандер, я - AI-инженер в Лаборатории искусственного интеллекта «Честного знака». Мы протестировали лучшие open-source OCR-движки на реальных русскоязычных документах — от простых текстов до многостраничных PDF со сложными таблицами и изображениями. Специфика задачи: кириллица, широкий разброс форматов, нулевая терпимость к ошибкам на продакшне.

Чтобы получить честные результаты, мы собрали собственный модуль тестирования и сформировали репрезентативный датасет из 6 наборов реальных документов. В статье — методология, метрики и то, кто из движков реально справился, а кто только обещал «максимальную точность даже на луне».

Neurosonya 22 апр в 16:15

ChatGPT Images 2.0 — все, что нужно знать прямо сейчас. Сравнение с Nano Banana 2 и Nano Banana Pro

Простой

4 мин

10K

ДизайнОбработка изображений * Будущее здесьИскусственный интеллектМашинное обучение *

Обзор

21 апреля OpenAI выпустила gpt-image-2 - и это не просто новая версия генератора картинок. Модель поддерживает разрешения до 4K, значительно улучшенный рендеринг текста на десятках языков, Thinking Mode с reasoning и веб-поиском, а также мультишаговое редактирование.

Я разобрала, что реально изменилось и сравнила с Nano Banana 2 и Nano Banana Pro от Google - с ценами, скоростью и честным взглядом на то, где каждая модель выигрывает.

Tehnologika 21 апр в 04:14

Как мы научили ИИ подбирать мебель по архитектурным чертежам

Средний

7 мин

6.5K

Обработка изображений * Машинное обучение * Искусственный интеллектNatural Language Processing *

Кейс

✏️ Технотекст 8

В мире строительства и дизайна интерьеров работу по подбору мебели из каталога, имея на руках чертеж, до сих пор делают вручную: специалисты часами листают каталоги, сверяют размеры и характеристики. Эта рутина отнимает десятки человеко-часов на каждый проект.

Мы нашли, как автоматизировать подбор мебели по архитектурным чертежам. В этой статье мы рассказали, как построили AI-систему с несколькими моделями и Gemini во главе, а также семантическим поиском по каталогу. Расскажем, как нам удалось достичь точности рекомендаций в 87%.

sokolovps 18 апр в 06:04

Краткая история биометрии: как была изобретена идентификация по радужке глаза

Простой

6 мин

8.3K

Блог компании Online patentПатентование * Информационная безопасность * Обработка изображений * История IT

Ретроспектива

Обратил внимание на радужку глаза человека как на неповторимую биометрическую характеристику сродни отпечатку пальца Фрэнсис Гальтон. В 1888 году в своей статье в журнале «Nature» «Personal identification and description («Идентификация личности и ее характеристики») он писал, что тело человека можно порезать на микротоме на 800 миллионов слоев толщиной в одну десятитысячную дюйма, и на каждом их них мы под микроскопом увидим неповторимую картинку. В случае же бороздок на коже подушечки пальца и в радужке глаза никого резать не надо, природа предоставляет нам уникальные узоры уже в готовом виде. При этом, добавляет он, «отметины на радужной оболочке глаза никогда не были должным образом изучены, разве что производителями глазных протезов, которые распознают тысячи их разновидностей. Эти отметины вполне заслуживают того, чтобы их сфотографировали с натуры в увеличенном масштабе».

Их фотографировали много раз и довольно быстро убедились, что узор радужки каждого человека действительно не менее уникален, чем отпечатки пальцев. В 1935 году криминолог Карлтон Саймон и главный врач отделения офтальмологии нью-йоркской больницы Маунт-Синай Исидор Гольдштейн опубликовали в «New York medical journal» статью под заголовком «Новый научный метод идентификации», где как раз утверждалось, что рисунок радужки глаза уникален и потому подходит для идентификации человека. В том же году они доложили об этом на ежегодном съезде полицейских начальников в Нью-Йорке. Разумеется, утверждать это Саймон и Гольштейн могли лишь с определенной степенью вероятности, больница Маунт-Синай хоть была самой большой в городе, но выборка проверенных на сходство радужки ее пациентов удовлетворяла только 95% порогу вероятности. Спустя ровно 20 лет другой окулист доктор Пол Тауэр показал, что рисунки радужки отличаются, причем сильно, у шести исследованных им пар гомозиготных (однояйцовых) близнецов, что произвело гораздо большее впечатление на криминалистов, чем доклад Гольдштейна и Саймона.

+14

despited 17 апр в 13:16

Приложение real-time face swap на чистом Rust: ONNX Runtime, lock-free потоки и 60 кадров в секунду

3 мин

5.2K

Rust * Машинное обучение * Обработка изображений * Open source *

Обзор

Из песочницы

Большинство инструментов для замены лиц это Python-скрипты, склеенные из PyTorch, OpenCV и надежды. Они работают, но тащат за собой гигабайты зависимостей, требуют правильно настроенного CUDA и разваливаются в тот момент, когда ты пытаешься запустить их в реальном времени.

Мне стало интересно: можно ли собрать весь пайплайн на чистом Rust? Без Python. Без PyTorch. Без обёрток. Один бинарник, который скачал, распаковал и запустил.

Оказалось, можно. 60 fps на веб-камере.

Пайплайн

На каждом кадре последовательно отрабатывают четыре нейросети.

RetinaFace находит лица и извлекает пять ключевых точек. ArcFace вычисляет 512-мерный эмбеддинг исходного лица. InSwapper принимает регион целевого лица и эмбеддинг источника, на выходе отдаёт заменённое лицо. GFPGAN опционально улучшает результат для более высокого качества.

Все четыре модели работают через ONNX Runtime. Никаких кастомных CUDA-ядер, никакого оверхеда фреймворков. Тензор на вход, тензор на выход.

Архитектура потоков

Три потока, ноль блокировок на горячем пути.

Поток захвата получает кадры с веб-камеры через nokhwa и публикует их через ArcSwap. Поток пайплайна подхватывает новые кадры, прогоняет инференс и публикует обработанные кадры через второй ArcSwap. Поток UI читает актуальный буфер и рендерит через egui.

Никаких мьютексов на данных кадра. Никаких каналов. Никакого async. Только атомарные счётчики поколений и lock-free замена указателей.

Структуры разделяемого состояния занимают ровно по 64 байта каждая и выровнены по кэш-линиям, чтобы исключить false sharing между ядрами. Это проверяется compile-time ассертами.

2 3 ...

127 128