Обновить
256K+

Обработка изображений *

Работаем с фото и видео

68,42
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

OneOCR — скрытая OCR внутри Windows 11

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели7.1K

OneOCR — это набор из двух динамических библиотек и одной модели ONNX для распознавания текста в приложениях Snipping Tool и Photos в Windows 11.

Читать далее

Новости

Свой маленький GIS: приложение для мультиспектральных и гиперспектральных снимков

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели13K

Привет, Хабр. Меня зовут Алексей, я C#-разработчик. В этой статье хочу рассказать о своём дипломном проекте очень запавшем мне в душу, который я делал на тему обработки изображений, GIS и дистанционного зондирования Земли. Даже спустя годы мне интересна данная тема и она по-прежнему остаётся очень перспективной в различных отраслях.

Идея была в том, чтобы собрать небольшое настольное приложение, которое умеет работать с реальными спутниковыми данными: Landsat 8, Sentinel-2 и AVIRIS. То есть открывать не готовую RGB-картинку, а набор спектральных каналов, собирать из них естественные и псевдоцветные изображения, считать растровые индексы, выделять эталоны прямо на снимке, классифицировать пиксели, сегментировать изображение и пробовать более исследовательские вещи вроде EMD-разложения.

В итоге получилась учебно-исследовательская программа, но с полным рабочим циклом: от чтения спутникового архива до сохранения информативного результата обработки. Ниже расскажу, зачем вообще нужны такие снимки, какие особенности есть у разных спутниковых данных, что делает приложение и какие алгоритмы оказались самыми интересными.

Читать далее

OCR в кармане: как HunyuanOCR на 1B параметров потеснил гигантов в задачах парсинга документов

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели12K

Всем привет! Меня зовут Артем, я Data Scientist в компании Raft Digital Solutions. В этой статье расскажу про свой опыт работы с HunyuanOCR end-to-end моделью от Tencent для распознавания текста на 1B параметров. Несмотря на громкие заявления о «SOTA-результатах» и компактности, в публичных обзорах практически не описано, как эта модель ведет себя в реальных задачах: с чем приходится столкнуться при настройке окружения, почему она может уйти в бесконечное зацикливание и как заставить её эффективно парсить сложные таблицы на обычном «железе».

Поделюсь результатами своих экспериментов, покажу боевые промпты и объясню, в каких сценариях этот OCR-инструмент реально помогает экономить время, а где лучше даже не пытаться его использовать.

Читать далее

Как из смарт-камеры сделать машинное зрение: дружим Hikrobot ID3000 + OpenCV через Python

Уровень сложностиПростой
Время на прочтение14 мин
Охват и читатели7.8K

Можно ли из смарт-камеры сделать полноценную систему машинного зрения? Можно, нужно подружить её C-библиотеку Hikrobot IDMVS SDK с OpenCV через Python. О том, как это сделать — расскажу на примере кейса печати маркировки на мешках строительной смеси: как мы проверяли синхронность печати кодов маркировки, искали белые квадраты, попадали в них кодами, дублировали по 4 кода на один мешок.

Читать далее

Мы можем решать задачи компьютерного зрения без видеокарт. И вам советуем

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели9.6K

Когда‑нибудь спрашивали себя, какие технологии должны быть в башке терминатора из фильмов Джеймса Кэмерона, чтобы он (терминатор) мог обрабатывать данные так, как он это делает в дилогии? (Остальные сиквелы/приквелы за фильмы мы не считаем — третья часть получилась вопреки желаниям создателей плохой комедией; последующие — попсовой стыдобой; более‑менее спин‑офф «Да придет спаситель», но и там слишком часто приходится протирать экран от липкой тонкой пленки плохого пафоса).

Если бы терминатор работал на современных технологиях, ему понадобилась бы голова размером с дом. Наверно, ему бы пришлось таскать с собой холодильники, которые охлаждали его постоянно перегревающиеся «мозги» — ну и все равно у него ничего не вышло бы. Потому что человечество еще не изобрело технологии такого уровня* — речь именно об эффективном (и энергоэффективном) компьютерном зрении. Только не приводите в пример Tesla, пожалуйста: терминатор в фильме умеет видеть, распознавать, классифицировать объекты примерно как человек; Tesla в этой точке не окажется никогда (и автопилота там тоже никогда не будет, если не появятся принципиально другие технологии).

*А мы изобрели.

узнать что-нибудь про индексацию видео

Как сделать локальный генератор изображений через ComfyUI

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели16K

Чтобы не зависеть от онлайн-сервисов с их лимитами, очередями и закрытыми настройками, локальный генератор изображений можно собрать прямо на своём компьютере. Такой подход даёт больше контроля: можно самостоятельно выбирать модель, менять параметры генерации, подключать LoRA, использовать апскейл, ControlNet и другие инструменты.

Читать далее

Вспомнить всё. Спектр весов нейросети

Время на прочтение13 мин
Охват и читатели14K

В данной публикации попробуем сформировать простейшую нейросеть. Будем использовать Colab. Данный выбор также хорош тем, что то, что позволено Юpyтеру не позволено быку. Иметь локальные вычислительные мощности. В принципе довольно неплохая инфраструктура для проверки базовых алгоритмов налету. Если есть что то подобное на других платформах или можно сделать с использованием иных агентов, пожалуйста, прокомментируйте.

Целью является демонстрация сохранения информации об обучении в спектре весов, при его фильтрации и постеризации происходит не полное стирание этих данных, что можно использовать для дообучения в качестве начальных условий. При этом, после постеризации, коэффициенты весов выраженные в спектральных составляющих занимают существенно меньшее место. Также этот эффект интересен с точки зрения проектирования ИНС.

Вместо кода будут md-саммари по разделам, их можно использовать для генерации в качестве промптов для ИИ-агента.

>>ЧТЕНИЕ>>

Могут ли нейросети сгенерировать «живое» искусство?

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели9.9K

Нейросети уже давно научились имитировать стиль известных художников. Стоит всего лишь написать в промте имена вроде Ван Гога или Ренуара — и получаешь картину в характерной технике. Разумеется любитель искусства или, тем более, профессионального искусствоведа такие работы раскусит моментально. Нейросети часто ошибаются в деталях: в костюмах определённой эпохи вдруг появляются современные элементы, в натюрморте может появиться продукт, которого при жизни художника просто не существовало, искажаются перспектива и текстуры.

Но ведь существует абстрактное искусство — где нет очевидных элементов, которые тут же выдают цифровое происхождение. И тогда возникает вопрос: сможет ли нейросеть создать такую абстрактную картину, что даже опытный знаток будет в сомнении — сделала ли её рука человека или алгоритм? И, что не менее интересно, как это объективно проверить? Опросы и тесты работают, но требуют большого числа респондентов и серьёзной статистики. Для небольших экспериментов больше подходят числовые характеристики, которые можно подсчитать и сравнить.

Вот тут на помощь приходит нейроэстетика — наука, которая пытается объяснить, что мы считаем красивым или гармоничным не через философские размышления, а анализируя сенсорные реакции мозга и измеримые параметры изображений. В случае с абстрактными картинами ключевые параметры — это фрактальная размерность, мультифрактальный спектр, энтропия и анизотропность.

Фрактальная размерность — мера того, насколько пространство заполнено сложной структурой. Например, линия — это размерность 1, полностью закрашенное полотно — размерность 2, а абстрактные «узоры» — что-то между ними.

Читать далее

3D-кино с трекингом глаз: технический разбор моей реализации и открытые вопросы

Уровень сложностиСложный
Время на прочтение15 мин
Охват и читатели6.1K

В моей коллекции лежат фильмы в формате Top-Bottom стереопары. Без 3D-телевизора или VR-очков смотреть их без потерь нельзя. Поляризованные очки и активные затворы на десктопе работают плохо или дорого. Анаглифные красно-синие очки убивают цвет.

Хотелось третьего варианта — смотреть на обычном мониторе, без очков, с минимальным железом. Идея, на которую опирался: head-coupled perspective, известный с 2008 года по знаменитому Wii-демо Johnny Chung Lee. В октябре 2025 бывший инженер Meta Daniel Habib опубликовал True3D — head-tracked Window Mode, где экран ведёт себя как окно в 3D-сцену. У них под капотом MediaPipe FaceLandmarker + iris tracking + off-axis projection matrix + volumetric scene на Gaussian splats. Я попробовал перенести подход на готовую Top-Bottom стереопару из коммерческих фильмов. И тут начались интересные компромиссы.

В статье — технический разбор моей реализации: пайплайн сглаживания трекинга в четыре ступени (EMA + velocity buffer + jump threshold + adaptive scaling), predictive tracker на double exponential smoothing (метод Холта) для компенсации end-to-end лага в 65 ms, фрагментный шейдер на GLSL с view switching и blend zone через smoothstep, попытка извлечения disparity через OpenCV StereoSGBM. Подробное сравнение моего подхода и True3D с таблицей: где в их волюметрической архитектуре получается то, что у меня в принципе невыводимо из двух фиксированных 2D-видов.

Финал — пять документированных проблем (jitter на резких движениях, ghosting в blend zone, потеря половины разрешения, латентность, UV-параллакс vs настоящий off-axis) и шесть открытых вопросов к читателю: про DepthAnything в WebGPU+ONNX, про RIFE/DAIN как view-интерполяторы, про DIBR на compute shader, про принципиальную возможность восстановить volumetric scene из стереопары в реальном времени.

Читать далее

ИИ для работы с документами: как меняются PDF-редакторы и куда все это движется

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели5.5K

Привет, Хабр! Меня зовут Алена Ивличева, я менеджер продукта в Content AI. Мы делаем ContentReader PDF — редактор PDF, в который теперь встроен ИИ-ассистент. 

Сегодня я хочу поговорить о том, куда движутся технологии, как искусственный интеллект меняет наше привычное взаимодействие с документами и что все это значит для наших продуктов.

На рынке сейчас огромное количество трендов, но я выделю те, что реально меняют правила игры. 

Читать далее

Методы обнаружения контуров в изображении: пространственные фильтры

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели11K

Большинство современных CV-алгоритмов невозможно представить без выделения границ объектов. В этой статье разбираем, как работают пространственные фильтры — от простейших масок 2×2 до полноценного детектора Канни.

Рассмотрим математическую базу: производные первого и второго порядка, градиент, дискретный Лапласиан. Как из аппроксимации производных получаются операторы — Робертса, Прюитта, Собеля, Лапласа. Разберем детектор Канни по шагам: сглаживание Гаусса, поиск градиентов, подавление не-максимумов, двойная пороговая фильтрация. Отдельно — адаптивный фильтр Уоллеса для автоматического подбора порога.

Читать далее

Kandinsky 6.0 Image Pro — новый уровень редактирования изображений

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели12K

В конце прошлого года на конференции AI Journey мы открыли доступ к линейке моделей Kandinsky 5. Сегодня мы представляем масштабное обновление — единую модель генерации и редактирования изображений Kandinsky 6.0 Image Pro!

Читать далее

Трекинг объектов с подвижной камеры: когда компьютерное зрение встречается с механикой

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели9K

В лабораторных условиях трекинг объектов обычно выглядит предсказуемо: камера статична, освещение стабильно, масштаб меняется плавно. На подвижной платформе всё иначе. Дрон вибрирует, камера смещается вместе с фоном, объект меняет размер в кадре, а задержки обработки и подвеса начинают влиять на результат не меньше, чем сам алгоритм. В статье разберём, почему классического CV‑трекера недостаточно для промышленного сценария и как связать компьютерное зрение, геометрию камеры и механику gimbal в единую систему.

Читать далее

Ближайшие события

Динамический ресайзинг изображений (Image Previewer)

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели8.3K

В данной статье рассматривается создание сервиса для динамического изменения размеров изображений с функциями проксирования и кэширования, а также приводится вариант его применения.

Читать далее

OpenAI представила ChatGPT Image 2.0: как пользоваться, получить доступ и насколько она лучше конкурентов

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели12K

В то время пока все думали, что крупные ИИ-лаборатории слишком заняты выпуском моделей для генерации видео и разработкой агентов для программирования, OpenAI незаметно представила новый флагманский продукт.

Он называется ChatGPT Image 2.0 и пришел на смену GPT Image 1.5 в качестве модели по умолчанию для генерации изображений с помощью ChatGPT.

На странице анонса почти нет текста. В основном там представлены только примеры изображений, что, вероятно, является правильным решением. Можно целый день описывать рендеринг текста словами, а можно просто показать плакат, на котором каждая буква идеально отображена, и позволить пользователю самостоятельно принять решение.

Читать далее

Как мы оценивали OCR на русских документах — и почему все, что «распозналось», можно читать без смеха

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели8.9K

Каждый день через системы «Честного знака» проходят тысячи страниц: контракты, акты, техдокументация, анкеты. Всё это нужно не просто перевести в текст — а сразу пустить в работу: поиск, анализ, генерация выжимок, передача в другие сервисы. Одна ошибка OCR — и вместо «субподрядчика» система получает «cy6пoдpялчика», а дальше никакие регулярки не спасут.

Меня зовут Искандер, я - AI-инженер в Лаборатории искусственного интеллекта «Честного знака». Мы протестировали лучшие open-source OCR-движки на реальных русскоязычных документах — от простых текстов до многостраничных PDF со сложными таблицами и изображениями. Специфика задачи: кириллица, широкий разброс форматов, нулевая терпимость к ошибкам на продакшне.

Чтобы получить честные результаты, мы собрали собственный модуль тестирования и сформировали репрезентативный датасет из 6 наборов реальных документов. В статье — методология, метрики и то, кто из движков реально справился, а кто только обещал «максимальную точность даже на луне».

Читать далее

ChatGPT Images 2.0 — все, что нужно знать прямо сейчас. Сравнение с Nano Banana 2 и Nano Banana Pro

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели10K

21 апреля OpenAI выпустила gpt-image-2 - и это не просто новая версия генератора картинок. Модель поддерживает разрешения до 4K, значительно улучшенный рендеринг текста на десятках языков, Thinking Mode с reasoning и веб-поиском, а также мультишаговое редактирование.

Я разобрала, что реально изменилось и сравнила с Nano Banana 2 и Nano Banana Pro от Google - с ценами, скоростью и честным взглядом на то, где каждая модель выигрывает.

Читать далее

Как мы научили ИИ подбирать мебель по архитектурным чертежам

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели6.5K

В мире строительства и дизайна интерьеров работу по подбору мебели из каталога, имея на руках чертеж, до сих пор делают вручную: специалисты часами листают каталоги, сверяют размеры и характеристики. Эта рутина отнимает десятки человеко-часов на каждый проект.

Мы нашли, как автоматизировать подбор мебели по архитектурным чертежам. В этой статье мы рассказали, как построили AI-систему с несколькими моделями и Gemini во главе, а также семантическим поиском по каталогу. Расскажем, как нам удалось достичь точности рекомендаций в 87%.

Читать далее

Краткая история биометрии: как была изобретена идентификация по радужке глаза

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели8.3K

Обратил внимание на радужку глаза человека как на неповторимую биометрическую характеристику сродни отпечатку пальца Фрэнсис Гальтон. В 1888 году в своей статье в журнале «Nature» «Personal identification and description («Идентификация личности и ее характеристики») он писал, что тело человека можно порезать на микротоме на 800 миллионов слоев толщиной в одну десятитысячную дюйма, и на каждом их них мы под микроскопом увидим неповторимую картинку. В случае же бороздок на коже подушечки пальца и в радужке глаза никого резать не надо, природа предоставляет нам уникальные узоры уже в готовом виде. При этом, добавляет он, «отметины на радужной оболочке глаза никогда не были должным образом изучены, разве что производителями глазных протезов, которые распознают тысячи их разновидностей. Эти отметины вполне заслуживают того, чтобы их сфотографировали с натуры в увеличенном масштабе».

Их фотографировали много раз и довольно быстро убедились, что узор радужки каждого человека действительно не менее уникален, чем отпечатки пальцев. В 1935 году криминолог Карлтон Саймон и главный врач отделения офтальмологии нью-йоркской больницы Маунт-Синай Исидор Гольдштейн опубликовали в «New York medical journal» статью под заголовком «Новый научный метод идентификации», где как раз утверждалось, что рисунок радужки глаза уникален и потому подходит для идентификации человека. В том же году они доложили об этом на ежегодном съезде полицейских начальников в Нью-Йорке. Разумеется, утверждать это Саймон и Гольштейн могли лишь с определенной степенью вероятности, больница Маунт-Синай хоть была самой большой в городе, но выборка проверенных на сходство радужки ее пациентов удовлетворяла только 95% порогу вероятности. Спустя ровно 20 лет другой окулист доктор Пол Тауэр показал, что рисунки радужки отличаются, причем сильно, у шести исследованных им пар гомозиготных (однояйцовых) близнецов, что произвело гораздо большее впечатление на криминалистов, чем доклад Гольдштейна и Саймона.

Читать далее

Приложение real-time face swap на чистом Rust: ONNX Runtime, lock-free потоки и 60 кадров в секунду

Время на прочтение3 мин
Охват и читатели5.2K

Большинство инструментов для замены лиц это Python-скрипты, склеенные из PyTorch, OpenCV и надежды. Они работают, но тащат за собой гигабайты зависимостей, требуют правильно настроенного CUDA и разваливаются в тот момент, когда ты пытаешься запустить их в реальном времени.

Мне стало интересно: можно ли собрать весь пайплайн на чистом Rust? Без Python. Без PyTorch. Без обёрток. Один бинарник, который скачал, распаковал и запустил.

Оказалось, можно. 60 fps на веб-камере.

Пайплайн

На каждом кадре последовательно отрабатывают четыре нейросети.

RetinaFace находит лица и извлекает пять ключевых точек. ArcFace вычисляет 512-мерный эмбеддинг исходного лица. InSwapper принимает регион целевого лица и эмбеддинг источника, на выходе отдаёт заменённое лицо. GFPGAN опционально улучшает результат для более высокого качества.

Все четыре модели работают через ONNX Runtime. Никаких кастомных CUDA-ядер, никакого оверхеда фреймворков. Тензор на вход, тензор на выход.

Архитектура потоков

Три потока, ноль блокировок на горячем пути.

Поток захвата получает кадры с веб-камеры через nokhwa и публикует их через ArcSwap. Поток пайплайна подхватывает новые кадры, прогоняет инференс и публикует обработанные кадры через второй ArcSwap. Поток UI читает актуальный буфер и рендерит через egui.

Никаких мьютексов на данных кадра. Никаких каналов. Никакого async. Только атомарные счётчики поколений и lock-free замена указателей.

Структуры разделяемого состояния занимают ровно по 64 байта каждая и выровнены по кэш-линиям, чтобы исключить false sharing между ядрами. Это проверяется compile-time ассертами.

Читать далее
1
23 ...