Обновить
256K+

Обработка изображений *

Работаем с фото и видео

77,04
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

AI делает видео за вас? Я попробовал — и вот где нас обманывают

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели4.8K

На Хабре я молчал с 2014 года. Но эта история вытащила меня наружу: слишком уж хотелось зафиксировать момент, где красивая сказка про AI‑видео заканчивается и начинается реальная работа — долгая, нервная и почему‑то всегда ручная. 

Мне нужно было сделать ролик. Можно было по классике нанять видеодизайнера, можно было собирать ролик своими руками, но тут появляется он — AI. Красивый, модный, весь из обещаний. Мол, зачем тебе команда, бюджет и сложный процесс? У тебя же есть пара подписок и вера в технологии.

Я в это поверил, и вот что получилось в итоге.

Читать далее

Новости

Музей как программная система: что скрывается за магией TeamLab Borderless

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели9.9K

Когда‑то музей был складом древностей, а посетители почтительно переходили от одного экспоната к другому, и это совпадало с их ритмом жизни. Сейчас люди потребляют информацию быстрее и по другим принципам. Они хотят быть участниками событий и проживать новый опыт. Поэтому музеи создают не только художники, но и программисты, инженеры, математики и архитекторы. Многослойная иммерсивная среда становится интерфейсом, а посетитель — частью происходящего.

Привет, Хабр! Давайте посмотрим, как «внутри» работает музей цифрового искусства teamLab Borderless в Токио, который только за первый год посетили 2,3 миллиона человек. Как создаётся экспозиция площадью 10 000 м², которая возникает на глазах у посетителей. Как работают сенсоры, проекторы, симуляции и projection mapping и как всё это связано в одном из самых технологичных музеев мира.

Читать далее

Почему текст от LLM узнаётся за пять секунд: разбираю стилистические маркеры через архитектуру моделей

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели17K

Когда мы интегрируем LLM в продакшн, рано или поздно сталкиваемся с одной и той же проблемой: текст модели читаем, грамотен, и при этом видно, что его написала модель. В статье разбираю десять самых выразительных стилистических маркеров на уровне архитектуры — почему они появляются (вопрос статистики обучающего корпуса и пост-тренинга, не случайность) и что с ними делать на уровне промпта, sampling-параметров и постобработки. Плюс короткое отступление про то, почему “промпты для обхода детектора” не работают и где лежит реальная граница между генерацией и авторским текстом.

Читать далее

Конвейеры формирования изображений. Часть 2: Баланс белого и преобразование к стандартному наблюдателю

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели6.1K

С вами снова Егор Ершов, руководитель группы «Цветовая вычислительная фотография» в AIRI и заведующий сектором репродукции и синтеза цвета ИППИ РАН. Я продолжаю свой цикл статей по мотивам лекций по вычислительной фотографии, и в прошлый раз мы приступили к разбору типичных конвейеров формирования изображения, заложенных в наши профессиональные камеры и мобильные телефоны.

Типичный пайплайн — от нажатия кнопки затвора до сохранения файла — довольно внушителен по количеству шагов, грубо его можно разделить на подготовку сырого RAW‑изображения и последующую обработку программными средствами. В предыдущей статье мы успели рассмотреть лишь первые два шага — регистрация света и дебайеринг, на этот раз поговорим про баланс белого и переход в пространство стандартного наблюдателя.

Приятного чтения!

Читать далее

svg-react-preview: предпросмотр inline-SVG внутри JSX-компонентов прямо в Zed

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели5.6K

Открываешь иконочный React-компонент — и видишь стену <path> с координатами и viewBox-арифметикой. Что там нарисовано — непонятно, пока не скопируешь разметку в отдельный .svg, браузерные DevTools или Figma. Каждый такой маневр выбивает из потока.

Читать далее

OneOCR — скрытая OCR внутри Windows 11

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели17K

OneOCR — это набор из двух динамических библиотек и одной модели ONNX для распознавания текста в приложениях Snipping Tool и Photos в Windows 11.

Читать далее

Свой маленький GIS: приложение для мультиспектральных и гиперспектральных снимков

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели14K

Привет, Хабр. Меня зовут Алексей, я C#-разработчик. В этой статье хочу рассказать о своём дипломном проекте очень запавшем мне в душу, который я делал на тему обработки изображений, GIS и дистанционного зондирования Земли. Даже спустя годы мне интересна данная тема и она по-прежнему остаётся очень перспективной в различных отраслях.

Идея была в том, чтобы собрать небольшое настольное приложение, которое умеет работать с реальными спутниковыми данными: Landsat 8, Sentinel-2 и AVIRIS. То есть открывать не готовую RGB-картинку, а набор спектральных каналов, собирать из них естественные и псевдоцветные изображения, считать растровые индексы, выделять эталоны прямо на снимке, классифицировать пиксели, сегментировать изображение и пробовать более исследовательские вещи вроде EMD-разложения.

В итоге получилась учебно-исследовательская программа, но с полным рабочим циклом: от чтения спутникового архива до сохранения информативного результата обработки. Ниже расскажу, зачем вообще нужны такие снимки, какие особенности есть у разных спутниковых данных, что делает приложение и какие алгоритмы оказались самыми интересными.

Читать далее

OCR в кармане: как HunyuanOCR на 1B параметров потеснил гигантов в задачах парсинга документов

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели13K

Всем привет! Меня зовут Артем, я Data Scientist в компании Raft Digital Solutions. В этой статье расскажу про свой опыт работы с HunyuanOCR end-to-end моделью от Tencent для распознавания текста на 1B параметров. Несмотря на громкие заявления о «SOTA-результатах» и компактности, в публичных обзорах практически не описано, как эта модель ведет себя в реальных задачах: с чем приходится столкнуться при настройке окружения, почему она может уйти в бесконечное зацикливание и как заставить её эффективно парсить сложные таблицы на обычном «железе».

Поделюсь результатами своих экспериментов, покажу боевые промпты и объясню, в каких сценариях этот OCR-инструмент реально помогает экономить время, а где лучше даже не пытаться его использовать.

Читать далее

Как из смарт-камеры сделать машинное зрение: дружим Hikrobot ID3000 + OpenCV через Python

Уровень сложностиПростой
Время на прочтение14 мин
Охват и читатели8.5K

Можно ли из смарт-камеры сделать полноценную систему машинного зрения? Можно, нужно подружить её C-библиотеку Hikrobot IDMVS SDK с OpenCV через Python. О том, как это сделать — расскажу на примере кейса печати маркировки на мешках строительной смеси: как мы проверяли синхронность печати кодов маркировки, искали белые квадраты, попадали в них кодами, дублировали по 4 кода на один мешок.

Читать далее

Мы можем решать задачи компьютерного зрения без видеокарт. И вам советуем

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели10K

Когда‑нибудь спрашивали себя, какие технологии должны быть в башке терминатора из фильмов Джеймса Кэмерона, чтобы он (терминатор) мог обрабатывать данные так, как он это делает в дилогии? (Остальные сиквелы/приквелы за фильмы мы не считаем — третья часть получилась вопреки желаниям создателей плохой комедией; последующие — попсовой стыдобой; более‑менее спин‑офф «Да придет спаситель», но и там слишком часто приходится протирать экран от липкой тонкой пленки плохого пафоса).

Если бы терминатор работал на современных технологиях, ему понадобилась бы голова размером с дом. Наверно, ему бы пришлось таскать с собой холодильники, которые охлаждали его постоянно перегревающиеся «мозги» — ну и все равно у него ничего не вышло бы. Потому что человечество еще не изобрело технологии такого уровня* — речь именно об эффективном (и энергоэффективном) компьютерном зрении. Только не приводите в пример Tesla, пожалуйста: терминатор в фильме умеет видеть, распознавать, классифицировать объекты примерно как человек; Tesla в этой точке не окажется никогда (и автопилота там тоже никогда не будет, если не появятся принципиально другие технологии).

*А мы изобрели.

узнать что-нибудь про индексацию видео

Как сделать локальный генератор изображений через ComfyUI

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели17K

Чтобы не зависеть от онлайн-сервисов с их лимитами, очередями и закрытыми настройками, локальный генератор изображений можно собрать прямо на своём компьютере. Такой подход даёт больше контроля: можно самостоятельно выбирать модель, менять параметры генерации, подключать LoRA, использовать апскейл, ControlNet и другие инструменты.

Читать далее

Вспомнить всё. Спектр весов нейросети

Время на прочтение13 мин
Охват и читатели14K

В данной публикации попробуем сформировать простейшую нейросеть. Будем использовать Colab. Данный выбор также хорош тем, что то, что позволено Юpyтеру не позволено быку. Иметь локальные вычислительные мощности. В принципе довольно неплохая инфраструктура для проверки базовых алгоритмов налету. Если есть что то подобное на других платформах или можно сделать с использованием иных агентов, пожалуйста, прокомментируйте.

Целью является демонстрация сохранения информации об обучении в спектре весов, при его фильтрации и постеризации происходит не полное стирание этих данных, что можно использовать для дообучения в качестве начальных условий. При этом, после постеризации, коэффициенты весов выраженные в спектральных составляющих занимают существенно меньшее место. Также этот эффект интересен с точки зрения проектирования ИНС.

Вместо кода будут md-саммари по разделам, их можно использовать для генерации в качестве промптов для ИИ-агента.

>>ЧТЕНИЕ>>

Могут ли нейросети сгенерировать «живое» искусство?

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели10K

Нейросети уже давно научились имитировать стиль известных художников. Стоит всего лишь написать в промте имена вроде Ван Гога или Ренуара — и получаешь картину в характерной технике. Разумеется любитель искусства или, тем более, профессионального искусствоведа такие работы раскусит моментально. Нейросети часто ошибаются в деталях: в костюмах определённой эпохи вдруг появляются современные элементы, в натюрморте может появиться продукт, которого при жизни художника просто не существовало, искажаются перспектива и текстуры.

Но ведь существует абстрактное искусство — где нет очевидных элементов, которые тут же выдают цифровое происхождение. И тогда возникает вопрос: сможет ли нейросеть создать такую абстрактную картину, что даже опытный знаток будет в сомнении — сделала ли её рука человека или алгоритм? И, что не менее интересно, как это объективно проверить? Опросы и тесты работают, но требуют большого числа респондентов и серьёзной статистики. Для небольших экспериментов больше подходят числовые характеристики, которые можно подсчитать и сравнить.

Вот тут на помощь приходит нейроэстетика — наука, которая пытается объяснить, что мы считаем красивым или гармоничным не через философские размышления, а анализируя сенсорные реакции мозга и измеримые параметры изображений. В случае с абстрактными картинами ключевые параметры — это фрактальная размерность, мультифрактальный спектр, энтропия и анизотропность.

Фрактальная размерность — мера того, насколько пространство заполнено сложной структурой. Например, линия — это размерность 1, полностью закрашенное полотно — размерность 2, а абстрактные «узоры» — что-то между ними.

Читать далее

Ближайшие события

3D-кино с трекингом глаз: технический разбор моей реализации и открытые вопросы

Уровень сложностиСложный
Время на прочтение15 мин
Охват и читатели6.4K

В моей коллекции лежат фильмы в формате Top-Bottom стереопары. Без 3D-телевизора или VR-очков смотреть их без потерь нельзя. Поляризованные очки и активные затворы на десктопе работают плохо или дорого. Анаглифные красно-синие очки убивают цвет.

Хотелось третьего варианта — смотреть на обычном мониторе, без очков, с минимальным железом. Идея, на которую опирался: head-coupled perspective, известный с 2008 года по знаменитому Wii-демо Johnny Chung Lee. В октябре 2025 бывший инженер Meta Daniel Habib опубликовал True3D — head-tracked Window Mode, где экран ведёт себя как окно в 3D-сцену. У них под капотом MediaPipe FaceLandmarker + iris tracking + off-axis projection matrix + volumetric scene на Gaussian splats. Я попробовал перенести подход на готовую Top-Bottom стереопару из коммерческих фильмов. И тут начались интересные компромиссы.

В статье — технический разбор моей реализации: пайплайн сглаживания трекинга в четыре ступени (EMA + velocity buffer + jump threshold + adaptive scaling), predictive tracker на double exponential smoothing (метод Холта) для компенсации end-to-end лага в 65 ms, фрагментный шейдер на GLSL с view switching и blend zone через smoothstep, попытка извлечения disparity через OpenCV StereoSGBM. Подробное сравнение моего подхода и True3D с таблицей: где в их волюметрической архитектуре получается то, что у меня в принципе невыводимо из двух фиксированных 2D-видов.

Финал — пять документированных проблем (jitter на резких движениях, ghosting в blend zone, потеря половины разрешения, латентность, UV-параллакс vs настоящий off-axis) и шесть открытых вопросов к читателю: про DepthAnything в WebGPU+ONNX, про RIFE/DAIN как view-интерполяторы, про DIBR на compute shader, про принципиальную возможность восстановить volumetric scene из стереопары в реальном времени.

Читать далее

ИИ для работы с документами: как меняются PDF-редакторы и куда все это движется

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели5.6K

Привет, Хабр! Меня зовут Алена Ивличева, я менеджер продукта в Content AI. Мы делаем ContentReader PDF — редактор PDF, в который теперь встроен ИИ-ассистент. 

Сегодня я хочу поговорить о том, куда движутся технологии, как искусственный интеллект меняет наше привычное взаимодействие с документами и что все это значит для наших продуктов.

На рынке сейчас огромное количество трендов, но я выделю те, что реально меняют правила игры. 

Читать далее

Методы обнаружения контуров в изображении: пространственные фильтры

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели11K

Большинство современных CV-алгоритмов невозможно представить без выделения границ объектов. В этой статье разбираем, как работают пространственные фильтры — от простейших масок 2×2 до полноценного детектора Канни.

Рассмотрим математическую базу: производные первого и второго порядка, градиент, дискретный Лапласиан. Как из аппроксимации производных получаются операторы — Робертса, Прюитта, Собеля, Лапласа. Разберем детектор Канни по шагам: сглаживание Гаусса, поиск градиентов, подавление не-максимумов, двойная пороговая фильтрация. Отдельно — адаптивный фильтр Уоллеса для автоматического подбора порога.

Читать далее

Kandinsky 6.0 Image Pro — новый уровень редактирования изображений

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели13K

В конце прошлого года на конференции AI Journey мы открыли доступ к линейке моделей Kandinsky 5. Сегодня мы представляем масштабное обновление — единую модель генерации и редактирования изображений Kandinsky 6.0 Image Pro!

Читать далее

Трекинг объектов с подвижной камеры: когда компьютерное зрение встречается с механикой

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели9.2K

В лабораторных условиях трекинг объектов обычно выглядит предсказуемо: камера статична, освещение стабильно, масштаб меняется плавно. На подвижной платформе всё иначе. Дрон вибрирует, камера смещается вместе с фоном, объект меняет размер в кадре, а задержки обработки и подвеса начинают влиять на результат не меньше, чем сам алгоритм. В статье разберём, почему классического CV‑трекера недостаточно для промышленного сценария и как связать компьютерное зрение, геометрию камеры и механику gimbal в единую систему.

Читать далее

Динамический ресайзинг изображений (Image Previewer)

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели8.4K

В данной статье рассматривается создание сервиса для динамического изменения размеров изображений с функциями проксирования и кэширования, а также приводится вариант его применения.

Читать далее

OpenAI представила ChatGPT Image 2.0: как пользоваться, получить доступ и насколько она лучше конкурентов

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели12K

В то время пока все думали, что крупные ИИ-лаборатории слишком заняты выпуском моделей для генерации видео и разработкой агентов для программирования, OpenAI незаметно представила новый флагманский продукт.

Он называется ChatGPT Image 2.0 и пришел на смену GPT Image 1.5 в качестве модели по умолчанию для генерации изображений с помощью ChatGPT.

На странице анонса почти нет текста. В основном там представлены только примеры изображений, что, вероятно, является правильным решением. Можно целый день описывать рендеринг текста словами, а можно просто показать плакат, на котором каждая буква идеально отображена, и позволить пользователю самостоятельно принять решение.

Читать далее
1
23 ...