Обновить
256K+

Обработка изображений *

Работаем с фото и видео

102,3
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Забытый мультиколор (часть 2)

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели6.1K

Полное руководство по аппаратному мультиколору для тех, кто не знает, что это такое и зачем он нужен.

Создание графики, форматы, вывод на экран

Читать далее

Новости

Используем фотограмметрию для распознавания и геолокации объекта

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели9.8K

В статье будет описан способ, как можно использовать фотограмметрию для определения координат подвижных и статичных объектов с летательных аппаратов. Практическое применение данного метода пока что затруднено по причинам, которые будут указаны ниже.

Задача: В системе координат, для которой известны GPS координаты (обозначена на рисунке красным цветом) определить расстояние и вектор направления для объекта, обозначенным на рисунке желтым крестиком. Затем, соответственно определить GPS координаты этого объекта.

Читать далее

Зачем мне фото- и видеоредакторы с GUI, когда есть FFmpeg?

Уровень сложностиПростой
Время на прочтение17 мин
Охват и читатели14K

...или записки из палаты Линуксоида

Часто ли вам пригождается базовая обработка фото или видео? Понизить разрешение, вырезать область, нанести текст, перекодировать в другой формат и другие задачи. Раньше я пользовался для этих целей самыми разными средствами - загрузка в веб-редакторы, Paint, Photoshop, Sony Vegas.

Пока в один прекрасный момент не пересел на Linux...Удобного видеоредактора для себя не нашёл, а к рабочему процессу в командной строке и установке через dnf install уже привык (я использую Fedora). И понеслась...

Внутри - интересная справка по FFmpeg. Ничего лишнего, максимум примеров с визуализацией и компактными объяснениями. Покажу, какие задачи можно решать с помощью этого инструмента не выходя из командной строки - а таких очень много. В конце - личный опыт: зачем мне эта шизофрения понадобилась и что она мне дала.

Увидеть нестандартный workflow

Нейросетевой апскейлинг: как собрать все грабли и почему очевидные настройки всё портят

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели11K

В своих прошлых статьях «Три пути к 4K» и «Нейросетевой апскейлинг дома» я рассказывал о выборе софта, базовых принципах нейросетевого апскейлинга и реставрации исходников уровня DVD и VHS. Но время идёт, навыки растут, и вот от простого (кусок дерева -> игрушка) мы переходим к сложному (игрушка -> коллекционная фигурка), а именно на территорию 720p–1080p исходников, Blu-ray и вебки.

И именно здесь для меня началось то, что я назвал «долиной отчаяния».

Вы берёте отличный исходник, выбираете крутую open-source модель, запускаете рендер… и всегда получаете что-то странное на выходе. Цвета поплыли, контраст упал, на градиентах неба появились какие-то искажённые линии, а ваш FPS в процессе ужасен. Кажется, что ПО сломано, а ИИ-модели взбесились и вместо «качественного апскейла» портят картинку.

Но я не сдался и пробыл в этой кроличьей норе из медиаформатов и апскейлеров более чем полмесяца, собрав все грабли с до смешного прозаичными, но не всегда очевидными решениями. И прежде чем найти истоки проблем, мы кратко разберём теорию, а после — практические решения по каждому из шагов. И, забегая вперёд: на первый взгляд здесь абсолютно всё контринтуитивно.

Читать далее

Google предлагает единый «водяной знак» для изображений, видео и текста, созданных ИИ

Время на прочтение5 мин
Охват и читатели11K

Изображения, видео, музыка и тексты, производимые искусственным интеллектом, сейчас становятся куда более качественными, чем на старте развития генеративных моделей, и отличать их от контента, созданного человеком, дается все с большим трудом. Проблема давно вышла за пределы обычных экспериментов и теперь затрагивает соцсети, новости, поисковики и другие ресурсы, которыми люди пользуются каждый день, что неминуемо ведет к распространению недостоверной информации.

Google и команда DeepMind уже несколько лет разрабатывают SynthID — систему скрытой маркировки контента, созданного искусственным интеллектом. Недавно компания объявила, что помимо использования в собственных сервисах технология начинает внедряться и в продукты других крупных разработчиков ИИ. SynthID уже на этапе генерации добавляет в изображение, видео, аудио или текст специальный незаметный сигнал. Такой маркер сохраняется даже после редактирования, сжатия или пересылки и помогает определить, что материал был создан нейросетью.

Читать далее

Забытый мультиколор (часть 1)

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели7.7K

Полное руководство по аппаратному мультиколору для тех, кто не знает, что это такое и зачем он нужен.

История, порты, включение режима

Читать далее

Детекция чужого почерка в экзаменационных бланках без эталонного образца

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели12K

Один ученик писал экзаменационную работу, а кто-то чужой дописал часть за него. Как мы научили нейросеть распознавать это.

Дано: государственная аттестация, бумажные бланки, никакого онлайн-контроля. Классический способ фальсификации: ученик начинает работу сам, потом часть дописывает кто-то другой: сосед, нанятый человек, преподаватель. Проверяющий смотрит на текст, но не оценивает почерк.

Задача ИИ: поймать фальсификацию почерка без эталона: система не знает заранее, как пишет конкретный ученик. Единственное, от чего можно отталкиваться - начало бланка, мы предполагаем, что первые строки написал сам экзаменуемый.

Цель: определить, написан ли весь бланк экзаменационной работы одним человеком. На входе - скан бланка, порой низкого качества. На выходе — координаты подозрительных фрагментов для ручной проверки. Все это в режиме потоковой обработки. Основной вызов: экзаменационный бланк — это смешанный документ. Рукописный текст соседствует с формулами, графиками, схемами, печатной подложкой бланка.

Читать далее

Черную дыру фотографировали восемь телескопов. Фото собрал алгоритм

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели29K

10 апреля 2019 года человечеству показали оранжевый бублик. Журналисты назвали его «первой фотографией черной дыры». Через час картинка была у всех — мемы про глаз Саурона, шутки про пончик, антропоморфизация,  заголовки «ученые сфотографировали невидимое».

Проблема в том, что это не совсем фотография.Точнее сказать, это очень странная фотография: если бы вы использовали телескоп горизонта событий (англ. EHT — далее по тексту) «как камеру» и нажали кнопку, вы бы получили черный квадрат и никакого бублика. Потому что он делает измерения, из которых алгоритм уже собирает изображение…  которого нет.

Вот про этот алгоритм и про то, как 3,5 петабайта данных летели в Бостон самолетом, и пойдет речь.

Читать далее

Axera AX650N: архитектура Edge ML SoC под CNN, LLM и VLM

Уровень сложностиСредний
Время на прочтение24 мин
Охват и читатели14K

Большинство задач современной робототехники так или иначе завязаны на нейронных сетях: детекция объектов, оценка глубины, локализация, планирование. Всё это ресурсоёмко, и вопрос выбора компактного вычислителя (достаточно часто алгоритмы должны работать локально) встает довольно остро. На практике выбор сводится к трём классам устройств: NVIDIA Jetson, внешний ускоритель (один из самых популярных — Hailo) и китайский (не всегда, конечно, но в современных реалиях обычно китайский) SoC с интегрированным NPU. В этой статье я рассмотрю представителя третьего класса — Axera AX650N, а NVIDIA Jetson будет использоваться для сравнения, так как это единственное массовое edge-решение с универсальными вычислительными ядрами (CUDA).

Это первая часть цикла. Здесь я разберу аппаратную архитектуру самого AX650N — CPU, NPU, DSP, ISP, память — и поделюсь результатами первых тестов: YOLO, Depth Anything, SuperPoint и мультимодальный Qwen3. Подробные бенчмарки и сравнения — во второй части.

Я тестировал AX650N в рамках готового устройства от Sipeed — Maix4 Hat. Он состоит из двух частей: SoM, на котором расположены SoC и 8 GB RAM (2x4 GB, так как у AX650N два отдельных DDR-контроллера), и baseboard от Sipeed с минимальным количеством интерфейсов. Скромность интерфейсов объясняется просто: baseboard — это HAT для Raspberry Pi 5, подключающийся по PCIe 2.0. В такой конфигурации AX650N работает как внешний ML-ускоритель, аналогично Hailo. В рамках этой и последующих статей я буду использовать Maix4 Hat как самостоятельный микрокомпьютер.

Читать далее

AI делает видео за вас? Я попробовал — и расскажу, где нас обманывают

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели13K

На Хабре я молчал с 2014 года. Но эта история вытащила меня наружу: слишком уж хотелось зафиксировать момент, где красивая сказка про AI‑видео заканчивается и начинается реальная работа — долгая, нервная и почему‑то всегда ручная. 

Мне нужно было сделать ролик. Можно было по классике нанять видеодизайнера, можно было собирать ролик своими руками, но тут появляется он — AI. Красивый, модный, весь из обещаний. Мол, зачем тебе команда, бюджет и сложный процесс? У тебя же есть пара подписок и вера в технологии.

Я в это поверил, и вот что получилось в итоге.

Читать далее

Музей как программная система: что скрывается за магией TeamLab Borderless

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели11K

Когда‑то музей был складом древностей, а посетители почтительно переходили от одного экспоната к другому, и это совпадало с их ритмом жизни. Сейчас люди потребляют информацию быстрее и по другим принципам. Они хотят быть участниками событий и проживать новый опыт. Поэтому музеи создают не только художники, но и программисты, инженеры, математики и архитекторы. Многослойная иммерсивная среда становится интерфейсом, а посетитель — частью происходящего.

Привет, Хабр! Давайте посмотрим, как «внутри» работает музей цифрового искусства teamLab Borderless в Токио, который только за первый год посетили 2,3 миллиона человек. Как создаётся экспозиция площадью 10 000 м², которая возникает на глазах у посетителей. Как работают сенсоры, проекторы, симуляции и projection mapping и как всё это связано в одном из самых технологичных музеев мира.

Читать далее

Почему текст от LLM узнаётся за пять секунд: разбираю стилистические маркеры через архитектуру моделей

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели18K

Когда мы интегрируем LLM в продакшн, рано или поздно сталкиваемся с одной и той же проблемой: текст модели читаем, грамотен, и при этом видно, что его написала модель. В статье разбираю десять самых выразительных стилистических маркеров на уровне архитектуры — почему они появляются (вопрос статистики обучающего корпуса и пост-тренинга, не случайность) и что с ними делать на уровне промпта, sampling-параметров и постобработки. Плюс короткое отступление про то, почему “промпты для обхода детектора” не работают и где лежит реальная граница между генерацией и авторским текстом.

Читать далее

Конвейеры формирования изображений. Часть 2: Баланс белого и преобразование к стандартному наблюдателю

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели6.5K

С вами снова Егор Ершов, руководитель группы «Цветовая вычислительная фотография» в AIRI и заведующий сектором репродукции и синтеза цвета ИППИ РАН. Я продолжаю свой цикл статей по мотивам лекций по вычислительной фотографии, и в прошлый раз мы приступили к разбору типичных конвейеров формирования изображения, заложенных в наши профессиональные камеры и мобильные телефоны.

Типичный пайплайн — от нажатия кнопки затвора до сохранения файла — довольно внушителен по количеству шагов, грубо его можно разделить на подготовку сырого RAW‑изображения и последующую обработку программными средствами. В предыдущей статье мы успели рассмотреть лишь первые два шага — регистрация света и дебайеринг, на этот раз поговорим про баланс белого и переход в пространство стандартного наблюдателя.

Приятного чтения!

Читать далее

Ближайшие события

svg-react-preview: предпросмотр inline-SVG внутри JSX-компонентов прямо в Zed

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели5.8K

Открываешь иконочный React-компонент — и видишь стену <path> с координатами и viewBox-арифметикой. Что там нарисовано — непонятно, пока не скопируешь разметку в отдельный .svg, браузерные DevTools или Figma. Каждый такой маневр выбивает из потока.

Читать далее

OneOCR — скрытая OCR внутри Windows 11

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели18K

OneOCR — это набор из двух динамических библиотек и одной модели ONNX для распознавания текста в приложениях Snipping Tool и Photos в Windows 11.

Читать далее

Свой маленький GIS: приложение для мультиспектральных и гиперспектральных снимков

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели14K

Привет, Хабр. Меня зовут Алексей, я C#-разработчик. В этой статье хочу рассказать о своём дипломном проекте очень запавшем мне в душу, который я делал на тему обработки изображений, GIS и дистанционного зондирования Земли. Даже спустя годы мне интересна данная тема и она по-прежнему остаётся очень перспективной в различных отраслях.

Идея была в том, чтобы собрать небольшое настольное приложение, которое умеет работать с реальными спутниковыми данными: Landsat 8, Sentinel-2 и AVIRIS. То есть открывать не готовую RGB-картинку, а набор спектральных каналов, собирать из них естественные и псевдоцветные изображения, считать растровые индексы, выделять эталоны прямо на снимке, классифицировать пиксели, сегментировать изображение и пробовать более исследовательские вещи вроде EMD-разложения.

В итоге получилась учебно-исследовательская программа, но с полным рабочим циклом: от чтения спутникового архива до сохранения информативного результата обработки. Ниже расскажу, зачем вообще нужны такие снимки, какие особенности есть у разных спутниковых данных, что делает приложение и какие алгоритмы оказались самыми интересными.

Читать далее

OCR в кармане: как HunyuanOCR на 1B параметров потеснил гигантов в задачах парсинга документов

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели13K

Всем привет! Меня зовут Артем, я Data Scientist в компании Raft Digital Solutions. В этой статье расскажу про свой опыт работы с HunyuanOCR end-to-end моделью от Tencent для распознавания текста на 1B параметров. Несмотря на громкие заявления о «SOTA-результатах» и компактности, в публичных обзорах практически не описано, как эта модель ведет себя в реальных задачах: с чем приходится столкнуться при настройке окружения, почему она может уйти в бесконечное зацикливание и как заставить её эффективно парсить сложные таблицы на обычном «железе».

Поделюсь результатами своих экспериментов, покажу боевые промпты и объясню, в каких сценариях этот OCR-инструмент реально помогает экономить время, а где лучше даже не пытаться его использовать.

Читать далее

Как из смарт-камеры сделать машинное зрение: дружим Hikrobot ID3000 + OpenCV через Python

Уровень сложностиПростой
Время на прочтение14 мин
Охват и читатели8.8K

Можно ли из смарт-камеры сделать полноценную систему машинного зрения? Можно, нужно подружить её C-библиотеку Hikrobot IDMVS SDK с OpenCV через Python. О том, как это сделать — расскажу на примере кейса печати маркировки на мешках строительной смеси: как мы проверяли синхронность печати кодов маркировки, искали белые квадраты, попадали в них кодами, дублировали по 4 кода на один мешок.

Читать далее

Мы можем решать задачи компьютерного зрения без видеокарт. И вам советуем

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели11K

Когда‑нибудь спрашивали себя, какие технологии должны быть в башке терминатора из фильмов Джеймса Кэмерона, чтобы он (терминатор) мог обрабатывать данные так, как он это делает в дилогии? (Остальные сиквелы/приквелы за фильмы мы не считаем — третья часть получилась вопреки желаниям создателей плохой комедией; последующие — попсовой стыдобой; более‑менее спин‑офф «Да придет спаситель», но и там слишком часто приходится протирать экран от липкой тонкой пленки плохого пафоса).

Если бы терминатор работал на современных технологиях, ему понадобилась бы голова размером с дом. Наверно, ему бы пришлось таскать с собой холодильники, которые охлаждали его постоянно перегревающиеся «мозги» — ну и все равно у него ничего не вышло бы. Потому что человечество еще не изобрело технологии такого уровня* — речь именно об эффективном (и энергоэффективном) компьютерном зрении. Только не приводите в пример Tesla, пожалуйста: терминатор в фильме умеет видеть, распознавать, классифицировать объекты примерно как человек; Tesla в этой точке не окажется никогда (и автопилота там тоже никогда не будет, если не появятся принципиально другие технологии).

*А мы изобрели.

узнать что-нибудь про индексацию видео

Вспомнить всё. Спектр весов нейросети

Время на прочтение13 мин
Охват и читатели14K

В данной публикации попробуем сформировать простейшую нейросеть. Будем использовать Colab. Данный выбор также хорош тем, что то, что позволено Юpyтеру не позволено быку. Иметь локальные вычислительные мощности. В принципе довольно неплохая инфраструктура для проверки базовых алгоритмов налету. Если есть что то подобное на других платформах или можно сделать с использованием иных агентов, пожалуйста, прокомментируйте.

Целью является демонстрация сохранения информации об обучении в спектре весов, при его фильтрации и постеризации происходит не полное стирание этих данных, что можно использовать для дообучения в качестве начальных условий. При этом, после постеризации, коэффициенты весов выраженные в спектральных составляющих занимают существенно меньшее место. Также этот эффект интересен с точки зрения проектирования ИНС.

Вместо кода будут md-саммари по разделам, их можно использовать для генерации в качестве промптов для ИИ-агента.

>>ЧТЕНИЕ>>
1
23 ...