Забытый мультиколор (часть 2)

Полное руководство по аппаратному мультиколору для тех, кто не знает, что это такое и зачем он нужен.
Создание графики, форматы, вывод на экран

Работаем с фото и видео

Полное руководство по аппаратному мультиколору для тех, кто не знает, что это такое и зачем он нужен.
Создание графики, форматы, вывод на экран

В статье будет описан способ, как можно использовать фотограмметрию для определения координат подвижных и статичных объектов с летательных аппаратов. Практическое применение данного метода пока что затруднено по причинам, которые будут указаны ниже.
Задача: В системе координат, для которой известны GPS координаты (обозначена на рисунке красным цветом) определить расстояние и вектор направления для объекта, обозначенным на рисунке желтым крестиком. Затем, соответственно определить GPS координаты этого объекта.

...или записки из палаты Линуксоида
Часто ли вам пригождается базовая обработка фото или видео? Понизить разрешение, вырезать область, нанести текст, перекодировать в другой формат и другие задачи. Раньше я пользовался для этих целей самыми разными средствами - загрузка в веб-редакторы, Paint, Photoshop, Sony Vegas.
Пока в один прекрасный момент не пересел на Linux...Удобного видеоредактора для себя не нашёл, а к рабочему процессу в командной строке и установке через dnf install уже привык (я использую Fedora). И понеслась...
Внутри - интересная справка по FFmpeg. Ничего лишнего, максимум примеров с визуализацией и компактными объяснениями. Покажу, какие задачи можно решать с помощью этого инструмента не выходя из командной строки - а таких очень много. В конце - личный опыт: зачем мне эта шизофрения понадобилась и что она мне дала.

В своих прошлых статьях «Три пути к 4K» и «Нейросетевой апскейлинг дома» я рассказывал о выборе софта, базовых принципах нейросетевого апскейлинга и реставрации исходников уровня DVD и VHS. Но время идёт, навыки растут, и вот от простого (кусок дерева -> игрушка) мы переходим к сложному (игрушка -> коллекционная фигурка), а именно на территорию 720p–1080p исходников, Blu-ray и вебки.
И именно здесь для меня началось то, что я назвал «долиной отчаяния».
Вы берёте отличный исходник, выбираете крутую open-source модель, запускаете рендер… и всегда получаете что-то странное на выходе. Цвета поплыли, контраст упал, на градиентах неба появились какие-то искажённые линии, а ваш FPS в процессе ужасен. Кажется, что ПО сломано, а ИИ-модели взбесились и вместо «качественного апскейла» портят картинку.
Но я не сдался и пробыл в этой кроличьей норе из медиаформатов и апскейлеров более чем полмесяца, собрав все грабли с до смешного прозаичными, но не всегда очевидными решениями. И прежде чем найти истоки проблем, мы кратко разберём теорию, а после — практические решения по каждому из шагов. И, забегая вперёд: на первый взгляд здесь абсолютно всё контринтуитивно.

Изображения, видео, музыка и тексты, производимые искусственным интеллектом, сейчас становятся куда более качественными, чем на старте развития генеративных моделей, и отличать их от контента, созданного человеком, дается все с большим трудом. Проблема давно вышла за пределы обычных экспериментов и теперь затрагивает соцсети, новости, поисковики и другие ресурсы, которыми люди пользуются каждый день, что неминуемо ведет к распространению недостоверной информации.
Google и команда DeepMind уже несколько лет разрабатывают SynthID — систему скрытой маркировки контента, созданного искусственным интеллектом. Недавно компания объявила, что помимо использования в собственных сервисах технология начинает внедряться и в продукты других крупных разработчиков ИИ. SynthID уже на этапе генерации добавляет в изображение, видео, аудио или текст специальный незаметный сигнал. Такой маркер сохраняется даже после редактирования, сжатия или пересылки и помогает определить, что материал был создан нейросетью.

Полное руководство по аппаратному мультиколору для тех, кто не знает, что это такое и зачем он нужен.
История, порты, включение режима

Один ученик писал экзаменационную работу, а кто-то чужой дописал часть за него. Как мы научили нейросеть распознавать это.
Дано: государственная аттестация, бумажные бланки, никакого онлайн-контроля. Классический способ фальсификации: ученик начинает работу сам, потом часть дописывает кто-то другой: сосед, нанятый человек, преподаватель. Проверяющий смотрит на текст, но не оценивает почерк.
Задача ИИ: поймать фальсификацию почерка без эталона: система не знает заранее, как пишет конкретный ученик. Единственное, от чего можно отталкиваться - начало бланка, мы предполагаем, что первые строки написал сам экзаменуемый.
Цель: определить, написан ли весь бланк экзаменационной работы одним человеком. На входе - скан бланка, порой низкого качества. На выходе — координаты подозрительных фрагментов для ручной проверки. Все это в режиме потоковой обработки. Основной вызов: экзаменационный бланк — это смешанный документ. Рукописный текст соседствует с формулами, графиками, схемами, печатной подложкой бланка.

10 апреля 2019 года человечеству показали оранжевый бублик. Журналисты назвали его «первой фотографией черной дыры». Через час картинка была у всех — мемы про глаз Саурона, шутки про пончик, антропоморфизация, заголовки «ученые сфотографировали невидимое».
Проблема в том, что это не совсем фотография.Точнее сказать, это очень странная фотография: если бы вы использовали телескоп горизонта событий (англ. EHT — далее по тексту) «как камеру» и нажали кнопку, вы бы получили черный квадрат и никакого бублика. Потому что он делает измерения, из которых алгоритм уже собирает изображение… которого нет.
Вот про этот алгоритм и про то, как 3,5 петабайта данных летели в Бостон самолетом, и пойдет речь.
Большинство задач современной робототехники так или иначе завязаны на нейронных сетях: детекция объектов, оценка глубины, локализация, планирование. Всё это ресурсоёмко, и вопрос выбора компактного вычислителя (достаточно часто алгоритмы должны работать локально) встает довольно остро. На практике выбор сводится к трём классам устройств: NVIDIA Jetson, внешний ускоритель (один из самых популярных — Hailo) и китайский (не всегда, конечно, но в современных реалиях обычно китайский) SoC с интегрированным NPU. В этой статье я рассмотрю представителя третьего класса — Axera AX650N, а NVIDIA Jetson будет использоваться для сравнения, так как это единственное массовое edge-решение с универсальными вычислительными ядрами (CUDA).
Это первая часть цикла. Здесь я разберу аппаратную архитектуру самого AX650N — CPU, NPU, DSP, ISP, память — и поделюсь результатами первых тестов: YOLO, Depth Anything, SuperPoint и мультимодальный Qwen3. Подробные бенчмарки и сравнения — во второй части.
Я тестировал AX650N в рамках готового устройства от Sipeed — Maix4 Hat. Он состоит из двух частей: SoM, на котором расположены SoC и 8 GB RAM (2x4 GB, так как у AX650N два отдельных DDR-контроллера), и baseboard от Sipeed с минимальным количеством интерфейсов. Скромность интерфейсов объясняется просто: baseboard — это HAT для Raspberry Pi 5, подключающийся по PCIe 2.0. В такой конфигурации AX650N работает как внешний ML-ускоритель, аналогично Hailo. В рамках этой и последующих статей я буду использовать Maix4 Hat как самостоятельный микрокомпьютер.

На Хабре я молчал с 2014 года. Но эта история вытащила меня наружу: слишком уж хотелось зафиксировать момент, где красивая сказка про AI‑видео заканчивается и начинается реальная работа — долгая, нервная и почему‑то всегда ручная.
Мне нужно было сделать ролик. Можно было по классике нанять видеодизайнера, можно было собирать ролик своими руками, но тут появляется он — AI. Красивый, модный, весь из обещаний. Мол, зачем тебе команда, бюджет и сложный процесс? У тебя же есть пара подписок и вера в технологии.
Я в это поверил, и вот что получилось в итоге.

Когда‑то музей был складом древностей, а посетители почтительно переходили от одного экспоната к другому, и это совпадало с их ритмом жизни. Сейчас люди потребляют информацию быстрее и по другим принципам. Они хотят быть участниками событий и проживать новый опыт. Поэтому музеи создают не только художники, но и программисты, инженеры, математики и архитекторы. Многослойная иммерсивная среда становится интерфейсом, а посетитель — частью происходящего.
Привет, Хабр! Давайте посмотрим, как «внутри» работает музей цифрового искусства teamLab Borderless в Токио, который только за первый год посетили 2,3 миллиона человек. Как создаётся экспозиция площадью 10 000 м², которая возникает на глазах у посетителей. Как работают сенсоры, проекторы, симуляции и projection mapping и как всё это связано в одном из самых технологичных музеев мира.
Когда мы интегрируем LLM в продакшн, рано или поздно сталкиваемся с одной и той же проблемой: текст модели читаем, грамотен, и при этом видно, что его написала модель. В статье разбираю десять самых выразительных стилистических маркеров на уровне архитектуры — почему они появляются (вопрос статистики обучающего корпуса и пост-тренинга, не случайность) и что с ними делать на уровне промпта, sampling-параметров и постобработки. Плюс короткое отступление про то, почему “промпты для обхода детектора” не работают и где лежит реальная граница между генерацией и авторским текстом.

С вами снова Егор Ершов, руководитель группы «Цветовая вычислительная фотография» в AIRI и заведующий сектором репродукции и синтеза цвета ИППИ РАН. Я продолжаю свой цикл статей по мотивам лекций по вычислительной фотографии, и в прошлый раз мы приступили к разбору типичных конвейеров формирования изображения, заложенных в наши профессиональные камеры и мобильные телефоны.
Типичный пайплайн — от нажатия кнопки затвора до сохранения файла — довольно внушителен по количеству шагов, грубо его можно разделить на подготовку сырого RAW‑изображения и последующую обработку программными средствами. В предыдущей статье мы успели рассмотреть лишь первые два шага — регистрация света и дебайеринг, на этот раз поговорим про баланс белого и переход в пространство стандартного наблюдателя.
Приятного чтения!

Открываешь иконочный React-компонент — и видишь стену <path> с координатами и viewBox-арифметикой. Что там нарисовано — непонятно, пока не скопируешь разметку в отдельный .svg, браузерные DevTools или Figma. Каждый такой маневр выбивает из потока.

OneOCR — это набор из двух динамических библиотек и одной модели ONNX для распознавания текста в приложениях Snipping Tool и Photos в Windows 11.

Привет, Хабр. Меня зовут Алексей, я C#-разработчик. В этой статье хочу рассказать о своём дипломном проекте очень запавшем мне в душу, который я делал на тему обработки изображений, GIS и дистанционного зондирования Земли. Даже спустя годы мне интересна данная тема и она по-прежнему остаётся очень перспективной в различных отраслях.
Идея была в том, чтобы собрать небольшое настольное приложение, которое умеет работать с реальными спутниковыми данными: Landsat 8, Sentinel-2 и AVIRIS. То есть открывать не готовую RGB-картинку, а набор спектральных каналов, собирать из них естественные и псевдоцветные изображения, считать растровые индексы, выделять эталоны прямо на снимке, классифицировать пиксели, сегментировать изображение и пробовать более исследовательские вещи вроде EMD-разложения.
В итоге получилась учебно-исследовательская программа, но с полным рабочим циклом: от чтения спутникового архива до сохранения информативного результата обработки. Ниже расскажу, зачем вообще нужны такие снимки, какие особенности есть у разных спутниковых данных, что делает приложение и какие алгоритмы оказались самыми интересными.

Всем привет! Меня зовут Артем, я Data Scientist в компании Raft Digital Solutions. В этой статье расскажу про свой опыт работы с HunyuanOCR end-to-end моделью от Tencent для распознавания текста на 1B параметров. Несмотря на громкие заявления о «SOTA-результатах» и компактности, в публичных обзорах практически не описано, как эта модель ведет себя в реальных задачах: с чем приходится столкнуться при настройке окружения, почему она может уйти в бесконечное зацикливание и как заставить её эффективно парсить сложные таблицы на обычном «железе».
Поделюсь результатами своих экспериментов, покажу боевые промпты и объясню, в каких сценариях этот OCR-инструмент реально помогает экономить время, а где лучше даже не пытаться его использовать.

Можно ли из смарт-камеры сделать полноценную систему машинного зрения? Можно, нужно подружить её C-библиотеку Hikrobot IDMVS SDK с OpenCV через Python. О том, как это сделать — расскажу на примере кейса печати маркировки на мешках строительной смеси: как мы проверяли синхронность печати кодов маркировки, искали белые квадраты, попадали в них кодами, дублировали по 4 кода на один мешок.

Когда‑нибудь спрашивали себя, какие технологии должны быть в башке терминатора из фильмов Джеймса Кэмерона, чтобы он (терминатор) мог обрабатывать данные так, как он это делает в дилогии? (Остальные сиквелы/приквелы за фильмы мы не считаем — третья часть получилась вопреки желаниям создателей плохой комедией; последующие — попсовой стыдобой; более‑менее спин‑офф «Да придет спаситель», но и там слишком часто приходится протирать экран от липкой тонкой пленки плохого пафоса).
Если бы терминатор работал на современных технологиях, ему понадобилась бы голова размером с дом. Наверно, ему бы пришлось таскать с собой холодильники, которые охлаждали его постоянно перегревающиеся «мозги» — ну и все равно у него ничего не вышло бы. Потому что человечество еще не изобрело технологии такого уровня* — речь именно об эффективном (и энергоэффективном) компьютерном зрении. Только не приводите в пример Tesla, пожалуйста: терминатор в фильме умеет видеть, распознавать, классифицировать объекты примерно как человек; Tesla в этой точке не окажется никогда (и автопилота там тоже никогда не будет, если не появятся принципиально другие технологии).
*А мы изобрели.

В данной публикации попробуем сформировать простейшую нейросеть. Будем использовать Colab. Данный выбор также хорош тем, что то, что позволено Юpyтеру не позволено быку. Иметь локальные вычислительные мощности. В принципе довольно неплохая инфраструктура для проверки базовых алгоритмов налету. Если есть что то подобное на других платформах или можно сделать с использованием иных агентов, пожалуйста, прокомментируйте.
Целью является демонстрация сохранения информации об обучении в спектре весов, при его фильтрации и постеризации происходит не полное стирание этих данных, что можно использовать для дообучения в качестве начальных условий. При этом, после постеризации, коэффициенты весов выраженные в спектральных составляющих занимают существенно меньшее место. Также этот эффект интересен с точки зрения проектирования ИНС.
Вместо кода будут md-саммари по разделам, их можно использовать для генерации в качестве промптов для ИИ-агента.