Обработка изображений *

Работаем с фото и видео

66,3

Рейтинг

СтатьиПостыНовостиАвторыКомпании

PatientZero 24 июл в 11:13

Рисуем ASCII-арт в Vim

6 мин

6.3K

Обработка изображений * Графический дизайн * Текстовые редакторы и IDE *

Перевод

Мне нравится создавать ASCII-арт в Vim. Я не пользуюсь никакими плагинами: в Vim уже есть множество встроенных фич, очень полезных при рисовании ASCII!

Эта статья предназначена для тех, кто уже занимался ASCII-артом и хочет исследовать новые инструменты. А если вы никогда не пробовали создавать ASCII-арт, то рекомендую не читать эту статью! Вам не нужна вся эта информация для создания текстовой графики. Просто откройте любимый текстовый редактор и начинайте писать. А если не знаете, с чего начать, то изучайте работы мастеров и практикуйтесь. И уже после этого, если вам всё ещё будет интересно, возвращайтесь и прочитайте статью.

Vim — редактор не для всех. Я пользуюсь им просто потому, что знаю его. Если вы тоже прокляты этим знанием, то продолжайте чтение!

Рекомендую сначала освоить основы (например, открытие файла, переключение между режимами, сохранение и выход). Если вы новичок в Vim, то можете обучиться основам при помощи vimtutor!

+11

almaximort 23 июл в 16:00

Интеграция компьютерного зрения в АСУ ТП. IEC 61499 + python + CV = OpenFb

Средний

6 мин

11K

Python * Обработка изображений * Инженерные системы * Open source *

Туториал

В июле вышла новая версия OpenFB - открытой среды исполнения для IEC 61499, позволяющая вести разработку на python. OpenFB предназначена для разработки и интеграции приложений компьютерного зрения и ML алгоритмов в АСУ ТП.

В статье рассмотрен пример включения базовых алгоритмов компьютерного зрения в систему управления.

+10

abgitdev 21 июл в 16:54

Шесть часов на один рендер: как я собрал нативную студию Ideogram 4 на Swift и MLX

Средний

12 мин

8.9K

macOS * Swift * Машинное обучение * Обработка изображений * Open source *

Кейс

Я запустил Ideogram 4 локально на Mac, а затем собрал для него нативное приложение на Swift и MLX — без отдельного Python-процесса во время рендера. Сразу честно: «6 часов против 11 минут» — не ускорение одной картинки в 35 раз, а два разных режима: максимальный Quality 2048×2048 на 48 шагах и повседневный Turbo 1152×768 на 12. Это продолжение серии о Typhoonminigen. В статье — архитектура приложения, реальные замеры, удачные решения, ограничения и ошибки, которые пришлось исправлять по пути.

Roman_Parabat 20 июл в 07:01

И треснул мир напополам: как в США и Китае развили две инженерные школы графического GenAI

Средний

18 мин

Блог компании МТСИскусственный интеллектНаучно-популярноеМашинное обучение * Обработка изображений *

Обзор

Генерация изображений в последнее время заметно продвинулась и справляется даже с тонкими задачами на высоком уровне. За последние два года я с базовыми знаниями в дизайне оформлял книги, готовил иллюстрации для статей, собирал презентации и решал графические задачи в коммерческих проектах — и вынес из этого одно: универсальной модели не существует. Каждая архитектура сильна в своей нише, а выбор инструмента стал такой же частью работы, как и сам промпт.

Работая с Midjourney, DALL-E 3, FLUX, Hunyuan-DiT, Wanxiang и Seedream, я заметил: один и тот же запрос в разных системах давал принципиально разные результаты — и дело было не в стилистике. Одни модели буквально расставляли объекты по местам, как в инструкции. Другие могли проигнорировать часть описания, зато выдавали плотность деталей и сложность ракурсов, недоступную первым.

Сначала я списывал это на языковой барьер — казалось, что западные и китайские системы по-разному интерпретируют запрос. Но список причин быстро расширился: датасеты, токенизаторы, глубина текстовых энкодеров. Каждая деталь что-то объясняла, но общей картины не давала. За различиями стояло нечто большее — две инженерные школы, изначально оптимизировавшие разные ресурсы, а сейчас движущиеся к конвергенции.

Тут я вспомнил старый плакат из дизайн-студии нулевых: «Быстро. Дешево. Качественно. Выберите любые два». Раньше это звучало как шутка, теперь — как точное описание логики развития сложных систем.

Эта статья — попытка понять сложившуюся экономику моделей через их историю: разобрать ключевые развилки последних лет, заглянуть под капот графических движков и понять, в какие ниши сегодня выстраивается конвергенция технологий.

+25

SmartEngines 17 июл в 12:40

Как математическая модель победила нейросеть: ректификация документов, сложенных втрое

Средний

5 мин

15K

Блог компании Smart EnginesМатематика * Обработка изображений * Машинное обучение * Программирование *

Сегодня практически любую задачу компьютерного зрения пытаются решить нейронной сетью. Геометрическая ректификация документов — не исключение: современные модели умеют распрямлять даже скомканные листы бумаги.

Реальность устроена иначе: никто не комкает деловые документы перед распознаванием, гораздо чаще их просто складывают пополам или втрое для удобства хранения или транспортировки. Поэтому большие нейросетевые модели на самом деле представляют скорее лишь научный интерес, а для практических целей куда полезнее придумать простой, но эффективный и быстрый алгоритм.

В Smart Engines мы пошли другим путем: вместо универсальной нейросети построили математическую модель документа, сложенного втрое. В результате получили алгоритм, который не только превосходит современный геометрический трансформер DocTr по качеству, но и работает до 60 раз быстрее.

В этой статье мы расскажем, как работает наш подход, зачем нам понадобилась школьная проективная геометрия и каким образом она обеспечивает нам неразрывность ректифицированного изображения.

+19

sviridov_aa 16 июл в 12:32

Как Immich помогает в работе с корпоративным фотоархивом

Простой

7 мин

12K

Блог компании InfoWatchОбработка изображений * Облачные сервисы * Хранение данных * Open source *

Кейс

Привет, Хабр!

Меня зовут Алексей Свиридов, в InfoWatch я уже 12 лет, начинал как инженер, теперь отвечаю за проекты внедрения на территории СЗФО. В этой статье расскажу о том, как Immich помогает мне в работе с корпоративным фото/видеоархивом.

Мануалов по установке не будет, но расскажу про пару технических приёмов, которые лично мне показались интересными. Возможно, пригодятся и вам.

При чём тут вообще фотоархив?

Как и в любой другой компании, отдел внутрикома у нас отвечает за проведение всевозможных мероприятий — от больших корпоративов и празднований дня рождения компании до профильных праздников а-ля «День тестировщика» и прочего. Я — региональный сотрудник, так что стараюсь ходить на каждое такое мероприятие: и себя показать, и коллег вживую увидеть.

Так вот, про фото. После любого такого события появляется пара сотен фотографий. А иногда и тысяч, если фотограф попался выносливый, а мероприятие было масштабным. Немного спойлерну — сейчас в архиве компании насчитывается более 50 000 фотографий и 1000+ видеороликов.

Само собой, когда мероприятие проходит, фотограф присылает внутрикомам все фотографии, которые они затем и размещают на внутренних ресурсах. А потом присылают ссылку в рабочий чат — мол, спасибо всем, кто пришёл, вот тут ваши фото.

И всё бы ничего, если бы не один нюанс. Фотографии лежат на сетевой шаре в виде файлов, для их просмотра есть простенькая галерея. Что хочется сотруднику после получения ссылки? Правильно, быстренько забрать все свои фоточки и сохранить куда-то в домашний архив, либо поделиться ими в соцсетях. И вот с «быстренько» возникают проблемы

+22

Dagnarus 15 июл в 14:06

Как я превратил Real‑ESRGAN и FFmpeg в потоковый Windows‑апскейлер без гигантских временных папок

Средний

10 мин

7.7K

Обработка изображений * Open source * .NET * C# *

Ретроспектива

Из песочницы

Апскейлинг одного изображения через Real-ESRGAN обычно не вызывает особых проблем: выбираем модель, запускаем обработку и получаем результат. Но при работе с видео и большими наборами файлов быстро появляются дополнительные задачи: декодирование и сборка видео, очередь рендера, выбор видеокарты, обработка ошибок, восстановление прерванных заданий, зависимости вроде FFmpeg и понятный интерфейс для всего этого.

Мне хотелось получить обычное Windows-приложение, в которое можно перетащить видео, изображения или целую папку, выбрать параметры и оставить обработку выполняться без ручной работы с консольными командами.

Так появился UltraFrame AI — бесплатное приложение с открытым исходным кодом для пакетного апскейлинга видео и изображений с помощью Real-ESRGAN.

snk4tr 14 июл в 08:40

Alice AI ART 2.0: путь к unified‑модели, которая одинаково хорошо умеет генерировать и редактировать картинки

15 мин

13K

Блог компании ЯндексМашинное обучение * Искусственный интеллектАлгоритмы * Обработка изображений *

Привет, Хабр! На связи команда генеративных моделей в компьютерном зрении. Вместе с другими командами мы делаем мультимодального ассистента Алиса AI. Внутри него мы развиваем несколько вариантов визуальной генерации с помощью отдельной модели Alice AI ART. Два базовых сценария её работы — генерация по тексту (Text‑to‑Image, T2I) и редактирование по картинке с инструкцией (Image‑to‑Image, I2I). Именно о них пойдёт речь.

Всё это время эти сценарии жили как два разных стека: свои базовые модели, свои данные, свои метрики и, честно говоря, своя отдельная боль в разработке и поддержке.

В этом году мы поставили себе цель, которая звучала просто, а на практике оказалась полугодовым приключением: не только подтянуть качество, а сделать одну модель, которая одинаково хорошо умеет и в T2I, и в I2I. Внутри мы называем такой режим unified или просто uni. Вас ждёт рассказ об отдельных экспериментах и наблюдениях, которые помогли нам сделать первый шаг в этом направлении и привели нас к Alice AI ART 2.0, — включая те, которые красиво не сработали (спойлер: их хватало).

+28

Roman_Kuzmin 10 июл в 08:43

Ускоряем обработку изображений в OpenCV на RISC-V: алгоритмическая, низкоуровневая и компиляторная оптимизация

Сложный

7 мин

8.7K

Блог компании YADROМашинное обучение * Обработка изображений * Open source * Процессоры

Кейс

Привет, Хабр! Меня зовут Роман Кузьмин, я занимаюсь развитием фреймворков искусственного интеллекта в YADRO. В этой статье я расскажу о работе по оптимизации алгоритма компьютерного зрения — детекторе углов, основанном на глобальных и локальных свойствах кривизны, который реализован с помощью библиотеки OpenCV под архитектуру RISC-V.

С коллегами из НГТУ им. Р. Е. Алексеева мы добились лучшей эффективности алгоритма за счет подхода, включающего алгоритмические оптимизации и ручную векторизацию с использованием RVV. Я подробно опишу, что и где мы изменили, а в конце статьи оценю прогресс с помощью тестов на плате Lichee Pi 4a.

+22

PatientZero 9 июл в 06:23

Обфусцированный bash-скрипт CDN Akamai продаётся потребителям в розничных магазинах

5 мин

8.4K

Ненормальное программирование * Программирование * Управление продажами * Обработка изображений *

Перевод

Когда жена сказала мне: «Давай покажу футболку, которую я нашла...», у меня не было совершенно никаких предположений, но я определённо не ждал увидеть напечатанный на спине обфусцированный bash-скрипт, который выводит сообщение-пасхалку.

Я не любитель кликбейтных заголовков, но понимаю, почему редакторам они так нравятся. Заголовок статьи, строго говоря, совершенно правдив, но, наверно, не в том смысле, в котором вы бы ожидали. Обфусцированный код на самом деле оказался пасхалкой, он распространяется в магазинах Uniqlo в рамках кампании Peace for All на замечательных футболках, дизайн которых разработала Akamai.

+14

dnlayu 6 июл в 12:18

Как мы за $2k собрали управляемую мировую модель на базе Wan 2.1

Средний

12 мин

8.1K

Искусственный интеллектРазвитие стартапаРазработка игр * Обработка изображений *

Кейс

Из песочницы

Всем привет! Мы два 19-летних студента второго курса из Казахстана. В свободное от учёбы время мы развиваем DreamForge — собственный исследовательский проект в области интерактивных мировых моделей.

Сайт проекта: trydreamforge.com

Несколько лет мы с другом занимались инди‑разработкой игр и Minecraft модов. Один из этих модов со временем набрал миллионы загрузок и начал приносить достаточно денег, чтобы финансировать наши эксперименты с облачными GPU.

+10

ZackST 2 июл в 09:00

От 0 до 10 миллионов ИИ-проверок в месяц: как мы продуктивизировали CV в Пятёрочке за 8 месяцев

Средний

11 мин

8.4K

Блог компании X5 TechМашинное обучение * Искусственный интеллектОбработка изображений * Высоконагруженные системы *

Кейс

Статья про то, как CV-сервис вырос с MVP до 10 миллионов проверок фото в месяц и не развалился в проде.

🔧 Это не про «у нас классные модели» и не про «просто прикрутили YOLO», а про честную инженерную продуктивизацию. Про то как универсальный классификатор путал фарш с грязью, почему часть анкет всё равно лучше отдавать человеку, зачем отдельно мониторить качество моделей и что приходится чинить, когда реальный мир меняется быстрее обучающей выборки.

Внутри: компьютерное зрение, 26 моделей, 62 проверки, CNN, VLM, Triton, vLLM, Kafka, Human-in-the-loop, мониторинг качества, сезонность, баги под нагрузкой и немного «веган-версии ИИ».

Заходите, читайте и делитесь своим опытом продакшена ML-сервисов ❤️

+15

notdepot 1 июл в 08:10

Делаем отказоустойчивое файловое хранилище поверх JPEG-файлов

Простой

11 мин

6.6K

Информационная безопасность * Обработка изображений * Python *

Из песочницы

Что, если хранить зашифрованный контейнер не в одном файле, а распределять между несколькими JPEG-изображениями? Причём так, чтобы потеря части изображений не приводила к потере данных. В этой статье мы посмотрим, как может работать такая схема, и разберём её основные принципы без погружения в код.

NeuroKirKorov 1 июл в 06:19

Контроль СИЗ на палубе судна: как из потока детекций собрать подтвержденное нарушение

5 мин

5.6K

Машинное обучение * Искусственный интеллектПромышленное программирование * Обработка изображений *

Заказчик контролирует технику безопасности на палубе судна: в рабочих зонах экипаж обязан быть в касках, спасательных жилетах и костюмах-поплавках. Визуальный контроль по камерам не масштабируется, оператор не сможет физически охватить все потоки за смену.

Задача: автоматически фиксировать нарушения ношения СИЗ (каски, спасательные жилеты, перчатки, костюмы-поплавки) в рабочих зонах на открытой палубе судна.

wingrune 1 июл в 06:10

От пульта до полотенца — учим робота искать всё, что угодно

Сложный

11 мин

6.3K

Блог компании AIRIРобототехникаОбработка изображений * Алгоритмы * Машинное обучение *

Кейс

Привет, Хабр! Меня зовут Татьяна Земскова, я аспирантка МФТИ и научный сотрудник команды Embodied Agents лаборатории Cognitive AI Systems AIRI. Областью моих научных интересов является компьютерное зрение для робототехники. Я изучаю, в частности, то, каким образом робот может использовать различные модальности (текст, изображения, сегментационные маски объектов) для лучшего понимания сцены и навигации.

Желаемыми свойствами современных навигационных систем является их универсальность, минимальность сенсорного сетапа и быстрота принятия решений на борту робота. Сегодня мы поговорим о том, как мы вместе с коллегами (Алексеем Староверовым, Дмитрием Юдиным и Александром Пановым) смогли создать и обучить лёгкую (130М) трансформерную модель, способную доезжать до любых категорий объектов, заданных текстом. Полученный метод описан в свежей работе OVSegDT: Segmenting Transformer for Open‑Vocabulary Object Goal Navigation.

На веб‑странице проекта можно найти ссылку на открытый исходный код с инструкциями по запуску и ссылкой на предварительно обученные веса модели. Это позволяет как воспроизвести наши эксперименты, так и попробовать запустить модель самостоятельно на собственных данных в симуляторе или на реальном роботе. В этом посте мы обсудим основные особенности модели и то, как мы пришли к этому методу.

Magnificus 30 июн в 08:56

Лучшие нейросети для картинок в 2026. Сравнение Midjourney, Qwen, FLUX, Nano Banana, GPT и Grok на одних промптах

Простой

17 мин

13K

Блог компании BotHubМашинное обучение * Программирование * Искусственный интеллектОбработка изображений *

Обзор

В 2026 году выбрать нейросеть для картинок часто сложнее, чем написать промпт. Моделей много, каждая обещает лучшее качество, а на деле у каждой есть свои особенности. Мы взяли шесть разных популярных моделей, прогнали шесть сценарных тестов на одинаковых промптах и собрали картинки, чтобы вы могли сравнить все своими глазами, а не по рекламным скриншотам.

Сегодняшние участники:

Midjourney (v7) | Qwen Image 2 Pro

FLUX 2 Max | Nano Banana Pro

GPT Image 2 | Grok Imagine (режим image quality)

У нас было: 6 моделей для генерации, 6 сценариев использвования, для всех моделей одинаковой промт и 4 критерия для оценки результат.

Победитель оказался неожиданным.

+19

fikstt2 29 июн в 12:11

Как я устал от CVAT и в соло написал десктопный инструмент для авторазметки датасетов на PyQt5

Средний

2 мин

6.3K

Python * Open source * Искусственный интеллектОбработка изображений *

Кейс

Из песочницы

Надоело разворачивать CVAT через докер и мириться с лагами браузера? Я расскажу свою историю, как от простецкого аннотатора собранного на коленке написал мощную легковесную отечественную альтернативу на PyQt5 и OpenGl, с пакетной авторазметкой и иерархией классов.

pokrovsk 29 июн в 07:19

Как сделать видео из фото: делюсь простыми способами для начинающих

Простой

8 мин

5.9K

Windows * СофтРабота с видео * Обработка изображений *

Туториал

«Карусельки уже никто не листает, лайков будет кот наплакал», — заявила кузина. И сразу поставила задачу: покажи, как сделать видео из фото с отчетного концерта ее танцевального ансамбля, а еще лучше смонтируй ролик сам.

Я, конечно, мог посоветовать первое попавшееся приложение и с чистой совестью вернуться к своим делам. Но потом подумал: впереди выпускные, отпуска, да и просто лето — самое время фотографировать детей, друзей, прогулки, поездки и прочие важные события. Так что умение быстро смонтировать из фото небольшой ролик действительно может пригодиться многим. Поэтому подготовил обзор простых программ и сервисов с расчетом на то, чтобы не изучать монтаж неделями, а сделать приличный клип буквально на коленке.

SilverAI 28 июн в 10:39

Как я делаю нейромультик про Михалыча

16 мин

8.5K

Искусственный интеллектДизайнОбработка изображений * Работа с видео *

Кейс

Из песочницы

У меня есть мультик про мебельщика Михалыча. Снят в жанре мокьюментари — как будто кто‑то пришел с камерой к небольшому производству и снял документалку про обычный рабочий день. Интервью на камеру, бытовые сцены, узнаваемые типажи. Только всё это нарисовано и анимировано нейросетями — без художника, без аниматора, без актеров.

Первую серию сделала, и вроде бы разобралась с процессом в целом. Но вторая оказалась сложнее, появился новый персонаж, сцены с двумя людьми в кадре, реквизит с текстом, который надо держать читаемым на протяжении всей анимации. Где‑то пришлось изобретать приёмы на ходу, где‑то переделывать по два‑три раза.

В этой статье — полный разбор второй серии по шагам: что делала, что не получилось сразу и как решала.

Как добиться от ИИ нормального результата

xenon 24 июн в 13:55

Бесплатный фото-хостинг на Youtube, Rutube, Telegram, Max

Простой

4 мин

8.4K

Хранение данных * Работа с видео * Python * Обработка изображений *

Туториал

Из фото делаем слайдшоу видео и его заливаем (можно unlisted/private, чтобы никто не видел) на любую площадку, где хранят видео. Затем, если надо - скачиваем видео и извлекаем фото обратно. Потери качества - есть, но допустимые.

Идеально для резервного хранения фото.

https://github.com/yaroslaff/smugglerjpg

Получить свой безлимитный фотоальбом!

-4

2 3 ...

129 130