Все потоки

Обработка изображений *

Работаем с фото и видео

58,01

Рейтинг

СтатьиПостыНовостиАвторыКомпании

Dagnarus 16 часов назад

Как я превратил Real‑ESRGAN и FFmpeg в потоковый Windows‑апскейлер без гигантских временных папок

Средний

10 мин

5.8K

Обработка изображений * Open source * .NET * C# *

Ретроспектива

Из песочницы

Апскейлинг одного изображения через Real-ESRGAN обычно не вызывает особых проблем: выбираем модель, запускаем обработку и получаем результат. Но при работе с видео и большими наборами файлов быстро появляются дополнительные задачи: декодирование и сборка видео, очередь рендера, выбор видеокарты, обработка ошибок, восстановление прерванных заданий, зависимости вроде FFmpeg и понятный интерфейс для всего этого.

Мне хотелось получить обычное Windows-приложение, в которое можно перетащить видео, изображения или целую папку, выбрать параметры и оставить обработку выполняться без ручной работы с консольными командами.

Так появился UltraFrame AI — бесплатное приложение с открытым исходным кодом для пакетного апскейлинга видео и изображений с помощью Real-ESRGAN.

Читать далее

+6

Master_AI 14 июл в 16:17

Промпт-инжиниринг: как написать запрос для генерации изображения

Простой

15 мин

13K

Блог компании GPTunneLИскусственный интеллектГрафический дизайн * Обработка изображений * Машинное обучение *

Обзор

Привет, «Хабр»!

Примеры запросов наглядно показывают, как нейросеть расшифровывает текст и воплощает его в графике. В одном промпте можно задать абсолютно всё: от стиля и освещения до общего настроения, ракурса, текстур и окружения. При этом даже незначительное изменение формулировки способно поменять итоговый результат.

В этом гайде мы собрали примеры для разных направлений: реалистичного фото, иллюстрации, брендинга и дизайна, 3D-визуализации и т. д. Для каждого из стилей – также привели примеры результатов генерации.

+12

snk4tr 14 июл в 08:40

Alice AI ART 2.0: путь к unified‑модели, которая одинаково хорошо умеет генерировать и редактировать картинки

15 мин

11K

Блог компании ЯндексМашинное обучение * Искусственный интеллектАлгоритмы * Обработка изображений *

Привет, Хабр! На связи команда генеративных моделей в компьютерном зрении. Вместе с другими командами мы делаем мультимодального ассистента Алиса AI. Внутри него мы развиваем несколько вариантов визуальной генерации с помощью отдельной модели Alice AI ART. Два базовых сценария её работы — генерация по тексту (Text‑to‑Image, T2I) и редактирование по картинке с инструкцией (Image‑to‑Image, I2I). Именно о них пойдёт речь.

Всё это время эти сценарии жили как два разных стека: свои базовые модели, свои данные, свои метрики и, честно говоря, своя отдельная боль в разработке и поддержке.

В этом году мы поставили себе цель, которая звучала просто, а на практике оказалась полугодовым приключением: не только подтянуть качество, а сделать одну модель, которая одинаково хорошо умеет и в T2I, и в I2I. Внутри мы называем такой режим unified или просто uni. Вас ждёт рассказ об отдельных экспериментах и наблюдениях, которые помогли нам сделать первый шаг в этом направлении и привели нас к Alice AI ART 2.0, — включая те, которые красиво не сработали (спойлер: их хватало).

Читать далее

+24

Roman_Kuzmin 10 июл в 08:43

Ускоряем обработку изображений в OpenCV на RISC-V: алгоритмическая, низкоуровневая и компиляторная оптимизация

Сложный

7 мин

8.1K

Блог компании YADROМашинное обучение * Обработка изображений * Open source * Процессоры

Кейс

Привет, Хабр! Меня зовут Роман Кузьмин, я занимаюсь развитием фреймворков искусственного интеллекта в YADRO. В этой статье я расскажу о работе по оптимизации алгоритма компьютерного зрения — детекторе углов, основанном на глобальных и локальных свойствах кривизны, который реализован с помощью библиотеки OpenCV под архитектуру RISC-V.

С коллегами из НГТУ им. Р. Е. Алексеева мы добились лучшей эффективности алгоритма за счет подхода, включающего алгоритмические оптимизации и ручную векторизацию с использованием RVV. Я подробно опишу, что и где мы изменили, а в конце статьи оценю прогресс с помощью тестов на плате Lichee Pi 4a.

Читать далее

+19

PatientZero 9 июл в 06:23

Обфусцированный bash-скрипт CDN Akamai продаётся потребителям в розничных магазинах

5 мин

8.1K

Ненормальное программирование * Программирование * Управление продажами * Обработка изображений *

Перевод

Когда жена сказала мне: «Давай покажу футболку, которую я нашла...», у меня не было совершенно никаких предположений, но я определённо не ждал увидеть напечатанный на спине обфусцированный bash-скрипт, который выводит сообщение-пасхалку.

Я не любитель кликбейтных заголовков, но понимаю, почему редакторам они так нравятся. Заголовок статьи, строго говоря, совершенно правдив, но, наверно, не в том смысле, в котором вы бы ожидали. Обфусцированный код на самом деле оказался пасхалкой, он распространяется в магазинах Uniqlo в рамках кампании Peace for All на замечательных футболках, дизайн которых разработала Akamai.

Читать далее

+14

dnlayu 6 июл в 12:18

Как мы за $2k собрали управляемую мировую модель на базе Wan 2.1

Средний

12 мин

8K

Искусственный интеллектРазвитие стартапаРазработка игр * Обработка изображений *

Кейс

Из песочницы

Всем привет! Мы два 19-летних студента второго курса из Казахстана. В свободное от учёбы время мы развиваем DreamForge — собственный исследовательский проект в области интерактивных мировых моделей.

Сайт проекта: trydreamforge.com

Несколько лет мы с другом занимались инди‑разработкой игр и Minecraft модов. Один из этих модов со временем набрал миллионы загрузок и начал приносить достаточно денег, чтобы финансировать наши эксперименты с облачными GPU.

Читать далее

+10

ZackST 2 июл в 09:00

От 0 до 10 миллионов ИИ-проверок в месяц: как мы продуктивизировали CV в Пятёрочке за 8 месяцев

Средний

11 мин

8.2K

Блог компании X5 TechМашинное обучение * Искусственный интеллектОбработка изображений * Высоконагруженные системы *

Кейс

Статья про то, как CV-сервис вырос с MVP до 10 миллионов проверок фото в месяц и не развалился в проде.

🔧 Это не про «у нас классные модели» и не про «просто прикрутили YOLO», а про честную инженерную продуктивизацию. Про то как универсальный классификатор путал фарш с грязью, почему часть анкет всё равно лучше отдавать человеку, зачем отдельно мониторить качество моделей и что приходится чинить, когда реальный мир меняется быстрее обучающей выборки.

Внутри: компьютерное зрение, 26 моделей, 62 проверки, CNN, VLM, Triton, vLLM, Kafka, Human-in-the-loop, мониторинг качества, сезонность, баги под нагрузкой и немного «веган-версии ИИ».

Заходите, читайте и делитесь своим опытом продакшена ML-сервисов ❤️

Читать далее

+15

notdepot 1 июл в 08:10

Делаем отказоустойчивое файловое хранилище поверх JPEG-файлов

Простой

11 мин

6.5K

Python * Обработка изображений * Информационная безопасность *

Из песочницы

Что, если хранить зашифрованный контейнер не в одном файле, а распределять между несколькими JPEG-изображениями? Причём так, чтобы потеря части изображений не приводила к потере данных. В этой статье мы посмотрим, как может работать такая схема, и разберём её основные принципы без погружения в код.

Читать далее

+6

NeuroKirKorov 1 июл в 06:19

Контроль СИЗ на палубе судна: как из потока детекций собрать подтвержденное нарушение

5 мин

5.5K

Машинное обучение * Искусственный интеллектПромышленное программирование * Обработка изображений *

Заказчик контролирует технику безопасности на палубе судна: в рабочих зонах экипаж обязан быть в касках, спасательных жилетах и костюмах-поплавках. Визуальный контроль по камерам не масштабируется, оператор не сможет физически охватить все потоки за смену.

Задача: автоматически фиксировать нарушения ношения СИЗ (каски, спасательные жилеты, перчатки, костюмы-поплавки) в рабочих зонах на открытой палубе судна.

Читать далее

+4

wingrune 1 июл в 06:10

От пульта до полотенца — учим робота искать всё, что угодно

Сложный

11 мин

6.1K

Блог компании AIRIРобототехникаОбработка изображений * Алгоритмы * Машинное обучение *

Кейс

Привет, Хабр! Меня зовут Татьяна Земскова, я аспирантка МФТИ и научный сотрудник команды Embodied Agents лаборатории Cognitive AI Systems AIRI. Областью моих научных интересов является компьютерное зрение для робототехники. Я изучаю, в частности, то, каким образом робот может использовать различные модальности (текст, изображения, сегментационные маски объектов) для лучшего понимания сцены и навигации.

Желаемыми свойствами современных навигационных систем является их универсальность, минимальность сенсорного сетапа и быстрота принятия решений на борту робота. Сегодня мы поговорим о том, как мы вместе с коллегами (Алексеем Староверовым, Дмитрием Юдиным и Александром Пановым) смогли создать и обучить лёгкую (130М) трансформерную модель, способную доезжать до любых категорий объектов, заданных текстом. Полученный метод описан в свежей работе OVSegDT: Segmenting Transformer for Open‑Vocabulary Object Goal Navigation.

На веб‑странице проекта можно найти ссылку на открытый исходный код с инструкциями по запуску и ссылкой на предварительно обученные веса модели. Это позволяет как воспроизвести наши эксперименты, так и попробовать запустить модель самостоятельно на собственных данных в симуляторе или на реальном роботе. В этом посте мы обсудим основные особенности модели и то, как мы пришли к этому методу.

Читать далее

+4

Magnificus 30 июн в 08:56

Лучшие нейросети для картинок в 2026. Сравнение Midjourney, Qwen, FLUX, Nano Banana, GPT и Grok на одних промптах

Простой

17 мин

12K

Блог компании BotHubМашинное обучение * Программирование * Искусственный интеллектОбработка изображений *

Обзор

В 2026 году выбрать нейросеть для картинок часто сложнее, чем написать промпт. Моделей много, каждая обещает лучшее качество, а на деле у каждой есть свои особенности. Мы взяли шесть разных популярных моделей, прогнали шесть сценарных тестов на одинаковых промптах и собрали картинки, чтобы вы могли сравнить все своими глазами, а не по рекламным скриншотам.

Сегодняшние участники:

Midjourney (v7) | Qwen Image 2 Pro

FLUX 2 Max | Nano Banana Pro

GPT Image 2 | Grok Imagine (режим image quality)

У нас было: 6 моделей для генерации, 6 сценариев использвования, для всех моделей одинаковой промт и 4 критерия для оценки результат.

Победитель оказался неожиданными.

Читать далее

+19

fikstt2 29 июн в 12:11

Как я устал от CVAT и в соло написал десктопный инструмент для авторазметки датасетов на PyQt5

Средний

2 мин

6.3K

Python * Open source * Искусственный интеллектОбработка изображений *

Кейс

Из песочницы

Надоело разворачивать CVAT через докер и мириться с лагами браузера? Я расскажу свою историю, как от простецкого аннотатора собранного на коленке написал мощную легковесную отечественную альтернативу на PyQt5 и OpenGl, с пакетной авторазметкой и иерархией классов.

Читать далее

+3

pokrovsk 29 июн в 07:19

Как сделать видео из фото: делюсь простыми способами для начинающих

Простой

8 мин

5.7K

Windows * СофтРабота с видео * Обработка изображений *

Туториал

«Карусельки уже никто не листает, лайков будет кот наплакал», — заявила кузина. И сразу поставила задачу: покажи, как сделать видео из фото с отчетного концерта ее танцевального ансамбля, а еще лучше смонтируй ролик сам.

Я, конечно, мог посоветовать первое попавшееся приложение и с чистой совестью вернуться к своим делам. Но потом подумал: впереди выпускные, отпуска, да и просто лето — самое время фотографировать детей, друзей, прогулки, поездки и прочие важные события. Так что умение быстро смонтировать из фото небольшой ролик действительно может пригодиться многим. Поэтому подготовил обзор простых программ и сервисов с расчетом на то, чтобы не изучать монтаж неделями, а сделать приличный клип буквально на коленке.

Читать далее

+3

SilverAI 28 июн в 10:39

Как я делаю нейромультик про Михалыча

16 мин

8.4K

Искусственный интеллектДизайнОбработка изображений * Работа с видео *

Кейс

Из песочницы

У меня есть мультик про мебельщика Михалыча. Снят в жанре мокьюментари — как будто кто‑то пришел с камерой к небольшому производству и снял документалку про обычный рабочий день. Интервью на камеру, бытовые сцены, узнаваемые типажи. Только всё это нарисовано и анимировано нейросетями — без художника, без аниматора, без актеров.

Первую серию сделала, и вроде бы разобралась с процессом в целом. Но вторая оказалась сложнее, появился новый персонаж, сцены с двумя людьми в кадре, реквизит с текстом, который надо держать читаемым на протяжении всей анимации. Где‑то пришлось изобретать приёмы на ходу, где‑то переделывать по два‑три раза.

В этой статье — полный разбор второй серии по шагам: что делала, что не получилось сразу и как решала.

Как добиться от ИИ нормального результата

+5

xenon 24 июн в 13:55

Бесплатный фото-хостинг на Youtube, Rutube, Telegram, Max

Простой

4 мин

8.3K

Хранение данных * Работа с видео * Python * Обработка изображений *

Туториал

Из фото делаем слайдшоу видео и его заливаем (можно unlisted/private, чтобы никто не видел) на любую площадку, где хранят видео. Затем, если надо - скачиваем видео и извлекаем фото обратно. Потери качества - есть, но допустимые.

Идеально для резервного хранения фото.

https://github.com/yaroslaff/smugglerjpg

Получить свой безлимитный фотоальбом!

-4

SmartEngines 22 июн в 13:07

«Клиенты приходят не только из-за курса»: как РНКО «Металлург» 10 лет живет без ручного ввода паспорта

Простой

6 мин

7.7K

Блог компании Smart EnginesОбработка изображений * Искусственный интеллектАлгоритмы * Программирование *

Кейс

Привет, Хабр! На связи Smart Engines. Недавно мы провели открытый диалог с Егором Карасевым, первым заместителем Председателя Правления РНКО «Металлург», и обсудили наше сотрудничество длиной в 10 лет. Все это время компания использует технологии Smart Engines для распознавания паспортов клиентов в отделениях. Получился разговор не столько об OCR, сколько о том, как автоматизация меняет потоковое обслуживание, снижает нагрузку на сотрудников и помогает бизнесу не терять клиентов из-за ручного ввода данных.

Под катом – история о том, как паспортный сканер, взятый с выставки «на попробовать», стал частью банковского процесса, который работает уже одиннадцатый год.

Читать далее

+3

za-ek2 22 июн в 09:43

Как мы перестали проксировать картинки через бэкенд и подружили PWA c S3 через presigned URL

Средний

4 мин

6.9K

Веб-разработка * Обработка изображений *

Кейс

Из песочницы

Когда в нашем PWA‑приложении возникла задача добавить загрузку изображений, первое, что пришло в голову — классическая схема: клиент → бэкенд → S3. Но стоило копнуть глубже и учесть особенности PWA (офлайн, кэширование), несколько типов файлов с разными правами доступа и требования масштабирования, как наивное решение рассыпалось. В итоге мы пришли к архитектуре с presigned URL, разгрузили бэкенд и получили гибкую систему модерации. Делюсь этим опытом и ключевыми шишками, которые набил.

Читать далее

+6

cnet 19 июн в 07:05

Можно ли «посмотреть за угол»? Физика отвечает: да, конечно, никаких проблем

8 мин

13K

Блог компании BegetЧитальный залЛайфхаки для гиковФизикаОбработка изображений *

История эта началась достаточно давно, ещё в XIX веке, начавшись с одного из переломных моментов, изменивших мнение учёных о природе света, и, много позже, уже в наше время, приведя к поразительным результатам, полностью подтверждающим сказанное в заголовке статьи… ;-)

Читать далее

+38

SmartEngines 17 июн в 15:31

Ваш KYC не работает: почему цифровые подделки документов стали опаснее бумажных

Простой

7 мин

9.6K

Блог компании Smart EnginesОбработка изображений * Машинное обучение * Открытые данные *

Когда говорят о подделке документов, обычно подразумевают попытку обмануть человека. Но сегодня документы все чаще проверяют не сотрудники банков и служб безопасности, а алгоритмы цифрового онбординга, KYC и удаленной идентификации.

Поэтому появились подделки нового типа — рассчитанные не на людей, а на компьютеры. Их задача не выглядеть идеально, а заставить систему распознавания извлечь нужные реквизиты и пропустить заявку дальше.

Как выглядят такие атаки, почему существующие решения часто оказываются к ним не готовы и зачем мы создали открытый датасет цифровых подделок документов MIDV-DM — расскажем под катом.

Читать далее

+4

aGGre55or 15 июн в 06:00

Забытый мультиколор (часть 4)

Простой

9 мин

7.5K

Демосцена * Программирование * Разработка игр * Обработка изображений * Ненормальное программирование *

Туториал

Полное руководство по аппаратному мультиколору для тех, кто не знает, что это такое и зачем он нужен.

Преимущества и недостатки, прототип игры, перспективы

Читать далее

+7

1

2 3 ...