Все потоки

Обработка изображений *

Работаем с фото и видео

63,88

Рейтинг

СтатьиПостыНовостиАвторыКомпании

PatientZero 3 часа назад

Обфусцированный bash-скрипт CDN Akamai продаётся потребителям в розничных магазинах

5 мин

3.4K

Ненормальное программирование * Программирование * Управление продажами * Обработка изображений *

Перевод

Когда жена сказала мне: «Давай покажу футболку, которую я нашла...», у меня не было совершенно никаких предположений, но я определённо не ждал увидеть напечатанный на спине обфусцированный bash-скрипт, который выводит сообщение-пасхалку.

Я не любитель кликбейтных заголовков, но понимаю, почему редакторам они так нравятся. Заголовок статьи, строго говоря, совершенно правдив, но, наверно, не в том смысле, в котором вы бы ожидали. Обфусцированный код на самом деле оказался пасхалкой, он распространяется в магазинах Uniqlo в рамках кампании Peace for All на замечательных футболках, дизайн которых разработала Akamai.

Читать далее

+5

dnlayu 6 июл в 12:18

Как мы за $2k собрали управляемую мировую модель на базе Wan 2.1

Средний

12 мин

7.7K

Искусственный интеллектРазвитие стартапаРазработка игр * Обработка изображений *

Кейс

Из песочницы

Всем привет! Мы два 19-летних студента второго курса из Казахстана. В свободное от учёбы время мы развиваем DreamForge — собственный исследовательский проект в области интерактивных мировых моделей.

Сайт проекта: trydreamforge.com

Несколько лет мы с другом занимались инди‑разработкой игр и Minecraft модов. Один из этих модов со временем набрал миллионы загрузок и начал приносить достаточно денег, чтобы финансировать наши эксперименты с облачными GPU.

Читать далее

+10

NeuroKirKorov 6 июл в 05:21

3D-контроль кузова: как отличить исправную фуру от бракованной без участия человека

Средний

6 мин

8.9K

Машинное обучение * Алгоритмы * IT-инфраструктура * Обработка изображений *

Кейс

Клиент - производитель строительных материалов.

Каждый день на погрузку стройматериалов приезжают десятки фур. При этом, габариты паллет, на которых грузят материалы, фиксированы жестко, а вот реальные размеры машин — нет. Внешне кузов может выглядеть ровным прямоугольником, а внутри могут быть скрыты «сюрпризы»: заниженная к кабине крыша, выгнутые борта или самодельные крючки на дверных стойках. Глазом эту кривизну не оценить.

В момент погрузки, вилочный погрузчик заносит паллету шириной 2,40 метра, а она упирается в “неучтенный” выступ внутри кузова. Цена такой ошибки — повреждённый груз, развёрнутая на КПП машина, простой ворот, сорванный график отгрузки.

Решение заказчика: поставить человека на осмотр: сотрудник заглядывает в кузов и по визуальному осмотру решает, грузить фуру или разворачивать. Это медленно, субъективно, не масштабируется, а отказы по геометрии кузова составляют заметную долю разворотов.

Задача, которую решала наша команда: автоматизировать осмотр кузова перед погрузкой. Убрать сотрудника из точки принятия решения и выдавать решение “грузить / не грузить” на основании математических расчетов и реальной геометрии.

Планка задана высокая. Нужно замерять сразу три габарита:

Читать далее

+2

ZackST 2 июл в 09:00

От 0 до 10 миллионов ИИ-проверок в месяц: как мы продуктивизировали CV в Пятёрочке за 8 месяцев

Средний

11 мин

8K

Блог компании X5 TechМашинное обучение * Искусственный интеллектОбработка изображений * Высоконагруженные системы *

Кейс

Статья про то, как CV-сервис вырос с MVP до 10 миллионов проверок фото в месяц и не развалился в проде.

🔧 Это не про «у нас классные модели» и не про «просто прикрутили YOLO», а про честную инженерную продуктивизацию. Про то как универсальный классификатор путал фарш с грязью, почему часть анкет всё равно лучше отдавать человеку, зачем отдельно мониторить качество моделей и что приходится чинить, когда реальный мир меняется быстрее обучающей выборки.

Внутри: компьютерное зрение, 26 моделей, 62 проверки, CNN, VLM, Triton, vLLM, Kafka, Human-in-the-loop, мониторинг качества, сезонность, баги под нагрузкой и немного «веган-версии ИИ».

Заходите, читайте и делитесь своим опытом продакшена ML-сервисов ❤️

Читать далее

+15

arabramov 1 июл в 08:10

Делаем отказоустойчивое файловое хранилище поверх JPEG-файлов

Простой

11 мин

6.4K

Python * Обработка изображений * Информационная безопасность *

Из песочницы

Что, если хранить зашифрованный контейнер не в одном файле, а распределять между несколькими JPEG-изображениями? Причём так, чтобы потеря части изображений не приводила к потере данных. В этой статье мы посмотрим, как может работать такая схема, и разберём её основные принципы без погружения в код.

Читать далее

+6

NeuroKirKorov 1 июл в 06:19

Контроль СИЗ на палубе судна: как из потока детекций собрать подтвержденное нарушение

5 мин

5.4K

Машинное обучение * Искусственный интеллектПромышленное программирование * Обработка изображений *

Заказчик контролирует технику безопасности на палубе судна: в рабочих зонах экипаж обязан быть в касках, спасательных жилетах и костюмах-поплавках. Визуальный контроль по камерам не масштабируется, оператор не сможет физически охватить все потоки за смену.

Задача: автоматически фиксировать нарушения ношения СИЗ (каски, спасательные жилеты, перчатки, костюмы-поплавки) в рабочих зонах на открытой палубе судна.

Читать далее

+4

wingrune 1 июл в 06:10

От пульта до полотенца — учим робота искать всё, что угодно

Сложный

11 мин

6K

Блог компании AIRIРобототехникаОбработка изображений * Алгоритмы * Машинное обучение *

Кейс

Привет, Хабр! Меня зовут Татьяна Земскова, я аспирантка МФТИ и научный сотрудник команды Embodied Agents лаборатории Cognitive AI Systems AIRI. Областью моих научных интересов является компьютерное зрение для робототехники. Я изучаю, в частности, то, каким образом робот может использовать различные модальности (текст, изображения, сегментационные маски объектов) для лучшего понимания сцены и навигации.

Желаемыми свойствами современных навигационных систем является их универсальность, минимальность сенсорного сетапа и быстрота принятия решений на борту робота. Сегодня мы поговорим о том, как мы вместе с коллегами (Алексеем Староверовым, Дмитрием Юдиным и Александром Пановым) смогли создать и обучить лёгкую (130М) трансформерную модель, способную доезжать до любых категорий объектов, заданных текстом. Полученный метод описан в свежей работе OVSegDT: Segmenting Transformer for Open‑Vocabulary Object Goal Navigation.

На веб‑странице проекта можно найти ссылку на открытый исходный код с инструкциями по запуску и ссылкой на предварительно обученные веса модели. Это позволяет как воспроизвести наши эксперименты, так и попробовать запустить модель самостоятельно на собственных данных в симуляторе или на реальном роботе. В этом посте мы обсудим основные особенности модели и то, как мы пришли к этому методу.

Читать далее

+4

Magnificus 30 июн в 08:56

Лучшие нейросети для картинок в 2026. Сравнение Midjourney, Qwen, FLUX, Nano Banana, GPT и Grok на одних промптах

Простой

17 мин

11K

Блог компании BotHubМашинное обучение * Программирование * Искусственный интеллектОбработка изображений *

Обзор

В 2026 году выбрать нейросеть для картинок часто сложнее, чем написать промпт. Моделей много, каждая обещает лучшее качество, а на деле у каждой есть свои особенности. Мы взяли шесть разных популярных моделей, прогнали шесть сценарных тестов на одинаковых промптах и собрали картинки, чтобы вы могли сравнить все своими глазами, а не по рекламным скриншотам.

Сегодняшние участники:

Midjourney (v7) | Qwen Image 2 Pro

FLUX 2 Max | Nano Banana Pro

GPT Image 2 | Grok Imagine (режим image quality)

У нас было: 6 моделей для генерации, 6 сценариев использвования, для всех моделей одинаковой промт и 4 критерия для оценки результат.

Победитель оказался неожиданными.

Читать далее

+18

fikstt2 29 июн в 12:11

Как я устал от CVAT и в соло написал десктопный инструмент для авторазметки датасетов на PyQt5

Средний

2 мин

6.2K

Python * Open source * Искусственный интеллектОбработка изображений *

Кейс

Из песочницы

Надоело разворачивать CVAT через докер и мириться с лагами браузера? Я расскажу свою историю, как от простецкого аннотатора собранного на коленке написал мощную легковесную отечественную альтернативу на PyQt5 и OpenGl, с пакетной авторазметкой и иерархией классов.

Читать далее

+3

pokrovsk 29 июн в 07:19

Как сделать видео из фото: делюсь простыми способами для начинающих

Простой

8 мин

5.6K

Windows * СофтРабота с видео * Обработка изображений *

Туториал

«Карусельки уже никто не листает, лайков будет кот наплакал», — заявила кузина. И сразу поставила задачу: покажи, как сделать видео из фото с отчетного концерта ее танцевального ансамбля, а еще лучше смонтируй ролик сам.

Я, конечно, мог посоветовать первое попавшееся приложение и с чистой совестью вернуться к своим делам. Но потом подумал: впереди выпускные, отпуска, да и просто лето — самое время фотографировать детей, друзей, прогулки, поездки и прочие важные события. Так что умение быстро смонтировать из фото небольшой ролик действительно может пригодиться многим. Поэтому подготовил обзор простых программ и сервисов с расчетом на то, чтобы не изучать монтаж неделями, а сделать приличный клип буквально на коленке.

Читать далее

+3

SilverAI 28 июн в 10:39

Как я делаю нейромультик про Михалыча

16 мин

8.3K

Искусственный интеллектДизайнОбработка изображений * Работа с видео *

Кейс

Из песочницы

У меня есть мультик про мебельщика Михалыча. Снят в жанре мокьюментари — как будто кто‑то пришел с камерой к небольшому производству и снял документалку про обычный рабочий день. Интервью на камеру, бытовые сцены, узнаваемые типажи. Только всё это нарисовано и анимировано нейросетями — без художника, без аниматора, без актеров.

Первую серию сделала, и вроде бы разобралась с процессом в целом. Но вторая оказалась сложнее, появился новый персонаж, сцены с двумя людьми в кадре, реквизит с текстом, который надо держать читаемым на протяжении всей анимации. Где‑то пришлось изобретать приёмы на ходу, где‑то переделывать по два‑три раза.

В этой статье — полный разбор второй серии по шагам: что делала, что не получилось сразу и как решала.

Как добиться от ИИ нормального результата

+5

xenon 24 июн в 13:55

Бесплатный фото-хостинг на Youtube, Rutube, Telegram, Max

Простой

4 мин

8.3K

Хранение данных * Работа с видео * Python * Обработка изображений *

Туториал

Из фото делаем слайдшоу видео и его заливаем (можно unlisted/private, чтобы никто не видел) на любую площадку, где хранят видео. Затем, если надо - скачиваем видео и извлекаем фото обратно. Потери качества - есть, но допустимые.

Идеально для резервного хранения фото.

https://github.com/yaroslaff/smugglerjpg

Получить свой безлимитный фотоальбом!

-4

SmartEngines 22 июн в 13:07

«Клиенты приходят не только из-за курса»: как РНКО «Металлург» 10 лет живет без ручного ввода паспорта

Простой

6 мин

7.7K

Блог компании Smart EnginesПрограммирование * Алгоритмы * Искусственный интеллектОбработка изображений *

Кейс

Привет, Хабр! На связи Smart Engines. Недавно мы провели открытый диалог с Егором Карасевым, первым заместителем Председателя Правления РНКО «Металлург», и обсудили наше сотрудничество длиной в 10 лет. Все это время компания использует технологии Smart Engines для распознавания паспортов клиентов в отделениях. Получился разговор не столько об OCR, сколько о том, как автоматизация меняет потоковое обслуживание, снижает нагрузку на сотрудников и помогает бизнесу не терять клиентов из-за ручного ввода данных.

Под катом – история о том, как паспортный сканер, взятый с выставки «на попробовать», стал частью банковского процесса, который работает уже одиннадцатый год.

Читать далее

+3

za-ek2 22 июн в 09:43

Как мы перестали проксировать картинки через бэкенд и подружили PWA c S3 через presigned URL

Средний

4 мин

6.9K

Веб-разработка * Обработка изображений *

Кейс

Из песочницы

Когда в нашем PWA‑приложении возникла задача добавить загрузку изображений, первое, что пришло в голову — классическая схема: клиент → бэкенд → S3. Но стоило копнуть глубже и учесть особенности PWA (офлайн, кэширование), несколько типов файлов с разными правами доступа и требования масштабирования, как наивное решение рассыпалось. В итоге мы пришли к архитектуре с presigned URL, разгрузили бэкенд и получили гибкую систему модерации. Делюсь этим опытом и ключевыми шишками, которые набил.

Читать далее

+6

cnet 19 июн в 07:05

Можно ли «посмотреть за угол»? Физика отвечает: да, конечно, никаких проблем

8 мин

13K

Блог компании BegetФизикаЛайфхаки для гиковЧитальный залОбработка изображений *

История эта началась достаточно давно, ещё в XIX веке, начавшись с одного из переломных моментов, изменивших мнение учёных о природе света, и, много позже, уже в наше время, приведя к поразительным результатам, полностью подтверждающим сказанное в заголовке статьи… ;-)

Читать далее

+38

SmartEngines 17 июн в 15:31

Ваш KYC не работает: почему цифровые подделки документов стали опаснее бумажных

Простой

7 мин

9.6K

Блог компании Smart EnginesОбработка изображений * Машинное обучение * Открытые данные *

Когда говорят о подделке документов, обычно подразумевают попытку обмануть человека. Но сегодня документы все чаще проверяют не сотрудники банков и служб безопасности, а алгоритмы цифрового онбординга, KYC и удаленной идентификации.

Поэтому появились подделки нового типа — рассчитанные не на людей, а на компьютеры. Их задача не выглядеть идеально, а заставить систему распознавания извлечь нужные реквизиты и пропустить заявку дальше.

Как выглядят такие атаки, почему существующие решения часто оказываются к ним не готовы и зачем мы создали открытый датасет цифровых подделок документов MIDV-DM — расскажем под катом.

Читать далее

+4

aGGre55or 15 июн в 06:00

Забытый мультиколор (часть 4)

Простой

9 мин

7.5K

Демосцена * Программирование * Разработка игр * Обработка изображений * Ненормальное программирование *

Туториал

Полное руководство по аппаратному мультиколору для тех, кто не знает, что это такое и зачем он нужен.

Преимущества и недостатки, прототип игры, перспективы

Читать далее

+7

Xronofag 14 июн в 08:48

Как за один вечер разгрести 36 000 фотографий и почту с 2005 года, руками AI-агента и локальных моделей

Средний

10 мин

22K

Искусственный интеллектМашинное обучение * Обработка изображений * Open source * Лайфхаки для гиков

Туториал

Есть задачи, которые не делаются никогда. Не потому что сложные, а потому что объём убивает любое намерение на втором часу. У меня такой задачей был фотоархив: около 36 000 фото и видео, 222 ГБ, копившиеся 20 лет и размазанные вообще везде. Время пришло :)

Читать далее

+43

ashotagabekov 12 июн в 15:02

Я научил небольшой Transformer генерировать цифры одной нитью

Средний

8 мин

12K

Python * Машинное обучение * Обработка изображений *

Кейс

Наверняка вы видели портреты, собранные из одной нити, натянутой между сотнями гвоздей. Я решил проверить: можно ли научить нейросеть генерировать не готовую картинку, а инструкцию, по которой такая картинка строится?

Я провел простой эксперимент и превратил цифры MNIST в последовательности переходов между 256 гвоздями и обучил небольшой Transformer продолжать путь нити. В результате модель выдаёт не PNG, а JSON-траекторию, которую можно отрисовать в любом разрешении - или потенциально передать физической string-art установке.

Код выложил на GitHub

Читать далее

+12

SmartEngines 11 июн в 15:42

Встраиваем проверку возраста без ЕБС в Telegram, MAX и любой другой мессенджер

Простой

5 мин

9.7K

Блог компании Smart EnginesВеб-разработка * Информационная безопасность * Обработка изображений * Мессенджеры *

Туториал

Привет, Хабр! Говоря о проверке возраста для доступа к онлайн-платформам, нельзя обойти стороной один из наиболее очевидных кейсов: мессенджеры. Они давно вышли за рамки простого обмена сообщениями – и для многих новых функций есть конкретные возрастные ограничения. В этой статье мы поговорим о том, как за пару минут интегрировать распознавание паспорта для удобной возрастной идентификации в мини-приложение мессенджера – без биометрии, ЕБС и раскрытия персональных данных. С кодом и видео. В общем, заглядывайте под кат!

Читать далее

+2

1

2 3 ...