Обновить
128K+

Обработка изображений *

Работаем с фото и видео

76,16
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Делаем отказоустойчивое файловое хранилище поверх JPEG-файлов

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели3.8K

Что, если хранить зашифрованный контейнер не в одном файле, а распределять между несколькими JPEG-изображениями? Причём так, чтобы потеря части изображений не приводила к потере данных. В этой статье мы посмотрим, как может работать такая схема, и разберём её основные принципы без погружения в код.

Читать далее

Новости

Контроль СИЗ на палубе судна: как из потока детекций собрать подтвержденное нарушение

Время на прочтение5 мин
Охват и читатели3.9K

Заказчик контролирует технику безопасности на палубе судна: в рабочих зонах экипаж обязан быть в касках, спасательных жилетах и костюмах-поплавках. Визуальный контроль по камерам не масштабируется, оператор не сможет физически охватить все потоки за смену.

Задача: автоматически фиксировать нарушения ношения СИЗ (каски, спасательные жилеты, перчатки, костюмы-поплавки) в рабочих зонах на открытой палубе судна. 

Читать далее

От пульта до полотенца — учим робота искать всё, что угодно

Уровень сложностиСложный
Время на прочтение11 мин
Охват и читатели4.4K

Привет, Хабр! Меня зовут Татьяна Земскова, я аспирантка МФТИ и научный сотрудник команды Embodied Agents лаборатории Cognitive AI Systems AIRI. Областью моих научных интересов является компьютерное зрение для робототехники. Я изучаю, в частности, то, каким образом робот может использовать различные модальности (текст, изображения, сегментационные маски объектов) для лучшего понимания сцены и навигации. 

Желаемыми свойствами современных навигационных систем является их универсальность, минимальность сенсорного сетапа и быстрота принятия решений на борту робота. Сегодня мы поговорим о том, как мы вместе с коллегами (Алексеем Староверовым, Дмитрием Юдиным и Александром Пановым) смогли создать и обучить лёгкую (130М) трансформерную модель, способную доезжать до любых категорий объектов, заданных текстом. Полученный метод описан в свежей работе OVSegDT: Segmenting Transformer for Open‑Vocabulary Object Goal Navigation.

На веб‑странице проекта можно найти ссылку на открытый исходный код с инструкциями по запуску и ссылкой на предварительно обученные веса модели. Это позволяет как воспроизвести наши эксперименты, так и попробовать запустить модель самостоятельно на собственных данных в симуляторе или на реальном роботе. В этом посте мы обсудим основные особенности модели и то, как мы пришли к этому методу.

Читать далее

Лучшие нейросети для картинок в 2026. Сравнение Midjourney, Qwen, FLUX, Nano Banana, GPT и Grok на одних промптах

Уровень сложностиПростой
Время на прочтение17 мин
Охват и читатели8.1K

В 2026 году выбрать нейросеть для картинок часто сложнее, чем написать промпт. Моделей много, каждая обещает лучшее качество, а на деле у каждой есть свои особенности. Мы взяли шесть разных популярных моделей, прогнали шесть сценарных тестов на одинаковых промптах и собрали картинки, чтобы вы могли сравнить все своими глазами, а не по рекламным скриншотам.

Сегодняшние участники:

Midjourney (v7) | Qwen Image 2 Pro

FLUX 2 Max | Nano Banana Pro

GPT Image 2 | Grok Imagine (режим image quality)

У нас было: 6 моделей для генерации, 6 сценариев использвования, для всех моделей одинаковой промт и 4 критерия для оценки результат.

Победитель оказался неожиданными.

Читать далее

Как я устал от CVAT и в соло написал десктопный инструмент для авторазметки датасетов на PyQt5

Уровень сложностиСредний
Время на прочтение2 мин
Охват и читатели5.8K

Надоело разворачивать CVAT через докер и мириться с лагами браузера? Я расскажу свою историю, как от простецкого аннотатора собранного на коленке написал мощную легковесную отечественную альтернативу на PyQt5 и OpenGl, с пакетной авторазметкой и иерархией классов.

Читать далее

Как сделать видео из фото: делюсь простыми способами для начинающих

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели5.2K

«Карусельки уже никто не листает, лайков будет кот наплакал», — заявила кузина. И сразу поставила задачу: покажи, как сделать видео из фото с отчетного концерта ее танцевального ансамбля, а еще лучше смонтируй ролик сам. 

Я, конечно, мог посоветовать первое попавшееся приложение и с чистой совестью вернуться к своим делам. Но потом подумал: впереди выпускные, отпуска, да и просто лето — самое время фотографировать детей, друзей, прогулки, поездки и прочие важные события. Так что умение быстро смонтировать из фото небольшой ролик действительно может пригодиться многим. Поэтому подготовил обзор простых программ и сервисов с расчетом на то, чтобы не изучать монтаж неделями, а сделать приличный клип буквально на коленке.

Читать далее

Как я делаю нейромультик про Михалыча

Время на прочтение16 мин
Охват и читатели8K

У меня есть мультик про мебельщика Михалыча. Снят в жанре мокьюментари — как будто кто‑то пришел с камерой к небольшому производству и снял документалку про обычный рабочий день. Интервью на камеру, бытовые сцены, узнаваемые типажи. Только всё это нарисовано и анимировано нейросетями — без художника, без аниматора, без актеров.

Первую серию сделала, и вроде бы разобралась с процессом в целом. Но вторая оказалась сложнее, появился новый персонаж, сцены с двумя людьми в кадре, реквизит с текстом, который надо держать читаемым на протяжении всей анимации. Где‑то пришлось изобретать приёмы на ходу, где‑то переделывать по два‑три раза.

В этой статье — полный разбор второй серии по шагам: что делала, что не получилось сразу и как решала.

Как добиться от ИИ нормального результата

Бесплатный фото-хостинг на Youtube, Rutube, Telegram, Max

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели8.1K

Из фото делаем слайдшоу видео и его заливаем (можно unlisted/private, чтобы никто не видел) на любую площадку, где хранят видео. Затем, если надо - скачиваем видео и извлекаем фото обратно. Потери качества - есть, но допустимые.

Идеально для резервного хранения фото.

https://github.com/yaroslaff/smugglerjpg

Получить свой безлимитный фотоальбом!

«Клиенты приходят не только из-за курса»: как РНКО «Металлург» 10 лет живет без ручного ввода паспорта

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели7.6K

Привет, Хабр! На связи Smart Engines. Недавно мы провели открытый диалог с Егором Карасевым, первым заместителем Председателя Правления РНКО «Металлург», и обсудили наше сотрудничество длиной в 10 лет. Все это время компания использует технологии Smart Engines для распознавания паспортов клиентов в отделениях. Получился разговор не столько об OCR, сколько о том, как автоматизация меняет потоковое обслуживание, снижает нагрузку на сотрудников и помогает бизнесу не терять клиентов из-за ручного ввода данных.

Под катом – история о том, как паспортный сканер, взятый с выставки «на попробовать», стал частью банковского процесса, который работает уже одиннадцатый год.

Читать далее

Как мы перестали проксировать картинки через бэкенд и подружили PWA c S3 через presigned URL

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели6.8K

Когда в нашем PWA‑приложении возникла задача добавить загрузку изображений, первое, что пришло в голову — классическая схема: клиент → бэкенд → S3. Но стоило копнуть глубже и учесть особенности PWA (офлайн, кэширование), несколько типов файлов с разными правами доступа и требования масштабирования, как наивное решение рассыпалось. В итоге мы пришли к архитектуре с presigned URL, разгрузили бэкенд и получили гибкую систему модерации. Делюсь этим опытом и ключевыми шишками, которые набил.

Читать далее

Можно ли «посмотреть за угол»? Физика отвечает: да, конечно, никаких проблем

Время на прочтение8 мин
Охват и читатели13K

История эта началась достаточно давно, ещё в XIX веке, начавшись с одного из переломных моментов, изменивших мнение учёных о природе света, и, много позже, уже в наше время, приведя к поразительным результатам, полностью подтверждающим сказанное в заголовке статьи… ;-) 

Читать далее

Ваш KYC не работает: почему цифровые подделки документов стали опаснее бумажных

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели9.5K

Когда говорят о подделке документов, обычно подразумевают попытку обмануть человека. Но сегодня документы все чаще проверяют не сотрудники банков и служб безопасности, а алгоритмы цифрового онбординга, KYC и удаленной идентификации.

Поэтому появились подделки нового типа — рассчитанные не на людей, а на компьютеры. Их задача не выглядеть идеально, а заставить систему распознавания извлечь нужные реквизиты и пропустить заявку дальше.

Как выглядят такие атаки, почему существующие решения часто оказываются к ним не готовы и зачем мы создали открытый датасет цифровых подделок документов MIDV-DM — расскажем под катом.

Читать далее

Забытый мультиколор (часть 4)

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели7.4K

Полное руководство по аппаратному мультиколору для тех, кто не знает, что это такое и зачем он нужен.

Преимущества и недостатки, прототип игры, перспективы

Читать далее

Ближайшие события

Как за один вечер разгрести 36 000 фотографий и почту с 2005 года, руками AI-агента и локальных моделей

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели22K

Есть задачи, которые не делаются никогда. Не потому что сложные, а потому что объём убивает любое намерение на втором часу. У меня такой задачей был фотоархив: около 36 000 фото и видео, 222 ГБ, копившиеся 20 лет и размазанные вообще везде. Время пришло :)

Читать далее

Я научил небольшой Transformer генерировать цифры одной нитью

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели12K

Наверняка вы видели портреты, собранные из одной нити, натянутой между сотнями гвоздей. Я решил проверить: можно ли научить нейросеть генерировать не готовую картинку, а инструкцию, по которой такая картинка строится?

Я провел простой эксперимент и превратил цифры MNIST в последовательности переходов между 256 гвоздями и обучил небольшой Transformer продолжать путь нити. В результате модель выдаёт не PNG, а JSON-траекторию, которую можно отрисовать в любом разрешении - или потенциально передать физической string-art установке.

Код выложил на GitHub

Читать далее

Встраиваем проверку возраста без ЕБС в Telegram, MAX и любой другой мессенджер

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели9.6K

Привет, Хабр! Говоря о проверке возраста для доступа к онлайн-платформам, нельзя обойти стороной один из наиболее очевидных кейсов: мессенджеры. Они давно вышли за рамки простого обмена сообщениями – и для многих новых функций есть конкретные возрастные ограничения. В этой статье мы поговорим о том, как за пару минут интегрировать распознавание паспорта для удобной возрастной идентификации в мини-приложение мессенджера – без биометрии, ЕБС и раскрытия персональных данных. С кодом и видео. В общем, заглядывайте под кат!

Читать далее

Дообучаем FLUX.2 [klein] за час на одной видеокарте: LoRA, Diffusers и Gradio без лишней боли

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели14K

FLUX.2 [klein] достаточно компактна, чтобы дообучать её на одной потребительской видеокарте. Прогон обучения LoRA для 4B-модели укладывается в 24 ГБ VRAM, занимает около часа на RTX 4090 и стоит примерно $0.50, если арендовать GPU. В этом гайде пройдём весь цикл: соберём датасет, настроим тренер, запустим обучение, загрузим результат в diffusers и завернём всё в Gradio-приложение, которое можно выложить как Hugging Face Space.

К концу у вас будет LoRA в формате .safetensors, которая научит klein конкретному стилю, персонажу, визуальному образу или поведению при редактировании. А ещё — несколько важных нюансов, от которых зависит, получится ли результат пригодным или превратится в кашу.

Собрать свою LoRA

Проверка возраста без персональных данных и биометрии: встраиваем в веб-страницу за 5 минут

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели10K

Продолжаем рассказывать об альтернативном способе подтверждения возраста на веб-ресурсах без использования биометрии, интеграции с ЕБС и раскрытия персональных данных. О том, как это можно сделать, мы подробно писали в прошлой статье. Теперь разберемся, как реализовать подобный сценарий с помощью WebAssembly и какие возможности это открывает для веб-платформ. В этом материале показываем код, ищите под катом. 

Читать далее

Как я сделал Smart Select для Krita: локальное AI-выделение объектов по лассо

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели6.4K

Я недавно начал пользоваться Krita, и после Фотошопа основной болью для меня было отсутствие удобного инструмента для умного выделения объектов выделения объектов.

Мне захотелось попробовать сделать плагин, который будет реализовывать такую функцию, используя локальную модель.

Идея простая:

1. Пользователь обводит объект лассо.
2. Нажимает кнопку Select object with AI.
3. Плагин локально строит мягкую alpha-маску.
4. Krita получает обычное выделение, с которым дальше можно работать штатными
   инструментами.

Назвать плагин я решил Krita Smart Select.

Репозиторий:
https://github.com/BMFreed/krita-smart-select

Релизы:
https://github.com/BMFreed/krita-smart-select/releases

Читать далее

Совершеннолетний без лишних разглашений: можно ли проверить возраст пользователя без биометрии, ЕБС и рисков утечек

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели8.1K

Привет, Хабр! Пока Минцифры изучает введение возрастной идентификации на онлайн-платформах и весь мир ищет способы проверять возраст пользователей, не подвергая риску конфиденциальность их персональных данных, мы в Smart Engines пришли с готовым решением. В этой статье рассказываем о простом способе идентификации возраста пользователей в веб-среде, который не требует биометрии, раскрытия персональных данных и не несет рисков утечек. Мы реализовали это с помощью WASM-модуля, который позволяет решать задачу проверки возраста в интернете также надежно и безопасно для пользователя, как и в обычной жизни. Заглядывайте под кат!

Читать далее
1
23 ...