Все потоки
Поиск
Написать публикацию
Обновить
56.74

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Как мы строили KidFolio — цифровую платформу для родителей и детских садов

Время на прочтение10 мин
Количество просмотров776

Массовые фото из детского сада в родительских чатах редко бывают персональными: на десятках снимков сложно найти именно своего ребенка. Выпускники онлайн-магистратуры «Науки о данных» Центра «Пуск» МФТИ предложили решение — платформу KidFolio, которая с помощью технологий компьютерного зрения и мультимодальных моделей автоматически формирует и отправляет родителям персонализированные фото- и видеоотчеты.

В статье — подробности разработки: от сбора датасета детских лиц до создания собственного бенчмарка и дообучения моделей для генерации текстов.

Читать далее

Как мы улучшили режим ночной съемки в планшетах KVADRA_T

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.9K

Привет, Хабр! На связи Полина Лукичева, инженер команды AI ML Kit в компании YADRO. В первой статье я рассказала о проблемах режима ночной съемки и методах их решения. Сегодня перехожу к практике — проведу предметное сравнение алгоритмов, выберу наиболее подходящие и покажу, как они работают в реальных условиях на планшетах KVADRA_T.

Для наших заказчиков качественные снимки в условиях низкой освещенности — рабочая необходимость. Планшет поможет снять показания со счетчика в темном подвале или сфотографировать паспорт клиента в коридоре с минимальными шумами и максимальной четкостью.

Читать далее

Современные форматы изображений или почему мы до сих пор на JPEG?

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров6.5K

Формат JPEG появился в 1992 году и стал де-факто стандартом хранения фотографий в интернете. Спустя более 30 лет появляются всё более эффективные и продвинутые альтернативы: WebP, AVIF, JPEG XL и другие. Однако даже в 2025 году JPEG продолжает доминировать. Почему так происходит, несмотря на очевидные преимущества новых форматов? В этой статье мы проведем обзор форматов и разберёмся в причинах.

Читать далее

VHS-Decode — новый метод оцифровки видео

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров23K

Несмотря на то, что видеокассеты уже давно вышли из повседневной жизни, услуги по их оцифровке продолжают пользоваться спросом. Кассеты с любительскими записями есть почти в каждой семье, и рано или поздно их нужно перевести в цифру, ведь срок жизни магнитной ленты ограничен.

Зимой 2025 года в мои руки попало 35 кассет формата VHS и VHS-C из семейного архива, и встала задача по их оцифровке. С учетом того, что на каждой кассете было записано приблизительно по 60 минут видео, а средний ценник услуг по захвату сейчас составляет 400 рублей в час, общая стоимость конвертации составила бы около 14 тысяч рублей. Эта сумма показалась мне слишком большой, и было решено сделать все самостоятельно. В данной статье я хочу рассказать об относительно новом методе оцифровки видеокассет, на котором я остановился, и сравнить его с классическими подходами.

Читать далее

Создаем датасет печатных букв с любым шрифтом за 170 строк

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров890

В этой работе разбирается простой способ генерации изображений букв для подготовки данных для обучения нейронной сети для классификации (распознавания) букв русского алфавита.

Читать далее

Сравнение форматов PNG: от первой до третьей редакции

Уровень сложностиПростой
Время на прочтение30 мин
Количество просмотров3.1K

Недавно опубликованная третья редакция спецификации Portable Network Graphics (PNG) 2025 года, разработанная World Wide Web Consortium (W3C), привлекла внимание к эволюции этого формата (W3C PNG Specification (Third Edition, 2025)). Ранее я, как и многие, использовал PNG, не задумываясь о его развитии и различных редакциях. Углубившись в изучение спецификаций PNG (1996, 2003, 2025), я решил подготовить данную статью, чтобы обобщить ключевые изменения и их значение для веб-дизайна, разработки игр и мультимедиа. Статья не претендует на исчерпывающий охват, но стремится предоставить полезный обзор для всех заинтересованных, включая начинающих. Приветствуются любые замечания и предложения по улучшению материала в комментариях к публикации. Весь код, приведённый ниже, выложил в репозиторий. Надеюсь, чтение будет полезным и увлекательным.

Читать далее

Часть 3: Diffusion Transformer (DiT) — Stable Diffusion 3 как она есть

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.6K

В этой статье погрузимся в мир генерации изображений с Diffusion Transformer (DiT) — сердцем Stable Diffusion 3. Разберем как она устроена и как работает

Читать далее

Часть 2: Vision Transformer (ViT) — Когда трансформеры научились видеть

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.9K

Представьте, что лингвист внезапно стал экспертом по живописи. Именно это произошло в 2020 году, когда архитектура для обработки текста — трансформеры — научилась "видеть" изображения. Vision Transformer (ViT) доказал: для понимания картинок не обязательны свёртки! Разберем "на пальцах" как она устроена и как изображения превращаются в предсказания.

Читать далее

NAVIS — многоцелевой быстросборный беспилотный катамаран

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров4.1K

Создание быстросборного маломерного беспилотного судна с возможностью быстрой интеграции различных полезных нагрузок для решения задач на воде и под водой в автономном режиме.

Читать далее

Как мы создавали технологию валидации печатей

Время на прочтение3 мин
Количество просмотров819

На рынке можно найти разные технологии по поиску печатей и подписей на документах. Мы в Content AI решили на этом не останавливаться и пошли дальше — помимо распознавания подписей и печатей, мы научились их валидировать. Обе технологии станут частью нашей универсальной платформы для интеллектуальной обработки информации ContentCapture и помогут пользователям еще быстрее обрабатывать большой поток документов. 

О том, как верифицировать подписи, мы поделились в предыдущем посте, а про технологию валидации печатей рассказываем под катом. 

Читать далее

Режим ночной съемки: три алгоритма улучшения мобильных фотографий

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров4.4K

Привет, Хабр! Меня зовут Полина Лукичева, я инженер команды AI ML Kit в YADRO. Наша задача — улучшить ночной режим камеры в планшете KVADRA_T. В статье я расскажу об основных ограничениях камеры мобильного устройства при съемке в условиях низкой освещенности, а также поделюсь алгоритмами, с помощью которых можно получить качественный снимок даже в темноте.

Читать далее

Заставляем компьютер видеть цвета без нейросетей: сегментация изображений по старинке

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2.3K

Привет, Хабр! В предыдущей части мы рассматривали базовые методы цифровой обработки изображений для задачи сегментации спутникового снимка.

В этой статье рассмотрим ещё парочку методов решения этой задачи, всё ещё «классических», то есть без применения машинного обучения или нейросетей. Помогут нам во всём разобраться, как и в прошлый раз, язык программирования Julia и среда технических расчётов Engee!

Читать далее

Компьютерное зрение для начинающих

Время на прочтение7 мин
Количество просмотров7.9K

Тема компьютерного зрения наряду с искусственным интеллектом в последние годы стала очень популярной. Сегодня компьютерное зрение — это динамичная и быстро развивающаяся область, постоянно расширяющая границы того, что могут видеть и понимать машины.

Однако, зачастую многие публикации посвященные computer vision являются достаточно сложными для тех, кто только погружается в данную тему.

В этой статье мы поговорим о том, как все это работает и какие основные технологии и алгоритмы используются. Мы не будем глубоко погружаться в вопросы, связанные с реализацией методов компьютерного зрения, так как задача этой статьи объяснить основные принципы.

Читать далее

Ближайшие события

Это камень? Это ветка? Это нос! Разбираем подходы, помогающие ИИ распознавать лица на картинках с низким разрешением

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.5K

Привет, Хабр! Мы – Даниил Соловьев и Михаил Никитин из команды направления распознавания лиц. Сегодня фокусируемся на задаче распознавания лиц на изображениях низкого разрешения (low resolution face recognition, low-res FR). Она актуальна в первую очередь при анализе данных видеонаблюдения, так что если перед вами сейчас стоит подобная задача (или просто интересно, как она решается) — статья для вас. Расскажем про проблемы и сложности распознавания лиц низкого разрешения, подходы к решению задачи, в том числе свежий PETALface с конференции WACV 2025. Также поделимся ссылками на исследования, которые подробнее освещают каждый подход.

Читать далее

Часть 1: ResNet-18 — Архитектура, покорившая глубину

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.7K

Разбор "на пальцах": Как из изображения получается предсказание? Разберем как устроена классическая сеть ResNet.

Читать далее

Цифровая чёрно-белая фотография

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров8K
Привет! Я хочу поделиться опытом чёрно-белой фотосъёмки на цифровые камеры, рассказать о некоторых особенностях восприятия монохромной фотографии. Постараюсь не акцентировать рассказ на конкретной программе, а объяснить в общих чертах принципы.


Я довольно давно увлекаюсь фотографией, мой интерес был привит от отца, который был фотолюбителем. Он много снимал для себя и на заказ. Печатал ночи напролёт целые стопки отпечатков, которые сушились по всему дому на прищепках. У нас было несколько фотоаппаратов, фотоувеличитель и множество книг о фотографии и целая стопка замечательного журнала «Советское фото», который в конце восьмидесятых был прям огонь. Я с завистью смотрел на чарующие пейзажи с глубоким контрастным светом и чёрным небом с яркими облаками.
Читать и смотреть

HandReader и Znaki — лучшая архитектура и самый большой набор данных для распознавания русского дактиля

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.5K

Всем привет! Ранее мы уже писали о нашем наборе данных Bukva — первом наборе данных для распознавания русского дактильного языка в изоляции, который содержит более 3 700 видеороликов, разделённых на 33 класса, каждый из которых соответствует одной букве русского алфавита.

Эта статья посвящена распознаванию непрерывного дактильного языка. Мы расскажем о наших моделях, которые добиваются наилучших результатов на наборах данных непрерывного американского дактильного языка ChicagoFSWild и ChicagoFSWild+, а также о нашем новом наборе данных Znaki — первом открытом наборе данных непрерывного русского дактильного языка, содержащем более 37 000 видео.

Читать далее

Я сделал это за Google

Время на прочтение7 мин
Количество просмотров11K

Google Photos — отличный сервис для хранения фотографий, но у него есть одна проблема: он не умеет находить дубликаты. Вернее может, но 100% одинаковые - даже разные EXIF данные - и все - давай, до свидания! За годы использования в моей библиотеке накопились тысячи похожих фотографий, и удалять их вручную — задача на десятки часов.

Особенно, когда тебя предупреждают, что 80% места занято - купи еще!

Я решил создать расширение для Chrome, которое автоматически найдет дубликаты. Казалось бы, простая задача: скачать фотографии, сравнить их с помощью нейросети, готово! Но оказалось, что браузерные расширения — это совершенно особый мир со своими ограничениями, и привычные подходы здесь не работают.

Читать далее

Установка Stable Diffusion + ComfyUI

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров6.8K

В этом материале я бы хотел поделиться инструкцией по установке Stable Diffusion и ComfyUI.

Изначально я писал это как туториал для себя (на случай, если придётся переустанавливать), но друзья просили поделиться туториалом и я подумал, что материал может быть интересен ещё кому-нибудь. Все это, конечно же, можно нагуглить, но только что уже это сделал, погуглил, початогепетил и собрал результаты в виде одной инструкции.

Читать далее

Жестовый язык: похожее в непохожем и наоборот

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров1.8K

Привет, Хабр! Наша команда RnD CV продолжает приближать момент, когда компьютер по видео сможет распознавать жестовый язык (ЖЯ) глухих так же качественно, как речь. 

Сегодня мы расскажем, как собрали один из самых больших в мире датасетов изолированного русского жестового языка Logos, чем различаются визуально одинаковые жесты, как мы с помощью нашего датасета обучили универсальную модель-энкодер и попутно заняли первую строчку в бенчмарке распознавания американского жестового языка. По итогам этой работы мы опубликовали препринт.

Читать далее

Вклад авторов