Как стать автором
Обновить
104.62

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Часть 3: Diffusion Transformer (DiT) — Stable Diffusion 3 как она есть

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров608

В этой статье погрузимся в мир генерации изображений с Diffusion Transformer (DiT) — сердцем Stable Diffusion 3. Разберем как она устроена и как работает

Читать далее

Новости

Часть 2: Vision Transformer (ViT) — Когда трансформеры научились видеть

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.1K

Представьте, что лингвист внезапно стал экспертом по живописи. Именно это произошло в 2020 году, когда архитектура для обработки текста — трансформеры — научилась "видеть" изображения. Vision Transformer (ViT) доказал: для понимания картинок не обязательны свёртки! Разберем "на пальцах" как она устроена и как изображения превращаются в предсказания.

Читать далее

NAVIS — многоцелевой быстросборный беспилотный катамаран

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров3.3K

Создание быстросборного маломерного беспилотного судна с возможностью быстрой интеграции различных полезных нагрузок для решения задач на воде и под водой в автономном режиме.

Читать далее

Как мы создавали технологию валидации печатей

Время на прочтение3 мин
Количество просмотров630

На рынке можно найти разные технологии по поиску печатей и подписей на документах. Мы в Content AI решили на этом не останавливаться и пошли дальше — помимо распознавания подписей и печатей, мы научились их валидировать. Обе технологии станут частью нашей универсальной платформы для интеллектуальной обработки информации ContentCapture и помогут пользователям еще быстрее обрабатывать большой поток документов. 

О том, как верифицировать подписи, мы поделились в предыдущем посте, а про технологию валидации печатей рассказываем под катом. 

Читать далее

Режим ночной съемки: три алгоритма улучшения мобильных фотографий

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров3.5K

Привет, Хабр! Меня зовут Полина Лукичева, я инженер команды AI ML Kit в YADRO. Наша задача — улучшить ночной режим камеры в планшете KVADRA_T. В статье я расскажу об основных ограничениях камеры мобильного устройства при съемке в условиях низкой освещенности, а также поделюсь алгоритмами, с помощью которых можно получить качественный снимок даже в темноте.

Читать далее

Заставляем компьютер видеть цвета без нейросетей: сегментация изображений по старинке

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров1.9K

Привет, Хабр! В предыдущей части мы рассматривали базовые методы цифровой обработки изображений для задачи сегментации спутникового снимка.

В этой статье рассмотрим ещё парочку методов решения этой задачи, всё ещё «классических», то есть без применения машинного обучения или нейросетей. Помогут нам во всём разобраться, как и в прошлый раз, язык программирования Julia и среда технических расчётов Engee!

Читать далее

Компьютерное зрение для начинающих

Время на прочтение7 мин
Количество просмотров5.4K

Тема компьютерного зрения наряду с искусственным интеллектом в последние годы стала очень популярной. Сегодня компьютерное зрение — это динамичная и быстро развивающаяся область, постоянно расширяющая границы того, что могут видеть и понимать машины.

Однако, зачастую многие публикации посвященные computer vision являются достаточно сложными для тех, кто только погружается в данную тему.

В этой статье мы поговорим о том, как все это работает и какие основные технологии и алгоритмы используются. Мы не будем глубоко погружаться в вопросы, связанные с реализацией методов компьютерного зрения, так как задача этой статьи объяснить основные принципы.

Читать далее

Это камень? Это ветка? Это нос! Разбираем подходы, помогающие ИИ распознавать лица на картинках с низким разрешением

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.2K

Привет, Хабр! Мы – Даниил Соловьев и Михаил Никитин из команды направления распознавания лиц. Сегодня фокусируемся на задаче распознавания лиц на изображениях низкого разрешения (low resolution face recognition, low-res FR). Она актуальна в первую очередь при анализе данных видеонаблюдения, так что если перед вами сейчас стоит подобная задача (или просто интересно, как она решается) — статья для вас. Расскажем про проблемы и сложности распознавания лиц низкого разрешения, подходы к решению задачи, в том числе свежий PETALface с конференции WACV 2025. Также поделимся ссылками на исследования, которые подробнее освещают каждый подход.

Читать далее

Часть 1: ResNet-18 — Архитектура, покорившая глубину

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.1K

Разбор "на пальцах": Как из изображения получается предсказание? Разберем как устроена классическая сеть ResNet.

Читать далее

Цифровая чёрно-белая фотография

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров6.7K
Привет! Я хочу поделиться опытом чёрно-белой фотосъёмки на цифровые камеры, рассказать о некоторых особенностях восприятия монохромной фотографии. Постараюсь не акцентировать рассказ на конкретной программе, а объяснить в общих чертах принципы.


Я довольно давно увлекаюсь фотографией, мой интерес был привит от отца, который был фотолюбителем. Он много снимал для себя и на заказ. Печатал ночи напролёт целые стопки отпечатков, которые сушились по всему дому на прищепках. У нас было несколько фотоаппаратов, фотоувеличитель и множество книг о фотографии и целая стопка замечательного журнала «Советское фото», который в конце восьмидесятых был прям огонь. Я с завистью смотрел на чарующие пейзажи с глубоким контрастным светом и чёрным небом с яркими облаками.
Читать и смотреть

HandReader и Znaki — лучшая архитектура и самый большой набор данных для распознавания русского дактиля

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1K

Всем привет! Ранее мы уже писали о нашем наборе данных Bukva — первом наборе данных для распознавания русского дактильного языка в изоляции, который содержит более 3 700 видеороликов, разделённых на 33 класса, каждый из которых соответствует одной букве русского алфавита.

Эта статья посвящена распознаванию непрерывного дактильного языка. Мы расскажем о наших моделях, которые добиваются наилучших результатов на наборах данных непрерывного американского дактильного языка ChicagoFSWild и ChicagoFSWild+, а также о нашем новом наборе данных Znaki — первом открытом наборе данных непрерывного русского дактильного языка, содержащем более 37 000 видео.

Читать далее

Я сделал это за Google

Время на прочтение7 мин
Количество просмотров11K

Google Photos — отличный сервис для хранения фотографий, но у него есть одна проблема: он не умеет находить дубликаты. Вернее может, но 100% одинаковые - даже разные EXIF данные - и все - давай, до свидания! За годы использования в моей библиотеке накопились тысячи похожих фотографий, и удалять их вручную — задача на десятки часов.

Особенно, когда тебя предупреждают, что 80% места занято - купи еще!

Я решил создать расширение для Chrome, которое автоматически найдет дубликаты. Казалось бы, простая задача: скачать фотографии, сравнить их с помощью нейросети, готово! Но оказалось, что браузерные расширения — это совершенно особый мир со своими ограничениями, и привычные подходы здесь не работают.

Читать далее

Установка Stable Diffusion + ComfyUI

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров3.3K

В этом материале я бы хотел поделиться инструкцией по установке Stable Diffusion и ComfyUI.

Изначально я писал это как туториал для себя (на случай, если придётся переустанавливать), но друзья просили поделиться туториалом и я подумал, что материал может быть интересен ещё кому-нибудь. Все это, конечно же, можно нагуглить, но только что уже это сделал, погуглил, початогепетил и собрал результаты в виде одной инструкции.

Читать далее

Ближайшие события

Жестовый язык: похожее в непохожем и наоборот

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров1.5K

Привет, Хабр! Наша команда RnD CV продолжает приближать момент, когда компьютер по видео сможет распознавать жестовый язык (ЖЯ) глухих так же качественно, как речь. 

Сегодня мы расскажем, как собрали один из самых больших в мире датасетов изолированного русского жестового языка Logos, чем различаются визуально одинаковые жесты, как мы с помощью нашего датасета обучили универсальную модель-энкодер и попутно заняли первую строчку в бенчмарке распознавания американского жестового языка. По итогам этой работы мы опубликовали препринт.

Читать далее

Способы цветовой сегментации в задачах детектирования дорожных знаков

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров730

Распознавание дорожных знаков основывается на анализе изображений, полученных с камер, установленных на автомобиле. Эффективность работы такой системы зависит от корректной предварительной обработки изображений, в частности – от точного выделения области, содержащей дорожный знак. Основой этой процедуры выступает цветовая сегментация, поскольку большинство дорожных знаков обладают характерной цветовой окраской (например, красный, синий, жёлтый), позволяющей отличить их от фона.

На практике задача сегментации усложняется различиями в освещении, погодных условиях, наличием теней, бликов, а также загрязнением камеры. Это делает использование стандартного цветового пространства RGB неэффективным, поскольку оно неразрывно связано с яркостью. В связи с этим актуальной становится задача выбора более устойчивого цветового пространства – например, HSV, LAB или IHSL – для выделения дорожных знаков при помощи цветовой сегментации [1].

Читать далее

Как мы делали технологию, которая умеет верифицировать подписи в документах

Время на прочтение4 мин
Количество просмотров857

Верификация подписи — новая полезная фича для работы с документами, которая войдет в наш кросс-платформенный продукт ContentCapture для интеллектуаль­ной обработки информации. 

Задача технологии — помогать пользователям проверять подлинность подписи на документах в автоматическом режиме, тем самым упрощая ежедневные бизнес-процессы и обеспечивая более высокий уровень безопасности.

Ниже рассказываем, как мы создавали эту технологию.

Читать далее

Цветовая вычислительная фотография. Часть 2: Стандарты CIE 1931

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров1.5K

Всем привет! На связи снова Егор Ершов, руководитель группы «Цветовая вычислительная фотография» в AIRI и заведующий сектором репродукции и синтеза цвета ИППИ РАН. Это вторая статья из длинного цикла, которая, фактически, является конспектом лекций курса по алгоритмам вычислительной фотографии, которые я читаю для студентов МФТИ и ВШЭ.

В первой статье я ввёл читателя в проблему воспроизведения цвета, а также рассказал про первую математическую модель формирования изображения. На этот раз мы поговорим про формализацию цвета с технической точки зрения и связанные с этим стандарты.

Читать далее

Kandinsky 4.1 Image – новый генератор изображений от Сбера

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров5.6K

В декабре прошлого года на конференции AI Journey наша команда представила  диффузионную генеративную модель Kandinsky 4.0 Video. Теперь мы рады представить новую версию нашей модели генерации изображений Kandinsky 4.1 Image!

Читать далее

3D-сканер из датчика Kinect Xbox 360

Время на прочтение6 мин
Количество просмотров4.9K

2009 год. На конференции E3 Стивен Спилберг (да, да — тот самый) вместе с старшим вице-президентом Microsoft Доном Мэттриком (Don Mattrick) презентуют Project Nata. Именно его весь мир узнает как Kinect, сокращение от слов kinetic и connection. Старт продаж был оглушительным, даже в Книгу рекордов Гиннесса попали. Аксессуар для Xbox 360 обещал подарить новый игровой опыт и поэтому многие, не задумываясь, выкладывали за него 149,99 $.

С тех пор много воды утекло. Две реинкарнации в виде Kinect for Xbox One и Kinect for Windows в итоге были переведены в статус discontinued. В феврале 2019 года Microsoft представила Azure Kinect уже не как игровой аксессуар, а как продвинутый датчик для разработки приложений всего за 399 $. Спустя четыре года производство было свернуто и корпорация вновь похоронила проект. Но там, где закончилась эта история, пока что есть множество энтузиастов (включая меня), которые по-прежнему используют значительно подешевевшие датчики в своих проектах.

В свой очередной поход на барахолку я как раз наткнулся на замечательный экземпляр Kinect Xbox 360, который обошелся мне в смешную сумму 10 €. Я давно хотел пощупать такой девайс, поэтому решил попробовать сделать из него 3D-сканер. Тогда я еще не представлял, насколько этот путь непрост.

Читать далее

Симуляция жизни частиц в браузере на WebGPU

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров4.2K

Я люблю физические симуляции, а в особенности симуляции частиц. Обычно я реализую что-то на основе традиционной физики, но недавно наткнулся на забавную нефизическую модель, которая может демонстрировать поведение, напоминающее жизнь.

Я написал на C++ прототип для собственного движка, а потом решил, что будет интересно попробовать запустить его в браузере при помощи WebGPU API. Он заработал на удивление хорошо, позволяя создавать подобные симуляции.

В посте я расскажу, как он устроен внутри.

Читать далее
1
23 ...

Вклад авторов