Обновить
85.43

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

HandReader и Znaki — лучшая архитектура и самый большой набор данных для распознавания русского дактиля

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.6K

Всем привет! Ранее мы уже писали о нашем наборе данных Bukva — первом наборе данных для распознавания русского дактильного языка в изоляции, который содержит более 3 700 видеороликов, разделённых на 33 класса, каждый из которых соответствует одной букве русского алфавита.

Эта статья посвящена распознаванию непрерывного дактильного языка. Мы расскажем о наших моделях, которые добиваются наилучших результатов на наборах данных непрерывного американского дактильного языка ChicagoFSWild и ChicagoFSWild+, а также о нашем новом наборе данных Znaki — первом открытом наборе данных непрерывного русского дактильного языка, содержащем более 37 000 видео.

Читать далее

Я сделал это за Google

Время на прочтение7 мин
Количество просмотров11K

Google Photos — отличный сервис для хранения фотографий, но у него есть одна проблема: он не умеет находить дубликаты. Вернее может, но 100% одинаковые - даже разные EXIF данные - и все - давай, до свидания! За годы использования в моей библиотеке накопились тысячи похожих фотографий, и удалять их вручную — задача на десятки часов.

Особенно, когда тебя предупреждают, что 80% места занято - купи еще!

Я решил создать расширение для Chrome, которое автоматически найдет дубликаты. Казалось бы, простая задача: скачать фотографии, сравнить их с помощью нейросети, готово! Но оказалось, что браузерные расширения — это совершенно особый мир со своими ограничениями, и привычные подходы здесь не работают.

Читать далее

Установка Stable Diffusion + ComfyUI

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров8.1K

В этом материале я бы хотел поделиться инструкцией по установке Stable Diffusion и ComfyUI.

Изначально я писал это как туториал для себя (на случай, если придётся переустанавливать), но друзья просили поделиться туториалом и я подумал, что материал может быть интересен ещё кому-нибудь. Все это, конечно же, можно нагуглить, но только что уже это сделал, погуглил, початогепетил и собрал результаты в виде одной инструкции.

Читать далее

Жестовый язык: похожее в непохожем и наоборот

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров1.9K

Привет, Хабр! Наша команда RnD CV продолжает приближать момент, когда компьютер по видео сможет распознавать жестовый язык (ЖЯ) глухих так же качественно, как речь. 

Сегодня мы расскажем, как собрали один из самых больших в мире датасетов изолированного русского жестового языка Logos, чем различаются визуально одинаковые жесты, как мы с помощью нашего датасета обучили универсальную модель-энкодер и попутно заняли первую строчку в бенчмарке распознавания американского жестового языка. По итогам этой работы мы опубликовали препринт.

Читать далее

Способы цветовой сегментации в задачах детектирования дорожных знаков

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров899

Распознавание дорожных знаков основывается на анализе изображений, полученных с камер, установленных на автомобиле. Эффективность работы такой системы зависит от корректной предварительной обработки изображений, в частности – от точного выделения области, содержащей дорожный знак. Основой этой процедуры выступает цветовая сегментация, поскольку большинство дорожных знаков обладают характерной цветовой окраской (например, красный, синий, жёлтый), позволяющей отличить их от фона.

На практике задача сегментации усложняется различиями в освещении, погодных условиях, наличием теней, бликов, а также загрязнением камеры. Это делает использование стандартного цветового пространства RGB неэффективным, поскольку оно неразрывно связано с яркостью. В связи с этим актуальной становится задача выбора более устойчивого цветового пространства – например, HSV, LAB или IHSL – для выделения дорожных знаков при помощи цветовой сегментации [1].

Читать далее

Как мы делали технологию, которая умеет верифицировать подписи в документах

Время на прочтение4 мин
Количество просмотров1K

Верификация подписи — новая полезная фича для работы с документами, которая войдет в наш кросс-платформенный продукт ContentCapture для интеллектуаль­ной обработки информации. 

Задача технологии — помогать пользователям проверять подлинность подписи на документах в автоматическом режиме, тем самым упрощая ежедневные бизнес-процессы и обеспечивая более высокий уровень безопасности.

Ниже рассказываем, как мы создавали эту технологию.

Читать далее

Цветовая вычислительная фотография. Часть 2: Стандарты CIE 1931

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров2K

Всем привет! На связи снова Егор Ершов, руководитель группы «Цветовая вычислительная фотография» в AIRI и заведующий сектором репродукции и синтеза цвета ИППИ РАН. Это вторая статья из длинного цикла, которая, фактически, является конспектом лекций курса по алгоритмам вычислительной фотографии, которые я читаю для студентов МФТИ и ВШЭ.

В первой статье я ввёл читателя в проблему воспроизведения цвета, а также рассказал про первую математическую модель формирования изображения. На этот раз мы поговорим про формализацию цвета с технической точки зрения и связанные с этим стандарты.

Читать далее

Kandinsky 4.1 Image – новый генератор изображений от Сбера

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров7.6K

В декабре прошлого года на конференции AI Journey наша команда представила  диффузионную генеративную модель Kandinsky 4.0 Video. Теперь мы рады представить новую версию нашей модели генерации изображений Kandinsky 4.1 Image!

Читать далее

3D-сканер из датчика Kinect Xbox 360

Время на прочтение6 мин
Количество просмотров5.8K

2009 год. На конференции E3 Стивен Спилберг (да, да — тот самый) вместе с старшим вице-президентом Microsoft Доном Мэттриком (Don Mattrick) презентуют Project Nata. Именно его весь мир узнает как Kinect, сокращение от слов kinetic и connection. Старт продаж был оглушительным, даже в Книгу рекордов Гиннесса попали. Аксессуар для Xbox 360 обещал подарить новый игровой опыт и поэтому многие, не задумываясь, выкладывали за него 149,99 $.

С тех пор много воды утекло. Две реинкарнации в виде Kinect for Xbox One и Kinect for Windows в итоге были переведены в статус discontinued. В феврале 2019 года Microsoft представила Azure Kinect уже не как игровой аксессуар, а как продвинутый датчик для разработки приложений всего за 399 $. Спустя четыре года производство было свернуто и корпорация вновь похоронила проект. Но там, где закончилась эта история, пока что есть множество энтузиастов (включая меня), которые по-прежнему используют значительно подешевевшие датчики в своих проектах.

В свой очередной поход на барахолку я как раз наткнулся на замечательный экземпляр Kinect Xbox 360, который обошелся мне в смешную сумму 10 €. Я давно хотел пощупать такой девайс, поэтому решил попробовать сделать из него 3D-сканер. Тогда я еще не представлял, насколько этот путь непрост.

Читать далее

Симуляция жизни частиц в браузере на WebGPU

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров4.7K

Я люблю физические симуляции, а в особенности симуляции частиц. Обычно я реализую что-то на основе традиционной физики, но недавно наткнулся на забавную нефизическую модель, которая может демонстрировать поведение, напоминающее жизнь.

Я написал на C++ прототип для собственного движка, а потом решил, что будет интересно попробовать запустить его в браузере при помощи WebGPU API. Он заработал на удивление хорошо, позволяя создавать подобные симуляции.

В посте я расскажу, как он устроен внутри.

Читать далее

AntiqGPT. Неожиданное применение этих ваших LLM

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров19K

Во время отпуска в Турции я наткнулся на древнегреческую надпись в руинах Фаселиса и использовал ChatGPT для расшифровки и реконструкции текста. Статья про то, как нейросети позволяют поиграть в археологические исследования, которые ранее требовали работы узких специалистов.

Читать далее

Автоматизация без кода: как FastML справляется с документами за несколько кликов

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.1K

Привет, Хабр!

В этом посте хотим рассказать, как технология FastML (о самой разработке уже рассказывали здесь) начала работать на российских документах разного типа в контуре нашего продукта ContentCapture и что из этого вышло.

Вкратце введем в курс дела. Многие компании сталкиваются с необходимостью обрабатывать большое количество однотипных (не одинаковых) документов, извлекать из них нужную информацию и экспортировать. Естественно, это долго, мучительно, а иногда еще и с ошибками. Для автоматизации такой рутины и используется ContentCapture, а точнее, встроенные в него две технологии — гибкие описания и теперь еще и FastML. 

Гибкие описания — это универсальный подход к извлечению данных, особенно если речь идет о сложных документах. Однако для их создания нужно время и навыки работы со специальным инструментом — Content AI Layout Studio. Для тех, у кого таких скиллов нет, и был создан FastML, с которым сможет справиться любой пользователь, независимо от техподготовки. С помощью FastML модели для новых типов документов создаются в несколько кликов на основе нескольких примеров, что значительно сокращает время их внедрения в контур компании и бизнес-процессы. 

Под катом рассказываем и показываем, какие теперь документы могут автоматически обрабатывать пользователи ContentCapture с помощью встроенного в него FastML, а также делимся данными тестирования и объясняем, в чем могут возникнуть сложности.

Читать далее

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

Уровень сложностиСредний
Время на прочтение19 мин
Количество просмотров13K

Эпоха умного редактирования изображений наступила: ChatGPT, Gemini и Grok — крупнейшие игроки мировой AI-арены — один за другим представили инструментарий «умного фотошопа». Достаточно прикрепить картинку, попросить что-нибудь на ней изменить — и желание будет исполнено! Или не будет? 

Проблема в том, что не каждый редактор изображений способен сохранять детали оригинала: изменяются люди, искажаются уникальные объекты, композиция, детали, ракурс и многое другое. Нередко хочется получить результат как от мастера фотошопа: чтобы менялись только требуемые участки, а остальное сохранялось неизменным. Например, удалить людей на заднем фоне фото из отпуска, оставив только безбрежное море за спиной. Вот бы можно было, валяясь на пляже, безо всяких сложностей отправить фотографию в удобный сервис на смартфоне, написать пару слов (что отредактировать), а результат просто репостнуть!

Наша команда загорелась этой задачей довольно давно — и сегодня, пройдя долгий путь проб и ошибок, мы с гордостью представляем вам проект с рабочим названием MALVINA (Multimodal Artificial Language VIsion Neural Assistant). Malvina уже стал частью сервиса GigaChat и доступна всем желающим! Более того: и по метрикам, и по мнению пользователей, наша модель обходит в редактировании изображений даже GPT-4o, Gemini и Grok!

Мы вас заинтриговали?

Тогда приятного прочтения!

Ближайшие события

Обучаемся основам компьютерного зрения с помощью Lichee Pi 4A и Python-библиотеки Pillow

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров4.5K

Привет, Хабр! На связи команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ им. Р. Е. Алексеева. При поддержке компании YADRO мы изучаем архитектуру RISC-V и компьютерное зрение, чтобы внедрить результаты в учебный процесс.

Предлагаем вместе с нами проверить, на что способен одноплатный компьютер Lichee Pi 4A в задачах обработки изображений, несмотря на его ограниченные ресурсы. А заодно — получить базовые навыки по разработке систем компьютерного зрения. Пройдем путь от настройки системы до отслеживания кликов по картинке и распознавания объектов с моделью YOLOX.

Читать далее

Машины могут видеть. Что показали и рассказали на конференции MCS 2025 в Дубае

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.2K

ICLR 2025 — это крупнейшее событие весны в мире машинного обучения, на которое я… не поехал, в отличие от моих коллег из лаборатории FusionBrain AIRI. Почему? Потому что я посетил конференцию Machines can see 2025, которая проходила примерно в эти же дни в Дубае. О том, что это за мероприятие и что я там увидел, — в репортаже ниже.

Читать далее

Как лучше всего сортировать фото в 2025 – мой опыт

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров16K

Мой фотоархив к 2025 году превратился в настоящую головоломку. 40 тысяч снимков были разбросаны по трём внешним дискам, трём облачным хранилищам и давно забытым папкам на старом ноутбуке. Проблема усугублялась тем, что устройств стало больше, и каждый – смартфон, фотоаппарат, дрон, добавляют горы файлов в разных форматах и с противоречивыми метаданными. Например, геотеги из отпуска в Турции показывали координаты с ошибкой в 200 метров, а даты в EXIF не совпадали с реальными из-за смены часовых поясов. 

С масштабом проблемы я впервые столкнулся, когда попытался найти фотографии с первого дня школы сына. Вместо нужных кадров с линейки обнаружил огромное количество странных снимков – с размытыми лицами, случайные скриншоты с сайтов и мессенджеров, даже фото чужой собаки. Весь этот хлам незаметно копился годами, растворяясь между нормальными фотографиями. Знакомая ситуация?

В тот момент я понял — нужна система, которая работает в реалиях 2025 года, где объёмы данных уже достигают гигантских размеров, а ручная сортировка вряд ли поможет расчистить эти «Авгиевы конюшни». Ведь это тысячи фото, сваленных в множество самых разных папок на разных устройствах, многие из которых даже толком не подписаны. Здесь, наверное, вы заглянули в свой фотоархив и тоже ужаснулись.

Читать далее

Генерация видео: Обзор интересных подходов | Text-2-video | Part 2

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.5K

Освечу базовые концепты из области генерации видео, в этой части разберем уже более современные модели 2025 года, и парочку моделей, с которых все начиналось. Все кратко и четко, только самое основное.

Посмотрим на устройство современных топовых SOTA моделей для генерации видео: Wan2.1, Hunyuan video, недавно вышедший подход к облегчению вычислетильных требования FramePack.

Читать далее

Гениально или безумно: зачем инженеры изобрели электрический ластик

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров4.9K

Начало XX века — эпоха повальной электрификации. Электричество встраивали буквально во всё, что только можно: массажёры, чесалки, мухобойки и даже грелки для ушей. Изобретатели наперебой пытались создать что-нибудь по-настоящему полезное, неожиданное — или хотя бы просто эффектное. И вот кому-то приходит в голову идея: а не оснастить ли электромотором… ластик?

К ластику?! Казалось бы, зачем?! Неужели руками уже совсем стирать разучились? Но, как ни странно, у этой штуковины нашлись поклонники. Причём не среди ленивцев, а среди архитекторов, чертёжников, иллюстраторов и других профи, для которых точность и скорость в работе — не пустой звук.

Разбираемся, как появился электроластик и почему он не такая уж дикая идея.

Читать далее

GIMP: понижение шума по маске

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.3K

Применение простых, не зависящих от версии GIMP, или установленных плагинов средств для понижения шума типа "Соль и перец" без повреждения важных контуров.

Читать далее

Я 25 лет настраивал фотоаппарат, выстраивал композицию, ставил свет, а потом пришла нейросеть

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров35K

Эту историю для моего блога рассказал профессиональный фотограф Олег Цербаев

В начале 2000-х появилась цифровая фотография, мир раскололся на два лагеря: «Это не искусство!» против «Это будущее!». За три года в рекламной индустрии почти не осталось фотографов старше 40 лет. Крупные журналы начали работать с молодыми ребятами, фотоиндустрия в итоге выросла в разы. То, что происходит сейчас с нейросетями — намного масштабнее. Это не просто новый инструмент в нашем арсенале, а целая новая реальность.

Представьте, что вместо кисти художнику вдруг дали соавтора — талантливого, с безграничной фантазией, но иногда непредсказуемого. Именно так работают нейросети в создании изображений. Они не просто выполняют команды — они интерпретируют, дополняют и иногда удивляют.

Читать далее

Вклад авторов