Как стать автором
Поиск
Написать публикацию
Обновить
164.82

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Камеры трясутся, шум зашкаливает, а сравнивать нужно: как справляются алгоритмы?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров11K

Каждый день миллионы изображений, видео и аудиофайлов загружаются в интернет. Мы смотрим фильмы, слушаем музыку, листаем соцсети, даже не задумываясь о том, какие алгоритмы стоят за тем, чтобы контент отображался корректно и не повторялся. Но что, если вам нужно сравнивать медиаконтент автоматически? Как понять, одинаковые ли две фотографии, если одна немного темнее? Как сравнить два видео, если они сняты под разными углами? А что делать, если вам нужно найти дубликат аудиофайла, но на одной записи есть шум?

Если эти вопросы вам интересны – добро пожаловать в мир сравнения медиаконтента! Сегодня мы разберем, какие бывают методы, их плюсы и минусы, а главное – расскажем о наших экспериментах, где мы проверили, какие алгоритмы лучше справляются с реальными проблемами.

Читать далее

Биометрическая хиромантия: гиперспектральная визуализация сосудов ладони для идентификации личности

Время на прочтение14 мин
Количество просмотров664


Отпечатки пальцев в качестве инструмента идентификации человека начали использоваться еще в середине 19 века. С тех времен многое изменилось, и спектр биометрических параметров, используемых для защиты данных и устройств от несанкционированного доступа, расширился. Однако и отпечатки, и сетчатка глаза, и лицо являются видимыми физическими характеристиками, что делает их менее надежными и более уязвимыми к подделыванию. Ученые из Университета Осаки (Япония) разработали систему биометрической защиты, использующую гиперспектральную съемку. В чем суть такой съемки, какую роль в этом играют вены, и насколько данный метод идентификации надежен? Ответы на эти вопросы мы найдем в докладе ученых.
Читать дальше →

Интерактивные метки на изображении JS

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров3K

Всем привет, хочу поделиться с вами скриптом для создания интерактивных изображений с метками для сайтов.

Данный скрипт позволяет создавать адаптивные изображения с интерактивными метками. Скрипт по умолчанию поддерживает до 50 меток на изображении.

Читать далее

Virtual Ads или как прорекламировать Adidas в CS:GO

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.8K

Всем привет, меня зовут Евгений Мунин. Я Senior ML Engineer в Ad Tech в платформе ставок для рекламы и автор ТГ канала ML Advertising. В данной статье мы поговорим об одном из способов повышения узнаваемости брендов в спорте, а точнее виртуальной рекламе. Разберем размещение рекламных баннеров на видео и напишем пример на Python и OpenCV, где разместим логотип Adidas с использованием алгоритма детектирования ключевых точек SIFT и гомографии для искажения баннера под перспективу.

Читать далее

HaGRIDv2-1M: 1 миллион изображений для распознавания статичных и динамических жестов

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.1K

Датасет HaGRID, о котором мы писали в одном из постов, — это самый полный набор данных для построения системы распознавания жестов. Он стал очень популярным внутри комьюнити и нашел применение в таких задачах, как обучение и оценка нейронных сетей для распознавания жестов (о чем писали, например, тут и тут), а также в таких неочевидных приложениях, как генерация анатомически корректных рук с помощью диффузионных моделей (об этом можно почитать тут, тут и тут).

Данная статья посвящена расширенной версии датасета — HaGRIDv2-1M. Тут мы подробно расскажем о её отличиях от первой версии, поделимся результатами экспериментов и обсудим новые возможности. Кроме того, мы представляем новый real-time алгоритм для детекции динамических жестов, полностью обученный на HaGRIDv2-1M. Данные, код и предобученные модели можно найти в репозиториях HaGRID, dynamic gestures, а более подробно ознакомиться с работой можно в статьях HaGRIDv2-1M, HaGRID.

Читать далее

Алгоритм межкадровой разности на FPGA стереокамере

Время на прочтение4 мин
Количество просмотров2.5K

В этой статье я расскажу о продолжении работы над своим проектом стереокамеры на базе FPGA Gowin. В последней версии я добавил блок расчета попиксельной межкадровой разницы, используя встроенную в один корпус с FPGA SDR SDRAM память

Читать далее

Распознавание день в день: как настроить шаблон нового документа без программирования

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.1K

Привет, Хабр! Вы прекрасно знаете, что мы в Smart Engines непрерывно совершенствуем наши системы распознавания российского паспорта и других документов. Вместе с этим мы постоянно расширяем список документов, которые могут быть распознаны при помощи наших решений, – и будем делать это и дальше. Но что если бизнесу нужно оперативно настроить распознавание нового корпоративного документа с жесткой структурой? Сегодня такая потребность есть практически у любой организации.

Можно прийти с этой задачей к нам, и мы обязательно поможем. Но есть и альтернативный сценарий – встроить возможность настройки распознавания к себе. Для этого мы выпустили специальный инструмент – дизайнер форм. С ним ждать никого не придется, а добавлять распознавание новых форм можно будет по мере их появления, буквально день в день. О нем мы сегодня и поговорим.

Читать далее

От каскадных моделей до картинок в 4к: как эволюционировали диффузионки

Время на прочтение19 мин
Количество просмотров6.6K

На дворе 2025 год. Генерацией картинок и видео в интернете больше никого не удивишь. Генеративный контент повсюду, а его качество настолько высоко, что бывает трудно отличить синтетическую картинку от реальной.

Прогресс не стоит на месте, но какой ценой? Мир сильно усложнился со времён выхода первых моделей Stable Diffusion, подробные рассказы о которых описывали главную и до недавнего времени единственную доступную широкому кругу пользователей качественную открытую модель.

В прошлом году мы с коллегами рассказывали про то, как мы открывали и улучшали технологию YandexART. В этом посте мы хотели бы рассказать о том, что нового произошло в мире диффузионных моделей за последние два года. Ниже мы обсудим борьбу каскадной и латентной парадигм, дилемму между свёрточными моделями и трансформерами, новые формулировки диффузии и дистилляцию как метод решения основной проблемы диффузионных моделей — низкой скорости генерации.

Читать далее

Нейросеть против ДТП: как мы разработали искусственный интеллект, чтобы обезопасить поездки в автобусе

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров959

Уже несколько лет человечество активно внедряет автоматизированные системы с участием нейросетей в свою повседневность. Вопреки расхожему мнению, не только компании извлекают из этого выгоду, но и обычные люди. И речь не только о коммерческой выгоде — такие системы могут спасать жизни. Система, о которой мы сегодня расскажем, преследует цель сделать жизнь людей безопаснее и удобнее. Сколько времени человек проводит в общественном транспорте? Какие нарушения совершают водители? Можно ли повысить безопасность поездок за счет нейросетей? Ответы — в этом материале.

Читать далее

Зачем нужны струйные МФУ, когда есть лазерные? Выбираем печатное устройство

Время на прочтение13 мин
Количество просмотров4.6K

МФУ давно стали стандартом офисного оборудования. Хотя традиционно считается, что рациональнее всего покупать именно лазерные решения – особенно для бизнеса, – но в определенных сценариях лучше всего себя показывают именно струйные устройства. Они оказываются оптимальным решением для пользователей, которые нуждаются в качественной цветной печати при средних объемах документооборота, а также в организациях, где ключевым фактором выступает оптимизация затрат на печать.

Читать далее

Перенос головы с картинки — сложно ли это? Модель GHOST-2.0

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров2K

В последнее время технологии замены лиц находят все больше применений. Помимо использования в развлекательных целях, они стали особенно важны для индустрии фильмов и рекламы, позволяя существенно ускорить и удешевить производство. Однако в таком подходе, где мы заменяем лишь область лица, есть несколько существенных недостатков. Чтобы от них избавиться, мы начали смотреть в сторону создания технологии переноса головы целиком

В данной статье мы представляем нашу новую модель GHOST 2.0 — первую опенсорс модель переноса головы на изображениях. Давайте мы подробнее разберём  составляющие модели и её архитектуру, а также углубимся в процесс обучения.

Читать далее

Как мы ускоряли виртуальные фоны в Толке

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1.6K

Однажды осенью мы сделали так, что Толк стал меньше нагревать ноутбуки пользователей. Кому интересно техно-мяско, как же у нас получилось ускорить виртуальные фоны в два раза, прошу в статью.

Читать далее

Обработать ночные снимки с телефона до уровня профессиональной камеры: челлендж в рамках воркшопа NTIRE 2025

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров4.9K

Ночная фотография — одна из самых трудных областей обработки изображений. Сложные условия освещения, повышенные шумы и нестандартные цветовые переходы создают серьезные преграды для алгоритмов, ориентированных на дневной сценарий. Однако совместными усилиями теоретиков и практиков возможно создать методы, позволяющие даже для ночных снимков со смартфона поднять качество до уровня профессиональной камеры.

Именно поэтому мы, команда исследователей из AIRI и ИППИ РАН, проводим в рамках воркшопа NTIRE при конференции CVPR 2025 «Night Photography Rendering Challenge 2025», в котором могут принять участие коллективы со всего мира, увлекающиеся наукой о данных и машинным обучением.

Подробности — в тексте ниже.

Читать далее

Ближайшие события

Миллиарды векторов и немного магии: превращаем сырые данные с маркетплейсов в пригодные для анализа

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров5.7K

Привет, Хабр! Я — Игорь Старун, BigData Lead в MPSTATS. Я уже 3 года занимаюсь анализом данных на маркетплейсах, штудируя гигантские объёмы информации и превращая их из непотребного и нечитаемого вида в удобоваримый и анализируемый. Моя задача — собрать и подготовить данные так, чтобы помочь продавцам на маркетплейсах разобраться, что происходит с их товарами, конкурентами и продажами, чтобы они не утонули в хаосе карточек, цен и остатков. В этой статье я расскажу, как мы перерабатываем эти объемы грязных данных и структурируем для дальнейшего анализа. 

Данные о товарах – это основа всего. Каждую неделю мы обходим более 200 миллионов карточек с Wildberries и Ozon. Названия, описания, характеристики, фотографии — всё это мы аккуратно собираем и складываем в базы данных (для разных задач мы используем ClickHouse, Postgres, MySQL и MongoDB) и облачные хранилища. Зачем? Чтобы потом сделать с этим что-то умное и полезное.

Читать дальше

Фильтр Гаусса на стероидах: подход на точность вычислений

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров2K

Hello, world! Это вторая часть хабростатьи Smart Engines про быструю фильтрацию изображений. Да-да, создавая топовый продукт по распознаванию документов, нам приходится разбираться в методах обработки изображений на экспертном уровне (иначе не получилось бы распознать изображение паспорта за 150 мс на мобильном телефон). В предыдущей части мы начали обсуждать быстрые аппроксимации гауссовского фильтра, которым была посвящена наша недавняя публикация в научном журнале MDPI Applied Sciences [1]. О том, как работает оригинальный фильтр Гаусса, мы уже писали, сейчас мы только напомним о его использовании всюду, где возникает обработка изображений: от редактирования фотографий на смартфоне – для размытия фона за объектом в режиме "портрет", до анализа рентгеновских снимков – чтобы убрать шум и улучшить читаемость изображения.

Читать далее

Автомодерация изображений: как исправлять нарушения, сохраняя количество и качество контента

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров20K

Привет! Меня зовут Владимир Морозов, я старший дата-сайентист в отделе автоматической модерации Авито. Раньше мы блокировали объявления, которые нарушают правила публикации, а теперь исправляем — с помощью ML-системы. Так мы сохраняем количество контента, сокращаем стоимость модерации и улучшаем пользовательский опыт. В статье подробно расскажу обо всех этапах внедрения новой ML-механики: от идеи и исследования подходов до оптимизации нейронок и вывода в продакшен.

Читать далее

Как измерить расстояние с точностью до нанометров или даже пикометров? Берём рулетку и… (нет, всё не так)

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров9.4K
Картинка Cookie_studio (Freepik), Youtube-канал «Huygens Optics»

Что мы знаем о способах измерения расстояний? Наверное, когда возникает вопрос об измерениях, многие вспоминают наиболее доступные инструменты: линейки, рулетки, портняжные метры, строительные рулетки и прочие подобные подходы.

Более продвинутые в инженерном плане вспомнят про штангенциркули, микрометры и концевые меры длин (плитки Иогансона).

Тем не менее, есть ещё один класс способов, который позволяет измерять расстояния со сверхмалым разрешением — вплоть до одного нанометра и менее…
Читать дальше →

Как мы прошли бюрократический ад, чтобы разработать нейросеть на заводе: сложности при создании ИИ на производстве

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4.9K

Нейросети сегодня — это не просто модное слово, а мощный инструмент для предотвращения аварий, оптимизации процессов и повышения безопасности на производстве. Однако путь от идеи до успешного внедрения часто оказывается тернистым, особенно когда речь идет о крупных промышленных объектах. В этой статье мы расскажем, как нам удалось внедрить систему на основе нейросетей на действующем заводе, с какими вызовами мы столкнулись и как их преодолели. От бюрократических барьеров до непонимания возможностей технологии со стороны заказчика — все это стало частью нашего опыта.

Читать далее

Threshold U-Net: как мы отказались от высокого разрешения и выиграли в скорости бинаризации

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.1K

Хоть современный ИИ уже почти в состоянии написать симфонию и превратить холст в шедевр, некоторые простые задачи все еще не так просты, если наложить ограничения на решение. Так как главной задачей у нас, в Smart Engines, является распознавание и оцифровка документов, то для нас ограничениями являются скорость работы и возможность запуска системы на вычислительно слабых конечных устройствах. В этой статье мы вспомним об одной классической задаче обработки изображений – бинаризации документов. А также расскажем, как нам удалось существенно оптимизировать нейросетевую модель бинаризации, сохранив исходное качество, и причем тут современные модели детекции текста.

Читать далее

Индийский стартап снимает первый ИИ-фильм. Без актеров, камер и режиссеров

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров6.6K

Нейросети — это уже не будущее, а вполне себе настоящее. Каждый день появляются новости о каком-нибудь стартапе (сразу приходит на ум китайская DeepSeek), новом научном прорыве или очередном способе заменить человеческий труд.

В кино ИИ тоже давно прижился. Он помогает писать сценарии, озвучивать актеров, делать спецэффекты и даже превращать одного человека в другого. Вспомнить хотя бы фильм Бруталист, где нейросети использовали для стилизации изображения, или Эмилию Перес, где ИИ преобразил главную героиню.

Нейросети уже создавали трейлеры для фильмов, как это было с Морган от 20th Century Fox, но теперь речь идет о том, чтобы доверить им весь процесс. Индийский стартап Intelliflicks Studios заявил, что в 2025 году они выпустят первый полнометражный фильм, сделанный ИИ от начала до конца. И, конечно, в лучших традициях Болливуда — с песнями, танцами и кучей спецэффектов (ну а как иначе в Индии).

джими джими ача ача

Вклад авторов