Как стать автором
Обновить
40

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Virtual Ads или как прорекламировать Adidas в CS:GO

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.7K

Всем привет, меня зовут Евгений Мунин. Я Senior ML Engineer в Ad Tech в платформе ставок для рекламы и автор ТГ канала ML Advertising. В данной статье мы поговорим об одном из способов повышения узнаваемости брендов в спорте, а точнее виртуальной рекламе. Разберем размещение рекламных баннеров на видео и напишем пример на Python и OpenCV, где разместим логотип Adidas с использованием алгоритма детектирования ключевых точек SIFT и гомографии для искажения баннера под перспективу.

Читать далее

HaGRIDv2-1M: 1 миллион изображений для распознавания статичных и динамических жестов

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров901

Датасет HaGRID, о котором мы писали в одном из постов, — это самый полный набор данных для построения системы распознавания жестов. Он стал очень популярным внутри комьюнити и нашел применение в таких задачах, как обучение и оценка нейронных сетей для распознавания жестов (о чем писали, например, тут и тут), а также в таких неочевидных приложениях, как генерация анатомически корректных рук с помощью диффузионных моделей (об этом можно почитать тут, тут и тут).

Данная статья посвящена расширенной версии датасета — HaGRIDv2-1M. Тут мы подробно расскажем о её отличиях от первой версии, поделимся результатами экспериментов и обсудим новые возможности. Кроме того, мы представляем новый real-time алгоритм для детекции динамических жестов, полностью обученный на HaGRIDv2-1M. Данные, код и предобученные модели можно найти в репозиториях HaGRID, dynamic gestures, а более подробно ознакомиться с работой можно в статьях HaGRIDv2-1M, HaGRID.

Читать далее

Алгоритм межкадровой разности на FPGA стереокамере

Время на прочтение4 мин
Количество просмотров2.4K

В этой статье я расскажу о продолжении работы над своим проектом стереокамеры на базе FPGA Gowin. В последней версии я добавил блок расчета попиксельной межкадровой разницы, используя встроенную в один корпус с FPGA SDR SDRAM память

Читать далее

Распознавание день в день: как настроить шаблон нового документа без программирования

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров980

Привет, Хабр! Вы прекрасно знаете, что мы в Smart Engines непрерывно совершенствуем наши системы распознавания российского паспорта и других документов. Вместе с этим мы постоянно расширяем список документов, которые могут быть распознаны при помощи наших решений, – и будем делать это и дальше. Но что если бизнесу нужно оперативно настроить распознавание нового корпоративного документа с жесткой структурой? Сегодня такая потребность есть практически у любой организации.

Можно прийти с этой задачей к нам, и мы обязательно поможем. Но есть и альтернативный сценарий – встроить возможность настройки распознавания к себе. Для этого мы выпустили специальный инструмент – дизайнер форм. С ним ждать никого не придется, а добавлять распознавание новых форм можно будет по мере их появления, буквально день в день. О нем мы сегодня и поговорим.

Читать далее

Истории

От каскадных моделей до картинок в 4к: как эволюционировали диффузионки

Время на прочтение19 мин
Количество просмотров5.9K

На дворе 2025 год. Генерацией картинок и видео в интернете больше никого не удивишь. Генеративный контент повсюду, а его качество настолько высоко, что бывает трудно отличить синтетическую картинку от реальной.

Прогресс не стоит на месте, но какой ценой? Мир сильно усложнился со времён выхода первых моделей Stable Diffusion, подробные рассказы о которых описывали главную и до недавнего времени единственную доступную широкому кругу пользователей качественную открытую модель.

В прошлом году мы с коллегами рассказывали про то, как мы открывали и улучшали технологию YandexART. В этом посте мы хотели бы рассказать о том, что нового произошло в мире диффузионных моделей за последние два года. Ниже мы обсудим борьбу каскадной и латентной парадигм, дилемму между свёрточными моделями и трансформерами, новые формулировки диффузии и дистилляцию как метод решения основной проблемы диффузионных моделей — низкой скорости генерации.

Читать далее

Нейросеть против ДТП: как мы разработали искусственный интеллект, чтобы обезопасить поездки в автобусе

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров901

Уже несколько лет человечество активно внедряет автоматизированные системы с участием нейросетей в свою повседневность. Вопреки расхожему мнению, не только компании извлекают из этого выгоду, но и обычные люди. И речь не только о коммерческой выгоде — такие системы могут спасать жизни. Система, о которой мы сегодня расскажем, преследует цель сделать жизнь людей безопаснее и удобнее. Сколько времени человек проводит в общественном транспорте? Какие нарушения совершают водители? Можно ли повысить безопасность поездок за счет нейросетей? Ответы — в этом материале.

Читать далее

Зачем нужны струйные МФУ, когда есть лазерные? Выбираем печатное устройство

Время на прочтение13 мин
Количество просмотров4.2K

МФУ давно стали стандартом офисного оборудования. Хотя традиционно считается, что рациональнее всего покупать именно лазерные решения – особенно для бизнеса, – но в определенных сценариях лучше всего себя показывают именно струйные устройства. Они оказываются оптимальным решением для пользователей, которые нуждаются в качественной цветной печати при средних объемах документооборота, а также в организациях, где ключевым фактором выступает оптимизация затрат на печать.

Читать далее

Перенос головы с картинки — сложно ли это? Модель GHOST-2.0

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.9K

В последнее время технологии замены лиц находят все больше применений. Помимо использования в развлекательных целях, они стали особенно важны для индустрии фильмов и рекламы, позволяя существенно ускорить и удешевить производство. Однако в таком подходе, где мы заменяем лишь область лица, есть несколько существенных недостатков. Чтобы от них избавиться, мы начали смотреть в сторону создания технологии переноса головы целиком

В данной статье мы представляем нашу новую модель GHOST 2.0 — первую опенсорс модель переноса головы на изображениях. Давайте мы подробнее разберём  составляющие модели и её архитектуру, а также углубимся в процесс обучения.

Читать далее

Как мы ускоряли виртуальные фоны в Толке

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1.3K

Однажды осенью мы сделали так, что Толк стал меньше нагревать ноутбуки пользователей. Кому интересно техно-мяско, как же у нас получилось ускорить виртуальные фоны в два раза, прошу в статью.

Читать далее

Обработать ночные снимки с телефона до уровня профессиональной камеры: челлендж в рамках воркшопа NTIRE 2025

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров4.7K

Ночная фотография — одна из самых трудных областей обработки изображений. Сложные условия освещения, повышенные шумы и нестандартные цветовые переходы создают серьезные преграды для алгоритмов, ориентированных на дневной сценарий. Однако совместными усилиями теоретиков и практиков возможно создать методы, позволяющие даже для ночных снимков со смартфона поднять качество до уровня профессиональной камеры.

Именно поэтому мы, команда исследователей из AIRI и ИППИ РАН, проводим в рамках воркшопа NTIRE при конференции CVPR 2025 «Night Photography Rendering Challenge 2025», в котором могут принять участие коллективы со всего мира, увлекающиеся наукой о данных и машинным обучением.

Подробности — в тексте ниже.

Читать далее

Миллиарды векторов и немного магии: превращаем сырые данные с маркетплейсов в пригодные для анализа

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров5.3K

Привет, Хабр! Я — Игорь Старун, BigData Lead в MPSTATS. Я уже 3 года занимаюсь анализом данных на маркетплейсах, штудируя гигантские объёмы информации и превращая их из непотребного и нечитаемого вида в удобоваримый и анализируемый. Моя задача — собрать и подготовить данные так, чтобы помочь продавцам на маркетплейсах разобраться, что происходит с их товарами, конкурентами и продажами, чтобы они не утонули в хаосе карточек, цен и остатков. В этой статье я расскажу, как мы перерабатываем эти объемы грязных данных и структурируем для дальнейшего анализа. 

Данные о товарах – это основа всего. Каждую неделю мы обходим более 200 миллионов карточек с Wildberries и Ozon. Названия, описания, характеристики, фотографии — всё это мы аккуратно собираем и складываем в базы данных (для разных задач мы используем ClickHouse, Postgres, MySQL и MongoDB) и облачные хранилища. Зачем? Чтобы потом сделать с этим что-то умное и полезное.

Читать дальше

Фильтр Гаусса на стероидах: подход на точность вычислений

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.8K

Hello, world! Это вторая часть хабростатьи Smart Engines про быструю фильтрацию изображений. Да-да, создавая топовый продукт по распознаванию документов, нам приходится разбираться в методах обработки изображений на экспертном уровне (иначе не получилось бы распознать изображение паспорта за 150 мс на мобильном телефон). В предыдущей части мы начали обсуждать быстрые аппроксимации гауссовского фильтра, которым была посвящена наша недавняя публикация в научном журнале MDPI Applied Sciences [1]. О том, как работает оригинальный фильтр Гаусса, мы уже писали, сейчас мы только напомним о его использовании всюду, где возникает обработка изображений: от редактирования фотографий на смартфоне – для размытия фона за объектом в режиме "портрет", до анализа рентгеновских снимков – чтобы убрать шум и улучшить читаемость изображения.

Читать далее

Автомодерация изображений: как исправлять нарушения, сохраняя количество и качество контента

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров19K

Привет! Меня зовут Владимир Морозов, я старший дата-сайентист в отделе автоматической модерации Авито. Раньше мы блокировали объявления, которые нарушают правила публикации, а теперь исправляем — с помощью ML-системы. Так мы сохраняем количество контента, сокращаем стоимость модерации и улучшаем пользовательский опыт. В статье подробно расскажу обо всех этапах внедрения новой ML-механики: от идеи и исследования подходов до оптимизации нейронок и вывода в продакшен.

Читать далее

Ближайшие события

19 марта – 28 апреля
Экспедиция «Рэйдикс»
Нижний НовгородЕкатеринбургНовосибирскВладивостокИжевскКазаньТюменьУфаИркутскЧелябинскСамараХабаровскКрасноярскОмск
24 апреля
VK Go Meetup 2025
Санкт-ПетербургОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань
14 мая
LinkMeetup
Москва
5 июня
Конференция TechRec AI&HR 2025
МоскваОнлайн
20 – 22 июня
Летняя айти-тусовка Summer Merge
Ульяновская область

Как измерить расстояние с точностью до нанометров или даже пикометров? Берём рулетку и… (нет, всё не так)

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров9.1K
Картинка Cookie_studio (Freepik), Youtube-канал «Huygens Optics»

Что мы знаем о способах измерения расстояний? Наверное, когда возникает вопрос об измерениях, многие вспоминают наиболее доступные инструменты: линейки, рулетки, портняжные метры, строительные рулетки и прочие подобные подходы.

Более продвинутые в инженерном плане вспомнят про штангенциркули, микрометры и концевые меры длин (плитки Иогансона).

Тем не менее, есть ещё один класс способов, который позволяет измерять расстояния со сверхмалым разрешением — вплоть до одного нанометра и менее…
Читать дальше →

Как мы прошли бюрократический ад, чтобы разработать нейросеть на заводе: сложности при создании ИИ на производстве

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4.9K

Нейросети сегодня — это не просто модное слово, а мощный инструмент для предотвращения аварий, оптимизации процессов и повышения безопасности на производстве. Однако путь от идеи до успешного внедрения часто оказывается тернистым, особенно когда речь идет о крупных промышленных объектах. В этой статье мы расскажем, как нам удалось внедрить систему на основе нейросетей на действующем заводе, с какими вызовами мы столкнулись и как их преодолели. От бюрократических барьеров до непонимания возможностей технологии со стороны заказчика — все это стало частью нашего опыта.

Читать далее

Threshold U-Net: как мы отказались от высокого разрешения и выиграли в скорости бинаризации

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1K

Хоть современный ИИ уже почти в состоянии написать симфонию и превратить холст в шедевр, некоторые простые задачи все еще не так просты, если наложить ограничения на решение. Так как главной задачей у нас, в Smart Engines, является распознавание и оцифровка документов, то для нас ограничениями являются скорость работы и возможность запуска системы на вычислительно слабых конечных устройствах. В этой статье мы вспомним об одной классической задаче обработки изображений – бинаризации документов. А также расскажем, как нам удалось существенно оптимизировать нейросетевую модель бинаризации, сохранив исходное качество, и причем тут современные модели детекции текста.

Читать далее

Индийский стартап снимает первый ИИ-фильм. Без актеров, камер и режиссеров

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров6.3K

Нейросети — это уже не будущее, а вполне себе настоящее. Каждый день появляются новости о каком-нибудь стартапе (сразу приходит на ум китайская DeepSeek), новом научном прорыве или очередном способе заменить человеческий труд.

В кино ИИ тоже давно прижился. Он помогает писать сценарии, озвучивать актеров, делать спецэффекты и даже превращать одного человека в другого. Вспомнить хотя бы фильм Бруталист, где нейросети использовали для стилизации изображения, или Эмилию Перес, где ИИ преобразил главную героиню.

Нейросети уже создавали трейлеры для фильмов, как это было с Морган от 20th Century Fox, но теперь речь идет о том, чтобы доверить им весь процесс. Индийский стартап Intelliflicks Studios заявил, что в 2025 году они выпустят первый полнометражный фильм, сделанный ИИ от начала до конца. И, конечно, в лучших традициях Болливуда — с песнями, танцами и кучей спецэффектов (ну а как иначе в Индии).

джими джими ача ача

DLSS 4 делает 240 fps в 4К: Как и на каких видеокартах работает новый апскейлер от NVIDIA

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров37K

Компьютерные инновации — явление весьма относительное и зависящее от угла восприятия. Потому что чаще всего за громкими анонсами скрываются минорные улучшения существующих решений, которые маркетологи пытаются выдать за революционные прорывы. Тем не менее, Deep Learning Super Sampling версии 4 от NVIDIA действительно претендует на звание серьезного технологического скачка в области рендеринга графики. Сегодня поcмотрим, что особенного в этой технологии и почему она вызывает такой ажиотаж.

Читать далее

Лентикулярная печать, интегральные изображения, дисплеи светового поля и немного ещё

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров8.4K
Картинка Youtube-канал «Howseography»

Что вспоминается в первую очередь, когда думаешь о детских годах? Лично для меня — это переливающиеся 3D-открытки, которые раньше продавались почти в каждом киоске.

Помните такие? Поворачиваешь под разными углами — и появляются разные изображения.

В детстве мы даже не задумывались о том, что их можно сделать самостоятельно. Казалось, что это что-то слишком сложное.

Но, как выяснилось, такие картинки вполне реально создать самому, и результат практически не отличается от заводского!
Читать дальше →

Распознавание снимков — почему нейросеть не лучший выбор, и как мне помог сервис распознаваний капчи — личный опыт

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.7K

До определенного момента я свято верил в то, что в современном мире ручное распознавание капчи постепенно становится анахронизмом, особенно, когда речь идет о таких простых капчах - как капча картинка (где необходимо просто распознать текст на фотографии и ввести его в текстовом формате). Но знаете, оказалось все не так однозначно (как бы это ни звучало). 

Читать далее

Вклад авторов