Как стать автором
Обновить
126.44

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

От каскадных моделей до картинок в 4к: как эволюционировали диффузионки

Время на прочтение19 мин
Количество просмотров6.4K

На дворе 2025 год. Генерацией картинок и видео в интернете больше никого не удивишь. Генеративный контент повсюду, а его качество настолько высоко, что бывает трудно отличить синтетическую картинку от реальной.

Прогресс не стоит на месте, но какой ценой? Мир сильно усложнился со времён выхода первых моделей Stable Diffusion, подробные рассказы о которых описывали главную и до недавнего времени единственную доступную широкому кругу пользователей качественную открытую модель.

В прошлом году мы с коллегами рассказывали про то, как мы открывали и улучшали технологию YandexART. В этом посте мы хотели бы рассказать о том, что нового произошло в мире диффузионных моделей за последние два года. Ниже мы обсудим борьбу каскадной и латентной парадигм, дилемму между свёрточными моделями и трансформерами, новые формулировки диффузии и дистилляцию как метод решения основной проблемы диффузионных моделей — низкой скорости генерации.

Читать далее

Нейросеть против ДТП: как мы разработали искусственный интеллект, чтобы обезопасить поездки в автобусе

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров936

Уже несколько лет человечество активно внедряет автоматизированные системы с участием нейросетей в свою повседневность. Вопреки расхожему мнению, не только компании извлекают из этого выгоду, но и обычные люди. И речь не только о коммерческой выгоде — такие системы могут спасать жизни. Система, о которой мы сегодня расскажем, преследует цель сделать жизнь людей безопаснее и удобнее. Сколько времени человек проводит в общественном транспорте? Какие нарушения совершают водители? Можно ли повысить безопасность поездок за счет нейросетей? Ответы — в этом материале.

Читать далее

Зачем нужны струйные МФУ, когда есть лазерные? Выбираем печатное устройство

Время на прочтение13 мин
Количество просмотров4.4K

МФУ давно стали стандартом офисного оборудования. Хотя традиционно считается, что рациональнее всего покупать именно лазерные решения – особенно для бизнеса, – но в определенных сценариях лучше всего себя показывают именно струйные устройства. Они оказываются оптимальным решением для пользователей, которые нуждаются в качественной цветной печати при средних объемах документооборота, а также в организациях, где ключевым фактором выступает оптимизация затрат на печать.

Читать далее

Перенос головы с картинки — сложно ли это? Модель GHOST-2.0

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров2K

В последнее время технологии замены лиц находят все больше применений. Помимо использования в развлекательных целях, они стали особенно важны для индустрии фильмов и рекламы, позволяя существенно ускорить и удешевить производство. Однако в таком подходе, где мы заменяем лишь область лица, есть несколько существенных недостатков. Чтобы от них избавиться, мы начали смотреть в сторону создания технологии переноса головы целиком

В данной статье мы представляем нашу новую модель GHOST 2.0 — первую опенсорс модель переноса головы на изображениях. Давайте мы подробнее разберём  составляющие модели и её архитектуру, а также углубимся в процесс обучения.

Читать далее

Как мы ускоряли виртуальные фоны в Толке

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1.5K

Однажды осенью мы сделали так, что Толк стал меньше нагревать ноутбуки пользователей. Кому интересно техно-мяско, как же у нас получилось ускорить виртуальные фоны в два раза, прошу в статью.

Читать далее

Обработать ночные снимки с телефона до уровня профессиональной камеры: челлендж в рамках воркшопа NTIRE 2025

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров4.8K

Ночная фотография — одна из самых трудных областей обработки изображений. Сложные условия освещения, повышенные шумы и нестандартные цветовые переходы создают серьезные преграды для алгоритмов, ориентированных на дневной сценарий. Однако совместными усилиями теоретиков и практиков возможно создать методы, позволяющие даже для ночных снимков со смартфона поднять качество до уровня профессиональной камеры.

Именно поэтому мы, команда исследователей из AIRI и ИППИ РАН, проводим в рамках воркшопа NTIRE при конференции CVPR 2025 «Night Photography Rendering Challenge 2025», в котором могут принять участие коллективы со всего мира, увлекающиеся наукой о данных и машинным обучением.

Подробности — в тексте ниже.

Читать далее

Миллиарды векторов и немного магии: превращаем сырые данные с маркетплейсов в пригодные для анализа

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров5.5K

Привет, Хабр! Я — Игорь Старун, BigData Lead в MPSTATS. Я уже 3 года занимаюсь анализом данных на маркетплейсах, штудируя гигантские объёмы информации и превращая их из непотребного и нечитаемого вида в удобоваримый и анализируемый. Моя задача — собрать и подготовить данные так, чтобы помочь продавцам на маркетплейсах разобраться, что происходит с их товарами, конкурентами и продажами, чтобы они не утонули в хаосе карточек, цен и остатков. В этой статье я расскажу, как мы перерабатываем эти объемы грязных данных и структурируем для дальнейшего анализа. 

Данные о товарах – это основа всего. Каждую неделю мы обходим более 200 миллионов карточек с Wildberries и Ozon. Названия, описания, характеристики, фотографии — всё это мы аккуратно собираем и складываем в базы данных (для разных задач мы используем ClickHouse, Postgres, MySQL и MongoDB) и облачные хранилища. Зачем? Чтобы потом сделать с этим что-то умное и полезное.

Читать дальше

Фильтр Гаусса на стероидах: подход на точность вычислений

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.9K

Hello, world! Это вторая часть хабростатьи Smart Engines про быструю фильтрацию изображений. Да-да, создавая топовый продукт по распознаванию документов, нам приходится разбираться в методах обработки изображений на экспертном уровне (иначе не получилось бы распознать изображение паспорта за 150 мс на мобильном телефон). В предыдущей части мы начали обсуждать быстрые аппроксимации гауссовского фильтра, которым была посвящена наша недавняя публикация в научном журнале MDPI Applied Sciences [1]. О том, как работает оригинальный фильтр Гаусса, мы уже писали, сейчас мы только напомним о его использовании всюду, где возникает обработка изображений: от редактирования фотографий на смартфоне – для размытия фона за объектом в режиме "портрет", до анализа рентгеновских снимков – чтобы убрать шум и улучшить читаемость изображения.

Читать далее

Автомодерация изображений: как исправлять нарушения, сохраняя количество и качество контента

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров20K

Привет! Меня зовут Владимир Морозов, я старший дата-сайентист в отделе автоматической модерации Авито. Раньше мы блокировали объявления, которые нарушают правила публикации, а теперь исправляем — с помощью ML-системы. Так мы сохраняем количество контента, сокращаем стоимость модерации и улучшаем пользовательский опыт. В статье подробно расскажу обо всех этапах внедрения новой ML-механики: от идеи и исследования подходов до оптимизации нейронок и вывода в продакшен.

Читать далее

Как измерить расстояние с точностью до нанометров или даже пикометров? Берём рулетку и… (нет, всё не так)

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров9.3K
Картинка Cookie_studio (Freepik), Youtube-канал «Huygens Optics»

Что мы знаем о способах измерения расстояний? Наверное, когда возникает вопрос об измерениях, многие вспоминают наиболее доступные инструменты: линейки, рулетки, портняжные метры, строительные рулетки и прочие подобные подходы.

Более продвинутые в инженерном плане вспомнят про штангенциркули, микрометры и концевые меры длин (плитки Иогансона).

Тем не менее, есть ещё один класс способов, который позволяет измерять расстояния со сверхмалым разрешением — вплоть до одного нанометра и менее…
Читать дальше →

Как мы прошли бюрократический ад, чтобы разработать нейросеть на заводе: сложности при создании ИИ на производстве

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4.9K

Нейросети сегодня — это не просто модное слово, а мощный инструмент для предотвращения аварий, оптимизации процессов и повышения безопасности на производстве. Однако путь от идеи до успешного внедрения часто оказывается тернистым, особенно когда речь идет о крупных промышленных объектах. В этой статье мы расскажем, как нам удалось внедрить систему на основе нейросетей на действующем заводе, с какими вызовами мы столкнулись и как их преодолели. От бюрократических барьеров до непонимания возможностей технологии со стороны заказчика — все это стало частью нашего опыта.

Читать далее

Threshold U-Net: как мы отказались от высокого разрешения и выиграли в скорости бинаризации

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.1K

Хоть современный ИИ уже почти в состоянии написать симфонию и превратить холст в шедевр, некоторые простые задачи все еще не так просты, если наложить ограничения на решение. Так как главной задачей у нас, в Smart Engines, является распознавание и оцифровка документов, то для нас ограничениями являются скорость работы и возможность запуска системы на вычислительно слабых конечных устройствах. В этой статье мы вспомним об одной классической задаче обработки изображений – бинаризации документов. А также расскажем, как нам удалось существенно оптимизировать нейросетевую модель бинаризации, сохранив исходное качество, и причем тут современные модели детекции текста.

Читать далее

Индийский стартап снимает первый ИИ-фильм. Без актеров, камер и режиссеров

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров6.5K

Нейросети — это уже не будущее, а вполне себе настоящее. Каждый день появляются новости о каком-нибудь стартапе (сразу приходит на ум китайская DeepSeek), новом научном прорыве или очередном способе заменить человеческий труд.

В кино ИИ тоже давно прижился. Он помогает писать сценарии, озвучивать актеров, делать спецэффекты и даже превращать одного человека в другого. Вспомнить хотя бы фильм Бруталист, где нейросети использовали для стилизации изображения, или Эмилию Перес, где ИИ преобразил главную героиню.

Нейросети уже создавали трейлеры для фильмов, как это было с Морган от 20th Century Fox, но теперь речь идет о том, чтобы доверить им весь процесс. Индийский стартап Intelliflicks Studios заявил, что в 2025 году они выпустят первый полнометражный фильм, сделанный ИИ от начала до конца. И, конечно, в лучших традициях Болливуда — с песнями, танцами и кучей спецэффектов (ну а как иначе в Индии).

джими джими ача ача

Ближайшие события

DLSS 4 делает 240 fps в 4К: Как и на каких видеокартах работает новый апскейлер от NVIDIA

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров41K

Компьютерные инновации — явление весьма относительное и зависящее от угла восприятия. Потому что чаще всего за громкими анонсами скрываются минорные улучшения существующих решений, которые маркетологи пытаются выдать за революционные прорывы. Тем не менее, Deep Learning Super Sampling версии 4 от NVIDIA действительно претендует на звание серьезного технологического скачка в области рендеринга графики. Сегодня поcмотрим, что особенного в этой технологии и почему она вызывает такой ажиотаж.

Читать далее

Лентикулярная печать, интегральные изображения, дисплеи светового поля и немного ещё

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров9K
Картинка Youtube-канал «Howseography»

Что вспоминается в первую очередь, когда думаешь о детских годах? Лично для меня — это переливающиеся 3D-открытки, которые раньше продавались почти в каждом киоске.

Помните такие? Поворачиваешь под разными углами — и появляются разные изображения.

В детстве мы даже не задумывались о том, что их можно сделать самостоятельно. Казалось, что это что-то слишком сложное.

Но, как выяснилось, такие картинки вполне реально создать самому, и результат практически не отличается от заводского!
Читать дальше →

Распознавание снимков — почему нейросеть не лучший выбор, и как мне помог сервис распознаваний капчи — личный опыт

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.7K

До определенного момента я свято верил в то, что в современном мире ручное распознавание капчи постепенно становится анахронизмом, особенно, когда речь идет о таких простых капчах - как капча картинка (где необходимо просто распознать текст на фотографии и ввести его в текстовом формате). Но знаете, оказалось все не так однозначно (как бы это ни звучало). 

Читать далее

В один клик — как я тестировал фильтры для фото

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.3K

Похоже, моя кузина становится для меня музой. В прошлый раз она мне подсказала тему для статьи про видео. А на днях мы с ней болтали, и сестренка спросила: мол, вот ты — фотограф, а скажи, какие ты знаешь интересные фильтры для обработки фото, и вообще, что сейчас в моде. 

Признаться, вопрос меня поставил в тупик. Я, конечно, пользуюсь пресетами при обработке. В свое время написал для себя несколько сценариев в Adobe Lightroom и ранних версиях Photoshop. Однако сейчас я больше предпочитаю штучную обработку в Фотошопе, а стилизация снимков зависит от сюжета, цели, в конце концов, от настроения. Но никак не от моды.

Тем не менее вопрос заставил задуматься. И вот как-то сложилось, что работу я закончил, планов не было, а времени свободного оказалось внезапно много. И решил пошерстить интернет на предмет поиска тенденций в фильтрах. Информации вылезло много, но я обратил внимание вот на этот материал.

По совпадению, я в свое время, тестировал редактор, фильтры из которой здесь описываются — как альтернативу Photoshop для одной из статей. Чтобы изучить все возможности, я приобрел платную версию, а лицензия у нее — бессрочная. Так что прога по-прежнему стоит на моем старом ноутбуке, благо системные требования у софта очень гуманные.

Кстати, надо заметить, что ФотоМАСТЕР — программа необычайно удобная для новичков и любителей. Так, она сильно приглянулась моей сестренке. В редакторе она делает коллажи или создает мемы и открытки со стикерами и надписями. Но больше всего кузине нравится функция «Идеальный портрет» и возможность AI-пластики лица и фигуры. С ними она превращает свою и без того симпатичную мордашку в эталон красоты, или делает талию еще тоньше.

Читать далее

Фильтр Гаусса на стероидах: секреты ускорения вычислений

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров5.6K

Привет, Хабр! Представьте, что вы пытаетесь обработать фотографию высокого разрешения на вашем смартфоне — добавить размытие, убрать шум или улучшить качество изображения. Кажется, задача проста, но за кулисами работает алгоритм, требующий немало вычислительных ресурсов. Речь идет о фильтре Гаусса – одной из самых популярных операций в области компьютерной обработки изображений.

Для каждого пикселя нужно выполнить множество операций сложения и умножения, особенно если размер фильтра велик. Это становится серьёзным препятствием, когда есть требования к работе в режиме реального времени, например, при обработке видео, адаптации для беспилотных летательных аппаратов и пр. Но что, если сказать, что такие вычисления можно ускорить в десятки раз с незначительной потерей качества?

Читать далее

Синтез и восстановление голограмм-проекторов. Часть 1

Время на прочтение5 мин
Количество просмотров981

Всё началось в далёком 2004 году, когда я учился в СПб ГУ ИТМО на кафедре Прикладной и компьютерной оптики (ПиКО). Однажды на лекции по "Основам оптики" преподаватель рассказал о голографии. Эта тема меня сразу увлекла, и, несмотря на то, что многое тогда было непонятно, проявленный интерес не угас до сих пор. Помню, как лектор объяснял свойства голограмм, а так же привел схему связывающую параметры записи с типом получаемых голограмм: Габора, Лейта и Упатниекса, Денисюка и другие (рис. 1). Это был тот не редкий момент, когда: «Очень интересно и ничего не понятно»

Читать далее

Стереокамера машинного зрения c поддержкой ИИ на базе FPGA и Arduino Portenta H7

Время на прочтение10 мин
Количество просмотров8.5K

В статье рассмотрен процесс проектирования модуля стереокамеры на базе двух монохромных сенсоров MT9V034. Для управления матрицами и сшивания картинки с двух видеопотоков используется FPGA Gowin GW2AR. Использование FPGA и сенсоров с глобальным затвором позволило точно синхронизировать время экспозиции, таким образом сшитое изображение содержит два кадра, которые снимают объект в одно и то же время с наносекундной точностью. Модуль подключается в качестве «шилда» к промышленной отладочной плате Arduino Portenta H7. Комбинированный видеопоток обрабатывается библиотекой машинного зрения OpenMV на Arduino. Разработка проекта ведется в специализированной IDE от OpenMV на MicroPython, что позволяет быстро прототипировать устройства с использованием алгоритмов машинного зрения. После отладки камера работает автономно, весь код исполняется микроконтроллером на Arduino. В библиотеке OpenMV реализовано большое количество функций обработки изображений, от базовых преобразований и фильтров, до машинного обучения. Поддержка TensorFlow Lite позволяет обнаруживать объекты на стереопаре, сопоставлять их и рассчитывать расстояние до этих объектов. Так же в библиотеке реализованы функции построения карты глубин, что позволяет использовать разработанную камеру для реализации алгоритмов автономной навигации.  

Читать далее