Все потоки
Поиск
Написать публикацию
Обновить
52.45

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Запускаем Yolo на пятирублёвой монете или Luckfox Pico Mini

Уровень сложностиСредний
Время на прочтение29 мин
Количество просмотров30K

В данной статье речь пойдет про использование очень маленькой Luckfox Pico Mini. Я расскажу про особенности платы, её настройку, а также о том как запускать на ней нейронные сети для детекции объектов с камеры.

Мне удалось добиться скорости детекции в 15 FPS (или даже 50!), результат, который по силам далеко не каждому одноплатнику.

Читать далее

Поиск по фото и раздетые дипфейки

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров7.3K

Современные технологии стремительно развиваются, и то, что когда-то казалось футуристической фантастикой, стало реальностью. Одной из таких технологий является поиск по фото — инструмент, который кардинально изменил способ взаимодействия пользователей с изображениями в интернете. Сегодня это мощное средство позволяет людям находить похожие изображения, искать источники фотографий и даже проводить анализ лиц. Но вместе с прогрессом пришли и новые угрозы. Одной из наиболее серьёзных проблем, возникших с развитием поиска по фото, стало распространение дипфейков — фальшивых изображений, созданных с использованием искусственного интеллекта (ИИ).

Одним из самых опасных аспектов этой технологии стало создание так называемых «раздетых дипфейков», на которых лица девушек подделываются и накладываются на обнажённые тела или компрометирующие сцены без их согласия. Это поднимает серьёзные вопросы о безопасности, конфиденциальности и этике использования поиска по фото.

Читать далее

Как готовить EdgeAI в 2024/2025 году

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров7.7K

Есть у меня такое развлечение - разные платы для AI тестировать.

Очень много того с чем я работаю - про Computer Vision на Edge. В какой то момент я понял что мне не хватает информации. Нет ничего кроме восторженного пресс-релизов. Дай бог ещё есть видео как официальные примеры запускают. Но обычно без этого.

Так что в какой-то момент начал тестировать всё сам. Просто чтобы понимать какие есть альтернативы, что можно а что нельзя.
Иногда (раз в год-два) я пишу обзорную статью. И это именно она. Тут я попробую рассмотреть критерии, которые можно считать важными для AI плат. А так же кратко рассмотреть основные платы на рынке.

Читать далее

Как научить LLM понимать видео? Обзор подходов

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров6.2K

Всем привет! Сегодня поговорим про задачу понимания видео и эволюцию подходов к обучению мультимодальных больших языковых моделей для этой задачи.

Video Understanding — направление на стыке компьютерного зрения (CV) и обработки естественного языка (NLP), включающее в себя множество разнообразных задач на восприятие и интерпретацию видео. От базового распознавания предметов и объектов в видеоряде, локализации объектов в пространстве или во времени, подсчета предметов и людей, до генерации кратких или развернутых описаний видео и задач на рассуждения о причинах происходящего на видео, требующих глубокого понимания мира — от человеческой психологии до физических свойств объектов. 

Читать далее

Как математически просчитать градиент цветовой палитры

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.9K

Начать хотелось бы с предыстории и задачи, которую я решаю на работе. Есть сайт, фотографии на котором при публикации должны подходить под определенное соотношение сторон (3х2). При этом в работе часто возникают определенные трудности. Например, что делать, если автор сделал скрин-шот, который не соответствует этому соотношению?

Здесь помочь может дизайнер, который вставит изображение на подходящий фон, или просто при загрузке выбирать, какую часть изображения придется отрезать. Оба варианта по своим причинам неудобны. Первый — из-за времени, второй — из-за потери содержания. Отсюда и родилась задача написать сервис, который автоматически будет выполнять работу дизайнера: возьмет изображение и поместит его в рамки с необходимым соотношением сторон. Получится примерно следующее:

Читать далее

Как сделать себя в модной нейронке Flux (лёгкий путь без смс и регистрации)

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров15K

Среди топовых картиночных генераторов у всех на устах Flux. Недавно она еще и обновилась, но первая версия отличная, прекрасно генерит фотореалистичных человечков и вообще, в целом, кайфовая штука, к.м.к. Покажу, как дотренировать её на своих фотках, чтоб можно было генерить себя любимого/мую в разных ракурсах. Раньше дотренивать можно было только с бубном или платными сервисами. Сейчас есть возможность локально это сделать, нужна лишь более-менее нормальная видюха. Туториал, в целом, ориентирован на начальный уровень, надеюсь, будет легко.

Читать далее

Kaggle для футболистов: Классификация событий на футбольном поле

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2.7K

Всем привет! В конце 2022 года закончилось соревнование DFL - Bundesliga Data Shootout. Так как мне интересен футбол и в целом спортивная аналитика, то я решил поучаствовать в этом соревновании. Целью данной статьи является описание моего подхода, и я уверен, что многие методы, примененные к этой задаче, могут быть адаптированы для решения других задач в области компьютерного зрения. За подробностями под кат!

Читать далее

Как я искал замену Canva и нашел 12 крутых онлайн-фоторедакторов

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров24K

Многие расстроились, когда Канва ушла из России. Когда я начинал творческий путь, онлайн-редакторов было не более 2–3 достойных. Сейчас их десятки: работает импортозамещение, развиваются другие зарубежные сервисы. Ими пользуются не только новички.

Для вас, друзья, составил подборку с редакторами, чтобы избавить от долгих мук выбора. Они работают онлайн и запускаются без сети впн, которая не всегда помогает.  

Читайте, пробуйте. Возможно, влюбитесь в один из аналогов Canva и больше о ней не вспомните.

Читать далее

Ищем потерявшихся питомцев с помощью нейросетей

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров2.8K

Представьте себе, ваш питомец вдруг сбежал отправился в увлекательное путешествие по соседским дворам. Паника, нервы, поиски, бумажные объявления... И хорошо, если ваш пушистик чипирован, но ведь о таком заботятся не все. Можно пойти шерстить порталы с потеряшками, но где искать? Как они работают? Тот еще квест! Хотелось бы автоматизировать этот поиск и здесь как нельзя кстати подойдут нейросети. Мы обучили сеточки для детектирования и распознавания мордочек, которые могут стать основой для удобного сервиса поиска потерявшихся животных.

Мы запилили удобного демо-бота с этими сеточками, он называется FindPet. И теперь с удовольствием представляем его вам и рассказываем, как мы его создавали.

Читать далее

Профессия нейрохудожника: соавторство с нейросетью на примере чувства юмора

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.2K

Привет, меня зовут Алина, и я нейрохудожник. В прошлой статье я рассказывала об управляемой части работы нейрохудожника, когда для создания изображений используешь проверенные промты — текстовые описания, на основе которых нейросеть создаёт иллюстрации. В этой статье я покажу, что часть работы нейрохудожника заключается в получении случайных и непредсказуемых изображений. Что с ними делать? Один из вариантов — шутить.

Читать далее

Методы предпроцессинга в IDP-системе ITFB EasyDoc

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров919

Всем привет!

На связи команда Data Science компании ITFB Group. У нашей компании есть собственная разработка ITFB EasyDoc — система распознавания и извлечения данных из любого типа документов. В современном мире автоматизация обработки документов стала неотъемлемой частью множества бизнес-процессов. Предобработка изображений документов является важным шагом для обеспечения точности и надежности дальнейшего распознавания атрибутов. В этой статье мы хотим рассказать о некоторых эффективных методах предпроцессинга документов, позволяющих увеличивать как качество OCR-систем (Optical Character Recognition), так и различные CV и NLP пайплайны. Всем, кому интересна эта тема, — добро пожаловать под кат.

Читать далее

Склейка фото как отдельный вид искусства (как распознать мерцающую строку)

Время на прочтение2 мин
Количество просмотров1.9K


Размышляя над прикладной задачей «как прочитать мерцающую строку с номером электробуса» с помощью обычной камеры можно прийти к совершенно неожиданным результатам. Например, получить футуристические снимки окружающего ландшафта и вещей. Решение данной задачи с помощью python, а также несколько инопланетных изображений далее в статье.
Читать дальше →

Любительская стереосъёмка

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров13K

В книге Якова Перельмана «Занимательная физика» было описание наблюдения ландшафта через стереотрубу:

«Трудно описать ощущения, которые испытываешь, когда смотришь в подобные инструменты, — до того они необычайны! Вся природа преображается. Далёкие горы становятся рельефными, деревья, скалы, здания, корабли на море — всё круглится, всё выпукло, расставлено на бесконечном просторе, а не лежит на плоском экране. Вы непосредственно видите, как движется далёкое судно, которое в обыкновенные трубы кажется неподвижным. В таком виде должны были бы представляться наши земные ландшафты сказочным великанам».

В этой книге был раздел, посвящённый стереоэффекту, и приводились несколько картинок, которые при особом способе рассмотрения в плоскости бумажного листа превращались в трёхмерные изображения. Это казалось фантастикой.
Смотреть картинки и читать

Ближайшие события

Делаем правильный анаглиф своими руками

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров9.4K


Всем привет. Сегодня я поделюсь методом создания высококачественных анаглифических изображений с минимальными трудозатратами. Динозавров делать не будем: возьмем любую фотографию из семейного архива и получим полноценное трехмерное изображение. Сразу скажу, что концепция не новая, но мы будем использовать современные наработки и даже напишем простейший плагин для GIMP, от которого, впрочем, придется отказаться…
Читать дальше →

Real-time-распознавание лиц: методы обучения быстрых и точных моделей для работы на мобильных девайсах

Время на прочтение13 мин
Количество просмотров4.9K

Привет, Хабр! Меня зовут Вадим Селютин, я старший исследователь в компании VisionLabs. Наши решения по распознаванию лиц можно встретить в офисных центрах, московском метро и кассах самообслуживания супермаркетов. Во всех этих кейсах мы используем нейросети, которые адаптируем специально для мобильных устройств.

В этой статье я расскажу про постановку задачи распознавания лиц, подходящие мобильные архитектуры, обучение распознаванию лиц на больших объемах данных и способы повысить точность маленькой архитектуры.

Читать далее

Софт на диете: как мы в DCAP OCR разгоняли

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров855

Привет!

Мы в «СёрчИнформ» 20 лет создаем софт для защиты информации и постоянно его оптимизируем. Например, последовательно работаем над ресурсоемкостью продуктов (низкая нагрузка на оборудование – важное преимущество для заказчиков), и придумали в этом направлении много удачных (не только наше мнение) решений.

Запускаем серию постов об этом. Сегодня – о том, как пересобрали архитектуру OCR в нашей DCAP-системе (файловом аудиторе), чтобы ускорить анализ изображений, не перегружая серверы и пользовательские ПК. 

Читать далее

Итоги ICDAR-2024: Как и зачем нужно делать распознавание объяснимым

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров906

В солнечных Афинах завершилась конференция ICDAR-2024. Причиной ли тому средиземноморское солнце или живой энтузиазм выступающих, но здесь было действительно жарко. Что неудивительно - ведь это главное международное мероприятие, посвященное вопросам распознавания. Одна из ключевых тем встречи – современные вызовы и перспективы OCR. Ведущие ученые со всего мира сошлись во мнении, что технологии распознавания жизненно необходимо сделать более понятными и интерпретируемыми. А для этого создать простую OCR явно недостаточно.

Нам в Smart Engines есть что добавить по этому поводу. Рассказываем, зачем нужно “объяснять” OCR и как это правильно сделать.

Объясняем тут

FROMAGe

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров941

В настоящее время языковые модели зарекомендовали себя как гибкий инструмент, применяемый в различных областях. Однако, не смотря на всю свою мощь, большинство существующих языковых моделей имеют ограничения в выполнении задач, связанных с визуальным мышлением и обоснованием, а также не способны создавать иллюстрированные образы. Подобные препятствия мешают пользователям использовать одну модель для своих задач и зачастую им приходится дополнительно искать модели, специализирующиеся на визуальном контексте.

В 2023 году исследователи из университета Карнеги‑Меллона смогли создать первую языковую мультимодальную модель FROMAGe, имеющую визуальные и языковые возможности, такие как мультимодальный диалог, генерация и контекстуальный поиск изображений из разговоров. При помощи данной модели пользователи могут в режиме диалога решать любые свои проблемы и для более точного ответа модель будет часто иллюстрировать свои текстовые ответы.

Читать далее

Путеводитель для диффузионок. Как заставить нейросети качественно редактировать изображения

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2.5K

Привет, Хабр! Меня зовут Вадим, я — младший научный сотрудник группы Controllable Generative AI лаборатории FusionBrain в AIRI. Последние несколько лет я занимаюсь исследованием генеративных моделей в контексте задачи редактирования фотографий. Мы с командой накопили большую экспертизу и хотели бы поделиться ей.

Совсем недавно мы выложили препринт статьи, которую мы представим на ECCV этой осенью (сама статья, её код, demo на HuggingFace). Там мы предложили метод редактирования реальных изображений с помощью диффузионных моделей, который достигает лучшего компромисса между качеством редактирования и сохранением структуры исходного изображения, а также эффективен с вычислительной точки зрения. В данной статье я хотел бы рассказать о том, почему приходится делать такой выбор, и как мы эту проблему обошли. Приятного чтения!

Читать далее

Как Яндекс создавал новую end2end-модель генерации коротких видео

Уровень сложностиСложный
Время на прочтение25 мин
Количество просмотров6.1K

Приложение Шедеврум начало использовать новую end2end-модель YandexART (Vi). Она позволяет создавать видео по текстовому запросу и учитывает взаимосвязь между кадрами, делая видео более связными, плавными и реалистичными, чем при использовании предыдущей модели. Предыдущее решение было основано на использовании эвристик для добавления движения камеры, где видео создавалось кадр за кадром с применением модели генерации изображений, что приводило к значительным изменениям в содержании каждого кадра. 

В этой статье поделимся нашим опытом разработки первых версий end2end-модели YandexART (Vi): 

— расскажем, почему изначально выбрали работу в пиксельном пространстве;

— опишем методы инженерных оптимизаций, которые помогли в обучении моделей;

— обсудим проблемы, с которыми столкнулись в процессе разработки, и как их решали;

— в завершение расскажем, почему в итоге решили отказаться от пиксельного пространства в пользу латентного и поделимся нашими планами на будущее.

И так как на Хабре не принято вставлять гифки и видео до ката, примеры новой модели вас ждут под ним. 

Посмотреть примеры

Вклад авторов