Обработка изображений *

Работаем с фото и видео

СтатьиПостыНовостиАвторыКомпании

ret77876 22 окт 2024 в 08:16

Запускаем Yolo на пятирублёвой монете или Luckfox Pico Mini

Средний

29 мин

30K

Искусственный интеллектC++ * РобототехникаМашинное обучение * Обработка изображений *

Туториал

✏️ Технотекст 7

В данной статье речь пойдет про использование очень маленькой Luckfox Pico Mini. Я расскажу про особенности платы, её настройку, а также о том как запускать на ней нейронные сети для детекции объектов с камеры.

Мне удалось добиться скорости детекции в 15 FPS (или даже 50!), результат, который по силам далеко не каждому одноплатнику.

+147

retroman 14 окт 2024 в 15:35

Поиск по фото и раздетые дипфейки

Простой

5 мин

7.3K

Искусственный интеллектМашинное обучение * Обработка изображений * Софт

Мнение

Современные технологии стремительно развиваются, и то, что когда-то казалось футуристической фантастикой, стало реальностью. Одной из таких технологий является поиск по фото — инструмент, который кардинально изменил способ взаимодействия пользователей с изображениями в интернете. Сегодня это мощное средство позволяет людям находить похожие изображения, искать источники фотографий и даже проводить анализ лиц. Но вместе с прогрессом пришли и новые угрозы. Одной из наиболее серьёзных проблем, возникших с развитием поиска по фото, стало распространение дипфейков — фальшивых изображений, созданных с использованием искусственного интеллекта (ИИ).

Одним из самых опасных аспектов этой технологии стало создание так называемых «раздетых дипфейков», на которых лица девушек подделываются и накладываются на обнажённые тела или компрометирующие сцены без их согласия. Это поднимает серьёзные вопросы о безопасности, конфиденциальности и этике использования поиска по фото.

ZlodeiBaal 13 окт 2024 в 23:36

Как готовить EdgeAI в 2024/2025 году

Средний

14 мин

7.7K

Блог компании RecognitorОбработка изображений * Искусственный интеллектПроизводство и разработка электроники * Алгоритмы *

Обзор

Есть у меня такое развлечение - разные платы для AI тестировать.

Очень много того с чем я работаю - про Computer Vision на Edge. В какой то момент я понял что мне не хватает информации. Нет ничего кроме восторженного пресс-релизов. Дай бог ещё есть видео как официальные примеры запускают. Но обычно без этого.

Так что в какой-то момент начал тестировать всё сам. Просто чтобы понимать какие есть альтернативы, что можно а что нельзя.
Иногда (раз в год-два) я пишу обзорную статью. И это именно она. Тут я попробую рассмотреть критерии, которые можно считать важными для AI плат. А так же кратко рассмотреть основные платы на рынке.

+43

hukenovs 10 окт 2024 в 07:52

Как научить LLM понимать видео? Обзор подходов

Средний

9 мин

6.2K

Блог компании СберБлог компании SberDevicesМашинное обучение * Обработка изображений * Искусственный интеллект

Обзор

Всем привет! Сегодня поговорим про задачу понимания видео и эволюцию подходов к обучению мультимодальных больших языковых моделей для этой задачи.

Video Understanding — направление на стыке компьютерного зрения (CV) и обработки естественного языка (NLP), включающее в себя множество разнообразных задач на восприятие и интерпретацию видео. От базового распознавания предметов и объектов в видеоряде, локализации объектов в пространстве или во времени, подсчета предметов и людей, до генерации кратких или развернутых описаний видео и задач на рассуждения о причинах происходящего на видео, требующих глубокого понимания мира — от человеческой психологии до физических свойств объектов.

+34

neuron-nexus 9 окт 2024 в 20:15

Как математически просчитать градиент цветовой палитры

Простой

3 мин

1.9K

Математика * Обработка изображений *

Из песочницы

Начать хотелось бы с предыстории и задачи, которую я решаю на работе. Есть сайт, фотографии на котором при публикации должны подходить под определенное соотношение сторон (3х2). При этом в работе часто возникают определенные трудности. Например, что делать, если автор сделал скрин-шот, который не соответствует этому соотношению?

Здесь помочь может дизайнер, который вставит изображение на подходящий фон, или просто при загрузке выбирать, какую часть изображения придется отрезать. Оба варианта по своим причинам неудобны. Первый — из-за времени, второй — из-за потери содержания. Отсюда и родилась задача написать сервис, который автоматически будет выполнять работу дизайнера: возьмет изображение и поместит его в рамки с необходимым соотношением сторон. Получится примерно следующее:

alexshalyapin 6 окт 2024 в 09:55

Как сделать себя в модной нейронке Flux (лёгкий путь без смс и регистрации)

Простой

5 мин

15K

Обработка изображений * Графический дизайн *

Туториал

Recovery Mode

Среди топовых картиночных генераторов у всех на устах Flux. Недавно она еще и обновилась, но первая версия отличная, прекрасно генерит фотореалистичных человечков и вообще, в целом, кайфовая штука, к.м.к. Покажу, как дотренировать её на своих фотках, чтоб можно было генерить себя любимого/мую в разных ракурсах. Раньше дотренивать можно было только с бубном или платными сервисами. Сейчас есть возможность локально это сделать, нужна лишь более-менее нормальная видюха. Туториал, в целом, ориентирован на начальный уровень, надеюсь, будет легко.

+11

wadik69 6 окт 2024 в 07:46

Kaggle для футболистов: Классификация событий на футбольном поле

Средний

8 мин

2.7K

Data Mining * Обработка изображений * Python * Машинное обучение *

Кейс

Всем привет! В конце 2022 года закончилось соревнование DFL - Bundesliga Data Shootout. Так как мне интересен футбол и в целом спортивная аналитика, то я решил поучаствовать в этом соревновании. Целью данной статьи является описание моего подхода, и я уверен, что многие методы, примененные к этой задаче, могут быть адаптированы для решения других задач в области компьютерного зрения. За подробностями под кат!

pokrovsk 4 окт 2024 в 09:42

Как я искал замену Canva и нашел 12 крутых онлайн-фоторедакторов

Простой

10 мин

24K

Обработка изображений * Софт

Обзор

Многие расстроились, когда Канва ушла из России. Когда я начинал творческий путь, онлайн-редакторов было не более 2–3 достойных. Сейчас их десятки: работает импортозамещение, развиваются другие зарубежные сервисы. Ими пользуются не только новички.

Для вас, друзья, составил подборку с редакторами, чтобы избавить от долгих мук выбора. Они работают онлайн и запускаются без сети впн, которая не всегда помогает.

Читайте, пробуйте. Возможно, влюбитесь в один из аналогов Canva и больше о ней не вспомните.

+11

olgatrofimova96 3 окт 2024 в 13:22

Ищем потерявшихся питомцев с помощью нейросетей

Простой

10 мин

2.8K

Блог компании NtechLabОбработка изображений * Машинное обучение * Искусственный интеллект

Кейс

Представьте себе, ваш питомец вдруг ~~сбежал~~ отправился в увлекательное путешествие по соседским дворам. Паника, нервы, поиски, бумажные объявления... И хорошо, если ваш пушистик чипирован, но ведь о таком заботятся не все. Можно пойти шерстить порталы с потеряшками, но где искать? Как они работают? Тот еще квест! Хотелось бы автоматизировать этот поиск и здесь как нельзя кстати подойдут нейросети. Мы обучили сеточки для детектирования и распознавания мордочек, которые могут стать основой для удобного сервиса поиска потерявшихся животных.

Мы запилили удобного демо-бота с этими сеточками, он называется FindPet. И теперь с удовольствием представляем его вам и рассказываем, как мы его создавали.

+17

godacheva 27 сен 2024 в 06:01

Профессия нейрохудожника: соавторство с нейросетью на примере чувства юмора

Простой

3 мин

2.2K

Обработка изображений * ДизайнИскусственный интеллект

Привет, меня зовут Алина, и я нейрохудожник. В прошлой статье я рассказывала об управляемой части работы нейрохудожника, когда для создания изображений используешь проверенные промты — текстовые описания, на основе которых нейросеть создаёт иллюстрации. В этой статье я покажу, что часть работы нейрохудожника заключается в получении случайных и непредсказуемых изображений. Что с ними делать? Один из вариантов — шутить.

+12

ITFB_Group 19 сен 2024 в 13:31

Методы предпроцессинга в IDP-системе ITFB EasyDoc

Средний

6 мин

919

Блог компании ITFB GroupПрограммирование * Анализ и проектирование систем * Обработка изображений * Управление разработкой *

Обзор

Всем привет!

На связи команда Data Science компании ITFB Group. У нашей компании есть собственная разработка ITFB EasyDoc — система распознавания и извлечения данных из любого типа документов. В современном мире автоматизация обработки документов стала неотъемлемой частью множества бизнес-процессов. Предобработка изображений документов является важным шагом для обеспечения точности и надежности дальнейшего распознавания атрибутов. В этой статье мы хотим рассказать о некоторых эффективных методах предпроцессинга документов, позволяющих увеличивать как качество OCR-систем (Optical Character Recognition), так и различные CV и NLP пайплайны. Всем, кому интересна эта тема, — добро пожаловать под кат.

+15

zoldaten 18 сен 2024 в 09:25

Склейка фото как отдельный вид искусства (как распознать мерцающую строку)

2 мин

1.9K

Raspberry Pi * Обработка изображений *

Туториал

Размышляя над прикладной задачей «как прочитать мерцающую строку с номером электробуса» с помощью обычной камеры можно прийти к совершенно неожиданным результатам. Например, получить футуристические снимки окружающего ландшафта и вещей. Решение данной задачи с помощью python, а также несколько инопланетных изображений далее в статье.

Читать дальше →

+13

engine9 17 сен 2024 в 13:01

Любительская стереосъёмка

Простой

7 мин

13K

Блог компании RUVDS.comDIY или Сделай самОбработка изображений * Фототехника

Туториал

В книге Якова Перельмана «Занимательная физика» было описание наблюдения ландшафта через стереотрубу:

«Трудно описать ощущения, которые испытываешь, когда смотришь в подобные инструменты, — до того они необычайны! Вся природа преображается. Далёкие горы становятся рельефными, деревья, скалы, здания, корабли на море — всё круглится, всё выпукло, расставлено на бесконечном просторе, а не лежит на плоском экране. Вы непосредственно видите, как движется далёкое судно, которое в обыкновенные трубы кажется неподвижным. В таком виде должны были бы представляться наши земные ландшафты сказочным великанам».

В этой книге был раздел, посвящённый стереоэффекту, и приводились несколько картинок, которые при особом способе рассмотрения в плоскости бумажного листа превращались в трёхмерные изображения. Это казалось фантастикой.

Смотреть картинки и читать

+97

105

alef13 13 сен 2024 в 06:54

Делаем правильный анаглиф своими руками

Простой

12 мин

9.4K

Блог компании YADRODIY или Сделай самГрафический дизайн * Обработка изображений *

Туториал

Всем привет. Сегодня я поделюсь методом создания высококачественных анаглифических изображений с минимальными трудозатратами. Динозавров делать не будем: возьмем любую фотографию из семейного архива и получим полноценное трехмерное изображение. Сразу скажу, что концепция не новая, но мы будем использовать современные наработки и даже напишем простейший плагин для GIMP, от которого, впрочем, придется отказаться…

Читать дальше →

+53

vadimselyutin 12 сен 2024 в 13:00

Real-time-распознавание лиц: методы обучения быстрых и точных моделей для работы на мобильных девайсах

13 мин

4.9K

Блог компании МТСОбработка изображений * Машинное обучение * Искусственный интеллект

Привет, Хабр! Меня зовут Вадим Селютин, я старший исследователь в компании VisionLabs. Наши решения по распознаванию лиц можно встретить в офисных центрах, московском метро и кассах самообслуживания супермаркетов. Во всех этих кейсах мы используем нейросети, которые адаптируем специально для мобильных устройств.

В этой статье я расскажу про постановку задачи распознавания лиц, подходящие мобильные архитектуры, обучение распознаванию лиц на больших объемах данных и способы повысить точность маленькой архитектуры.

+16

SearchInform_team 11 сен 2024 в 12:25

Софт на диете: как мы в DCAP OCR разгоняли

Средний

8 мин

855

Блог компании SearchInformОбработка изображений * СофтИнформационная безопасность *

Привет!

Мы в «СёрчИнформ» 20 лет создаем софт для защиты информации и постоянно его оптимизируем. Например, последовательно работаем над ресурсоемкостью продуктов (низкая нагрузка на оборудование – важное преимущество для заказчиков), и придумали в этом направлении много удачных (не только наше мнение) решений.

Запускаем серию постов об этом. Сегодня – о том, как пересобрали архитектуру OCR в нашей DCAP-системе (файловом аудиторе), чтобы ускорить анализ изображений, не перегружая серверы и пользовательские ПК.

SmartEngines 11 сен 2024 в 08:26

Итоги ICDAR-2024: Как и зачем нужно делать распознавание объяснимым

Простой

7 мин

906

Блог компании Smart EnginesСофтКонференцииОбработка изображений * Искусственный интеллект

Обзор

В солнечных Афинах завершилась конференция ICDAR-2024. Причиной ли тому средиземноморское солнце или живой энтузиазм выступающих, но здесь было действительно жарко. Что неудивительно - ведь это главное международное мероприятие, посвященное вопросам распознавания. Одна из ключевых тем встречи – современные вызовы и перспективы OCR. Ведущие ученые со всего мира сошлись во мнении, что технологии распознавания жизненно необходимо сделать более понятными и интерпретируемыми. А для этого создать простую OCR явно недостаточно.

Нам в Smart Engines есть что добавить по этому поводу. Рассказываем, зачем нужно “объяснять” OCR и как это правильно сделать.

Объясняем тут

rareHalex 9 сен 2024 в 18:19

FROMAGe

Средний

4 мин

941

Обработка изображений * Искусственный интеллектМашинное обучение *

Из песочницы

В настоящее время языковые модели зарекомендовали себя как гибкий инструмент, применяемый в различных областях. Однако, не смотря на всю свою мощь, большинство существующих языковых моделей имеют ограничения в выполнении задач, связанных с визуальным мышлением и обоснованием, а также не способны создавать иллюстрированные образы. Подобные препятствия мешают пользователям использовать одну модель для своих задач и зачастую им приходится дополнительно искать модели, специализирующиеся на визуальном контексте.

В 2023 году исследователи из университета Карнеги‑Меллона смогли создать первую языковую мультимодальную модель FROMAGe, имеющую визуальные и языковые возможности, такие как мультимодальный диалог, генерация и контекстуальный поиск изображений из разговоров. При помощи данной модели пользователи могут в режиме диалога решать любые свои проблемы и для более точного ответа модель будет часто иллюстрировать свои текстовые ответы.

macderru 6 сен 2024 в 08:17

Путеводитель для диффузионок. Как заставить нейросети качественно редактировать изображения

Средний

11 мин

2.5K

Блог компании AIRIАлгоритмы * Обработка изображений * Машинное обучение * Искусственный интеллект

Кейс

Привет, Хабр! Меня зовут Вадим, я — младший научный сотрудник группы Controllable Generative AI лаборатории FusionBrain в AIRI. Последние несколько лет я занимаюсь исследованием генеративных моделей в контексте задачи редактирования фотографий. Мы с командой накопили большую экспертизу и хотели бы поделиться ей.

Совсем недавно мы выложили препринт статьи, которую мы представим на ECCV этой осенью (сама статья, её код, demo на HuggingFace). Там мы предложили метод редактирования реальных изображений с помощью диффузионных моделей, который достигает лучшего компромисса между качеством редактирования и сохранением структуры исходного изображения, а также эффективен с вычислительной точки зрения. В данной статье я хотел бы рассказать о том, почему приходится делать такой выбор, и как мы эту проблему обошли. Приятного чтения!

+11

atselousov 4 сен 2024 в 09:00

Как Яндекс создавал новую end2end-модель генерации коротких видео

Сложный

25 мин

6.1K

Блог компании ЯндексИскусственный интеллектМашинное обучение * Обработка изображений * Работа с видео *

Приложение Шедеврум начало использовать новую end2end-модель YandexART (Vi). Она позволяет создавать видео по текстовому запросу и учитывает взаимосвязь между кадрами, делая видео более связными, плавными и реалистичными, чем при использовании предыдущей модели. Предыдущее решение было основано на использовании эвристик для добавления движения камеры, где видео создавалось кадр за кадром с применением модели генерации изображений, что приводило к значительным изменениям в содержании каждого кадра.

В этой статье поделимся нашим опытом разработки первых версий end2end-модели YandexART (Vi):

— расскажем, почему изначально выбрали работу в пиксельном пространстве;

— опишем методы инженерных оптимизаций, которые помогли в обучении моделей;

— обсудим проблемы, с которыми столкнулись в процессе разработки, и как их решали;

— в завершение расскажем, почему в итоге решили отказаться от пиксельного пространства в пользу латентного и поделимся нашими планами на будущее.

И так как на Хабре не принято вставлять гифки и видео до ката, примеры новой модели вас ждут под ним.

Посмотреть примеры

+56

1 2 ...

8 9

11 12 ...

120 121

Обработка изображений *

Запускаем Yolo на пятирублёвой монете или Luckfox Pico Mini

Поиск по фото и раздетые дипфейки

Как готовить EdgeAI в 2024/2025 году

Как научить LLM понимать видео? Обзор подходов

Как математически просчитать градиент цветовой палитры

Как сделать себя в модной нейронке Flux (лёгкий путь без смс и регистрации)

Kaggle для футболистов: Классификация событий на футбольном поле

Как я искал замену Canva и нашел 12 крутых онлайн-фоторедакторов

Ищем потерявшихся питомцев с помощью нейросетей

Профессия нейрохудожника: соавторство с нейросетью на примере чувства юмора

Методы предпроцессинга в IDP-системе ITFB EasyDoc

Склейка фото как отдельный вид искусства (как распознать мерцающую строку)

Любительская стереосъёмка

Ближайшие события

Делаем правильный анаглиф своими руками

Real-time-распознавание лиц: методы обучения быстрых и точных моделей для работы на мобильных девайсах

Софт на диете: как мы в DCAP OCR разгоняли

Итоги ICDAR-2024: Как и зачем нужно делать распознавание объяснимым

FROMAGe

Путеводитель для диффузионок. Как заставить нейросети качественно редактировать изображения

Как Яндекс создавал новую end2end-модель генерации коротких видео

Вклад авторов