Как стать автором
Обновить
51.84

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Варианты применения Искусственных Нейронных Сетей. Компьютерное зрение (Computer Vision)

Время на прочтение10 мин
Количество просмотров3.5K

Искусственные Нейронные Сети являются мощными инструментами для решения многих задач и широко применяются различными организациями.

С некоторыми допущениями применение Искусственных Нейронных Сетей можно сгруппировать следующим образом:

Регрессия / Аппроксимация
Классификация / Кластеризация
Компьютерное зрение (Computer Vision)
seq2seq (Преобразование последовательности в последовательность)
Обработка естественного языка (Narural Language Process)

Данная статья посвящена примерам из группы задач "Компьютерное зрение (Computer Vision)"

Читать далее
Всего голосов 7: ↑5 и ↓2+3
Комментарии3

«SAM и тут и сям»: Segment Anything Model в задачах компьютерного зрения (часть 2)

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.5K

В предыдущей части мы разобрали, как можно улучшить качество предсказаний SAM и ускорить её работу. Мы уже упоминали, что SAM — это фундаментальная модель, а значит, она может использоваться не только для сегментации, но и легко адаптироваться для решения других задач компьютерного зрения. Сегодня мы рассмотрим, как SAM может применяться для решения таких задач, как Image Inpainting, Object Tracking, 3D-сегментация и 3D-генерация, а также увидим, как SAM работает на датасетах из медицинской сферы и сравним дообученную модель с базовыми весами. А еще мы поделимся своим опытом и расскажем, как SAM облегчила нам разметку данных при сборе датасета бьютификации изображений.

SAM и тут и сям...
Всего голосов 12: ↑12 и ↓0+12
Комментарии0

8 инструментов для аннотирования изображений в 2023 году

Время на прочтение7 мин
Количество просмотров4.4K

Аннотирование изображений — основа для обучения моделей машинного обучения. В статье мы расскажем о лучших инструментах аннотирования, которые сделают этот процесс эффективным.

Что такое аннотирование изображений?


После завершения ручного аннотирования модель машинного обучения учится на размеченных изображениях. Все ошибки разметки также моделью выучиваются и дублируются, потому что аннотирование изображений задаёт критерии, которым стремится соответствовать модель.

Разметка или категоризация изображения описательными данными, помогающими в идентификации и классификации объектов, людей или сцен на картинке, называется аннотированием изображений.

Аннотирование изображений критически важно в таких сферах, как компьютерное зрение, роботостроение и беспилотное вождение, потому что оно позволяет роботам воспринимать и интерпретировать визуальные данные.


Примерами аннотирования изображений являются отрисовка ограничивающих прямоугольников вокруг объектов на фотографии, разметка объектов текстом или разделение изображения на части на основании его визуальных признаков.
Читать дальше →
Всего голосов 3: ↑3 и ↓0+3
Комментарии1

Автоматическая разметка данных

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров5.2K

В задачах машинного обучения значительную часть времени занимает процесс подготовки данных. К этапу подготовки относятся: сбор, фильтрация, разметка и предобработка данных.В данной статье я буду рассматривать процесс автоматической разметки данных для задач компьютерного зрения.

09.03.2023 года была представлена модель Grounding DINO. Данная модель позволяет детектировать объекты на изображениях по текстовому описанию. Согласно аннотации к статье Grounding DINO, модель достигает значения 52,5 AP на бенчмарке "Zero-Shot Object Detection on MS-COCO". Далее мы рассмотрим как использовать эту модель для автоматической разметки данных.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Истории

Я вижу как ты мусоришь со своего балкона

Время на прочтение9 мин
Количество просмотров52K

Вот выходишь ты утром на работу, а на газоне перед домом окурки и прочие отходы жизнедеятельности. Бывает, что приходишь домой, а у тебя на балконе пепел или даже окурок. Как же хочется понять, кто это сделал! Я вот терпеть не могу таких людей. Моя история о том, как найти вредителей и, возможно, сделать свой дом немного чище и безопаснее.

Читать далее
Всего голосов 256: ↑250 и ↓6+244
Комментарии318

Лучший софт для автоматизации скриншотов

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров24K
Такие скриншоты присылала Таня

У нас была знакомая девушка Таня (имя изменено), которая делала скриншоты ПК только смартфоном. То есть фотографировала экран — и присылала сделанную фотографию. Всё с телефончика, очень удобно…

В то же время есть масса эффективных инструментов для сохранения копии экрана каждую секунду или минуту, хранения архива, поиска по нему, автоматического копирования на удалённый хостинг и т. д.
Читать дальше →
Всего голосов 45: ↑45 и ↓0+45
Комментарии61

Путешествие внутрь сундука знаний с помощью компьютерной томографии

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.3K

Привет, Хабр! Сегодня особый праздник – День знаний! Это день, пропитанный радостью и волнением, когда миллионы учеников возвращаются в стены образовательных учреждений. В честь этого мы хотим поделиться красивыми видео внутренней структуры объектов из школьного рюкзака. Мы увидели много интересного: от микросхемы калькулятора до того, какая игрушка находится в киндере и живут ли фиксики в точилке. В этом нам помогла наша программа Smart Tomo Engine (STE 2.0), в которой есть не только модуль томографической реконструкции, но и модули анализа и визуализации, с помощью которых были проведены эксперименты и сделаны те самые видео. Сегодня мы поделимся с вами историей о том, как маленькая девочка Даша попала в мир компьютерной томографии – мир, в котором можно «проникать» внутрь предметов без их разрушения. Интересно, как объекты из ее рюкзака оказались у нас?

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии3

Генерация паспортных данных для обучения моделей

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров10K

Привет, Хабр!

Меня зовут Максим Кравец, я участник профессионального сообщества NTA.

Для тренировки нейронных сетей необходимы датасеты с достаточным количеством тренировочных данных. Зачастую в рамках разработки ML‑модели, именно составление датасета, пригодного для её обучения, занимает большую часть времени и усилий. В случае, если датасет нельзя составить из реальных данных, прибегают к генерации синтетических данных. При разработке «распознавателя» паспортов без достаточного количества реальных образцов возникла необходимость генерации паспортных данных и соответствующих им изображений отдельных полей.

Приступить к генерации!
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Сделай SAM: Segment Anything Model в задачах компьютерного зрения (часть 1)

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров5.8K

Всем привет! В прошлой статье мы рассказывали, как можно ускорить процесс разметки данных с помощью интерактивной сегментации, и уже упоминали state-of-the-art-решение в этой области — модель Segment Anything. Сегодня остановимся на том, как можно улучшить качество и производительность SAM: научить модель генерировать более детализированные и гранулярные маски, а также ускорить её работу в 50 раз и адаптировать для мобильных устройств. А в следующей части на примерах покажем, что способности SAM не ограничиваются одной только сегментацией: модель может применяться для решения самых разных задач компьютерного зрения.

Что такое Segment Anything (SAM)? 

SAM (Segment Anything Model) — это сегментационная модель, которая была выпущена Meta AI*  весной 2023 года и быстро стала одной из самых популярных AI-моделей. SAM называют первой фундаментальной моделью в компьютерном зрении и сравнивают с ChatGPT в NLP из-за рекордно большого количества разнообразных данных, которые видела модель (SAM обучалась на датасете SA-1B, содержащем более одного миллиарда масок); а также из-за её способности к zero-shot transfer, то есть способности легко обобщаться для решения смежных задач.

Сделай SAM...
Всего голосов 22: ↑22 и ↓0+22
Комментарии3

Kaggle для футболистов. Разбираем подходы призеров соревнований по детекции столкновений (1 и 2 место)

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2K


Продолжаем разбирать подходы призеров Kaggle-соревнований от американской национальной футбольной лиги (NFL). Участники этого челленджа детектировали столкновения игроков в американском футболе, анализируя данные с видеокамер и датчиков, прикрепленных к форме футболистов. В продолжении первой части статьи расскажу про самые успешные подходы к этой задаче.

Читать дальше →
Всего голосов 21: ↑21 и ↓0+21
Комментарии0

Perfusion. Это как Midjourney, только лучше

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров21K

Когда дело доходит до автоматического создания изображений на основе собственных идей, на помощь приходят две самых популярных среди пользователей нейросети — DALL-E 2 и Midjourney. Обе являются инструментами, способными создавать реалистичные изображения с хорошим качеством. Эти ИИ обычно понимают, чего вы хотите, и пытаются генерировать новые изображения, в том числе что-то похожее на конкретный пример, но часто можно увидеть, что результат совершенно не соответствует запросам. Что ж, это изменится с новой моделью от NVIDIA — Perfusion, нейросетью, которая позволяет создавать изображения из описаний на естественном языке.

В отличие от своих тяжеловесных конкурентов, Perfusion выделяется компактным размером моделей всего в 100 КБ и 4-минутным временем обучения. Perfusion предлагает пользователям возможность комбинировать различные настраиваемые элементы с набором изображений, которые функционируют как «концепции». Модель способна изучить «концепцию» объекта (например, вещи, животного или человека), а затем генерировать эти концепции в новых сценариях.
Читать дальше →
Всего голосов 19: ↑19 и ↓0+19
Комментарии4

Генерация синтетических изображений с использованием диффузионно-трансформерной модели (DiT)

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров2.3K

Привет, Хабр!

Сегодня с Вами Илья Абрамчук и Дарья Ульянова, участники профессионального сообщества NTA.

Нередко на практике, когда работаешь с алгоритмами машинного обучения, а в особенности с нейронными сетями, сталкиваешься с проблемой нехватки данных для нормального обучения модели или хотя бы получения более-менее стабильного результата. Вот и мы оказались в подобной ситуации и перед нами возникла задача генерации синтетического датасета, состоящего из изображений, похожих на те, что имеются в распоряжении.

Узнать как мы генерировали изображения
Всего голосов 1: ↑1 и ↓0+1
Комментарии2

Я сделал Stable Diffusion XL «умнее» обучив её на плохих изображениях, созданных искусственным интеллектом

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров16K

В прошлом месяце Stability AI выпустила Stable Diffusion XL 1.0 (SDXL) и открыла её исходный код, не требуя каких-либо специальных разрешений для доступа к ней.

Релиз прошёл в основном незамеченным, потому что шумиха вокруг генеративного искусственного интеллекта немного поутихла. Все в области искусственного интеллекта слишком заняты генерирующим текст ИИ, таким как ChatGPT. Примечательно, что SDXL одна из первых моделей с открытым исходным кодом, которая может изначально генерировать изображения с разрешением 1024x1024 без махинаций, что позволяет отображать гораздо больше деталей. На самом деле SDXL состоит из двух моделей: базовой модели и дополнительной модели уточнения, которая значительно улучшает детализацию, и, поскольку уточнение не приводит к снижению скорости, я настоятельно рекомендую использовать её, если это возможно.

Читать далее
Всего голосов 9: ↑7 и ↓2+5
Комментарии3

Ближайшие события

ML для ускорения работы картографов

Время на прочтение5 мин
Количество просмотров1.7K

Дорожные знаки — один из базовых компонентов любого навигатора. Мы собираем и регулярно обновляем информацию о них: добавляем новые и удаляем неактуальные. Для этого используем кадры с видеорегистраторов, глаза и руки картографов и немного ML-магии. В статье поговорим о том, как мы дополняем нашу карту дорожными знаками, как работаем с данными и формализуем задачи.

Читать далее
Всего голосов 12: ↑12 и ↓0+12
Комментарии3

Кейс крупнейшего китайского маркетплейса: атрибуция более чем 100 млн товаров технологиями ML без обучения модели

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров2.5K

Наш клиент, крупный маркетплейс товаров из Китая, определил “цвет”, как один из самых важных атрибутов на сайте, именно этот  параметр встречается в 23 категориях из 30.

Однако в нашем случае, фильтрация товаров по цвету является сложной задачей, потому что, карточки товаров заполняют не представители маркетплейса, а продавцы конкретных товаров, которые не всегда понимают, что заполнять данные о продукции стоит максимально подробно и понятно для каждой позиции. В свою очередь, маркетплейс также не регламентирует каких-то четких правил описания товаров. Это привело к тому, что характеристики товара заполнены неверно или неточно. Особенно наглядно это проявляется в описании цвета, где некоторые селлеры могут написать что-то непонятное, например, “цвет утреннего рассвета”.

Отметим, что данных для обучения ML-моделей, к сожалению, нет. То есть мы не можем выделить группу товаров для тренировки, в которой мы были бы заведомо уверены, что атрибуты проставлены верно.  Предварительная оценка показала, что только в 31% товаров цвет был заполнен одним из значений, которые мы впоследствии хотим видеть в фильтрах, но даже это не значит, что он заполнен верно без ручной проверки.

Кроме того,  товаров очень много – более 100 млн. Заполнять атрибуты вручную для каждого товара займет слишком много времени и ресурсов, которые тратить никто не готов.

Фишкой данного решения является минимальное использование обучающих данных для достижения высокой точности в классификации изображений. Это достигнуто благодаря использованию модели CLIP (Contrastive Language-Image Pretraining), которая предназначена для zero-shot и one-shot обучения, изначально созданная для сопоставления изображения и его текстового описания.

Читать далее
Всего голосов 12: ↑11 и ↓1+10
Комментарии4

Model soups: альтернатива ансамблированию при файнтюнинге моделей

Уровень сложностиСложный
Время на прочтение4 мин
Количество просмотров1.4K

Если зайти на Papers With Code и посмотреть на лидерборд для image classification на ImageNet (а также различных его вариациях), то можно обнаружить в топ-5 модель с незамысловатым названием model soups.

В этой статье мы разберемся с тем, что это такое, и кратко пробежимся по основным моментам оригинального папера.

Читать далее
Всего голосов 14: ↑14 и ↓0+14
Комментарии2

Замена Paint в задачах разметки графических данных

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров7.8K

Привет, Хабр! С вами Кирилл Иванов, участник профессионального сообщества NTA. Модели машинного обучения компьютерного зрения являются крайне актуальной задачей в современном мире, поскольку компьютерные системы, способные «видеть», могут применяться во многих областях жизни. Одной из самых популярных областей применения моделей компьютерного зрения является распознавание объектов на изображениях и видео. Это может быть полезным, к примеру, для систем видеонаблюдения, автоматической сортировки на производстве, диагностирования медицинских изображений. Кроме того, модели машинного обучения используются при создании дополненной и виртуальной реальностях. Они позволяют создавать интерактивные пользовательские интерфейсы, а также обеспечивать визуализацию информации на основе видео и изображений.

В целом, актуальность машинного обучения моделей компьютерного зрения связана с возможностью автоматизации и оптимизации ряда процессов, улучшением точности, эффективности и прогнозирования в различных областях, что делает их незаменимыми средствами в современном техническом развитии.

Читать далее
Всего голосов 12: ↑10 и ↓2+8
Комментарии1

14 типов атак, которые должны выявлять системы лицевой биометрии

Время на прочтение5 мин
Количество просмотров2.4K

Системы лицевой биометрии начинают активно использоваться во множестве ситуаций: при цифровой регистрации покупателей, аутентификации доступа к веб-сервисам, разблокировке сотовых телефонов, проходе в офис или на спортивные мероприятия, и так далее.

Такое распространение технологии неизбежно сопровождается новыми способами обмана с целью получения мошеннического доступа. Только в одних Соединённых Штатах, по оценкам Федеральной торговой комиссии (FTC), в 2021 году потери из-за мошенничества с личными данными составили приблизительно 2331,2 миллиона долларов, что вдвое больше, чем в 2019 году. Согласно данным FTC, мошенничество с личными данными составляет больше 50% от общего зафиксированного числа мошеннических действий.

Нельзя сказать, что мошенничество — это что-то новое; любой процесс, связанный с идентификацией личности, как с участием биометрии, так и без неё, становится целью злоумышленников, стремящихся получить доступ к не принадлежащим им правам пользования.

И с биометрией ситуация ничем не отличается, различия заключаются лишь в способе организации мошенничества. В этом посте мы ответим на некоторые вопросы о мошеннических действиях в системе лицевой биометрии и о технологиях, способных защитить от них.
Читать дальше →
Всего голосов 2: ↑2 и ↓0+2
Комментарии7

Большой список генеративных нейросетевых сервисов: 99 причин подружиться с ИИ

Время на прочтение16 мин
Количество просмотров14K

После того как блестящий дебют ChatGPT сделал большие языковые модели (LLM) основным центром приложения инвестиций в ИТ, новые продукты на основе генеративного ИИ сыпятся на удивленных пользователей как из рога изобилия. Буквально каждую неделю лидеры ИТ-индустрии и небольшие «ламповые» стартапы презентуют нам новые умные сервисы, способные эффективно автоматизировать рутину и облегчить человеку раскрытие его творческого потенциала. 

Разобраться с самыми перспективными нейросетями поможет наша краткая «шпаргалка» с их перечислением и краткой сервисной информацией. В список вошли как непосредственно LLM, так и наиболее интересные нейросетевые генеративные решения на их основе.

Читать далее
Всего голосов 16: ↑16 и ↓0+16
Комментарии1

Stable Diffusion: стилизовать за 60 секунд

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров10K

Многие из вас сталкивались со Stable Diffusion и знают, что с помощью этой нейросети можно генерировать изображения. Однако немногие знают, что с её помощью можно также стилизовать существующие изображения, что довольно сильно расширяет простор для её применения. Этот процесс намного проще генерации изображений с нуля. Этим мы и займёмся, а в качестве основы возьмём колоритную фотографию Джеймса Гандольфини.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Вклад авторов