Все потоки
Поиск
Написать публикацию
Обновить
51.1

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Kaggle для футболистов. Разбираем подходы призеров соревнований по детекции столкновений (1 и 2 место)

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2.2K


Продолжаем разбирать подходы призеров Kaggle-соревнований от американской национальной футбольной лиги (NFL). Участники этого челленджа детектировали столкновения игроков в американском футболе, анализируя данные с видеокамер и датчиков, прикрепленных к форме футболистов. В продолжении первой части статьи расскажу про самые успешные подходы к этой задаче.

Читать дальше →

Perfusion. Это как Midjourney, только лучше

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров21K

Когда дело доходит до автоматического создания изображений на основе собственных идей, на помощь приходят две самых популярных среди пользователей нейросети — DALL-E 2 и Midjourney. Обе являются инструментами, способными создавать реалистичные изображения с хорошим качеством. Эти ИИ обычно понимают, чего вы хотите, и пытаются генерировать новые изображения, в том числе что-то похожее на конкретный пример, но часто можно увидеть, что результат совершенно не соответствует запросам. Что ж, это изменится с новой моделью от NVIDIA — Perfusion, нейросетью, которая позволяет создавать изображения из описаний на естественном языке.

В отличие от своих тяжеловесных конкурентов, Perfusion выделяется компактным размером моделей всего в 100 КБ и 4-минутным временем обучения. Perfusion предлагает пользователям возможность комбинировать различные настраиваемые элементы с набором изображений, которые функционируют как «концепции». Модель способна изучить «концепцию» объекта (например, вещи, животного или человека), а затем генерировать эти концепции в новых сценариях.
Читать дальше →

Генерация синтетических изображений с использованием диффузионно-трансформерной модели (DiT)

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров4.4K

Привет, Хабр!

Сегодня с Вами Илья Абрамчук и Дарья Ульянова, участники профессионального сообщества NTA.

Нередко на практике, когда работаешь с алгоритмами машинного обучения, а в особенности с нейронными сетями, сталкиваешься с проблемой нехватки данных для нормального обучения модели или хотя бы получения более-менее стабильного результата. Вот и мы оказались в подобной ситуации и перед нами возникла задача генерации синтетического датасета, состоящего из изображений, похожих на те, что имеются в распоряжении.

Узнать как мы генерировали изображения

Я сделал Stable Diffusion XL «умнее» обучив её на плохих изображениях, созданных искусственным интеллектом

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров25K

В прошлом месяце Stability AI выпустила Stable Diffusion XL 1.0 (SDXL) и открыла её исходный код, не требуя каких-либо специальных разрешений для доступа к ней.

Релиз прошёл в основном незамеченным, потому что шумиха вокруг генеративного искусственного интеллекта немного поутихла. Все в области искусственного интеллекта слишком заняты генерирующим текст ИИ, таким как ChatGPT. Примечательно, что SDXL одна из первых моделей с открытым исходным кодом, которая может изначально генерировать изображения с разрешением 1024x1024 без махинаций, что позволяет отображать гораздо больше деталей. На самом деле SDXL состоит из двух моделей: базовой модели и дополнительной модели уточнения, которая значительно улучшает детализацию, и, поскольку уточнение не приводит к снижению скорости, я настоятельно рекомендую использовать её, если это возможно.

Читать далее

ML для ускорения работы картографов

Время на прочтение5 мин
Количество просмотров2K

Дорожные знаки — один из базовых компонентов любого навигатора. Мы собираем и регулярно обновляем информацию о них: добавляем новые и удаляем неактуальные. Для этого используем кадры с видеорегистраторов, глаза и руки картографов и немного ML-магии. В статье поговорим о том, как мы дополняем нашу карту дорожными знаками, как работаем с данными и формализуем задачи.

Читать далее

Кейс крупнейшего китайского маркетплейса: атрибуция более чем 100 млн товаров технологиями ML без обучения модели

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров2.9K

Наш клиент, крупный маркетплейс товаров из Китая, определил “цвет”, как один из самых важных атрибутов на сайте, именно этот  параметр встречается в 23 категориях из 30.

Однако в нашем случае, фильтрация товаров по цвету является сложной задачей, потому что, карточки товаров заполняют не представители маркетплейса, а продавцы конкретных товаров, которые не всегда понимают, что заполнять данные о продукции стоит максимально подробно и понятно для каждой позиции. В свою очередь, маркетплейс также не регламентирует каких-то четких правил описания товаров. Это привело к тому, что характеристики товара заполнены неверно или неточно. Особенно наглядно это проявляется в описании цвета, где некоторые селлеры могут написать что-то непонятное, например, “цвет утреннего рассвета”.

Отметим, что данных для обучения ML-моделей, к сожалению, нет. То есть мы не можем выделить группу товаров для тренировки, в которой мы были бы заведомо уверены, что атрибуты проставлены верно.  Предварительная оценка показала, что только в 31% товаров цвет был заполнен одним из значений, которые мы впоследствии хотим видеть в фильтрах, но даже это не значит, что он заполнен верно без ручной проверки.

Кроме того,  товаров очень много – более 100 млн. Заполнять атрибуты вручную для каждого товара займет слишком много времени и ресурсов, которые тратить никто не готов.

Фишкой данного решения является минимальное использование обучающих данных для достижения высокой точности в классификации изображений. Это достигнуто благодаря использованию модели CLIP (Contrastive Language-Image Pretraining), которая предназначена для zero-shot и one-shot обучения, изначально созданная для сопоставления изображения и его текстового описания.

Читать далее

Model soups: альтернатива ансамблированию при файнтюнинге моделей

Уровень сложностиСложный
Время на прочтение4 мин
Количество просмотров1.8K

Если зайти на Papers With Code и посмотреть на лидерборд для image classification на ImageNet (а также различных его вариациях), то можно обнаружить в топ-5 модель с незамысловатым названием model soups.

В этой статье мы разберемся с тем, что это такое, и кратко пробежимся по основным моментам оригинального папера.

Читать далее

Замена Paint в задачах разметки графических данных

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров8K

Привет, Хабр! С вами Кирилл Иванов, участник профессионального сообщества NTA. Модели машинного обучения компьютерного зрения являются крайне актуальной задачей в современном мире, поскольку компьютерные системы, способные «видеть», могут применяться во многих областях жизни. Одной из самых популярных областей применения моделей компьютерного зрения является распознавание объектов на изображениях и видео. Это может быть полезным, к примеру, для систем видеонаблюдения, автоматической сортировки на производстве, диагностирования медицинских изображений. Кроме того, модели машинного обучения используются при создании дополненной и виртуальной реальностях. Они позволяют создавать интерактивные пользовательские интерфейсы, а также обеспечивать визуализацию информации на основе видео и изображений.

В целом, актуальность машинного обучения моделей компьютерного зрения связана с возможностью автоматизации и оптимизации ряда процессов, улучшением точности, эффективности и прогнозирования в различных областях, что делает их незаменимыми средствами в современном техническом развитии.

Читать далее

14 типов атак, которые должны выявлять системы лицевой биометрии

Время на прочтение5 мин
Количество просмотров3K

Системы лицевой биометрии начинают активно использоваться во множестве ситуаций: при цифровой регистрации покупателей, аутентификации доступа к веб-сервисам, разблокировке сотовых телефонов, проходе в офис или на спортивные мероприятия, и так далее.

Такое распространение технологии неизбежно сопровождается новыми способами обмана с целью получения мошеннического доступа. Только в одних Соединённых Штатах, по оценкам Федеральной торговой комиссии (FTC), в 2021 году потери из-за мошенничества с личными данными составили приблизительно 2331,2 миллиона долларов, что вдвое больше, чем в 2019 году. Согласно данным FTC, мошенничество с личными данными составляет больше 50% от общего зафиксированного числа мошеннических действий.

Нельзя сказать, что мошенничество — это что-то новое; любой процесс, связанный с идентификацией личности, как с участием биометрии, так и без неё, становится целью злоумышленников, стремящихся получить доступ к не принадлежащим им правам пользования.

И с биометрией ситуация ничем не отличается, различия заключаются лишь в способе организации мошенничества. В этом посте мы ответим на некоторые вопросы о мошеннических действиях в системе лицевой биометрии и о технологиях, способных защитить от них.
Читать дальше →

Большой список генеративных нейросетевых сервисов: 99 причин подружиться с ИИ

Время на прочтение16 мин
Количество просмотров26K

После того как блестящий дебют ChatGPT сделал большие языковые модели (LLM) основным центром приложения инвестиций в ИТ, новые продукты на основе генеративного ИИ сыпятся на удивленных пользователей как из рога изобилия. Буквально каждую неделю лидеры ИТ-индустрии и небольшие «ламповые» стартапы презентуют нам новые умные сервисы, способные эффективно автоматизировать рутину и облегчить человеку раскрытие его творческого потенциала. 

Разобраться с самыми перспективными нейросетями поможет наша краткая «шпаргалка» с их перечислением и краткой сервисной информацией. В список вошли как непосредственно LLM, так и наиболее интересные нейросетевые генеративные решения на их основе.

Читать далее

Stable Diffusion: стилизовать за 60 секунд

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров22K

Многие из вас сталкивались со Stable Diffusion и знают, что с помощью этой нейросети можно генерировать изображения. Однако немногие знают, что с её помощью можно также стилизовать существующие изображения, что довольно сильно расширяет простор для её применения. Этот процесс намного проще генерации изображений с нуля. Этим мы и займёмся, а в качестве основы возьмём колоритную фотографию Джеймса Гандольфини.

Читать далее

Как запомнить что-нибудь навсегда?

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров30K

Привет, это история о разработке самого удобного приложения
для зубрежки английских слов инди-разработчиком. Еще одно?!

– Да, но с GenAI-особенностями и алгоритмами!

Читать далее

Эти прекрасные древовидные карты (альтернатива pprint)

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров5.9K

Древовидные карты — это инструмент визуализации, позволяющий обобщать данные разной формы и размеров. На сегодня они чаще всего используются для отображения файлов, занимающих всё пространство диска, но путём некоторых доработок их можно сделать гибким инструментом для анализа и навигации по беспорядочным массивам данных.
Читать дальше →

Ближайшие события

ИИ самоучка: модель реконструкции голограмм с самоконтролируемым обучением

Время на прочтение11 мин
Количество просмотров2.6K


Понимание чего-либо является результатом знаний, а знание — результатом обучения. Этот принцип применим не только по отношению к людям, но и к искусственному интеллекту. Разница в том, что ИИ нуждается в определенной обучающей базе, состоящей из конкретных примеров, которые могут служить основой для понимания того, что ИИ должен делать. Человек же может экстраполировать, интерполировать, додумывать, строить логические цепочки — все это позволяет нам понять что-то, примеров чего мы ранее не видели. Особенно ярко данное отличие проявляется в случаях, когда ИИ задействован в вычислительной визуализации и микроскопии. В этих случаях эффективность ИИ напрямую зависит от контролируемого обучения, требующего колоссального объема разнообразных и помеченных обучающих данных. Собрать и подготовить эти данные для обучения — трудоемкий, дорогостоящий и долгий процесс. Было бы здорово, если бы ИИ обучался без них. Ученые из Калифорнийского университета в Лос-Анджелесе (США) разработали модель ИИ с функцией самоконтроля, которая может обучаться без необходимости в экспериментальных данных, используя исключительно законы физики. Как именно работает данная модель, и насколько она эффективна? Ответы на эти вопросы мы найдем в докладе ученых.
Читать дальше →

Целостность, точность, согласованность: три фактора, обеспечивающие качество машинного обучения

Время на прочтение4 мин
Количество просмотров2.3K

Эффективность моделей машинного обучения напрямую зависит от обучающих данных. Если данные неполны или размечены неверно, то эти пробелы отразятся на прогнозах модели.

Но как выявлять высококачественные данные и обеспечивать их уровень уже в процессе работы над проектом? И что означает «качество данных» в контексте машинного обучения?

Можно упростить ответ на этот вопрос, сведя качество данных к трём основным характеристикам: целостности (integrity), точности (accuracy) и согласованности (consistency).

  • Целостность: надёжность используемого датасета
  • Точность: степень валидности и корректности присвоенных аннотаций
  • Согласованность: степень согласованности присвоенных аннотаций во всём датасете

Можно воспринимать каждый из этих факторов как часть высокоуровневой дорожной карты для обеспечения качества данных на всех этапах конвейера аннотирования.
Читать дальше →

Кто заменит Avigilon, Bosch, Milestone и другие бренды, покинувшие рынок РФ, в системах управления видеонаблюдением?

Время на прочтение13 мин
Количество просмотров3K

Еще совсем недавно вопрос с выбором современной, функциональной и при этом оптимальной по критерию цена/качество системы управления видеонаблюдением (СУВ, в английском варианте VMS - Video Management System) для каждого конкретного проекта решался достаточно просто и быстро. На отечественном рынке широко присутствовали практически все ведущие мировые производители как проприетарных VMS (Avigilon, Bosch, Honeywell и др.), так и полностью открытых платформ (Milestone, Genetec и др.). Мало того, каждый производитель предлагал еще и несколько вариантов своей VMS с целью достижения оптимального решения при построении систем видеонаблюдения (СВН) различного уровня сложности, от СВН загородного коттеджа до глобальных территориально-распределенных систем класса «Умный город». Подобный способ предложения и продвижения своих программных продуктов со стороны производителей позволял обеспечивать вполне конкурентную среду практически во всех нишах сегмента видеонаблюдения на отечественном рынке систем безопасности.

Читать далее

Как ID Software удалось выжать невозможное из EGA-карт

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров16K

Я прочитал превосходную книгу Doom Guy Джона Ромеро, которую крайне рекомендую. В девятой главе Джон рассказывает о том, как его поразила увиденная им технология Adaptive Tile Refresh (ATR). Благодаря этому я понял, что пока не анализировал очень важную методику, лежавшую в основе серии игр Commander Keen (CK).

В процессе исследований я выяснил, что ATR использовалась только в первой трилогии CK. Во второй разработчики начали использовать нечто гораздо лучшее.
Читать дальше →

Кольца Власти в компьютерной томографии: каковы они и как ими завладеть?

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров1.7K

Привет, Хабр!

Как ты помнишь, в Smart Engines мы разрабатываем томографическое программное обеспечение. Иногда в промышленных и медицинских целях важно заглянуть внутрь окружающих нас вещей, чтобы обнаружить глазом не различимые дефекты детали или же предупредить возникновение заболевания определенного внутреннего органа человека. Нередко на пути восстановления внутренней структуры объектов мы сталкиваемся с множеством трудностей: томограф, используемый для сбора измерений изучаемого объекта, как правило, неидеален, и получаемое изображение внутренности объекта имеет очевидные искажения, двоения, размытия, на нем видны полосообразные или кольцеобразные элементы повышенной или пониженной интенсивности – так называемые артефакты реконструкции объекта. Такие артефакты реконструированного изображения запутывают исследователя и толкают его в пучину заблуждений. Сегодня мы хотели бы рассказать о кольцевых артефактах реконструкции и существующих методах их подавления.

Читать далее

Запускаем Stable Diffusion на Raspberry PI Zero 2 (или на 260 МБ ОЗУ)

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров6.2K

Задача — запустить Stable Diffusion, включающую большую трансформирующую модель c почти 1 миллиардом параметров, на Raspberry Pi Zero 2 с 512 МБ RAM, не добавляя дополнительного пространства подкачки и не выгружая промежуточные результаты на диск. Рекомендуемый минимальный объём RAM/VRAM для Stable Diffusion составляет 8 ГБ.
Читать дальше →

MiVOLO: новая State-of-the-Art нейросеть с открытым исходным кодом для определения пола и возраста по фотографии

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров6.1K

Привет, Хабр!

Хочу рассказать вам нашу историю о том, как изначально рутинная рабочая задача закончилась созданием открытой state-of-the-art нейросети, научной работой и новым датасетом.

Читать далее

Вклад авторов