Все потоки
Поиск
Написать публикацию
Обновить
51.91

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Сжатие изображений при помощи модели Stable Diffusion

Время на прочтение10 мин
Количество просмотров13K
image

Введение


На сегодняшний день Stable Diffusion является источником вдохновения для сообщества любителей опенсорсного машинного обучения и в то же время источником расстройства для художников всего мира. Мне стало любопытно, что ещё может сделать эта важная технология кроме того, как подвергать угрозе рабочие места профессиональных художников и дизайнеров.

В процессе экспериментов с моделью я обнаружил, что она подходит в качестве чрезвычайно эффективного кодека сжатия изображений с потерями. Прежде чем приступать к описанию своей методики и демонстрации кода, вот несколько результатов модели по сравнению с JPG и WebP с высокой степенью сжатия. Все изображения имеют разрешение 512x512 пикселей:
Читать дальше →

Архитектура платформы машинного обучения в продакшене

Время на прочтение11 мин
Количество просмотров8.6K

История машинного обучения (Machine learning, ML) началась в 1950-х, когда появились первые нейронные сети и алгоритмы ML. Однако чтобы стать известным обычному человеку, машинному обучению понадобилось ещё шестьдесят лет. Анализ более чем 16 тысяч статей по data science MIT technologies демонстрирует экспоненциальный рост машинного обучения на протяжении последних двадцати лет, стимулируемый big data и прогрессом в глубоком обучении.

На практике любой, имеющий доступ к данным и компьютеру, может сегодня обучить модель машинного обучения. Возможности автоматизации и создаваемые ML прогнозы имеют множество различных применений. Благодаря им работают современные системы распознавания мошенничества, приложения доставки товаров предсказывают время прибытия на лету, а программы помогают в медицинской диагностике.

Способы создания и применения моделей зависят от потребностей организации и прикладной области ML. Процесс создания моделей машинного обучения подробно описан, однако у ML существует и другая сторона — внедрение моделей в среде продакшена. Модели в продакшене управляются через специальный тип инфраструктуры — конвейеры машинного обучения. В статье мы расскажем о функциях сервисов ML в продакшене и рассмотрим готовые решения.
Читать дальше →

Автоматическая озвучка субтитров на YouTube с использованием компьютерного зрения

Время на прочтение5 мин
Количество просмотров12K

Привет, Хабр! Около полугода назад я наткнулся на статью с практически аналогичным названием. Сама идея мне показалась интересной и захотелось сделать нечто похожее только с использованием компьютерного зрения.

Всем, кому интересно как мне удалось это реализовать и с какими трудностями пришлось столкнуться в процессе разработки — добро пожаловать под кат!

Читать далее

Калибровка камеры-imu с Kalibr

Время на прочтение19 мин
Количество просмотров4.5K

В данной публикации хотелось бы познакомить с пакетом калибровки камеры Kalibr, в том числе для целей его использования в пакете визуальной навигации ORB_SLAM3. Будет продемонстрирован процесс калибровки камеры fish-eye для raspberry pi. Камера будет калиброваться совместно с гироскопом/акселерометром imu-650 (GY-521). Предполагается, что данная пошаговая инструкция облегчит понимание процесса калибровки в случае возникновения необходимости в таковой.
Читать дальше →

Similar images: API

Время на прочтение4 мин
Количество просмотров4.7K

Кортокая версия.

Я набил API, который позволяеи искать картинки похожие на искомую.

API бесплатный, на один запрос выдает до 50 похожих картинок.

В базе данных 18 миллионов изображений. Надеюсь, в ближайшее время, добавлю еще 50M.

API: LINK

Web Demo: LINK. Можно загрузить свою картинку или воспользоваться текстовым поиском. Можно кликать на картинки в результате поиска и смотреть что найдет по ней. Хороший вопрос за сколько шагов можно дойти от чего-то невинного до порнухи или хотя бы обнаженки.

Читать далее

ORB_SLAM3 на raspberry pi 4

Время на прочтение15 мин
Количество просмотров10K

Рассматриваются нюансы установки ORB_SLAM3 на одноплатном пк — raspberry pi 4 c ОС Raspbian buster, проводится поверхностный анализ возможностей алгоритма с учетом ограничений raspberry, показаны возможные пути оптимизации производительности, используется помимо прочего ROS noetic как связующее звено между imu, csi камерой raspberry pi и ORB_SLAM3. Статья не претендует на научность, излагается мнение автора с опорой на экспериментальную базу.
Читать дальше →

Подготовка датасета для машинного обучения: 10 базовых способов совершенствования данных

Время на прочтение14 мин
Количество просмотров39K

У Колумбийского университета есть хорошая история о плохих данных. Проект в сфере здравоохранения был нацелен на снижение затрат на лечение пациентов с пневмонией. В нём использовалось машинное обучение (machine learning, ML) для автоматической сортировки записей пациентов, чтобы выбрать тех, у кого опасность смертельного исхода минимальна (они могут принимать антибиотики дома), и тех, у кого опасность смертельного исхода высока (их нужно лечить в больнице). Команда разработчиков использовала исторические данные из клиник, а алгоритм был точным.

Но за одним важным исключением. Одним из наиболее опасных состояний при пневмонии является астма, поэтому врачи всегда отправляют астматиков в отделение интенсивной терапии, что приводило к минимизации уровня смертности для этих пациентов. Благодаря отсутствию смертельных случаев у астматиков в данных алгоритм предположил, что астма не так уж опасна при пневмонии, и во всех случаях машина рекомендовала отправлять астматиков домой, несмотря на то, что для них риск осложнений при пневмонии был наибольшим.

ML сильно зависит от данных. Это самый критически важный аспект, благодаря которому и возможно обучение алгоритма; именно поэтому машинное обучение стало столь популярным в последние годы. Но вне зависимости от терабайтов информации и экспертизы в data science, если ты не можешь понять смысл записей данных, то машина будет практически бесполезной, а иногда и наносить вред.
Читать дальше →

Человек, маска и аватара. Не рано ли переходить на биометрическую идентификацию

Время на прочтение8 мин
Количество просмотров3.5K

В эпоху всеобщей виртуальности и общения через аватары, а также бурно развивающейся биометрической идентификации и дипфейков становится исключительно важно отличать живого человека от неживой подделки, например, от фотографии. В этом и заключается центральная задача биометрической идентификации пользователя. Частично я затрагивал эти темы в статьях о зловещей долине и о маскировке, препятствующей распознаванию лиц, а сегодня попробую рассказать о целом спектре методов, выработанных для опознания живого человека в картиночной реальности социальных сетей.

Читать далее

SVTR — state-of-the-art нейросеть для задачи OCR

Время на прочтение8 мин
Количество просмотров8.1K

SVTR - state-of-the-art модель-трансформер для решения задачи OCR.

Авторами статьи была предложена архитектура с одним "зрительным" модулем для эффективного распознавания текста. Основная идея работы заключается в обработке признаков разного уровня, то есть локальных, которые представляют собой признаки отдельных частей символов, и глобальных, признаков целого изображения. Входное изображение с текстом сперва разбивается на компоненты, которым соответствуют определенные части изображения. Далее, применяя механизм self-attention между компонентами модель извлекает важную информацию, используя локальные и глобальные признаки. Также, уменьшая размерность и объединяя признаки после блоков self-attention, модель формирует многогранное представление о тексте на изображении. В результате, модель выдаёт последовательность признаков, в которой уже закодирован текст без использования рекуррентных сетей!

Читать далее

Где брать изображения в 2022 году

Время на прочтение9 мин
Количество просмотров32K

Если вы занимаетесь интернет-маркетингом, вам потребуются качественные изображения. Они влияют на эффективность рекламы ничуть не меньше, чем правильно подобранные ключи, составленное объявление или выбранная аудитория, помогают лучше воспринимать информацию из текста, хорошо запоминаются.

Мы подготовили подборку из 19 популярных фотостоков, на которых вы без проблем сможете найти изображения для любых целей. Почти все фотобанки бесплатные, а платные легко оплатить из России.

Читать далее

Как выбрать плату для Computer Vision в 2022

Время на прочтение6 мин
Количество просмотров12K

Выбор платформы для работы с Computer Vision on the Edge  - непростая задача. На рынке десятки плат. И одна другой краше. Но на практике все оказывается не так хорошо.
Я попробовал сравнить дешевые платы которые есть на рынке. И сделал это не только в по скорости. Я попробовал сравнить платформы по “удобству” их использования. Насколько просто будет портировать сети, насколько хорошая поддержка. И насколько просто работать. И актуализировал это для 2022 года (один и тот же Coral из 2020 и из 2022 - две разные платы).

Читать далее

Руководство по Human Pose Estimation

Время на прочтение12 мин
Количество просмотров16K

Обычно эту задачу решают при помощи глубокого обучения.

Это одна из самых интересных областей исследований, получившая популярность благодаря своей полезности и универсальности — она находит применение в широком спектре сфер, в том числе в гейминге, здравоохранении, AR и спорте.

В этой статье приведён исчерпывающий обзор определения положения тела человека (Human Pose Estimation, HPE) и того, как оно работает. Также в ней рассматриваются различные подходы к решению задачи HPE — классические методы и методы на основе глубокого обучения, метрики и способы оценки, а также многое другое.
Читать дальше →

Уроки компьютерного зрения. Оглавление

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров46K

Уроки компьютерного зрения на Python + OpenCV с самых азов. Часть 1.

Уроки компьютерного зрения на Python + OpenCV с самых азов. Часть 2.

Уроки компьютерного зрения на Python + OpenCV с самых азов. Часть 3.

Уроки компьютерного зрения на Python + OpenCV с самых азов. Часть 4.

Уроки компьютерного зрения на Python + OpenCV с самых азов. Часть 5.

Уроки компьютерного зрения на Python + OpenCV с самых азов. Часть 6.

Уроки компьютерного зрения на Python + OpenCV с самых азов. Часть 7.

Уроки компьютерного зрения на Python + OpenCV с самых азов. Часть 8.

Читать далее

Ближайшие события

Шерудим под капотом Stable Diffusion

Время на прочтение10 мин
Количество просмотров36K

Вероятно вы уже слышали про успехи нейросетей в генерации картинок по текстовому описанию.

Я решил разобраться, и заодно сделать небольшой туториал, по архитектуре модели Stable Diffusion. Сегодня мы не будем глубоко погружаться в математику и процесс тренировки. Вместо этого сфокусируемся на применении и устройстве основных компонент: UNet, VAE, CLIP.

Читать далее

Структурное мышление или важное отличие человека от ИИ

Время на прочтение28 мин
Количество просмотров25K

В этой статье я расскажу об одном из самых важных отличий человеческого мышления от того, как работают нейросети: о структурном восприятии мира. Мы поймем, как это отличие мешает ИИ эффективно решать многие задачи, а также поговорим об идеях, с помощью которых можно внедрить в нейросети понимание структуры. В том числе обсудим недавние работы таких известных в области AI людей, как Джеффри Хинтон и Ян ЛеКун.

Начнем мы с понимания того, что вообще такое “структурное мышление” и почему люди им обладают:

Читать далее

Как мы научились дистанционно оценивать техническое состояние автомобиля

Время на прочтение7 мин
Количество просмотров7.6K

Добрый день, коллеги! Меня зовут Елена Волченко. В компании Финолаб я являюсь руководителем отдела машинного обучения и анализа данных. Этой статьей я хочу начать цикл публикаций о создании нашей командой сервиса дистанционной оценки технического состояния автомобилей на основе технологий искусственного интеллекта.

Мой рассказ будет разделен на две части. В первой расскажу о потребностях и проблемах в дистанционной оценке повреждений автомобилей. Во второй - о том, как мы решали эту задачу с помощью нейронных сетей и классического machine learning, с какими проблемами сталкивались, каких результатов достигли и что еще предстоит сделать.

Читать далее

Со Stable Diffusion вы можете больше никогда не поверить увиденному в онлайне

Время на прочтение9 мин
Количество просмотров58K

Генерация изображений с помощью AI пришла по-настоящему. Опенсорсная модель для синтеза изображений Stable Diffusion позволяет любому обладателю компьютера с хорошей видеокартой творить практически любую визуальную реальность, какую сможет выдумать. Она может имитировать практически любой визуальный стиль, и если задать ей фразу-описание, результаты возникают на экране словно магия.

Одни художники восхищаются открывшимися возможностями, другие недовольны, а общество в целом пока вроде бы не курсе той стремительно развивающейся технологической революции, которая происходит в сообществах на Twitter, Discord и GitHub. Возможно, синтез изображений приносит настолько же большие возможности, как изобретение камеры — или даже создание самого визуального искусства. Даже наше восприятие истории под вопросом, в зависимости от того, как всё утрясётся. В любом случае Stable Diffusion возглавляет новую волну творческих инструментов, основанных на глубоком обучении, которые намерены революционизировать создание визуального медиаконтента.

Читать далее

Как убрать посторонние шумы с фото документов с помощью PyTorch

Время на прочтение9 мин
Количество просмотров7K

Привет, Хабр!

При автоматизации работы с документацией иногда приходится иметь дело со сканами плохого качества. Особенно удручает ситуация, при которой вместо сканированного документа предоставляется фото с телефона.

В области обработки документов существует целый ряд задач, которые решаются с помощью машинного обучения. С примерным списком можно ознакомиться в данной статье. В этом руководстве я предлагаю решение проблемы различных помех на фото документа, которые могут возникнуть при плохом качестве съемки или плохом качестве самого документа.

Читать далее

Stable Diffusion — важнейшая нейросеть за всю историю генеративного искусства

Время на прочтение7 мин
Количество просмотров49K


Компания Stability.ai объявила о публичном релизе модели графической нейросети Stable Diffusion. Можно подумать, что это лишь очередная новость о том, что в мире искусства появилась ещё одна рядовая нейросеть. Но это далеко не так по двум причинам, одну из которых вы видите в хабах. Подробности — к старту нашего флагманского курса по Data Science.
Узнать больше

Physically-based rendering. Ray marching (часть 2)

Время на прочтение6 мин
Количество просмотров4.6K

Привет, Хабр!

Перед вами продолжение статьи про рендеринг. В первой части, которую вы, кстати, можете найти по ссылке (link), мы поговорили о трассировке лучей и маршевом методе, а в этой части мы с вами получим фотографию мыльного пузыря. Будет интересно :)

Читать далее

Вклад авторов