Все потоки
Поиск
Написать публикацию
Обновить
50.75

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Создание 3D-сетки из изображения с помощью Python

Время на прочтение7 мин
Количество просмотров15K


Несколько лет назад генерация 3D-сетки из единственного двумерного изображения была сложной задачей. Но сегодня благодаря продвижению глубокого обучения разработано множество монокулярных моделей оценки глубины, дающих точную оценку карты глубины изображения. С помощью этой карты, выполнив реконструкцию поверхности, можно создать сетку. Подробности — к старту нашего курса по Fullstack-разработке на Python.

Читать дальше →

Нейросети на RISC-V с Movidius Neural Compute Stick

Время на прочтение6 мин
Количество просмотров5.8K

RISC-V — перспективная открытая архитектура, не требующая royalty от производителей железа на её основе. Нужно отметить, что интерес к архитектуре RISC-V растёт намного быстрее, чем закрепляется её спецификация и идёт процесс принятия новых фич комитетом, а также дальнейшая реализация в железе и софте. Например, сейчас сложно найти предложение по CPU и совместимое с ним Linux ядро с поддержкой векторизации, хотя RVV 0.7.1 уже существует, и RVV 1.0 вот-вот его заменит. В нашем эксперименте трудоемкие вычисления перекладываются на внешнее устройство, поэтому сгодится и самый простой центральный процессор.

В этой статье вы найдете подробные инструкции по использованию библиотек OpenVINO и OpenCV на RISC-V для запуска нейронных сетей с использованием акселератора. Цель материала — продемонстрировать гибкость решений на примере использования RISC-V CPU в качестве хоста для работы с нейросетевым ускорителем Intel Movidius Neural Compute Stick 2 (NCS2). Большая часть статьи состоит из инструкций по сборке под RISC-V. Конечно, это не самый творческий процесс, но мы верим, что со временем все они спрячутся под процессами CI/CD, как когда-то было с ARM-экосистемой.

Читать далее

Ternaus: YOLO V7 bounding boxes

Время на прочтение4 мин
Количество просмотров3K


Месяц назад я написал пост про то, как запили API + сайт демо на сайте Ternaus.com, где можно потыкать мышкой, чтобы оценить качество поиска.

Сейчас, в дополнение к картинкам добавлены bounding boxes и пост об этом.

Читать далее

Масштабирование. Алгоритм Уменьшения и Увеличения изображения

Время на прочтение3 мин
Количество просмотров7.6K

В этой статье я хочу затронуть проблемы построения алгоритмов масштабирования изображения.


Наверняка когда вы пытались найти алгоритмы масштабирована вы находили в первую что-то вроде: Существуют несколько алгоритмов самое простое это алгоритм Ближайший сосед потом билинейная , бикубическая интерполяция и.т.д

И какие могут быть проблемы?

Ну начнем с того, что по сути своей реализует масштабирована только алгоритм Ближайшего соседа, оставшиеся лишь реализуют сглаживание более пикселизированого и грубого изображения полученного таким способом. Нет вы конечно можете реализовать другие алгоритмы и без Ближайшего соседа, только ваш алгоритмом будет встроен тот же принцип. И вы просто сделаете свой код менее гибким и более усложненным.

Читать далее

Аппаратный ЭЛТ-фильтр для картинок

Время на прочтение10 мин
Количество просмотров12K

Всю мою жизнь мне нравятся средства отображения информации — в виде электронно-лучевых трубок. В них есть определённый романтизм и шарм. Недаром их часто используют в иллюстрациях к фильмам антиутопиям. 

В конце 2000-х набирали популярности социальные сети с фотографиями. И мне очень не хватало в те годы настоящего живого фильтра, который делает эффект телевизора. В один из прекрасных дней мне встретился проект, где из видоискателя от видеокамеры и фотоаппарата, сделали аппаратный фильтр для фотографий. Проект, когда я его встретил, уже не работал, а значит поле было не занято. Понял, вот это оно! И с тех пор идея поселилась в моей голове.

Как вы понимаете, этот проект — самый эпичный долгострой в моей жизни, раз я задумал его ещё в конце 2000-х. Где-то примерно в году 2015 он работал для друзей, и даже в 2016 году он ездил на Chaos Construction. Но это всё было не то, интерфейсы не те. И вот, наконец проект завершён, и может быть показан широкому зрителю.

А прежде, чем вы залезете под кат, можно сразу попробовать отфильтровать картинку — достаточно просто зайти в мой телеграмм бот

Поехали, ниже много аппаратной жести.
Читать дальше →

Albumentations: Пожертвования

Время на прочтение4 мин
Количество просмотров1.9K

В прошлом посте я писал про то, какая ситуация сложилась с open source библиотекой Albumentations на лето 2022.

Проект разрабатывается в свободное время на энтузиазме Core Team (трое) и вкладе сторонних разработчиков (более сотни).

Библиотеку активно используют:

20-30 тысяч скачиваний в день. (20 октября по неизвестной причине, выстрелило до 121k)

7 миллионов скачиваний в сумме

11 тысяч звезд на GitHub (если вы свою не поставили - то самое время)

Читать далее

Изучаем изображения, использованные для обучения модели Stable Diffusion

Время на прочтение8 мин
Количество просмотров5.4K

Больше всего расстраивает в ИИ-моделях генерации изображений по текстовым описаниям то, что они походят на «чёрный ящик». Мы знаем, что их обучали на скачанных из веба изображениях, но каких именно? Любому художнику или фотографу интересно, использовались ли его работы для обучения ИИ-модели, но на этот вопрос неожиданно трудно ответить.

Иногда данные полностью недоступны: OpenAI сообщает, что обучила DALL-E 2 на сотнях миллионов изображений с подписями, но не опубликовала проприетарные данные. Команда разработчиков Stable Diffusion, напротив, очень прозрачно говорит о том, как обучалась её модель. Так как недавно её опубликовали для общего доступа, Stable Diffusion испытала взрывную популярность, в основном благодаря своей свободной и мягкой лицензионной политике. Модель уже встроена в новую бету Midjourney, NightCafe и собственное приложение Stability AI под названием DreamStudio, а также доступна для работы на собственном компьютере.
Читать дальше →

Как работает Stable Diffusion: объяснение в картинках

Время на прочтение9 мин
Количество просмотров103K
Генерация изображений при помощи ИИ — одна из самых новых возможностей искусственного интеллекта, поражающая людей (в том числе и меня). Способность создания потрясающих изображений на основании текстовых описаний похожа на магию; компьютер стал ближе к тому, как творит искусство человек. Выпуск Stable Diffusion стал важной вехой в этом развитии, поскольку высокопроизводительная модель оказалась доступной широкой публике (производительная с точки зрения качества изображения, скорости и относительно низких требований к ресурсам и памяти).

Поэкспериментировав в генерацией изображений, вы можете задаться вопросом, как же она работает.

В этой статье я вкратце расскажу, как функционирует Stable Diffusion.

Читать дальше →

Бессмертная жизнь Лены Сёдерберг

Время на прочтение7 мин
Количество просмотров26K

Думаю, большинству читателей доводилось хотя бы мельком видеть фотографию этой девушки, и многие припоминают, что модель зовут Лена. Я впервые столкнулся с этим снимком в лаборатории Антона Савельева в СПИИРАН, нынешнем СПБ ФИЦ РАН, где работал условным «техническим писателем и литературным редактором англ.-рус.», помогая ребятам готовить статьи на конференции, заявки на гранты и перемалывать прочий контент, требовавший внятной подачи по-английски или по-русски. Несколько позже, уже на Хабре, у меня завязалось виртуальное, а впоследствии и реальное знакомство с @Loriowar. Рассказывая о своём становлении в профессии, он, в частности, написал:

«В программинг пришёл просто: на лабе по цифровой обработке сигналов в очередной раз безжалостно издевался над Леной (https://en.wikipedia.org/wiki/Lenna), жал её по-всякому и прочие непотребства совершал. Естественно, не забывая в красках описывал это в отчёте, который никто не просил делать. За это и позвали биллинг пилить на руби, ибо препод был генеральным директором компании».   

Это Лена Сёдерберг, шведка (род. 1951), заглавное фото которой появилось на обложке ноябрьского номера "Playboy" за 1972 год. Также на центральном развороте этого журнала она изображена в гораздо более откровенном образе. Всемирную известность получила верхняя часть центрального снимка (512 x 512 пикселей). Считается, что именно эта картинка была первым изображением, переданным с компьютера на компьютер в сети ARPANET. Со временем лицо Лены превратилось в эталонный образец для компьютерной обработки изображений.

Читать далее

Компенсация подсветки телевизора

Время на прочтение7 мин
Количество просмотров13K

При просмотре телевизора я постоянно вижу красный. В прямом смысле – подсветка моего Panasonic частично не работает, что вызывает неравномерное розовое свечение там, где должен быть белый цвет.

Мне этот старый хлам достался даром, поэтому я особо не жалуюсь, но пару недель назад все же решил как-то отображение цвета наладить.
Читать дальше →

Как нарисовать барашка или прикладное нейрохудожество

Время на прочтение7 мин
Количество просмотров8.1K

Потихоньку начнём разговор для понимания приёмов и возможностей нейросетевых инструментов. Они с нами навсегда, неплохо бы разобраться в самом начале.
Для примера выберем, конечно же, девчонок.

Prompth: full frontal, stunning blonde, (perfect face), suggestive, bright smile, gorgeous hair, squat,

Negative prompt: paint, anime, cartoon, art,drawing,3d render, digital painting, body out of frame, ((deformed)), (cross–eyed), (closed eyes), blurry, (bad anatomy), ugly, disfigured, ((poorly drawn face)), (mutation), (mutated), (extra limbs), (bad body)

Перед началом генерирования у вас есть много разных настроек и возможностей . Например запрос может быть и отрицательным - negative prompt, фактически запрет, очень мощный инструмент, в котором описывается чего бы вы не хотели видеть в результате. Как правило туда включают все заклинания призванные исключить появление в результирующем изображении шестипалых рук и множества других мутаций, которые только отнимают ценное время. Рисовать правильные пальцы - это вообще больное место нейросетей, поэтому их часто и не видно в сгенерированных изображениях. Впрочем, продолжим.

На картинке ниже результат работы нейросети от компании StableDiffusion, а именно запрос к парсеру img2img — инструменту, который служит для доработки уже имеющегося изображения. В качестве исходника, был взят мем из сети Интернет. Текст запроса:

Читать далее

Релиз Invoke AI 2.0 — интерфейса и инструментария для Stable Diffusion (win/linux/mac)

Время на прочтение2 мин
Количество просмотров14K

Привет всем! Сегодня состоялся релиз InvokeAI 2.0: A Stable Diffusion Toolkit, проекта, цель которого — предоставить энтузиастам и профессионалам набор надежных инструментов для создания и редактирования изображений с помощью нейросети. InvokeAI требует всего ~3,5 Гб видеопамяти для создания изображений 512x768 пикселей (и еще меньше для 512х512), и совместим с Windows/Linux/Mac с M1 и M2.

Вау, как круто!

Realtime-матчинг: находим матчи за считанные минуты вместо 24 часов

Время на прочтение11 мин
Количество просмотров14K

Задача матчинга в последнее время набирает всё большую популярность и используется во многих сферах: банки матчат транзакции, маркетплейсы – товары, а Google и другие IT-гиганты проводят соревнования по решению таких задач на Kaggle.

Для маркетплейса матчинг – очень важный процесс, который решает сразу несколько задач:

1. При поисковом ранжировании из множества товаров показывать сначала самые выгодные предложения.

2. Объединять множество товаров в одну сущность и показывать предложения одного и того же товара от разных селлеров.

3. Понимать, как предложения селлеров выглядят относительно друг друга, и поощрять их дополнительными бонусами.

Сегодня мы поговорим не только о решении этой задачи, но и о способах её реализации: offline (batch) vs online (realtime). Также обсудим, как и зачем переходить от первого ко второму.

Читать далее

Ближайшие события

Брюнетки против блондинок или как на мониторе показать цвет свечения светильника?

Время на прочтение19 мин
Количество просмотров5.9K

Метод демонстрации на мониторе цветности свечения светильника в соответствии с требованиями проекта национального стандарта «Методы определения неоднородности цветности», и шаблоны в MS Excel.

Читать далее

Распознавание вен ладони в задаче биометрической идентификации

Время на прочтение6 мин
Количество просмотров5.7K

На сей день в СКУД, в платежах, и в других задачах, где необходимо проводить аутентификацию используются разные биометрические модальности. Сегодня мы поговорим об относительно редкой на текущий момент: рисунку вен ладони.

Заглянуть под кожу

Видеосъёмка из браузера. HTML-код, который включает камеру на смартфоне

Время на прочтение4 мин
Количество просмотров13K


Современные стандарты HTML и JavaScript дают разработчикам мощные инструменты для работы со смартфоном через браузер. Мы уже рассказывали о трекинге движений человека по гироскопу/акселерометру с распознаванием паттернов (ходьба, бег, общественный транспорт, нахождение рядом с другим пользователем с аналогичными паттернами) на веб-странице.

Это далеко не единственная такая функция. Например, в мобильных браузерах поддерживается HTML-атрибут <capture>, который начинает видеосъёмку на смартфоне просто по нажатию кнопки на веб-странице.
Читать дальше →

Удивительное рядом

Время на прочтение6 мин
Количество просмотров2.7K

Одной из самых жутких проблем для любого любителя, как и для профессионала в data science является качество разметки.
Качество разметки способно погубить самую толковую и красивую идею.

Но не всё оказалось так плохо и вашему вниманию предлагается, как и всегда в моих постах, красивая идея с кодами и примером.

Итак, начнем.

Бизнес — экосистема CarDamageTest. Как построить удобный сервис для автовладельцев?

Время на прочтение7 мин
Количество просмотров1.7K

В предыдущей публикации я рассказала о нашем сервисе, который теперь имеет запатентованное название CarDamageTest. Он предназначен для автоматической оценки технического состояния автомобилей на основе технологий искусственного интеллекта. И сейчас мне хотелось бы вынести на ваше обсуждение трансформацию этого сервиса в полноценную цифровую бизнес-экосистему для автовладельцев и компаний, работающих в автомобильном бизнесе.

В статье мы обсудим преимущества бизнес-экосистем по сравнению с обычными сервисами для клиентов, рассмотрим выгоды участия в таких системах для бизнеса, ну а в конце статьи вы найдете ссылки для скачивания нашего сервиса.

Читать далее

Сжатие изображений при помощи модели Stable Diffusion

Время на прочтение10 мин
Количество просмотров13K
image

Введение


На сегодняшний день Stable Diffusion является источником вдохновения для сообщества любителей опенсорсного машинного обучения и в то же время источником расстройства для художников всего мира. Мне стало любопытно, что ещё может сделать эта важная технология кроме того, как подвергать угрозе рабочие места профессиональных художников и дизайнеров.

В процессе экспериментов с моделью я обнаружил, что она подходит в качестве чрезвычайно эффективного кодека сжатия изображений с потерями. Прежде чем приступать к описанию своей методики и демонстрации кода, вот несколько результатов модели по сравнению с JPG и WebP с высокой степенью сжатия. Все изображения имеют разрешение 512x512 пикселей:
Читать дальше →

Архитектура платформы машинного обучения в продакшене

Время на прочтение11 мин
Количество просмотров8.6K

История машинного обучения (Machine learning, ML) началась в 1950-х, когда появились первые нейронные сети и алгоритмы ML. Однако чтобы стать известным обычному человеку, машинному обучению понадобилось ещё шестьдесят лет. Анализ более чем 16 тысяч статей по data science MIT technologies демонстрирует экспоненциальный рост машинного обучения на протяжении последних двадцати лет, стимулируемый big data и прогрессом в глубоком обучении.

На практике любой, имеющий доступ к данным и компьютеру, может сегодня обучить модель машинного обучения. Возможности автоматизации и создаваемые ML прогнозы имеют множество различных применений. Благодаря им работают современные системы распознавания мошенничества, приложения доставки товаров предсказывают время прибытия на лету, а программы помогают в медицинской диагностике.

Способы создания и применения моделей зависят от потребностей организации и прикладной области ML. Процесс создания моделей машинного обучения подробно описан, однако у ML существует и другая сторона — внедрение моделей в среде продакшена. Модели в продакшене управляются через специальный тип инфраструктуры — конвейеры машинного обучения. В статье мы расскажем о функциях сервисов ML в продакшене и рассмотрим готовые решения.
Читать дальше →

Вклад авторов