Все потоки
Поиск
Написать публикацию
Обновить
50.55

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Поиск пропавших людей на снимках лесного массива, полученных с помощью БПЛА или ещё один разбор задачи Цифрового Прорыва

Время на прочтение13 мин
Количество просмотров7.6K

Привет, Хабр!
Это статья является продолжением цикла материалов по разбору задач Всероссийского чемпионата "Цифровой Прорыв", связанных с Computer Vision. Решение, предлагаемое в статье, позволяет получить место в топ-10 лидерборда, при это реализация самого подхода у автора статьи заняла ~ 3-4 часа. В конце даются советы по улучшению решения, а также идеи, которые могут привести к победе.

Под катом вас ждут: Focal Loss, RetinaNet и причём тут YOLOv5.

Читать далее

Релиз InvokeAI 2.2: универсальный холст, удобные установщики, автозагрузка моделей и DPM++

Время на прочтение3 мин
Количество просмотров7.4K

Привет! InvokeAI 2.2 теперь доступен для всех. В этом обновлении добавлены UI Outpainting, Embedding Management и другие функции. Ознакомьтесь с выделенными обновлениями ниже, а также с полным описанием всех функций, включенных в релиз.

Что нового?

Выявление незаконных построек по спутниковым снимкам с помощью CV

Время на прочтение6 мин
Количество просмотров5.7K

Привет, Хабр! Я Вова, Lead Data Scientist. Заметил, что вам очень нравится вместе с нами разбирать решения задач с хакатонов. Сегодня расскажу, как я занял 4 место в соревновании по выявлению незаконных построек по спутниковым снимкам и что мне не хватило, чтобы попасть в топ-3 на Цифровом прорыве

Читать далее

Дорогие художники: вам не стоит бояться ИИ-генераторов изображений

Время на прочтение6 мин
Количество просмотров4.6K

В 1992 году поэтесса Энн Карсон опубликовала небольшую книжку под названием «Короткие беседы». Это серия микроэссе, каждое длиной от предложения до абзаца, на, казалось бы, несвязанные темы: орхидеи, дождь, мифическая андская викунья. Например, в ней есть «Краткое измышление об ощущениях при взлёте самолёта». И, вы удивитесь, повествует оно ровно о том, что написано в заголовке. А «Короткая беседа о форели» рассказывает нам главным образом о разновидностях форели, которые встречаются в японских хайку. В предисловии к книге Карсон пишет с присущей всем канадцам суховатой непосредственностью: «Я пойду на все, чтобы не поддаваться скуке. Это цель всей моей жизни».

С тех пор минуло уже 30 лет. Я тоже сознательно борюсь со скукой и праздностью. Вот, например, один из моих способов скрасить досуг: мне нравится засиживаться допоздна и возиться с генерацией изображений при помощи искусственного интеллекта. Таким инструментам, как DALL-E 2, Midjourney и Stable Diffusion, можно дать короткую текстовую инструкцию, а они в свою очередь изучат ее и произведут на свет безвкусную картину маслом в стиле Тициана, изображающую собак в милых шляпках.

Позволю себе еще одну небольшую ремарку: книга Карсон вышла в то время, когда Интернет только-только начал набирать обороты.

Читать далее

Ternaus: Chrome Extension

Время на прочтение3 мин
Количество просмотров1.5K

Я добавил Chrome extension, которое позволяет по тексту и по картинкам в интернете искать похожие в базе данных на Ternaus.com.

* ссылка на Extension

* ссылка на GitHub

Читать далее

Давайте запретим нейронные сети

Время на прочтение6 мин
Количество просмотров18K

Тема нейронных сетей волнует сейчас почти всех, кто рисует. За последние пол года прогресс выглядит для кого-то головокружительным, а для кого-то пугающим. В этой статье я хочу рассмотреть основные страхи, претензии и впечатления в целом по отношению к нейронным сетям среди творческих людей, профессия или хобби которых создание визуальной эстетики.

Читать далее

Kandinsky 2.0 — первая мультиязычная диффузия для генерации изображений по тексту

Время на прочтение7 мин
Количество просмотров49K

Диффузия всё увереннее вытесняет GANы и авторегрессионные модели в ряде задач цифровой обработки изображений. Это не удивительно, ведь диффузия обучается проще, не требует сложного подбора гиперпараметров, min-max оптимизации и не страдает нестабильностью обучения. А главное, диффузионные модели демонстрируют state-of-the-art результаты почти на всех генеративных задачах — генерации картинок по тексту, генерация звуков, видео и даже 3D!

К сожалению, большинство работ в области text-to-something сосредоточены только на английском и китайском языках. Чтобы исправить эту несправедливость, мы решили создать мультиязычную text-to-image диффузионную модель Kandinsky 2.0, которая понимает запросы более чем на 100 языках! И главное, на русском ;) Подробности — под катом.

Читать далее

SciPy — интегрирование и дифференцирование, обработка изображений и сигналов

Время на прочтение4 мин
Количество просмотров26K

Думаю, ни для кого не секрет, что Python может все или почти все. Например, для построения графиков можно использовать matplotlib, для анализа и манипуляции данными можно использовать библиотеку pandas, а для работы с массивами была разработана библиотека numpy. А есть ли библиотека, которая может выполнять различные математические операции, например, интегрирование и дифференцирование, обработка изображений и сигналов, расчет статистических распределений и функций? Конечно есть, это библиотека SciPy.

Читать далее

Видеоаналитика на взрывоопасном заводе площадью в 700 футбольных полей

Время на прочтение10 мин
Количество просмотров8.1K

Есть распространённый стереотип, будто на заводах надо каски детектировать или даже огонь. Но ведь идея в том, чтобы стремиться не допустить огня и всяких происшествий, а не фотографировать их. Поэтому на практике мы стараемся детектировать то, что происходит до того, как что-то подтечёт, задымится, загорится или пойдёт не по плану.

Меня зовут Щемелинин Вадим, я четыре года работаю в сфере цифровизации промышленности в компании «СИБУР Диджитал». Моя основная задача — развитие Индустрии 4.0 в холдинге. Одним из продуктов моего направления является видеоаналитика. Сегодня я расскажу про сложности, с которым сталкиваются Python-разработчики, внедряя машинное зрение в нефтехимическую индустрию.

Читать далее

Ternaus: сводим поиск по картинкам и по тексту

Время на прочтение3 мин
Количество просмотров2.4K

В прошлом посте я рассказывал о том, что планирую добавить сгенерированные картинки в поиск.

Сказано - сделано. Добавил 8.5M картинок, под лицензией CC0, то есть "Free of copyright". Используйте как душе угодно.

Более того, я убрал те, что не позволяют коммерческое использование, то есть все 18 миллионов, что у меня были, а именно ImageNet21k, Open Images и Places365.

При этом движении, целевая аудитория сместилась с тех, кто тренирует модели машинного обучения на тех, кто использует картинки как reference при создании 3D моделей для фильмов или игр.

Пообщался с творцами прекрасного, ребята рассказали, много интересного. Один из запросов - можно ли скомбинировать в одном запросе поиск по картинке и по тексту?

Да, можно, и технически это не сложно.

Для тех, кто не знает, что происходит под капотом в сервисах, вроде моего ternaus.com напомню.

Читать далее

Я обучил нейросеть на своих рисунках и отдаю модель бесплатно (и научу вас делать это)

Время на прочтение2 мин
Количество просмотров26K

Модель подходит для создания бесшовных узоров, абстрактных рисунков и стилизованных под акварель образов. Как использовать модель и как обучить нейросеть на своих картинках?

Хочу всё знать!

Астрофото: совмещаем одиночные кадры

Время на прочтение11 мин
Количество просмотров8K

Одной из главных проблем при съёмке астрофотографий являются разнообразные шумы. Не буду подробно останавливаться на том, откуда они берутся и какие компоненты в них присутствуют. Об этом уже есть хорошая серия статей на Хабре, за подробностями рекомендую обратиться к ней. Здесь я только резюмирую основной способ борьбы с шумом: нужно снять несколько кадров одной и той же области неба (чем больше, тем лучше) и усреднить сигнал с соответствующих пикселей.


Но какие пиксели на разных кадрах считать соответствующими? Если бы можно было гарантировать, что объекты между кадрами не сдвинутся ни на пиксель, то всё было бы предельно ясно: просто суммируем одни и те же пиксели на матрице. Но что делать, когда слежение неидеально, или съёмка вовсе ведётся с неподвижного штатива? Тогда звёзды и другие небесные тела будут смещаться, и перед сложением кадры нужно будет правильно наложить друг на друга. Эта статья посвящена тому, как это сделать.

Читать далее

Что Chrome сделал с JPEG XL и почему делать этого не стоило

Время на прочтение12 мин
Количество просмотров10K

Аргументы в защиту формата в лонгриде под катом — к старту курса по Fullstack-разработке на Python.



Разработчики Chrome недавно анонсировали своё решение о прекращении поддержки формата JPEG XL, который ранее был «убран за флажок». Это решение объясняется так:

Читать дальше →

Ближайшие события

Илон Маск кисти Ван Гога, или специализированные модели Stable Diffusion

Время на прочтение3 мин
Количество просмотров5.9K

Благодаря сообществу, stable diffusion развивается стремительнее, чем можно было предположить. Как я писал в предыдущей статье, вскоре мы должны получить много специализированных моделей под конкретные задачи. 

Уже сейчас помимо основной модели весов у stable diffusion есть модели для получения артов в строго определенном стиле. 

В этой статье я покажу как это работает на практике и дам небольшую инструкцию для начинающих по добавлению специализированных моделей.

Читать далее

Нейросети убьют 2d художников

Время на прочтение4 мин
Количество просмотров12K

Никого они, конечно, не убьют, но рынок труда в ближайшие пять лет поменяют точно. Произойдёт это постепенно, плавно и заметно будет только на значительной дистанции, в моменте глядя вперед или оглядываясь назад, мы не увидим каких-то значительных сдвигов как и при любом эволюционном процессе.

Читать далее

Большой объём данных для машинного обучения — не панацея

Время на прочтение3 мин
Количество просмотров5.6K

Модели глубокого обучения обладают потрясающим свойством — они становятся лучше с увеличением объёма данных, и кажется, что этот процесс практически неограничен. Чтобы получить качественно работающую модель, недостаточно больших объёмов данных, нужны ещё и точные аннотации. Хотя большие объёмы данных помогают модели решать проблему несогласованности данных в разных аннотациях, люди всё равно могут совершать повторные ошибки, укореняющиеся в модели.

Например, когда человеку нужно нарисовать вокруг объекта прямоугольник, он обычно стремится, чтобы объект точно попал в этот прямоугольник, то есть склонен ошибаться в сторону увеличения прямоугольника. Использование такой модели для избегания столкновений приведёт к ложноположительным результатам, из-за чего беспилотный транспорт будет останавливаться без причины.

Превышение размера ограничивающих прямоугольников — пример систематической ошибки, а бывают ещё и случайные. Случайные и систематические ошибки влияют на обученную модель по-разному.
Читать дальше →

OpenCV — быстрый старт: аннотирование изображений

Время на прочтение3 мин
Количество просмотров8.5K

В этом выпуске примитивы: круги, линии, прямоугольники и текст.

В прошлых сериях:

OpenCV — быстрый старт: начало работы с изображениями.

OpenCV — быстрый старт: базовые операции с изображениями.

Айда разбираться

Релиз InvokeAI 2.1: теперь с inpainting и Cross Attention

Время на прочтение2 мин
Количество просмотров3.3K

Команда InvokeAI рада поделиться нашим последним релизом с набором новых функций, улучшений графического интерфейса и возможностей командной строки.

Что нового?

Как компьютерное зрение помогает определить координаты спутниковых снимков

Время на прочтение7 мин
Количество просмотров7.6K

Привет, Хабр!

Меня зовут Андрей, и я data scientist. В этой статье расскажу о том, как я занял второе место в конкурсе «Цифровой прорыв» с решением по автоматизации привязки фотографии к географическому положению. Главный инсайт — базовые решения не всегда хороши и проверены. Спойлер — самодеятельность и использование современных подходов помогают победить :) Расскажу на своем опыте, как не сделать свое решение хуже базового и проанализирую подходы других участников.

Читать далее

Съём пароля с клавиатуры ПК через 0–60 секунд по тепловому следу

Время на прочтение4 мин
Количество просмотров7K


Современные тепловизоры подключаются к компьютеру и записывают температуру каждого пикселя в CSV. Эти данные отлично подходят для обучения нейросети. Несколько месяцев назад учёные из университета Глазго провели эксперимент и разработали реально эффективную модель ThermoSecure для распознавания нажатых клавиш по тепловому следу.

Учёные пришли к выводу, что с клавиатуры можно относительно надёжно снимать введённые пароли через 0–60 секунд после ввода символов. Давайте посмотрим, как работает система машинного зрения пошагово.
Читать дальше →

Вклад авторов