Обработка изображений *

Работаем с фото и видео

СтатьиПостыНовостиАвторыКомпании

Pro2492 26 дек 2023 в 12:14

Что нового в Midjourney 6? 5 видимых отличий от 5.2

Простой

3 мин

14K

Обработка изображений *

Обзор

Recovery Mode

Теперь изображения сложно отличить от реальных фото - морщины, складки, красные глаза, текстура кожи — генерации выглядят почти идеально.

+13

litwr2 26 дек 2023 в 07:16

Цветные фотки на первых ПК

Средний

14 мин

5.3K

Обработка изображений * История ITСтарое железоВидеокартыНастольные компьютеры

Обзор

Когда впервые на ПК стали работать с фотографиями? Какие из этих систем вошли в историю, а какие остались практически неизвестными? Следующий обзор - это попытка ответа на эти и сопутствующие вопросы с техническими деталями. Конечно, это про Амигу, но не только.

SmartEngines 26 дек 2023 в 07:15

Томографический калейдоскоп, или подведение итогов уходящего 2023 года вместе с STE

Простой

9 мин

1.2K

Блог компании Smart EnginesСофтМатематика * Обработка изображений * Алгоритмы *

Привет, Хабр. На пороге Новый год. Как всегда в конце года хочется понять, а чем же был для нас, компании Smart Engines, год уходящий? Продуктивным - да, и бизнес-результаты, и научные достижения, и технологии - как игрушки на елке - радуют. А где же игрушки - спросите вы и будете правы. Ведь один их сверкающий вид открывает двери празднику. А ниже они обязательно будут. Сегодня мы поделимся с вами нашим взглядом на 12 месяцев, а поможет в этом наш STE. Тот самый продукт для томографической реконструкции, над которым мы не устаем трудиться, дополняя, стабилизируя и запуская, как проходческий щит, в неосвоенные туннели условий томографической съемки.

Результат наших трудов покажем на томографии 12 объектов, каждый из которых символизирует один из 12 месяцев года. Да-да, интересная задача перед нами стояла в декабре - собрать 12 объектов, сфотографировать, сделать томографию и соорудить календарь из них. Кстати, и ты, дорогой читатель, можешь стать обладателем календаря от Smart Engines, но обо всем по порядку!

PatientZero 21 дек 2023 в 07:48

Зернистые градиенты на CSS и SVG

Простой

5 мин

9.8K

Графический дизайн * Обработка изображений * CSS *

Туториал

Перевод

Изучая графику на Dribbble или Behance, вы найдёте там дизайнеров, использующих простую технику добавления в изображения текстур: шум. Добавление шума делает сплошные цвета или плавные градиенты, например, тени, более реалистичными. Но несмотря на любовь дизайнеров к текстурам, шум редко применяется в веб-дизайне.

В этой статье мы при помощи CSS и SVG сгенерируем цветной шум, позволяющий добавлять текстуру к градиенту.

+21

kucev 19 дек 2023 в 09:18

Заблуждения о семантической сегментации

4 мин

2.3K

Big Data * Data Mining * Искусственный интеллектМашинное обучение * Обработка изображений *

Перевод

Семантическая сегментация — это задача компьютерного зрения, заключающаяся в помещении в один класс связанных элементов изображения.

Семантическая сегментация состоит из трёх этапов:

Классификация: обнаружение и классификация определённого объекта на изображении.

Локализация: нахождение предмета и отрисовка вокруг него ограничивающего прямоугольника.

Сегментация: процесс группировки пикселей в локализованном изображении при помощи маски сегментации.

Существует множество подтипов семантической сегментации, но все они возникают вследствие выбора пары параметров из двух категорий: размерности данных и разрешения выходных аннотаций.

Читать дальше →

NewTechAudit 14 дек 2023 в 04:07

Я знаю, что ты делал этой ночью

Средний

11 мин

16K

Python * Обработка изображений * Машинное обучение *

Кейс

✏️ Технотекст 2023

Привет, Хабр!

Сегодня с вами участники профессионального сообщества NTA Промкин Михаил, Мымрин Дмитрий и Господарикова Ирина.

Одной из областей применения ИИ сегодня является автоматизация контроля за сотрудниками. В данном посте мы рассмотрим приложение технологий ML к задаче детектирования спящих людей (в частности, охранников на рабочем месте) по видеозаписям камер наблюдения.

Обсудим технические аспекты этого процесса, а также потенциальные преимущества и перспективы, которые предоставляет применение искусственного интеллекта в обеспечении безопасности на рабочем месте.

Узнать больше

ferluht 10 дек 2023 в 10:48

Как обучить нейросеть рисовать в стиле любого художника

Средний

4 мин

24K

Обработка изображений * Искусственный интеллектБудущее здесь

Туториал

Прошло 3 года с момента когда я обучал StyleGAN на панельках и мне стало интересно что там сейчас с генерацией картинок. А там - ого - можно дообучить целый stable diffusion на любом стиле любого художника! Как? А вот щас расскажу

+26

SmartEngines 8 дек 2023 в 08:46

Российской OCR – 30 лет. Вспоминаем, как появилась первая отечественная технология распознавания (Часть 1. OCR Tiger)

Простой

11 мин

4.4K

Блог компании Smart EnginesПрограммирование * Обработка изображений * Искусственный интеллектИстория IT

Ретроспектива

В 2023 году первой российской коммерческой технологии распознавания текста исполнилось ровно 30 лет. В честь этой знаковой даты мы решили подготовить серию материалов о том, когда появились и что из себя представляли первые отечественные OCR. Кто был главными участниками в гонке по созданию систем распознаванию? Как так вышло, что в середине 90-х OCR была признана второй по значимости софтовой разработкой после ОС? Как выглядела первая OCR-ка для Mac? Ответим на эти и многие другие вопросы, присаживайтесь поудобнее.

Во время подготовки текстов мы побеседовали с директором по науке и душой нашей компании, доктором технических наук, профессором, членом-корреспондентом РАН Владимиром Львовичем Арлазаровым. Он – как, кстати, и еще несколько членов нашей команды Smart Engines – принимал непосредственное участие в создании первых систем автоматического ввода текста.

Сегодня речь пойдет про OCR Tiger и про то, как эта система работает.

+14

atomnijpchelovek 5 дек 2023 в 12:55

Один бот против тысяч мемов, или как я создал бота-полицейского для мем-чата

Простой

7 мин

3.9K

Python * Обработка изображений *

Кейс

Привет, я Дима Абакумов, разработчик в диджитал-агентстве ДАЛЕЕ. Расскажу, как я написал бота на Python, который находит дубли мемов в нашем мем-чате, и какие методы сравнения изображений для этого использовал.

zoldaten 5 дек 2023 в 09:34

Перевод игры The Invincible на другой язык

6 мин

3.9K

Natural Language Processing * Игры и игровые консолиОбработка изображений * Работа с видео *

Туториал

Относительно недавно вышедшая игра «The Invincible» не имеет альтернативной озвучки — только чопорный английский. Возможно ли силами одного человека за относительно короткий срок (1-2 дня) перевести игру (сделать «озвучку»), например, на «великий, могучий, правдивый и свободный» язык? Попробуем.

Читать дальше →

hukenovs 1 дек 2023 в 07:48

GigaChat и русский жестовый язык

Средний

4 мин

3.4K

Блог компании SberDevicesОбработка изображений * Машинное обучение * Искусственный интеллектAccessibility *

Всем привет! Меня зовут Капитанов Александр, я отвечаю за направление компьютерного зрения в SberDevices. В этой статье я расскажу о том, как моя команда Vision RnD разработала серию моделей SignFlow, обеспечивающих перевод с жестового языка на русский и американский английский в реальном времени с высокой метрикой качества. На основе этих моделей мы реализовали прототип общения с генеративной языковой моделью GigaChat, что является первым в мире открытым решением задачи общения с искусственным интеллектом при помощи русского жестового языка (РЖЯ). Далее я расскажу о разработке модели, тонкостях обучения, демо-стенде и интеграции с GigaChat.

+18

klimensky 22 ноя 2023 в 11:44

Как настольная игра и небоскребы вдохновили на разработку QR-кода

13 мин

Блог компании FirstVDSИстория ITНаучно-популярноеСжатие данных * Обработка изображений *

Ретроспектива

Про QR код на том же Хабре есть огромное количество информации. Ничего удивительного: сейчас сложно найти отрасль, где бы он не применялся. Тут и банковские операции, и идентификация товаров, и цифровые визитки. Преимущества очевидны: считывается мгновенно любым смартфоном, причем даже если треть QR кода повреждена, а еще хранит до 2935 байт двоичного кода.

Но сегодня поговорим не про технические нюансы. Вы знали, что его придумали благодаря любви к играм и небоскребам? Если не знали, устраивайтесь поудобнее — поговорим об истории появления QR кода.

+15

kuznetsoff87 22 ноя 2023 в 09:00

Kandinsky Video — первая российская модель генерации видео по тексту

Сложный

8 мин

17K

Блог компании СберБлог компании SberDevicesОбработка изображений * Машинное обучение * Natural Language Processing *

Обзор

Если несколько предметов, постоянно меняющих форму и положение, будут последовательно возникать перед глазами через очень короткие промежутки времени и на маленьком расстоянии друг от друга, то изображения, которые они вызывают на сетчатке, сольются, не смешиваясь, и человеку покажется, что он видел предмет, постоянно меняющий форму и положение.

Жозеф Плато, август 1833 года

В недавней статье мы рассказали о возможности создания анимированных видеороликов на основе комбинации синтеза изображений и различных способов преобразования этих изображений (сдвиги в стороны, масштабирование и т. д.). Сегодня же речь пойдёт про нашу новую технологию синтеза полноценного видео по текстовому описанию, которую мы назвали Kandinsky Video (для затравки пара примеров приведена на рисунке 1).

+36

ddimitrov 22 ноя 2023 в 08:54

Kandinsky 3.0 — новая модель генерации изображений по тексту

Средний

10 мин

58K

Блог компании СберБлог компании SberDevicesОбработка изображений * Машинное обучение * Natural Language Processing *

Обзор

В прошлом году на АI Journey мы представили модель Kandinsky 2.0 — первую диффузионную мультиязычную модель генерации изображений по тексту, которая может генерировать изображения на основе русскоязычного текста. За ней последовали новые версии — Kandinsky 2.1 и Kandinsky 2.2, которые значительно отличались по качеству и своим возможностям от версии 2.0, и стали для нашей команды серьёзными вехами на пути к достижению лучшего качества генерации.

Спустя год после релиза нашей первой диффузионной модели мы представляем новую версию модели генерации изображений по тексту — Kandinsky 3.0! Это результат длительной работы нашей команды, которую мы вели параллельно с разработками версий Kandinsky 2.1 и 2.2. Мы провели много экспериментов по выбору архитектуры и проделали большую работу с данными, чтобы сделать понимание текста и качество генераций лучше, а саму архитектуру — проще и лаконичнее. Также мы сделали нашу модель более «отечественной»: теперь она значительно лучше ориентируется в российском и советском культурном поле.

В этой статье я кратко опишу ключевые моменты новой архитектуры, стратегию работы с данными и, конечно, продемонстрирую возможности нашей модели на примере генераций.

+58

Weilard 20 ноя 2023 в 12:19

«Галоп пикселя — часть шестая» — Анимация персонажей. Бег

Средний

48 мин

14K

Компьютерная анимация * Обработка изображений * Разработка игр *

Туториал

«Галоп пикселя», часть I — базовые понятия, этапы взросления, прикладные упражнения (линк)
«Галоп пикселя», часть II — перспектива, цвет, анатомия и прикладные упражнения (линк)
«Галоп пикселя», часть III — Анимация (линк)
«Галоп пикселя», часть IV — Анимация света и тени (линк)
«Галоп пикселя», часть V — Анимация персонажей. Ходьба (линк)
«Галоп пикселя», часть VI — Анимация персонажей. Бег (линк)

Доброго времени суток, Хабр. Мы продолжаем цикл «Галоп Пикселя». И хотя паузы между главами этой саги достигли практически четырехлетнего перерыва — я рад (надеюсь и вы тоже) продолжить двигаться вперёд. Миля за милей, дорога за дорогой, в этой вечной былине о пиксель-арте. Пространном повествовании о пикселях, их жизни, способе их создания, приёмах и уловках в работе с ними.

На этот раз речь пойдёт о создании анимации бега, от истоков малых кадрами и цветами — к ренессансу больших разрешений и буйству цветов. В статье будут разобраны примеры самых разных типов анимаций, будет определена разница между шагом и бегом. Мы затронем как создание игровых ассетов, так и сущности близкие к анимационным заставкам, в простонародье известные как синематики.

Сегодняшняя публикация станет ещё одной вехой, которая могла бы стать финальным аккордом в нашей истории. Но мне думается, что это… скорее окончание базового цикла, но не истории в целом, которую можно продолжать ещё долго. Существует масса неисследованных территорий, нехоженых дорог и мест, куда ещё не ступала нога пытливых археологов от мира любителей пиксель-арта. Лопаты в руки, друзья. Лопаты в руки.

Лопатить пиксели

+92

antipov_dmitry 20 ноя 2023 в 08:40

Приключение SAM в Японии или как компьютерное зрение видит гейшу

Средний

13 мин

2.7K

Data Mining * Искусственный интеллектМашинное обучение * Обработка изображений *

FAQ

Привет! Я занимаюсь разметкой данных для ИИ: экспертно и с большой любовью. Задачи компьютерного зрения — одни из самых популярных и поэтому поговорим про них.

Прочитав статью вы узнаете как алгоритму отличить гейшу от китаянки, кто такая майко, как не перепутать лапшу с автобусом и правильно найти тунца.

Практически сразу после выхода zero-shot модели SAM (Segment Anything Model) для компьютерного зрения мы с командой активно ее внедрили в свою платформу разметки данных и стали использовали в разных задачах.

Хочется поделиться опытом и ответить на самый популярный вопрос — насколько SAM ускоряет разметку данных?

В статье будет очень много гифок и интерактива.

+11

SmartEngines 20 ноя 2023 в 08:00

Рассеяние вокруг нас: что это такое и какое место оно занимает в компьютерной томографии?

Простой

14 мин

2.5K

Блог компании Smart EnginesОбработка изображений * Математика * Физика

Обзор

Мы в компании Smart Engines разрабатываем томографическое программное обеспечение и стараемся делать это как можно качественнее, без появления на изображении реконструкции визуальных искажений, так называемых артефактов. Одной из причин возникновения артефактов является несоответствие модели формирования изображения в измерениях и модели описания данных для алгоритмов томографической реконструкции.

В классической постановке КТ описанием внутренней структуры образца служит пространственное распределение коэффициента ослабления рентгеновского излучения, причем зондирующее излучение считается монохроматическим. Однако в реальных установках это не так, существенное влияние на изменение модели формирования изображений оказывают эффекты второго порядка. Одним из которых является рассеянное излучение. Что такое рассеяние, каким оно бывает и как выглядят артефакты рассеяния в томографии, - расскажем в сегодняшней нашей статье.

Ilya12c 16 ноя 2023 в 10:04

Из фото в 3D, ч.2: калибровка камеры

Сложный

13 мин

14K

Блог компании Magnus TechАлгоритмы * Обработка изображений * Математика * Фототехника

Туториал

Фото до (слева) и после (справа) калибровки камеры

В первой части статьи мы немного поупражнялись на яблоках, чтобы понять, как 3D-объекты проецируются на 2D-плоскость фотографии. Заодно мы описали математическую модель камеры и ее параметры.

Знаешь параметры — ~~живешь в Сочи~~ можешь восстановить 3D-сцену или ее характеристики: высоту здания, расстояние до пешехода, загруженность самосвала. Словом, сплошная польза для целого ряда отраслей.

А вот как именно определить эти заветные параметры, так и осталось за кадром. К тому же мы рассматривали простейшую модель pinhole, но в реальной жизни все сложнее. У большинства камер есть линзы, которые искажают изображения (вспомните эффект fisheye). Все эти «рыбьи глаза»‎ и другие отклонения нужно как-то корректировать.

О том, как восстанавливать параметры камеры (калибровать ее) и нивелировать искажения (дисторсию), читайте в этой публикации.

Также из нее вы узнаете:

• как выглядит математическая модель калибровки и дисторсии;

• как собрать датасет для калибровки;

• какие есть методы калибровки;

• детали одного из этих методов.

+14

Ilya_Ryabov 16 ноя 2023 в 07:43

Создание видео zoom in и zoom out с помощью inpainting в Kandinsky

Средний

5 мин

2.9K

Блог компании SberDevicesБлог компании СберNatural Language Processing * Машинное обучение * Обработка изображений *

Из песочницы

Развитие text2image-моделей открывает новые интересные возможности для создания креативного контента. Функция inpainting в Kandinsky позволяет создавать видео zoom in и zoom out с иллюзией приближения или отдаления от единого изображения. Таким образом Sber AI с коллегами из SberDevices продолжают развивать генеративные модели и расширяют творческие возможности умных устройств семейства "Салют".

+10

AndreyDmitriev 15 ноя 2023 в 16:24

О хранении изображений в памяти с выравниванием

Средний

23 мин

5.6K

Высоконагруженные системы * Программирование * Обработка изображений * LabVIEW * C *

Туториал

В разговорах с коллегами, а также по отдельным постам на форумах я заметил, что даже относительно опытные разработчики порой не достаточно глубоко понимают особенности хранения изображений в памяти. Если вы знаете, что такое выравнивание на границу 64-x байт, а также термины типа «длина или шаг строки (LineWidth/StepWidth, Stride)», «зазоры выравнивания (Alignment Gaps)», кроме того в курсе размеров линий кэша и страниц памяти на вашем компьютере, то вам, вероятно, не будет интересно, а остальные, особенно те, кто интересуется обработкой изображений — могут ознакомиться с предлагаемым материалом, и, возможно найдут для себя что-то новое и полезное. Под катом будет немножко кода на Си и ассемблере, пара LabVIEW скриншотов, предполагается также, что у читателя есть базовые знания OpenCV. Для экспериментов понадобится компьютер с камушком, поддерживающим AVX2.

+20

1 2 ...

15 16

18 19 ...

120 121

Обработка изображений *

Что нового в Midjourney 6? 5 видимых отличий от 5.2

Цветные фотки на первых ПК

Томографический калейдоскоп, или подведение итогов уходящего 2023 года вместе с STE

Зернистые градиенты на CSS и SVG

Заблуждения о семантической сегментации

Я знаю, что ты делал этой ночью

Как обучить нейросеть рисовать в стиле любого художника

Российской OCR – 30 лет. Вспоминаем, как появилась первая отечественная технология распознавания (Часть 1. OCR Tiger)

Один бот против тысяч мемов, или как я создал бота-полицейского для мем-чата

Перевод игры The Invincible на другой язык

GigaChat и русский жестовый язык

Как настольная игра и небоскребы вдохновили на разработку QR-кода

Kandinsky Video — первая российская модель генерации видео по тексту

Ближайшие события

Kandinsky 3.0 — новая модель генерации изображений по тексту

«Галоп пикселя — часть шестая» — Анимация персонажей. Бег

Приключение SAM в Японии или как компьютерное зрение видит гейшу

Рассеяние вокруг нас: что это такое и какое место оно занимает в компьютерной томографии?

Из фото в 3D, ч.2: калибровка камеры

Создание видео zoom in и zoom out с помощью inpainting в Kandinsky

О хранении изображений в памяти с выравниванием

Вклад авторов