Все потоки
Поиск
Написать публикацию
Обновить
49.43

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Как оживить Кандинский матрицами вращений для генерации видео — модель Splitter (часть 2-я)

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.3K

В первой части, я познакомил вас с новым подходом, использующим матрицы вращений для генерации видео моделями text-2-image.

Во второй части двигаемся к решению задачи на основе машинного обучения через:
- формализацию функции потерь;

- построение базовой модели Splitter, по сути, обучаемой матрицы вращений;

- построение алгоритма обучения на векторизованном датасете из 200-500 роликов.

И посмотрим первые результаты.

Читать далее

Без компромиссов. Как добиться одновременно высокого качества в редактировании и инверсии изображений с помощью StyleGAN

Уровень сложностиСложный
Время на прочтение12 мин
Количество просмотров2.3K

Всем привет! Меня зовут Денис Бобков, я сейчас обучаюсь на совместной магистерской программе ВШЭ и ШАД под названием «Современные компьютерные науки», а также работаю исследователем в AIRI в команде Controllable Generative AI лаборатории FusionBrain. Область моих исследований касается методов редактирования изображений.

Захотелось добавить на фото улыбку или очки? Поменять причёску или её цвет? Современные инструменты, которые делают это, не способны одновременно изменить именно то, что тебе нужно, не испортив всё остальное, причём так, чтобы изменение выглядело реалистично, а сам процесс изменения не выполнялся слишком долго. Нашей же команде удалось довольно сильно приблизиться к тому, чтобы выполнить все три условия сразу.

Совсем недавно нашу статью приняли на одну из топ‑конференций по компьютерному зрению CVPR 2024 (эта конференция недавно стала самой цитируемой!). Наша статья про то, как можно редактировать лица в высоком качестве с помощью генеративной модели StyleGAN. Почитать её целиком можно на архиве, а здесь же я хотел кратко рассказать о том, что именно мы сделали.

Читать далее

Изображая цифровое искусство: становление профессии нейрохудожника

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров4K

Привет, меня зовут Алина и я нейрохудожник. Это означает, что я рисую свои работы с помощью нейросетей. Вы можете по-разному относиться к предыдущей фразе: с презрением («не может быть СВОИХ работ из НЕЙРОсети»), с негодованием («Я тоже рисую в нейросети, но не заявляю, что я нейрохудожник»), с интересом («Ого, почитаю, а то у меня не получается нарисовать то, что хочу») и даже благоговением («У меня до сих пор руки не дошли что-то нарисовать в нейросети, а человек уже нейрохудожником стал»). Прежде, чем спорить о праве называться нейрохудожником, стоит сперва ответить на более общий вопрос: а можно ли называть искусством генерацию изображений в нейросети?

Ничто не ново под луной: дискуссии об искусстве тянутся испокон веков. В эпоху Возрождения разгорелся спор между реалистами и идеалистами о том, что первично — идеи или видимый мир — и малые голландцы, мастера жанровой живописи, подвергались критике за то, что их картины не соответствовали идеалам и часто изображали повседневную жизнь. В XIX веке фотографии считались механическими репродукциями реальности, лишенными души и творчества. В первые десятилетия XX века фильмы считались развлекательным зрелищем, а не искусством, пока не вышли фильмы «Рождение нации» (1915) и «Броненосец Потемкин» (1925).

В этой статье на примере цифрового искусства я разберу смысл изображения на составляющие части и соберу его заново, показав, как при помощи нейросети мы слой за слоем можем усложнять иллюстрацию. С каждым новым наложенным пластом информации мозг будет считывать изображение как более интересное и глубокое. Помимо транслирования моих взглядов на нейроискусство статья несёт практическую пользу. Я буду приводить промты, то есть текстовые запросы для генерации изображений, в одной из нейросетей — Midjourney — на примере цветка кувшинки. Для использования промтов под свои нужды нужно будет заменить слова «water lily» на любой другой объект.

Читать далее

Наш опыт применения AI-технологий для классификации документов для подачи в суд

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.9K

Как мы создали, обучили и выпустили в свет сервис, использующий технологию машинного обучения для распознавания и классификации юридических документов? В этой статье мы расскажем об опыте разработки этого решения для автоматизации труда юристов и взыскателей, и о трудностях на этом пути.

Читать далее

Разметка данных — тренируемся на кошках

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.4K

Погружаясь все глубже в процессы автоматизации в какой то момент ты сталкиваешься с необходимостью разметки данных, хотя буквально пару недель назад, словосочетания — разметка данных и ты, стояли на вечеренике под названием «Заработок в интернетах» в разных комнатах, вернее ты стоял около бассейна, а разметка данных была на третьем этаже, курила на балконе со специалистами в области машинного обучения. Как мы встретились? Вероятно кто‑то столкнул ее с балкона в бассейн, а я помог ей выбраться, попутно замочив и свою одежду.

И вот, вы сидите на кухне, курите одну сигарету на двоих и пытаетесь разобраться, чем каждый из вас занимается, и как вы можете быть друг другу полезными?

В общем не так важно, для чего мне это понадобилось, но тот факт, что у меня это получилось намного интереснее. И теперь, когда вам уже достаточно душно (или нет), переходим к сути.

Читать далее

Как оживить Кандинский матрицами вращений для генерации видео (часть 1-я)

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.9K

В статье коснемся темы матриц вращений и особенно их версии для многомерных пространств. Матрицы вращений широко используются в задачах 3D моделирования, для контролируемого поворота объекта. Но как оказалось, можно посмотреть на них шире и применить к многомерному латентному пространству диффузионных моделей. И первые опыты показали применимость матриц вращений при решении задачи генерации видео из текста. Статья (1-я часть) основана на моей магистерской работе в МФТИ, которую защитил в июне 2024г.
Продолжение во 2й части.

Читать далее

Телеприсутствие, 3D-видеосвязь и НЕголографические будки

Время на прочтение12 мин
Количество просмотров1.6K

Почему модные способы 3D-коммуникации никак не станут массовыми, какое отношение они имеют к голограммам и чем нас не устраивает просто видео.

Читать далее

Принтеры с СНПЧ — так ли они хороши?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров10K

Несколько лет назад в мире современных технологий печати произошла попытка тихой революции. На рынке появились принтеры с непрерывной подачей чернил, которым не требовался сменный картридж. Эти инновационные устройства обещали значительное снижение затрат на печать, уменьшение негативного воздействия на окружающую среду и повышение эффективности работы. В этой статье мы рассмотрим принципы работы бескартриджных принтеров, их преимущества и недостатки, а также обсудим, когда они действительно оказываются лучше своих собратьев с картриджами (естественно, не всегда).

Читать далее

Какой трансформер в океане плавает быстрее всех? Тестируем скорость нейросетей для видео-энкодеров

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.1K

Одно из направлений работы нашей команды компьютерного зрения Vision RnD в SberDevices — распознавание жестового языка. Об этой задаче и о том, как мы ее решаем, мы уже писали на Хабре тут и тут (а еще тут и тут). Некоторое время назад перед нами встал вопрос выбора архитектуры нейросети для быстрой и качественной обработки изображений (видео‑энкодера). Хотя сама задача распознавания жестового языка предполагает обработку видео, в качестве первого этапа нужна нейросеть, обрабатывающая изображения на отдельных кадрах. Причем делающая это достаточно быстро, чтобы обеспечить работу всей конструкции в реальном времени. Безусловно, за последний десяток лет человечеству стало известно немало архитектур нейросетей для обработки изображений. Однако, сопоставить их по критерию цена‑качество точность‑производительность и выбрать лидера не так просто. Мы решили собрать несколько популярных решений‑претендентов на звание чемпиона и провести состязание в славном городе Гамбурге тестирование в идентичных условиях. Результатами этого исследования делимся под катом.

Читать далее

Решатель Игры Set на Микроконтроллере

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.6K

Существует одна остроумная настольная игра, называется Set. Это игра на внимание.

В этом тексте я показал, как я сконструировал автоматический решатель, чтобы всегда выигрывать в игру Set!

Читать далее

Использование моделей EfficientNet для классификации изображений

Уровень сложностиСложный
Время на прочтение19 мин
Количество просмотров8.9K

Искусственные нейронные сети (ИНС) — мощный инструмент в области компьютерного зрения, особенно в задачах классификации изображений. Эта область применения была одной из первых, для которой ИНС были разработаны. Например, перцептрон Розенблатта [1], созданный в 1957 году, является одним из самых ранних примеров ИНС, способной классифицировать изображения.

Свёрточные нейронные сети (СНС) [2] стали особенно популярными благодаря их способности эффективно обрабатывать изображения. Они используют механизмы, подобные тем, которые используются человеческим мозгом для обнаружения форм и текстур, что делает их идеальными для задач классификации изображений.

Однако выбор оптимальной архитектуры СНС может быть сложной задачей. Необходимо найти баланс между высокой точностью классификации и эффективным использованием ресурсов. Это включает в себя настройку глубины сети, размера фильтров и других параметров. В 2019 году команда исследователей из Google AI представила решение этой проблемы. Они разработали серию архитектур моделей под названием EfficientNet [3]. Эти модели отличаются высокой степенью эффективности и легко настраиваются. Они позволяют классифицировать изображения с высокой точностью, при этом потребляя минимальное количество ресурсов. EfficientNet стало значительным шагом вперед в развитии ИНС для классификации изображений и продолжает быть актуальным до сих пор.

Читать далее

Импортозамещение по-русски на 146%. AR-очки

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров14K

Меня зовут Илья Зеленский. Помните басню Крылова «мартышка и очки»? Смысл басни был, как важно владеть знаниями и правильно применять их. Поэтому я хочу поделиться своим опытом запуска действительно сложного продукта.

Читать далее

Как malloc сломала JPGLoader в Serenity, или Как выиграть в лотерее

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров9.1K

Пару лет назад мне выпала возможность расследовать в SerenityOS интересный баг, связанный с декодированием изображений JPG, которые по какой-то причине при просмотре выглядели так, как вы видите выше.

Странно, не так ли? Похоже, будто просто перепутали RGB и BGR. При этом внесение в JPGLoader.cpp следующего изменения:

-   const Color color { (u8)block.y[pixel_index], (u8)block.cb[pixel_index], (u8)block.cr[pixel_index] };
+   const Color color { (u8)block.cr[pixel_index], (u8)block.cb[pixel_index], (u8)block.y[pixel_index] };
    context.bitmap->set_pixel(x, y, color);

приводит к корректному показу картинки. Вроде бы можно считать дело закрытым!

…Но нет. Возникает вопрос, почему вообще произошёл этот сбой?
Читать дальше →

Ближайшие события

Переводчик с языка, на котором нельзя говорить и писать

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров11K

Привет, Хабр! Это Александр Капитанов и Александр Нагаев из Sber Devices. Мы занимаемся задачами компьютерного зрения: генерацией, матированием и редактированием изображений, сегментацией, портретной гармонизацией, заменой лиц, распознаванием жестов. А с недавних пор ещё и распознаваниtv русского жестового языка.

Поговорим о том, что заставило нас решать данную проблему. Затронем теорию жестового языка — подозреваю, что мало кто с ней знаком. Расскажем, как мы собирали собственный датасет для распознавания русского жестового языка и затронем тему обучения моделей для решения данной задачи. Также поделимся с вами результатом и немного расскажем про семейство наших моделей signflow. 

Читать далее

Повышаем надёжность промышленного оборудования с помощью компьютерного зрения

Время на прочтение11 мин
Количество просмотров3.3K

Привет, Хабр! Меня зовут Павел Криницин. Я работаю на крупном металлургическом предприятии по производству и переработке алюминиевой продукции, где слежу за работой оборудования. В этой статье я расскажу, как мы исследовали способы раннего диагностирования повреждений конвейерных лент с применением компьютерного зрения. Эта статья будет полезна широкому кругу специалистов, занятых в различных областях промышленности, где применяют конвейерные транспортные системы. Описанные в статье подходы делают диагностику оборудования и поиск дефектов более точными, а планирование ремонтных работ — более эффективным.

Читать далее

OrangePi AiPro — гайд и обзор

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров17K

Я не знаю как правильно назвать обзор/гайд про эту плату. Самая китайская плата? Самая загадочная? Самая неоднозначная? В любом случае - одна из самых интересных!

Поговорим про OrangePi AIpro, плату от запрещённой в половине мира Huawei.

Читать далее

Как создавать шаг за шагом свою метавселенную с бренд-персонажем и зачем это нужно

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров1.1K

В последнее время все больше популярности набирают метавселенные. Когда подключаешься через очки виртуальный реальности не просто где-то на берегу моря к фильму, в котором можешь вращать головой, раскачиваясь в той реальности на большой качели, взлетая выше неба над небоскребами.

Еще лет 100 назад нам бы сказали в ответ на наше желание создать из нуля целый мир... "Опомнитесь, что за бред... Евреи лишены постоянной территории, разве им хорошо? Если надо – добивайтесь статуса правителя государства, пробейтесь в гос. думу, это все реально... Что за персонажи, что за..." И вот уже мы входим в эпоху, когда в блокчейне TON окончательно популяризуют мемкоины и выдуманных персонажей, а ВК, при поддержке ИНТЦ Сириус, ставят на побережье в Адлере собачек и других героев социальной сети, которые раньше казались только развлечением.

Нормальные люди прошлого не будут как фанаты стремиться к каким-то фанатам, идеализированным героям, но мы не такие. Вселенная Marvel, DC... Если раньше за счет науки мы, люди, развеивали мифы о Богах, обосновывали физические явления аксиомами и опытным путем, а не догмами, то современный тренд – это то же продолжение постклассической философии, когда не важно, каким путем придешь к истине. В этом мире если не существует чего-то или оно не доказано, найдется как минимум 2-3 возможности доказать теорию, что это-таки существует и возможно, как и придумать альтернативные законы, по аналогии с неевклидовой геометрией, которая создана уже давно.

Современного же человека с детства учат удивляться чему-то неизведанному, в мультиках появляется все больше магии и волшебства, которое затем, оказывается, вполне дополняется огненными шоу, фокусами, но в компьютерной среде человек погружается в целую вселенную онлайн-игр и продуктов, где важно, насколько сильно и глубоко продуман образ. Люди приучены реагировать на бренды, но это породило целый новый ход человеческого времени, где многим уже не так интересно смотреть на реальных людей с их неидеальностями и проблемами. Привлекательнее, когда уже считаешь, что многое видел в этом мире, наблюдать за чем-то, чего 100 лет еще подавно не было. За жизнью вымышленных персонажей, за историями успеха, когда в каждой сториз показано, как зарабатываются большие деньги или человек учится чему-то очень сложному. Кажется, сейчас людям стало уже все равно, наблюдать ли им за реальными блогерами, или за искусственно созданными мультипликационными персонажами. Еще 5 лет назад очень популярным был тренд геймификации, когда даже рабочие серьезные процессы пробовали представить в виде компьютерных игр.

Читать далее

Апдейтить или нет: нужно ли брать новую ML-модель?

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров3.1K

Бывала у вас такая ситуация. Выходит новая нейронная сеть и все руководство начинает требовать внедрить её? Половина коллег восторженно рассказывает о новом слое который позволил повысить точность сети? YoloV(N+1)? LLAMA100?

Читать далее

Атрибутивное распознавание документов

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров4.1K

Многие компании, несмотря на переход на электронный документооборот, всё равно сталкиваются с задачами автоматизации ввода информации с бумажных документов. Все они хотят избавиться от этой рутинной операции, и внедряют системы атрибутивного распознавания. На практике, часто оказывается, что такие системы не всегда соответствуют ожиданиям. Сегодня хочу обсудить подходы к решению задачи атрибутивного распознавания, а также проблемы с которыми я сталкивался за 10 лет практики в этой области. 

Многие забывают, что само распознавание документов не является конечной целью. Главная задача - это сократить человеческие трудозатраты на ввод информации с бумажных документов. т.е. в теории, если производительность человека на ввод информации магическим образом вырастет, то и распознавать ничего не надо.  Скорее всего, для этой магии нам конечно понадобится распознавание, но это лишь один из инструментов. 

Так как же сократить трудозатраты?

Конкурс «Беспилотный трамвай против водителя» глазами разработчика

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.5K

Ежегодно в Горэлектротрансе и раз в два года по всей России проводятся соревнования по профессиональному мастерству водителей трамвая. Надо сказать, что соревнования эти достаточно непростые, потому что для участия в них нужно целый год ездить без нарушений, не иметь ни одного случая ДТП и фактически войти в тройку лучших водителей своего парка. Следующий этап - лучшие три человека с каждого парка состязаются с представителями других парков уже на общегородском уровне. Общее количество участников финала - 18 человек. Такой вот непростой многоступенчатый отбор на пути к вершине и званию лучшего вагоновожатого-2024.

Сами испытания состоят из нескольких этапов:
• Оценка теоретических знаний правил дорожного движения;
• Оценка теоретических знаний правил приемки трамвая;
• Оценка практических навыков по управлению трамваем на этапе по скоростному вождению;
• Оценка практических навыков по управлению трамваем “на плавность и комфортность вождения”.

Нас (компанию Cognitive Pilot) тоже попросили поучаствовать в данном мероприятии, поскольку мы разрабатываем системы помощи водителю трамвая, которые эксплуатируются в петербургском Горэлектротрансе. Сегодня уже более 200 умных трамваев с нашей системой перевозят в Санкт-Петербурге по 60 тысяч человек ежедневно.

Соревнования проводились на второй площадке Трамвайного парка №5 на улице Шаврова. Трасса в целом была типовой и состояла из нескольких пунктов: начало движения, остановка, зона ограничения скорости, стрелка, экстренная остановка на рандомно включающийся светофор (при втором проезде без него), внезапное появление человека (на втором круге) и финиш.

Все пункты, имеющие четкое назначение, должны сопровождаться определенными действиями и командами от водителя. Также учитывается точность позиционирования трамвая (дальше на фото на земле видны щиты с зонами - белой, красной и зеленой). По результатам работы на каждом пункте выставляются баллы.

Читать далее

Вклад авторов