Все потоки
Поиск
Написать публикацию
Обновить
50.55

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

IF: нейросеть, которая умеет в руки и текст

Время на прочтение2 мин
Количество просмотров3.7K

Синтез изображений из текста прошел долгий путь от появления DALL-E до Stable Diffusion. Несколько дней назад был открыт код большой (4.3 млрд параметров) модели для генерации изображений, которая привлекла внимание своим новым подходом к генерации - DeepFloyd IF. В этой статье я кратко рассмотрю архитектуру модели, ее возможности и приведу примеры ее работы. Кроме того, я поделюсь ссылками на онлайн-демо на платформе Replicate для лёгкого запуска без нужды устанавливать нейросеть на свой компьютер.

Читать далее

Фруктография: взгляд изнутри

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров3.6K

Всем привет!

На носу майские праздники, и некоторые из нас отправятся в добровольно-принудительном порядке на дачи открывать огородный сезон, чтобы через несколько месяцев собрать урожай. Для того чтобы скрасить процесс ожидания урожая мы хотим показать нашу коллекцию томограмм овощей и фруктов, которую мы собрали в этом году. 

В детстве многие из нас пытались понять, что внутри различных предметов с помощью лупы. Некоторым повезло больше, и у них был микроскоп, в который рассматривали жучков, паучков и чешуйки лука. Но нам повезло еще больше, и у нас появилась возможность посмотреть внутрь различных предметов с помощью микротомографа.

Часто так получается, что в томограф  первым делом засовывают микросхему или насекомое. Об этом мы тоже рассказывали на примере исследования CPU Pentium 4 и майского жука.

Но однажды во время обеденного перерыва один из наших исследователей засунул в томограф яблоко, которое принёс с собой на перекус, реконструировал и отрисовал в нашем новом визуализаторе, часть программы STE 2.0, и получилось красиво.

А потом понеслось. Народ стал приносить овощи/фрукты и просил посмотреть, что там внутри. Конечно, можно просто порезать ножом, но это же не технологично и скучно. А тут ещё и повод протестировать реконструктор и визуализатор.  Результатами полученных трехмерных реконструкций мы и хотим поделиться с вами. 

Читать далее

Распознавание банковских карт в видеопотоке в браузере с помощью SmartEngines и WebAssembly

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров3.3K

С активным развитием и распространением технологии WebAssembly (сокращённо WASM) появилась возможность создавать веб-модули, которые можно загружать с сервера и исполнять их прямо в браузере! Мы не смогли пройти мимо такой возможности, и, после долгих оптимизаций, представили свой модуль, умеющий распознавать банковские карты, баркоды, машиночитаемые зоны, номера телефонов и документы прямо в браузере.

Дальше мы расскажем о том, как с помощью wasm-модуля от Smart Engines распознать номер банковской карты, просто поднеся её к веб-камере ноутбука.

Читать далее

EasyPortrait — портретная сегментация и анализ лиц

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров4.3K

Всем привет! Наверняка, кто-то из вас уже пользовался сервисом видеоконференций SberJazz. Мы в нашей RnD команде решили помочь ребятам с задачей замены фона, для чего создали подходящий датасет и провели ряд исследований в направлении удаления фона (background removal). На этом мы не остановились и разметили данные для задачи анализа лица (face parsing). Это позволит пользователям применять эффекты бьютификации: сглаживание кожи, изменение размера и цвета губ или глаз, отбеливание зубов и т. д.

В данной статье мы расскажем о новом наборе данных EasyPortrait, опишем процесс его создания от идеи до разметки, и представим обученные на нем нейронные сети. Датасет и веса моделей мы выложили в открытый доступ — ссылки лежат в конце статьи и в нашем репозитории.

Читать далее

Ещё один взгляд компьютерным зрением на работу коммунальных служб

Время на прочтение3 мин
Количество просмотров2.1K

В прошлой статье Взгляд компьютерным зрением на работу коммунальных служб удалось выявить некоторые закономерности в передвижении пешеходов в зависимости от состояния тротуаров в зимний период. Сейчас снег растаял, лужи высохли, и наконец можно запустить алгоритмы аналитики на идеальных данных — видео с уличных камер в сухой солнечный весенний день. Эта статья будет значительно короче, в ней просто сравним результаты с идеальными условиями и добавим еще одну метрику — прямолинейность движения.

Читать далее

Иллюстрации для блогов: немного о принципах, инструментах и авторском праве

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров3.1K

Немного советов по подбору и обработке фото – чтобы кадры не выглядели как «в альбоме у соседа», про маркетинговую бессмыслицу на Хабре, а также про авторское право и полезные онлайновые сервисы.

Читать далее

Masterpiece as a service: итоги недели нейроарта

Время на прочтение9 мин
Количество просмотров16K

Не так давно завершились сезоны Kubernetes и Machine Learning, подарившие Хабру множество качественных технических статей. В межсезонье мы решили отвлечься от технохардкора и предложили вместо того, чтобы писать о технологии, использовать технологию и показать её результат с точки зрения пользователей. С 4 по 14 апреля мы провели на Хабре Неделю Нейроарта. Всё это время хабраюзеры неустанно публиковали статьи с тегом Kandinsky art, сопровождая их иллюстрациями, сгенерированными нейросетью Kandinsky 2.1.

Сегодня расскажем, как жилось авторам в симбиозе с искусственным интеллектом, и по результатам недели посмотрим, смогут ли генеративные модели составить конкуренцию художникам и иллюстраторам. А заодно объявим, кто те трое счастливчиков, что благодаря этому симбиозу получат по новенькому iPhone 14 Pro.

Узнать результаты

«Процедурное рисование» в ComfyUI

Время на прочтение7 мин
Количество просмотров79K

Кто интересуется темой рисующих нейросетей знают, что сейчас самый продвинутый и часто используемый интерфейс для Stable Diffusion (далее SD) это Automatic1111. Он позволяет использовать, вероятно, все существующие возможности SD на сегодня. Множество расширений, регулярные обновления и поддержка сообщества делают его мощным и удобным инструментом для генерации изображений. Но есть и альтернативные решения, одно из которых я сегодня рассмотрю.

Статья подойдет как тем кто уже пользуется Automatic1111, так и тем кто только планирует более глубоко погрузиться в мир "процедурного рисования".

Читать далее

Тестирование python3-расширения для GIMP

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2.5K

Графический редактор GIMP предоставляет широкие возможности для создания расширений на языках программирования Scheme (функциональный язык, сходный с LISP) или Python. Для доступа к системным операциям и регистрации собственных действий используется общий реестр Procedural Database (PDB), через который можно выполнять любые действия со встроенными механизмами GIMP (например, создание изображения). В этой статье мы рассмотрим основы создания расширений на Python 3 и возможные подходы к тестированию расширений через PDB.

Читать далее

Windows 10 с Tesla T4 в Azure на примере Stable Diffusion и Automatic1111. Недорого

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров5.7K

Краткое содержание:

Если хочется погонять Stable Diffusion или еще как поиграть с AI, а бесплатного Colab не хватает или есть специфические потребности, не обязательно покупать супер видеокарту. Вполне возможно, что spot instance в Azure даст вам желаемое и при этом обойдется дешевле.

И даже если видеокарта вам действительно нужна, это хороший способ понять, какой производительности карта необходима, сколько памяти требуется под ваши задачи...

(осторожно, очень много скриншотов внутри)

<Почему и Как>

Обмануть меня не трудно... Я сам обманываться рад

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров5.7K

Начало положено.

Как человек связавший свою жизнь с искусством, и шесть лет проработав за холстом реальным, прежде чем перейти к виртуальному, мне было интересно понять как искусственный интеллект может соперничать с креативным мышлением человека.

Информационный шум и паника вокруг этой темы еще больше нагнетали и даже будоражили сознание. Ожидалось, что картинка меня поразит и заставит почувствовать себя никчемным созданием в своей нише.  

Очень мне хотелось, чтобы меня удивили, чтобы я с таким же таинственным взглядом как Вилли Вонка перестала быть скептиком и уверовала.

Но уже после первой пробы мне стало ясно, что волшебной палочки не существует и «не так страшен чёрт, как его малюют». Простые запросы выдавали банальные сюжеты - в буквальном смысле визуальный мусор.

Я стала усложнять запросы и давать более точное описание, но с каждым разом становилось словно хуже. Хоть и более конкретные и неважно на русском или английском, они не давали желаемого результата и на каких-то моментах сюжеты заносило откровенно не туда. Все это омрачилось артефактами в виде вторых челюстей или ног растущих из ног персонажа. Смазанные планы, отсутствие базовой анатомии, стеклянные расфокусированные взгляды и каменные лица, статичные позы и очень скудная композиция. 

В моих экспериментах было сложно выдавить хоть какие-то эмоции у персонажа. И после многочисленных попыток я ментально устала играть в эту рулетку. 

Откровенно говоря, стало легче, появилось понимание, что это инструмент, а не соперник и придется затратить немало усилий для формирования запроса, а далее постобработки, чтобы воплотить свою задумку.

Читать далее

«DEEPFAKE» как программа для ЭВМ — искажения реальной информации: развитие и правомерность

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.4K

Новая цифровая реальность последних лет, в большинстве технологических решений которой ядром выступает искусственный интеллект (ИИ), существенно исказила восприятие человеком разницы между реальностью и вымыслом. Один из главных «стирателей» такой грани — дипфейк‑технологии, которые можно охарактеризовать как методику автоматизированного, т. е. машинного синтезирования аудиовизуального цифрового контента (изображений, аудио, видео и даже текста) с целью создания видоизмененного и при этом максимально реалистичного контента.

Как бы то ни было, технические подделки, которые, как казалось, делают глубокие изменения внешности в тех же самых фильмах, со временем еще больше развивались и совершенствовались. А ведь несколько лет назад артикуляционная экспрессия и другие элементы синтезированного видео задавались программно‑ по большей части это была «ручная» задача, причем в режиме реального времени.

Продолжить

«Глаза» беспилотных автомобилей: LiDAR и компьютерное зрение

Время на прочтение13 мин
Количество просмотров22K

Самоуправляемое транспортное средство может «видеть» разными способами. Человеческое зрение ему заменяют радары, камеры, лазеры, радиоволны и ультразвук. В этом обзоре поговорим о лидарах и компьютерном зрении (CV) — двух основных инструментах, на которых основано автономное восприятие окружающего мира беспилотными автомобилями. Мы коротко опишем принцип работы технологий, расскажем, кто производит и внедряет подобные устройства, а также сравним их основные достоинства и недостатки.

Читать далее

Ближайшие события

Стартап хочет обучить ИИ генерировать арт на лицензионных картинках

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.5K

Генеративный Интеллект, особенно ИИ преобразования текста в изображение, привлекает столько же судебных исков, сколько и венчурных долларов.

Две компании, разрабатывающие популярные художественные инструменты искусственного интеллекта, Midjourney и Stability AI, вовлечены в судебный процесс, в котором утверждается, что они нарушили права миллионов художников, обучая свои инструменты на изображениях из Интернета. Кроме того, поставщик стоковых изображений Getty Images подал в суд на Stability AI за использование изображений со своего сайта без разрешения для обучения Stable Diffusion, искусственного интеллекта, генерирующего искусство.

Недостатки ИИ - склонность к повторению данных, на которых он обучался, и, соответственно, состав обучающих данных продолжает ставить его под прицел закона. Однако новый стартап Bria утверждает, что минимизирует риск, обучая ИИ, генерирующий изображения, а вскоре и видео, "этическим" способом.

Читать далее

Разговор с Kandinsky 2.1 или не очевидный prompt

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров8.9K

Этот пост не попал бы в сеть, но астрологи объявили неделю нейроарта на Хабре.  А  полотно в конце поста сложно не назвать нейроартом. Kandinsky art.

Читать далее

Искусственный Художник — Google от мира Text-To-Img

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2.9K

Здравствуйте, меня зовут Дмитрий Карловский и я люблю рисовать шедевры, но у меня совсем не хватает терпения довести хоть один из них до конца.

Ранее я уже показывал вам самописного убийцу Гугл Поиска. Пользуюсь им до сих пор и доволен чистотой выдачи. Теперь же мы сделаем убийцу Artstation для творческих личностей, у которых терпения хватает лишь на несколько минут, за которые надо успеть создать настоящую красоту. И в этом нам помогут нейронные сети.

Далее вас ждёт реверс-инжениринг HuggingFace API для использования модели Kandinsky, поддержка запросов на 100 языках мира благодаря модели Small100, проектирование бесконечной виртуальной ленты в несколько строк на $mol и, конечно, примеры творчества Искусственного Художника.

Вскрыть пациента

Раскраски — лучшее применение генеративных сетей :)

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров6.5K

Мне кажется, я нашел самое правильное применение генеративных сетей, рисующих по описанию. Это генерация раскрасок! 

У меня есть дети. Дети равно раскраски. Раскраски - это постоянный поиск всякой фигни, типа “хочу чтобы был единорог, а рядом его малыш панда, и чтобы малыш был похож на маму”. Интересно, что нейросети неплохо справляются с такими задачами. Причем, забавный момент - результаты начинающих нейросетей, типа того же Кандинского, принимаются более благосклонно, потому что рисуют они пока плохо. Но! эта “плохость” и ошибки в изображениях очень похожи на рисунки ребенка и воспринимается за творение собрата по детсаду/школе.

Читать далее

Путь в поисках мастерства: IT-практика в промышленном гиганте

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.6K

Всем привет! Продолжим погружение в тему, и сегодня я бы хотел поделиться реальными задачами и кейсами из практики в Норникеле по направлениям Industrial AI и Computer Vision. Ни для кого не секрет, что еще несколько лет назад машинное обучение в промышленности уступало в развитии таким прикладным направлениям, как ML в ИТ / телекоме, банковской сфере, ритейле и т.п. Часто при общении с коллегами из других исследовательских институтов, R&D отделов крупных компаний разговоры о промышленных кейсах в машинном обучении напоминали байки о рыбалке. Или, скорее, рассказы авантюристов-золотоискателей, бросивших стабильность и уют хорошо изведанных земель ИТ и машинного обучения и ушедших в дикие пустынные края в поисках скрытого от всех сокровища.  Все быстро меняется и стараниями флагманских отраслевых компаний, крупных исследовательских коллективов работа над кейсами Industrial AI шагнула далеко вперед - от редких и робких хакатонов к полномасштабной разработке, внедрению и эксплуатации моделей в производственные процессы.

Читать далее

Пять примеров успешного использования ИИ на производстве

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров30K

В октябре 2019 года компания Microsoft заявила о том, что искусственный интеллект помогает производственным компаниям обгонять по показателям конкурентов: использующие ИИ производители показывают результаты на 12% лучше, чем их соперники. Поэтому мы скорее всего увидим всплеск применения технологий ИИ на производстве, а также рост новых высокооплачиваемых должностей в этой области.

В статье мы расскажем о пяти примерах использования ИИ-технологий на производстве. Также мы поделимся историями успеха современных промышленных компаний, проанализировав, как внедрение ИИ помогло их бизнесу.
Читать дальше →

Чем отличаются ChatGPT3 и ChatGPT4?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров13K

Начнем с обзора.

ChatGPT 4 был запущен 4 марта и стал предметом активного обсуждения. Одним из аспектов обсуждения был вопрос о том, чем он отличается от своего предшественника ChatGPT 3. Присяжные еще не определились, потому что ChatGPT 4 всё еще не полностью доступен публично и является платной версией, в отличие от своего предшественника, что препятствует широкому распространению. Но в открытом доступе уже достаточно информации, чтобы провести предварительное сравнение между двумя версиями. В индустрии программных технологий переход с третьей версии на четвертую означает значительное обновление, и это действительно произошло с новой версией ChatGPT 4. Конечно, она не получила всех тех обновлений, которые ожидали эксперты, но все же она обладает большим потенциалом. Она превосходит свою предшественницу по многим параметрам, таким как способность обрабатывать информацию, понимание контекста подсказок и обработка как текста, так и изображений. В этой статье проводится сравнение двух версий по следующим разделам.

Читать далее

Вклад авторов