Обработка изображений *

Работаем с фото и видео

Статьи Посты Новости Авторы Компании

Mixiw 31 окт 2023 в 15:09

Рисуем с нейросетями: тонкие корректировки в Midjourney и Lumenor.ai

3 мин

7.6K

Блог компании X5 TechОбработка изображений*Графический дизайн*ДизайнИскусственный интеллект

Туториал

✏️ Технотекст 2023

Привет, Хабр! Я – Михаил Суворов, ведущий дизайнер коммуникаций в X5 Tech. В статье я расскажу несколько рабочих способов “уговорить” нейросеть нарисовать то, что вам нужно. Я использую нейросети как генераторы изображений, в первую очередь для создания иллюстраций.

Если вы достаточно часто пользовались txt2img нейросетями, то есть теми инструментами, которые превращают ваш текстовый запрос в изображение, то могли заметить, что не всегда получается добиться того результата, который у вас есть “в голове”, но вы не можете заставить нейросеть более четко выполнять ваши запросы.

В материале рассмотрим два ресурса, которые доступны онлайн и на сегодняшний день лучше всего справляются с задачей визуализации “по брифу от человека” – Midjourney и Lumenor.ai.

+14

SmartEngines 31 окт 2023 в 11:00

Сладость или гадость? Что покажет Smart Tomo Engine

Простой

4 мин

859

Блог компании Smart EnginesРабота с 3D-графикой*Обработка изображений*Софт

Всем привет! Страшно соскучились по нашим читателям и решили порадовать вас очередной порцией ужасно красивых видео, которую мы подготовили к Хэллоуину. В этом году мы предлагаем вам погрузиться в атмосферу Хэллоуина с помощью нашей программы для томографической реконструкции и визуализации Smart Tomo Engine. В статье мы продемонстрируем удивительные реконструкции тыквы и других атрибутов праздника. А напоследок покажем самый что ни на есть хэллоуинский томографический кошмар – реконструкцию с тысячью артефактами, с которыми, кстати, мы уже умеем бороться! Заинтриговали? Тогда вперед под каст.

mikerosoft 31 окт 2023 в 10:01

Приходите к нам на завод, у нас тяжело

10 мин

137K

Блог компании ОМК — ИТАнализ и проектирование систем*Обработка изображений*Промышленное программирование*Управление проектами*

Короче, ИТ на заводе — это вам не романтика, особенно в нашем цифровом направлении.

Между «давайте этим займёмся» и «о, смотрите, какая гламурная ML-модель» лежит очень много того, про что не рассказывают. Сейчас расскажу.

Вначале у нас была банда энтузиастов из разных подразделений: несколько человек из ИТ, АСУТП, технологи со знанием статистики — чтобы смотреть с разных углов и видеть всё в целом, насколько это возможно. Начали с оценки перспектив. Они были необъятные — наше производство размером с небольшой город. Стали формироваться подразделения и направления: кто-то пошёл собирать роботов, кто-то в видеоаналитику, кто-то в лайтовый анализ данных, кто-то в самый хардкор — в дата-сатанизм. Работы у нас всегда больше, чем рук.

И на каждой из этих дорожек нас поджидали свои чудеса и сюрпризы.

Вот, к примеру, видеоаналитика:

Мы поняли, что ML в 50% задач не нужны. Нужна, например, камера, которая по цвету определяет, где есть железка, и смотрит её геометрию в реальности. Всё. Или другая камера, которая следит, чтобы в нужной зоне ничего не шевелилось.
Всё это прекрасно до первого солнечного зайчика. ML отлично показывают себя там, где вам лень строить крышу или ставить прожектор над конвейером.
У нас была идея, что мы можем сами в нейросети. Чуть не написали свой сервис для распознавания номеров вагонов. Казалось, делов-то на 20 минут, а у подрядчика это стоит 25 копеек за фото. Сделали свой, сферические вагоны в вакууме он определял хорошо. Потом приехало вот это:

А потом внезапно пошёл дождь. Знаете что? Вагоны под дождём становятся мокрыми. Это было неожиданно. Ещё они бывают после снега, битые, немытые, обновлённые криворукими малярами и ПРОЧИЕ. И в солнечных зайчиках тоже.

Мы накалывались на получении данных (кто сказал, что прошивка станка без костылей?), на роботизации, инфраструктуре, связи, на всём. Мы облазили весь завод, испачкались в солидоле, мазуте и масле. Но стали делать то, что должны, — оптимизировать мир.

Читать дальше →

+268

278

Zara6502 31 окт 2023 в 09:31

Просмотр монохромных артов ZXART на ATARI XL/XE

Средний

15 мин

2.1K

Программирование*Assembler*Обработка изображений*Старое железо

Туториал

В данной статье мы познакомимся с таким явлением как арты для платформы ZX Spectrum и его клонов, немного ковырнём формат файлов SCR (рассматриваем только стандартные 6144 и 6912), узнаем как можно такое запихнуть в ATARI и немножко покодим на C# и ассемблере для 6502.

+10

dereyly 27 окт 2023 в 14:40

От Style Transfer до диффузии: эволюция визуальных эффектов на смартфонах

Средний

11 мин

2.2K

Разработка под iOS*Разработка мобильных приложений*Обработка изображений*Машинное обучение*Разработка под AR и VR*

Четыре года я занимаюсь разработкой различных спецэффектов для фото и видео в мобильных приложениях. Вроде бы это локальная и как бы несерьезная тема, но одну только плачущую маску в Snapchat посмотрели 9 млрд раз. Такие штуки пользуются бешеной популярностью и здорово повышают виральность мобильных приложений, но с каждым годом удивлять людей становится все сложнее.

В этой статье я разберу эволюцию видеоэффектов, поделюсь наблюдениями и раскрою пару инсайдов о том, как перенести стилизацию изображения из StableDiffusion на смартфоны.

Читать дальше →

+12

kucev 25 окт 2023 в 11:50

12 лучших инструментов аннотирования изображений на 2023 год

11 мин

2.6K

Data Mining*Обработка изображений*Big Data*Машинное обучение*Искусственный интеллект

Перевод

С развитием сферы искусственного интеллекта (AI) увеличивается и спрос на высококачественные инструменты аннотирования изображений. Аннотирование изображений — это процесс добавления в изображения метаданных, например, меток или тэгов, чтобы их было проще распознавать и выполнять по ним поиск машинам. Этот процесс критически важен для обучения моделей ИИ, чтобы они могли точно распознавать и классифицировать изображения.

При таком большом количестве имеющихся инструментов аннотирования изображений может быть сложно понять, какие из них лучше подходят под ваши потребности. Чтобы помочь вам сделать более обоснованное решение, мы составили список двенадцати лучших инструментов аннотирования изображений на 2023 год.

В этой статье мы обсудим критерии, использованные для оценки этих инструментов, их плюсы и минусы, а также сравним их между собой. Также мы приведём отзывы и рейтинги пользователей, варианты цен и тарифов и информацию об интеграции с другим ПО и платформами.

Читать дальше →

atomlib 19 окт 2023 в 16:35

Гауссов сплэтинг: как это выглядит

Простой

11 мин

13K

Работа с 3D-графикой*Обработка изображений*Математика*Компьютерная анимация*CGI (графика)*

Обзор

Пример работы гауссова сплэтинга. Этот ролик — не видеосъёмка реального мира, а рендер в реальном времени на настольном компьютере

Всплеск внимания к технике сплэтинга связан с представленной в августе этого года статьей 3D Gaussian Splatting for Real-Time Radiance Field Rendering [Трёхмерный гауссов сплэтинг для рендера radiance field в реальном времени]. До этого, в июле, эта научная работа исследователей Университета Лазурного берега, Института информатики Общества Макса Планка и французского Национального института исследований в информатике и автоматике вошла в пятёрку лучших работ SIGGRAPH 2023.

В следующие два месяца новостные сайты, блоги и тематические форумы начали рекомендовать гауссов сплэтинг как будущее компьютерной графики. Новая техника позволит быстро отсканировать существующую сцену и после короткого обучения отрендерить её с высокой точностью, обещают восторженные голоса.

Сейчас исследователи бьются над поиском практического применения технологии и сканированием движения. В оригинальной работе речь идёт о воссоздании в первую очередь статичных сцен.

Читать дальше →

+65

kucev 19 окт 2023 в 12:05

9 лучших инструментов аннотирования изображений для Computer Vision

9 мин

2.7K

Data Mining*Обработка изображений*Big Data*Машинное обучение*Искусственный интеллект

Перевод

На дворе 2023 год, но аннотирование изображений по-прежнему остаётся одним из самых трудоёмких этапов вывода на рынок проекта компьютерного зрения. В помощь вам мы составили список самых популярных инструментов аннотирования изображений.

Это руководство поможет вам сравнить лучшие инструменты аннотирования и выбрать подходящий.

Мы будем сравнивать каждый из них по ключевым факторам, в том числе по функциональности аннотирования, поддержке различных типов данных и сценариев использования, возможностям QA/QC, безопасности и конфиденциальности данных, управлению данными, интеграции с конвейером машинного обучения и клиентской поддержке.

Читать дальше →

gfx_pro 18 окт 2023 в 20:21

Что такое Quad Bayer фильтр в камерах и работает ли он на самом деле?

Простой

5 мин

4.6K

Обработка изображений*ГаджетыСмартфоныФототехника

Аналитика

Летом 2018 года Sony представили сенсор IMX586 на 48 мегапикселей, в то время как нормой у смартфонов тогда было 12 или 16. В этом посте разбираемся, действительно ли технология светофильтров Quad Bayer, использующаяся в нём, работает, или это просто маркетинговая уловка.

Давайте же узнаем...

+17

SmartEngines 18 окт 2023 в 13:40

Искусственный кадровик: как ИИ может ускорить найм сотрудников, не подвергая их данные угрозе

Простой

5 мин

1.1K

Блог компании Smart EnginesОбработка изображений*Машинное обучение*Искусственный интеллект

Число утечек персональных данных в России все время растет: новости об очередных инцидентах выходят так часто, что уже перестают вызывать удивление. Чаще всего жертвами утечек становятся клиенты компаний. Но иногда под ударом оказываются и их сотрудники. Такие случаи уже происходили.

В этом тексте рассказываем, как с помощью ИИ можно ускорить процесс найма сотрудников в несколько раз, не подвергая их данные ненужным рискам, и почему в таких целях ни в коем случае нельзя прибегать к сервисам распознавания.

-2

Petro38 17 окт 2023 в 12:59

Изучаем веб-сервисы ChatGPT и пробуем программировать

9 мин

7.2K

Программирование*Разработка под Android*Обработка изображений*Облачные сервисы*Искусственный интеллект

Прямого доступа к сервисам OpenAI в РФ, как известно, нет. Для работы с ChatGPT многие пользуются телеграм-ботами, чаще всего бесплатными. В основном, запросы к ним — непритязательные. Пользователи практикуются в английском и, не раздражая никого пробелами в орфографии, получают списком все свои ошибки. Можно задавать ботам относительно простые вопросы.

Но, боты, в подавляющем большинстве работают на версии GPT3.5, возможности которой ограничены. Поэтому даже на хороший, но не релевантный запрос можно получить очень странный ответ, который начинается чем-то вроде «Да, я просто языковая модель и не могу сделать того, что вы от меня хотите...» и т. д. Нельзя забывать и о том, что телеграм-бот едва ли сможет хранить контекст, размером более 4000 токенов.

Поэтому в некоторых случаях удобнее использовать именно веб-сервисы, у них функции побогаче.

Читать дальше →

+20

illusive_man_2000 14 окт 2023 в 16:14

Kornia — библиотека компьютерного зрения

Средний

15 мин

11K

Python*Обработка изображений*Визуализация данных*Машинное обучение*Искусственный интеллект

Обзор

✏️ Технотекст 2023

Kornia это open source библиотека для решения задач компьютерного зрения. Она использует PyTorch в качестве основного бэкенда и состоит из набора дифференцируемых процедур и модулей. Создатели библиотеки вдохновлялись OpenCV, и поэтому Kornia является его аналогом, но при этом в некоторых моментах превосходит. Главным преимуществом Kornia по сравнению с тем же OpenCV, scikit-image или с Albumentations является возможность обрабатывать изображения батчами, а не по одному изображению и возможность обрабатывать данные на GPU.

+26

ddimitrov 12 окт 2023 в 16:54

Размываем границы времени и учимся создавать видео — Kandinsky шагает дальше

Средний

11 мин

11K

Блог компании СберБлог компании SberDevicesОбработка изображений*Машинное обучение*Natural Language Processing*

Обзор

В последние несколько лет активно развиваются генеративные модели, причём синтезировать с хорошим качеством уже сейчас получается и тексты, и аудио, и изображения, и видео, и 3D, и другие модальности. Если говорить про генерацию изображений, то стремительность прогресса в этом направлении обусловлена развитием диффузионного подхода и успехами при обучении больших диффузионных моделей (таких как DALL•E 2/3, Imagen, StableDiffusion, Kandinsky 2.X). Этот тип моделей показывает также отличное качество синтеза видео (ImagenVideo, Make-a-Video, Video LDM, GEN-1, GEN-2, Pika Labs, ZeroScope) и 3D-объектов (DreamFusion, Magic3D). При этом каждый месяц мы можем наблюдать за появлением новых open source (и не только) решений и сервисов, которые обеспечивают очень высокое визуальное качество генераций.

Несмотря на стремление исследователей в области машинного обучения создать единую модель для синтеза видео, есть не менее элегантные подходы к генерации видеороликов. В этой статье речь пойдёт как раз о таком способе создания анимированных видео на основе модели генерации изображений по тексту — в нашем случае, это, как вы уже успели догадаться, модель Kandinsky 2.2. В деталях изучив направление моделирования различных визуальных эффектов вокруг генеративной модели, которая обладает способностью преобразования изображений (image-to-image) и механизмами дорисовки (inpainting/outpainting), мы разработали решение, которое расширяет границы статичных генераций и даёт возможность синтеза так называемых анимационных видео. В качестве такого фреймворка имплементации различных вариантов анимаций мы взяли широко известный deforum, который хорошо зарекомендовал себя в связке с моделью StableDiffusion. И поверьте, задача скрещивания deforum с Kandinsky была отнюдь не простой. Об этом и поговорим далее!

+29

ITSumma 12 окт 2023 в 11:21

Как мы перевезли на новый сайт 700 тысяч рецептов и 6 миллионов фото пирогов, сырников и овсяноблинов

Простой

6 мин

3.1K

Блог компании ITSummaВеб-разработка*Обработка изображений*Хранение данных*

Кейс

На рынке частой историей является поглощение глобальными игроками локальных интернет-сервисов и ресурсов, которые дублируют их функции. Так произошло в 2017 году и с парой «Овкусе» и Cookpad, когда последний решил зайти в русскоязычный сегмент. Тогда слияние произошло успешно: российский проект был куплен и органично влился в инфраструктуру кулинарного ресурса японского происхождения, где активно развивался все эти годы. Ровно до момента, пока головной офис не принял решение уйти из региона, полностью удалив русскоязычную часть Cookpad вместе со всем имеющимся контентом.

Сегодня мы расскажем о том, как нашей команде пришлось переносить данные целого проекта на новую платформу и с чем нам пришлось столкнуться при переезде 6 миллионов фото блюд из 700 тысяч рецептов, которые создали пользователи платформы за 15 лет.

Читать дальше →

+22

SmartEngines 10 окт 2023 в 10:11

AI – это путь в топ: как региональный банк покорил крупный рейтинг

Простой

6 мин

1.5K

Блог компании Smart EnginesОбработка изображений*Машинное обучение*Искусственный интеллект

Кейс

Сотрудничество Банка «Кубань Кредит» и AI‑разработчика систем распознавания Smart Engines началось в прошлом году. Тогда Банк внедрил ряд технологий компьютерного зрения, которые усовершенствовали обслуживание клиентов в офисах и дистанционных каналах. Поставку технологий Smart Engines в Банк осуществляют специалисты компании АО «ФИНСИС».

В 2023 году журнал «Банковское обозрение» включил мобильное приложение «Кубань Кредит Онлайн» в число значимых IT‑ и ИБ‑проектов в финансовом секторе за 2022 год.

Как Банк «Кубань Кредит» достиг таких высоких результатов и что позволяет ему оставаться ведущей кредитной организацией Краснодарского края, мы расскажем в этом материале.

virtual_explorer 9 окт 2023 в 15:24

Хуже, чем заключенные: как в Китае студенты тренируют ИИ

8 мин

12K

Блог компании FirstVDSОбработка изображений*Машинное обучение*Искусственный интеллект

Аннотаторы данных для ИИ — новая горячая профессия в IT. Несколько десятков тысяч человек работают на таких «плантациях» в Венесуэле, в том числе обучая умные пылесосы. Недавно я рассказывал о том, как это происходит в Финляндии за счет труда заключенных. За разбор картинок и оценку текстов от ИИ им там платят порядка €1,50 в час. Но самая большая индустрия аннотаторов данных на самом деле находится в Китае. И они здесь придумали свое решение, уникальное именно для этой страны.

+18

SmartEngines 9 окт 2023 в 10:55

Экспресс-курс по настройке распознавания форм: показываем, как это сделать за 2 минуты

Простой

4 мин

1.3K

Блог компании Smart EnginesОбработка изображений*Дизайн

Туториал

Привет, Хабр! Мы в Smart Engines постоянно пополняем список документов, которые под силу распознать нашим системам Smart ID Engine и Smart Document Engine. На сегодняшний день их количество исчисляется тысячами, но и это не предел. Новые документы на бумажных носителях продолжают возникать, а мы все так же успешно их распознаем. Причем распознаем очень быстро.

Добавлением новых документов, то есть настройкой всех подсистем для распознавания новых типов, мы обычно занимаемся сами. Ведь кто еще так хорошо знает, какую ручку нужно покрутить у нашей системы, чтобы все работало идеально. Однако в некоторых случаях пользователю может понадобиться самостоятельно добавить документы, которые требуется распознать. Например, если количество типов форм растет быстро, а распознавать их хочется уже сразу по мере появления. Или же когда по каким‑либо причинам пользователь не может нам предоставить даже один пример нужного документа. О том, что такое настройка распознавания формы и как это можно сделать самостоятельно буквально за пару минут, в этом тексте.

gfx_pro 8 окт 2023 в 15:49

Нужны ли камерам смартфонов 12-битные АЦП, или мой провальный эксперимент

Средний

3 мин

6.4K

Обработка изображений*ГаджетыСмартфоныФототехника

Аналитика

Среди фотографов известно, что на "больших" камерах использование 14-битного считывания по сравнению с 12-битным может положительно сказаться на детализации теней. Как же дело обстоит с маленькими сенсорами в камерах смартфонов?

Давайте же узнаем...

+23

Cloud4Y 6 окт 2023 в 15:39

Перевод трактата по демонологии при помощи GPT-4 и Claude

Простой

10 мин

4.3K

Блог компании Cloud4YОбработка изображений*Машинное обучение*Читальный залИскусственный интеллект

Мнение

Перевод

Вряд ли кто-то будет спорить, что инструменты ИИ вроде GPT-4, как минимум интересны и забавны. Но насколько они практичны?

Могут ли они помочь нам сделать что-то действительно полезное... например, перевести 1200-страничную книгу о демонах, написанную малоизвестным теологом-иезуитом XVI века?

Давайте проверим!

+23

enjoykaz 4 окт 2023 в 09:50

Чат GPT-4V, который видит — что он умеет

4 мин

52K

Блог компании ОрбитаОбработка изображений*Машинное обучение*

Случилось вот что: вышел большой отчёт про возможности GPT-4V. Внезапно оказалось, что LLM могут обращаться с картинками так же, как с текстовыми промптами, и никакой особой разницы нет. Что та фигня, что эта фигня, главное — научиться распознавать, дальше те же логические связки. Это давно ожидалось, потому что люди в основном смотрят, и большая часть информации приходит через глаза. Но мало кто ждал, что это так круто получится вот уже сейчас и с LLM.

Отчёт вот. Теперь давайте смотреть, а не читать.

Хорошие мультимодальные способности, чётко считывает указатели, хорошее общее понимание ситуации

Если вы пьяны, он пересчитает пиво и сверит с чеком:

Собственно, важное:

Хорошо понимает что за сцена изображена и какие взаимосвязи между объектами на ней.
Читает текст, ориентируется на местности, опознаёт конкретных людей
Умеет в абстракции и обратно
Отлично ищет то, чего не должно быть (отклонения от базовой идеи) — дефекты на деталях, дефекты в людях (в особенности на рентгене) и так далее.
Плохо считает.

Давайте к деталям.

Читать дальше →

+78

1 2 3 4

6 7 ...

49 50

Обработка изображений *

Рисуем с нейросетями: тонкие корректировки в Midjourney и Lumenor.ai

Сладость или гадость? Что покажет Smart Tomo Engine

Приходите к нам на завод, у нас тяжело

Просмотр монохромных артов ZXART на ATARI XL/XE

Истории

От Style Transfer до диффузии: эволюция визуальных эффектов на смартфонах

12 лучших инструментов аннотирования изображений на 2023 год

Гауссов сплэтинг: как это выглядит

9 лучших инструментов аннотирования изображений для Computer Vision

Что такое Quad Bayer фильтр в камерах и работает ли он на самом деле?

Искусственный кадровик: как ИИ может ускорить найм сотрудников, не подвергая их данные угрозе

Изучаем веб-сервисы ChatGPT и пробуем программировать

Kornia — библиотека компьютерного зрения

Размываем границы времени и учимся создавать видео — Kandinsky шагает дальше

Ближайшие события

Как мы перевезли на новый сайт 700 тысяч рецептов и 6 миллионов фото пирогов, сырников и овсяноблинов

AI – это путь в топ: как региональный банк покорил крупный рейтинг

Хуже, чем заключенные: как в Китае студенты тренируют ИИ

Экспресс-курс по настройке распознавания форм: показываем, как это сделать за 2 минуты

Нужны ли камерам смартфонов 12-битные АЦП, или мой провальный эксперимент

Перевод трактата по демонологии при помощи GPT-4 и Claude

Чат GPT-4V, который видит — что он умеет

Вклад авторов