Все потоки
Поиск
Написать публикацию
Обновить
57

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Синтез и восстановление голограмм-проекторов. Часть 1

Время на прочтение5 мин
Количество просмотров1.1K

Всё началось в далёком 2004 году, когда я учился в СПб ГУ ИТМО на кафедре Прикладной и компьютерной оптики (ПиКО). Однажды на лекции по "Основам оптики" преподаватель рассказал о голографии. Эта тема меня сразу увлекла, и, несмотря на то, что многое тогда было непонятно, проявленный интерес не угас до сих пор. Помню, как лектор объяснял свойства голограмм, а так же привел схему связывающую параметры записи с типом получаемых голограмм: Габора, Лейта и Упатниекса, Денисюка и другие (рис. 1). Это был тот не редкий момент, когда: «Очень интересно и ничего не понятно»

Читать далее

Стереокамера машинного зрения c поддержкой ИИ на базе FPGA и Arduino Portenta H7

Время на прочтение10 мин
Количество просмотров9K

В статье рассмотрен процесс проектирования модуля стереокамеры на базе двух монохромных сенсоров MT9V034. Для управления матрицами и сшивания картинки с двух видеопотоков используется FPGA Gowin GW2AR. Использование FPGA и сенсоров с глобальным затвором позволило точно синхронизировать время экспозиции, таким образом сшитое изображение содержит два кадра, которые снимают объект в одно и то же время с наносекундной точностью. Модуль подключается в качестве «шилда» к промышленной отладочной плате Arduino Portenta H7. Комбинированный видеопоток обрабатывается библиотекой машинного зрения OpenMV на Arduino. Разработка проекта ведется в специализированной IDE от OpenMV на MicroPython, что позволяет быстро прототипировать устройства с использованием алгоритмов машинного зрения. После отладки камера работает автономно, весь код исполняется микроконтроллером на Arduino. В библиотеке OpenMV реализовано большое количество функций обработки изображений, от базовых преобразований и фильтров, до машинного обучения. Поддержка TensorFlow Lite позволяет обнаруживать объекты на стереопаре, сопоставлять их и рассчитывать расстояние до этих объектов. Так же в библиотеке реализованы функции построения карты глубин, что позволяет использовать разработанную камеру для реализации алгоритмов автономной навигации.  

Читать далее

Xiaohongshu: новая замена TikTok и  запрещенного Instagram, которая уже порвала американский App Store

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров9.8K

Пока пользователи из России досматривали в TikTok ролики, опубликованные до 2022 года, западный мир не стал дожидаться его полной блокировки и взял, да и нашел ему альтернативу. Им стало китайское приложение под названием Xiaohongshu (Сяохуншу). И это несмотря на то, что у сервиса нет ни англоязычного названия, ни адаптированного интерфейса, ни даже функции перевода, что не помешало ему возглавить топ загрузок американского App Store. А если разобрались американцы, почему бы не попробовать и нам? Тем более, что помимо ТикТока нам надо найти, чем заменить еще и запрещенный в России Инстаграм.

Читать далее

Смотрим «под капот» бэкенда изображений в ОК

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров4.5K

Ни одна современная соцсеть не обходится без картинок и фото. ОК — не исключение. Но чтобы пользователи соцсети могли загружать свои фото, ставить аватарки и иначе использовать свои изображения, нужны отлаженные механизмы и целый стек обработки на стороне бэкенда.

Меня зовут Руслан Измайлов. Я ведущий Java‑разработчик в ОК. В этой статье я хочу показать на конкретном юзкейсе весь путь изображения в соцсети ОК: от его загрузки на портал до скачивания с узлов CDN.

Читать далее

Как роботы забрали скучную работу у бухгалтеров

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров12K

В 2016 году Минфин заявил, что потребность в бухгалтерах в ближайшие годы будет стремиться к нулю. Однако через два года прогноз скорректировали: оказалось, что без бухгалтеров невозможно обойтись. Вместе с тем автоматизация отдельных сфер их деятельности может быть оправданной и весьма эффективной.

Всем привет! Меня зовут Мирза Абдулмеджидов, я руководитель проектов ROBIN компании SL Soft. Сегодня расскажу про интеллектуальную автоматизацию и поделюсь своим опытом внедрения платформы ROBIN для трансформации бухгалтерских процессов на примере одного проекта, реализованного для крупного продуктового ритейлера.

Читать далее

Сжатие медиа для экономии места

Уровень сложностиПростой
Время на прочтение51 мин
Количество просмотров6.1K

Вы наверняка имеете медиа файлы закодированные не самым эффективным кодеком (H.264, JPEG, MP3). И вы можете сократить их размер вплоть до 75% перекодировав медиа современными альтернативами (H.265, AVIF, OPUS).

Использовать для этого можно консольные утилиты ffmpeg и magick.

Рассмотреть альтернативы

6 внутренних факторов, влияющих на эффективность распознавания лиц с видеокамер

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3.3K

Всем привет! В предыдущей статье я уже рассказывал о том, как внешние факторы могут влиять на скорость и точность работы систем распознавания лиц на видеопотоках. Сегодня речь пойдет о не менее важных внутренних аспектах — архитектуре системы и правильном выборе и настройке оборудования.

Читать далее

В гостях у классиков. Модели для генерации фото с русскими писателями (FLUX + LoRA)

Время на прочтение4 мин
Количество просмотров7.1K

В ходе новогодних экспериментов с дообучением FLUX, у меня появилось несколько моделей которыми я хотел бы поделиться с сообществом и рассказать про их особенности. Про то, как сделать такую модель самому, я написал в предыдущей статье.

Дообучать можно на чем угодно, а не только на лицах. Можете взять несколько картинок (хватит 15-30, если они не очень разнообразны) одного стиля или класса с ресурса типа Pinterest или просто нагуглить.

Запускать будем через ComfyUI. Это приложение само по себе очень гибкое и мощное (интерфейс видно на картинке), так что, если поразбираетесь в нём, то сможете автоматизировать трудоёмкие процессы при работе с нейросетями. Например, оцветнение старых изображений с последующим их масштабированием.

К тому же, есть тысячи моделей от других пользователей, которые вы сможете запускать подобным образом. Обычно, правда, это перенос аниме или что-то пикантное.

Читать далее

Увеличение растровых изображений – какой максимальной схожести с оригиналом мы можем добиться и как? А можно побыстрее?

Уровень сложностиСредний
Время на прочтение25 мин
Количество просмотров4.4K

В этой статье Вы узнаете как теоретические аспекты апскейла сочетаются с практической реализацией, уделяя особое внимание оптимизации алгоритмов на C# для достижения высокой производительности. Рассмотрим сравнительный анализ классических и новых методов, включая нейросетевые подходы, и предложим несколько интересных идей для будущих исследователей. Надеюсь, эта статья станет ценным ресурсом, если вас интересует обработка изображений и повышение эффективности программного кода.

Апскейл на пределе: вперёд!

Оцифровываем музыку из XIX века

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров3.6K

Всем привет! На связи школьный кванториум лицея современных технологий управления №2 г. Пензы. Недавно мы загорелись идеей создать лицейский технический музей, так как в нашем городе не осталось ни одного школьного музея с таким направлением. Одна из целей задумки — проследить за эволюцией информационных технологий и дать возможность детям потрогать, послушать, посмотреть и поиграться с ними.

Онлайн-стриминг музыки сегодня для современных детей — это технология, с которой они родились. Музыка по сети кажется им органичной и естественной. Всё ещё сохраняется понимание того, что музыкальные файлы можно скачать, поместить на карту памяти или получить аудио на каком-то легендарном носителе CD (который некуда вставить в окружающей их технической действительности). LaserDisc своим видом (хоть и огромным) выдаёт своё предназначение, и догадки всё ещё верны. Дети находятся на грани понимания совместимости карандаша с аудиокассетой, и этот вопрос становится чуть ли не олимпиадным, за который можно стать почётным агонистом в телепередаче Юрия Вяземского. Винил — хайп, круто, лампово, аудифильство, но какое-то волшебное и без подробностей. Магнитная лента для аудиозаписи (например, Свема) — коричневая мишура на новогоднюю ёлку в бобине. Далее опрашивать бесполезно — видимая детьми вселенная технологий заканчивается. Валик (цилиндр) для фонографа выглядит как артефакт для фильма «Пятый элемент» и своим видом даже не намекает ни на что современное. Что же ещё дальше от сегодня?

Ну-ка, удивите!

Как добавить надпись на картинку

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров4K

Я люблю работу с изображениями. Не очень разбираюсь, но люблю. Всегда с интересом читаю статьи про методы триангуляции, детектирования границ, фильтры, перцептивные хэши, форматы изображений. Лет 10 назад даже пилил по вечерам конвертер из растра в вектор, но тот проект так и остался незаконченным.

А теперь мы с командой разрабатываем PIM-систему, это инструмент по управлению информацией о товарах. Среди задач в беклоге я нашел задачу себе по душе: попробовать реализовать массовую генерацию инфографики для маркетплейсов. А в этой статье я хочу рассказать о подходе, который я использовал.

Читать далее

Создаем воспоминания. Осваиваем FLUX, LoRA и ComfyUI

Время на прочтение7 мин
Количество просмотров28K

Разбираюсь на праздниках с дообучением моделей для генерации изображений. Было интересно, насколько сложно дообучить модель для генерации изображений по тексту в домашних условиях, сколько нужно обучающих данных и как затем генерировать качественные фотографии и иллюстрации.

Чтобы через время не забыть про особенности процесса и как-то его зафиксировать, решил поделиться наработками. Под катом подробности и еще немного фотографий АБССС.

Читать

Обзор на разнообразные интерфейсы Stable Diffusion. Automatic1111 — не одинок

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров17K

Для многих пользователей, занимающихся генерацией изображений с помощью ИИ у себя дома, интерфейс Automatic1111 стал стандартным. Однако мир ИИ-технологий не стоит на месте, и появляются новые инструменты и интерфейсы, которые могут предложить ещё больше возможностей и удобства. В этой статье я рассмотрю, какие альтернативы существуют для Automatic1111 и ComfyUI и почему вам стоит обратить на них внимание.

Вы ведь наверняка не слышали о такой штуке, как программа, позволяющая использовать Stable Diffusion для создания и редактирования текстур 3D-моделей с полной UV-разверткой? Или о полноценной бесплатной замене ИИ-инструментария Photoshop, которая доступна совершенно бесплатно и без всяких «но»? Однако статья — не просто подборка случайных программ. Сначала мы изучим основы и немного историю, а затем перейдём к самому интересному.
Читать дальше →

Ближайшие события

Эволюция архитектур нейросетей в компьютерном зрении: детекция объектов

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров4.9K

Всем привет! Это завершающая статья в серии по эволюции архитектур нейронных сетей в компьютерном зрении. Она будет полезна тем, кто только погружается в сферу и пробует систематизировать свои знания, поэтому я осознанно не погружаю читателей в глубокие расчеты и вычисления. Посмотрим на R-CNN, Fast R-CNN, Faster R-CNN, Mask R-CNN, SSD, RetinaNet, EfficientDet, YOLO.

Детекция объектов

Илон Маск сделал бесплатным чат-бот Grok от xAI. Что он умеет и почему это круто

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров28K

Если вы только что вылезли из-под камня или вернулись с Марса, то вам нужно срочно знать: Grok, чат-бот Илона Маска, теперь стал доступен бесплатно. Это не просто новость, а настоящий прорыв в мире техники и общения с искусственным интеллектом. Давайте разберёмся, почему Grok – это ваш новый лучший друг и как вы можете использовать его на полную катушку.

Читать далее

Путь видео в онлайн-кинотеатрах от «стекла до стекла». Часть первая: источники данных и headend

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.5K

Привет, Хабр! Я Дмитрий Новожилов, техлид в онлайн-кинотеатре KION. Сейчас в России 53 млн человек смотрят онлайн-кинотеатры, но принцип их работы остается загадкой не только для зрителей, но (иногда) и для разработчиков. И это действительно проблема. Если вы не говорите с людьми на одном языке, не оперируете одинаковыми терминами, то бывает довольно сложно не просто сформулировать задачу, а даже передать смысл разработки того или иного узла. 

Чтобы быстро погружать членов своей команды в нашу профессиональную сферу, я подготовил много разных обзорных материалов о внешнем и внутреннем устройстве видеосервисов. В процессе я понял, что они могут быть полезны широкому кругу читателей. Иногда смотреть кино еще интереснее, если вы понимаете, что происходит по ту сторону экрана.

Итак, это первый текст из запланированного цикла. В нем я крупными мазками расскажу основные этапы, через которые изображение проходит от «стекла до стекла»: от камеры у кинооператора на съемочной площадке до вашего смартфона или телевизора. 

Сразу оговорюсь, я не претендую на истину в последней инстанции. Есть много реализаций для любых из ниже описанных систем. Но существуют индустриальные стандарты, от которых я отталкиваюсь. Это как у транспортных средств: в них обязательно должны быть движитель и двигатель. Двигатель у автомобиля — его мотор, а движитель — колеса. Так и у онлайн-кинотеатров есть пять основных элементов, через которые проходит видеоряд. Одни из них интегрированы так, что их сложно рассмотреть раздельно, а вот другие выделяются достаточно четко. Про каждый из них мы поговорим в этом цикле статей. Но начнем с того, откуда вообще в онлайн-кинотеатрах берется контент. 

Читать далее

8 внешних факторов, влияющих на эффективность распознавания лиц с видеокамер

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров4.9K

Сразу скажу – камеры с большим разрешением не решат ваших проблем, если вы решили строить систему распознавания лиц. Увы, в большинстве случаев результат станет только хуже, а заплатите вы больше!

Читать далее

Kandinsky 4.0 — новая модель генерации видео

Уровень сложностиСложный
Время на прочтение28 мин
Количество просмотров26K

Сегодняшний релиз хочется начать с небольшой истории семейства моделей Kandinsky. В прошлом году на конференции AI Journey 2023 наша команда представила две модели: Kandinsky 3.0 для генерации изображений и первую российскую модель генерации видео по тексту Kandinsky Video. В этом году в апреле и мае вышли в свет улучшенные версии этих моделей: Kandinsky 3.1 с повышенным качеством изображений и Kandinsky Video 1.1 с улучшенными визуальным качеством и временной связностью кадров на видео. 

С тех пор прогресс в области генеративных моделей привел к созданию множества интересных решений для задач генерации, связывающих текст, видео и аудио модальности. Сегодня наша команда исследователей и учёных из Лаборатории Sber AI Research при поддержке учёных Лаборатории FusionBrain Института AIRI представляет Kandinsky 4.0 — нейросеть нового поколения для создания реалистичных видеороликов по текстовому описанию или стартовому кадру, а также аудио сопровождения для сгенерированного видеоролика. Теперь модель генерирует видеоряд продолжительностью до 12 секунд в разрешении HD (1280x720) по любому текстовому описанию или произвольному стартовому кадру. С помощью модели можно создавать видео с разным соотношением сторон под любые пользовательские и продуктовые потребности.

В этой статье мы подробно рассмотрим структуру, функционал и процесс обучения нашей новой модели.

Читать далее

Homo clickus. Как моделирование кликающих людей пригодится для сегментации изображений

Уровень сложностиСложный
Время на прочтение13 мин
Количество просмотров1.2K

Приветствую всех читающих!

Меня зовут Антон Антонов, я инженер по искусственному интеллекту, работаю в Институте искусственного интеллекта AIRI в команде, которая занимается Embodied AI — областью, связывающей робототехнику, компьютерное зрение и большие языковые модели.

Недавно наша группа получила приятное известие: нашу статью с описанием модели того, как люди кликают и тапают на картинки, приняли на грядущий NeurIPS! Она будет полезна, чтобы тестировать модели интерактивной сегментации, которые помогают автоматизировать и ускорить процесс разметки изображений человеком.

Ниже я хотел бы подробнее рассказать о нашей разработке.

Кликнуть

Сканирование документов на планшетах Kvadra: как мы создавали и обучали алгоритм

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2K

Привет, Хабр! Меня зовут Владислав, я CV Engineer в компании YADRO. В этой статье я расскажу, как мы разрабатывали и обучали алгоритм детекции документов для нашего планшета Kvadra_T. Я подробно описал нюансы задачи и весь наш путь — от классического подхода до генерации недостающих датасетов и обучения на них нашей собственной нейросети. Постарался сделать историю интересной как для новичков в теме, так и для более опытных читателей. Режим детекции, кстати, уже доступен в kvadraOS.

Читать далее

Вклад авторов