Все потоки
Поиск
Написать публикацию
Обновить
50.55

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Наш опыт в распознавании наличия подписи на .NET + EmguCV (OpenCV). Ч. 2

Время на прочтение8 мин
Количество просмотров2.2K

Привет, Хабр! Это продолжение статьи о нашем опыте распознавания подписей. В ней мы рассказывали о первой итерации нашего алгоритма распознавания, полагающегося на поиск контуров прямоугольника, в котором должна была располагаться подпись. Запущенный на бою алгоритм успешно обрабатывал немногим меньше 80% документов. Однако мы на этом не остановились, так как одним из предъявляемых к нам требований была отметка в 95%.

Читать далее

Распознавание товаров на полках

Время на прочтение8 мин
Количество просмотров6.8K

Computer Vision позволил создать принципиально новые продукты и механики в многих областях жизни: умный город, беспилотный транспорт, аналитика производств.
То же самое произошло и с супермаркетами: “оценка длины очереди”, “оценка загруженности зала”, “оценка загруженности полок товарами”, “проверка выкладки”, “проверка качества уборки”, “проверка ценников” и многое-многое другое это теперь автоматизированные задачи.
В этой статье я хочу рассказать про то, какие используются общие принципы для распознавания товаров. Эти алгоритмы необходимы для проверки выкладки, заполненности полок, контроля остатков и других задач.
Так получилось что за последние 7 лет мы были вовлечены в решение и консультирование по большинству таких задач, так что накопилось много интересного опыта.

Читать далее

Шесть шагов для создания более качественных моделей Computer Vision

Время на прочтение11 мин
Количество просмотров12K

Компьютерное зрение (computer vision, CV) — подраздел искусственного интеллекта, использующий алгоритмы машинного обучения и глубокого обучения для распознавания и интерпретации объектов на изображениях и видео. CV сосредоточено на воссоздании аспектов сложности зрительной системы человека, позволяя компьютерам определять и анализировать предметы на фотографиях и видео точно так же, как это делают люди.

За последние годы в области компьютерного зрения произошёл существенный прогресс, благодаря прорывам в искусственном интеллекте и инновациям в глубоком обучении и нейронных сетях компьютеры превзошли людей в различных задачах, связанных с распознаванием объектов. Одним из движущих факторов эволюции компьютерного зрения является объём генерируемых сегодня данных, которые применяются для обучения и совершенствования CV.

В этой статье мы сначала рассмотрим способы применения моделей компьютерного зрения в реальном мире, чтобы понять, почему нам нужно создавать более качественные модели. Затем мы перечислим шесть способов совершенствования моделей компьютерного зрения при помощи улучшения обработки данных. Но для начала давайте вкратце обсудим различия между моделями компьютерного зрения и машинного обучения.
Читать дальше →

Третья жизнь пет-проекта по распознаванию рукописных цифр

Время на прочтение8 мин
Количество просмотров5.2K

В этом блогпосте я поделюсь историей о том, как я обновлял свой старенький пет-проект по распознаванию цифр, как делал разметку для него, и почему модель предсказывает 12 классов, хотя цифр всего 10.
Вот ссылка на само приложение, если хочется интерактива сразу.

Читать далее

Создаем сервис для Serverless перевода голоса, как в Cyberpunk 2077

Время на прочтение6 мин
Количество просмотров6.8K

На днях мне наконец-то удалось поиграть в Cybperunk 2077, и я заметил, что в игре есть одна интересная особенность: Когда персонаж говорит на иностранном языке, текст сначала появляется над ним в оригинале, а затем как бы вживую переводится на английский.

Тогда я задался вопросом: сколько работы потребуется, чтобы создать нечто подобное с помощью современного DL-стека? Можно ли сделать это за выходные?

Читать далее

Онлайн-миграция данных из HBase в TiDB с нулевым даунтаймом

Время на прочтение8 мин
Количество просмотров1.3K

Для Pinterest СУБД HBase является одним из самых критически важных бэкендов хранения, лежащим в основе многих онлайн-сервисов хранения наподобие Zen (база данных графов), UMS (wide-column-хранилище) и Ixia (вторичный сервис индексации, работающий почти в реальном времени). Несмотря на то, что экосистема HBase имеет различные преимущества, например, высокую согласованность на уровне строк при высоких объёмах запросов, гибкую схему и низкую задержку доступа к данным, интеграцию с Hadoop и так далее, она не сможет отвечать потребностям наших клиентов через 3–5 лет. Это вызвано высокими эксплуатационными затратами, излишней сложностью и отсутствием такой функциональности, как вторичные индексы, поддержка транзакций и так далее.

Выполнив оценку более десятка различных бэкендов хранения данных, проведя бенчмарки трёх лучших бэкендов при помощи теневого трафика (асинхронным копированием трафика продакшена в среду вне продакшена) и тщательно оценив производительность, мы решили использовать в качестве окончательного кандидата на роль Unified Storage Service (унифицированного сервиса хранения) СУБД TiDB.
Читать дальше →

Забудьте про милашку Редклифа: герои поттерианы «глазами» AI

Время на прочтение4 мин
Количество просмотров12K

За прошедший год общедоступные сервисы генерации изображений, вроде Midjourney или Craiyon (экс Dall-E Mini) по-настоящему приоткрыли двери в будущее для массовой интернет-аудитори. Чтобы представить себя в образе героя аниме или перенести действие любимой книги в другую фантастическую вселенную, больше не нужно обладать даже зачатками технических знаний. Достаточно написать, что ты хочешь увидеть и искусственный интеллект сделает всю магию за тебя.

Одними из самых частых объектов для экспериментов в стиле «вжух-и-готово» в дни перед началом главных зимних праздников стали персонажи вселенной Гарри Поттера. Благодаря AI, знакомые миллионам поклонников культовой киносаги герои то попадают в антуражи мультиков студии Ghibli, то погружаются в пучину киберпанка, то переносятся в миры мрачных фантазий Тима Бертона или примеривают на себя эпичные самурайские доспехи

Мне же пришелся по душе эксперимент в стиле «нейрореализм», который провел с нейросетью Dall-E2 и строчками из книг Джоан Роулинг талантливый разработчик Jim Clyde Monge. Давайте посмотрим вместе и сравним — удалось ли искусственному интеллекту сделать образы, созданные голливудскими актерами полнее и ярче?

Читать далее

Как оптимизировать работу Stable Diffusion при помощи текстовой инверсии

Время на прочтение7 мин
Количество просмотров11K
Изображение, сгенерированное AI по промпту «photograph of a robot drawing in the wild, nature, jungle» («фотография робота, рисующего в природе, джунглях»)

22 августа 2022 года Stability.AI объявила о публичном релизе Stable Diffusion — мощной диффузионной модели text-to-image. Модель способна генерировать различные варианты изображений на основании текстового или графического ввода.

Стоит заметить, что «модель выпущена под лицензией Creative ML OpenRAIL-M. Лицензия допускает коммерческое и некоммерческое использование. Ответственность за этическое использование модели лежит на разработчиках. Это относится и к производным от неё моделям».

В этой статье я расскажу, как точно настраивать эмбеддинги для создания персонализированных изображений на основании произвольных стилей или объектов. Вместо переучивания модели мы можем представить собственный стиль в виде новых слов в пространстве эмбеддингов модели. В результате этого новое слово будет руководить созданием новых изображений интуитивно понятным образом.
Читать дальше →

Генерируем музыку с помощью Stable Diffusion

Время на прочтение3 мин
Количество просмотров11K

Многие уже слышали, а может и пробовали модель Stable Diffusion для генерации картинок из текста. Но знаете ли вы, как с помощью той же модели можно генерировать аудио?

Читать далее

AR поверх реального мира: разбор сервисов визуального позиционирования. Часть 1

Время на прочтение8 мин
Количество просмотров5.4K

В этом году появилось сразу несколько сервисов, позволяющих найти новые применения дополненной реальности в мобильных приложениях и сделать отображения AR графики более реалистичной. Эти сервисы определяют куда смотрит пользователь и помогут разместить AR контент на фасаде здания, отобразить AR навигацию по помещению или превратить пространство вокруг в игровой уровень. Я изучил большинство этих сервисов, чтобы определить кому и для каких целей они подходят.

Читать далее

Обучаем SVTR-Tiny для распознавания текста сцены

Время на прочтение7 мин
Количество просмотров5.8K

Сегодня мы расскажем вам, как дообучить новую state-of-the-art модель SVTR-Tiny для распознавания текста сцены (текста в реальных уличных условиях) на собственноручно сгенерированных изображениях с помощью API библиотеки PaddleOCR.

Читать далее

Трекинг множества объектов без разметки или как следить за пузырьками во время пенной флотации

Время на прочтение10 мин
Количество просмотров15K


Привет, Хабр! Меня зовут Клоков Алексей, сегодня поговорим об алгоритмах компьютерного зрения, обработке видеопотока и методах трекинга множества объектов без разметки (unsupervised multiple object tracking) на примере пузырьков. Методичка будет полезна как опытным специалистам, перед которыми стоит похожая задача, так и начинающим энтузиастам. На основе черновика этого текста и экспериментов получилось опубликовать научную статью в Journal of Mineral and Material Science.


В тексте вы найдете:
— описание домена данных и технологического процесса флотации;
— подход к cегментации множества подобных объектов;
— существующие методы трекинга без разметки;
— подход к одновременному сопровождению множества подобных объектов;
— сравнение качества работы алгоритмов и много демонстраций

Читать дальше →

Как смотрели нюдсы на древних компьютерах?

Время на прочтение7 мин
Количество просмотров42K


Формат JPEG представили в 1993 году, а GIF — в 1987-м. Но тогда непонятно, как смотрели фотографии девушек на этой прекрасной машине образца 1983 года?

Такой вопрос пришёл мне от читателя обзора портативного компьютера Compaq Portable. Ответ оказался сложнее, чем мы думали. Давайте разберёмся.
Читать дальше →

Ближайшие события

Применение нейросетей для сжатия данных при интерактивной визуализации

Время на прочтение5 мин
Количество просмотров3.2K

]


Одна из самых приятных вещей в жизни разработчика архитектуры ПО и технологического эксперта Intel — возможность наблюдать за фантастическими достижениями Центров передового опыта (CoE) OneAPI по всему миру. Недавно лаборатория UC Davis Visualization & Interface Design Innovation (VIDI) Lab поделилась опытом применения глубокого обучения в создании интерактивной визуализации для науки. Подробности — к старту флагмансокго курса по Data Science.

Читать дальше →

Земля круглая, вода мокрая, JPEG шакалит, небо голубое… Или нет?

Время на прочтение11 мин
Количество просмотров16K

Вы можете сказать, что один факт выбивается из этого ряда в заголовке, потому что он не так очевиден, как остальные. Еще лет 10-15 назад я бы никогда не подумал, что тут могут быть возражения, а сейчас уже и не удивляюсь, что приходится объяснять простые истины: дело в том, что планеты обладают очень большой массой, поэтому гравитация стремится придать им форму шара. Вот и все! Хотел бы на этом закончить статью и поблагодарить за внимание.

Читать далее

Сегментация деталей корпуса автомобиля: от разметки до сглаживания контуров

Время на прочтение11 мин
Количество просмотров2.8K

Добрый день, Хабр! Меня зовут Арсений Рылов. Я работаю ведущим специалистом по анализу и обработке данных в компании “Финолаб” и сегодня снова речь пойдет об автомобилях, нейросетях и инновационных решениях.

В нашем блоге мы уже рассказывали о сервисе дистанционной оценки технического состояния автомобилей на основе технологий искусственного интеллекта, который который к настоящему времени прошел новый этап развития: дополнен новым функционалом, более совершенными алгоритмами обработки данных и количество скачиваний приложения растет ежемесячно на 40%. Уже сейчас, получая фото- и видеоматериалы со смартфона пользователя, мы научились выполнять качественную оценку в различных условиях: снег, грязь, яркое солнце с бликами и неравномерная освещенность. В целом, мы обеспечиваем обнаружение 92% 11-ти видов повреждений стекол и кузова автомобиля и продолжаем улучшать наши метрики.

В проекте я решаю задачу сегментации деталей корпуса автомобиля. Она многогранна и сложна из-за того, что существует много вариаций марок и моделей машин, у каждой из которых своя форма деталей, а иногда и их набор. Сегодня мне хотелось бы поделиться с вами некоторыми решениями, которые я использовал в своей работе, и отдельно выделить задачу спрямления контуров сегментируемых деталей.

Читать далее

Кейсы разметки в CVAT #1: найди отличия

Время на прочтение8 мин
Количество просмотров2.4K

Привет, дорогие читатели! Меня зовут Алина, я работаю операционным менеджером в компании Training Data, которая занимается сбором и разметкой данных. Я веду проекты по разметке, а еще благодаря знанию python пишу скрипты для автоматизации работы своей команды. У меня накопилось много интересного опыта, которым я хочу с вами поделиться.

Своей первой статьей я открываю рубрику разбора любопытных кейсов, с которыми столкнулись я и мои коллеги во время организации разметки данных в CVAT.

Computer Vision Annotation Tool (CVAT) – это инструмент с открытым исходным кодом для разметки цифровых изображений и видео. Основной его задачей является предоставление пользователю удобных и эффективных средств разметки наборов данных. “ - цитата из статьи создателей.

Все мы с вами прекрасно знаем детскую игру на развитие внимательности и наблюдательности - поиск отличий на картинках. Она встречалась нам в журналах, на календарях, а позже - на сайтах и мемах в VK. Но кто бы мог подумать, что подобная забава дойдет и до разметки данных для обучения нейронных сетей?

Читать дальше

Нейросеть рисует за меня?

Время на прочтение3 мин
Количество просмотров13K

В свободное время я генерирую тысячи красивых (и не очень) картинок. Иногда я пробую сделать что-то, что будет иметь практическую ценность. Основным преимуществом рисующих нейросетей сейчас я вижу время. Можно сделать портрет почти готового качества за несколько минут; стилизовать любое изображение или набросать композицию. Как же это использовать?

Читать далее

Как найти и сравнить похожие изображения автоэнкодером

Время на прочтение10 мин
Количество просмотров10K

Привет, Хабр!

Меня зовут Владимир Паймеров, я Data Scientist и являюсь участником профессионального сообщества NTA.

Играл ли ты в детстве в игру, в которой необходимо было найти отличия на изображениях? Сегодня рассмотрю похожую задачу, называемую поиском изображений, в которой нужно будет найти все похожие изображения из датасета на загруженную фотографию из того же датасета.

Читать далее

10 лучших опенсорсных инструментов аннотирования для компьютерного зрения

Время на прочтение7 мин
Количество просмотров7.6K

Наша компания знает важность подбора качественных инструментов разметки и аннотирования изображений для создания точных и полезных массивов данных. В нашем блоге можно найти серию статей Tools we love, в которой мы подробно рассматриваем некоторые из наших любимых инструментов аннотирования, а также выбранные нами лучшие инструменты аннотирования за 2019, 2020 и 2021 годы.

В процесса роста сферы аннотирования изображений мы наблюдаем увеличение количества опенсорсных инструментов, позволяющих любому размечать изображения бесплатно и пользоваться широким набором функций. В этой статье мы расскажем о десяти лучших опенсорсных инструментах аннотирования для машинного зрения!
Читать дальше →

Вклад авторов