Как стать автором
Обновить
52.18

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Как мы первыми в мире роботизируем кормоуборочные комбайны

Время на прочтение5 мин
Количество просмотров26K
Недавно мой коллега рассказал как мы роботизируем зерноуборочные комбайны и чему научились за этот сезон.

Начинается уборка кормовых культур и мы активно осваиваем кормоуборочную технику. 
Кормоуборочный комбайн – технически более сложная и мощная машина. В связке с ним идут сразу несколько транспортных средств для сбора урожая (трактора с прицепом, грузовики, силосовозы). К работе на такой технике допускаются только опытные механизаторы, у которых за спиной несколько лет работы.

Работа на комбайне во время уборки кормовой кукурузы похожа на езду в машине в густом тумане, только вместо тумана на протяжении всего пути высокая зеленая стена из растений, из которой может выскочить кабан, столб или человек. Перемолов человека (история есть в моей прошлой статье), комбайнеры седеют и больше не могут работать. Кроме этого, в этом «зеленом тумане» надо суметь не врезаться в рядом едущий силосовоз, следить за точностью загрузки силоса с хоботом длиной до 7 метров, из которого вылетает по 50-60 кг силоса в секунду, и равномерно заполнять фургон, чтобы он не гонял полупустым туда сюда.



Фактически один комбайнёр работает за троих, следит за процессом уборки кукурузы (одно рабочее место), ведёт технику (второе рабочее место), загружает силосовоз (третье рабочее место). В итоге что-то страдает. Если плохо вести, можно сломать дорогую технику (минимальная цена кормоуборочного комбайна 16 млн рублей, есть модели и по 50 миллионов), поэтому обычно ухудшается качество уборки и загрузки.

Большую часть работы мы автоматизируем, сейчас расскажу какие сложности мы преодолеваем и что делаем.

Распознавание мяча в волейболе с OpenCV и Tensorflow

Время на прочтение4 мин
Количество просмотров7.2K
После первого опыта распознавания спортивных движений у меня зачесались руки сделать что-нибудь еще в этом направлении. Домашняя физкультура уже казалась слишком мелкой целью, так что я замахнулся на игровые виды спорта.

Применение искусственного интеллекта к спорту — недавняя тенденция, но уже есть интересные материалы:


Лично мне ближе всего волейбольная тема. По ссылке выше находится сайт одного австрийского института, где занимаются разбором игры местной любительской лиги. Есть несколько документов на почитать, но что более важно — опубликован видео-датасет, который можно свободно использовать.

Сразу скажу, что с наскока распознать элементы игры получилось с невысокой точностью, так что пришлось придержать амбиции и пилить задачу по частям. И первая часть — про самый маленький, но необходимый объект.
Читать дальше →

Как с помощью HUAWEI ML Kit реализовать функцию распознавания банковских карт

Время на прочтение4 мин
Количество просмотров2.1K

Общая информация


В предыдущих статьях мы рассказали о том, как с помощью HUAWEI ML Kit создать функцию съемки при распознавании улыбки и апплет для фото на документы. В этой статье я покажу вам, как реализовать функцию распознавания банковских карт, чтобы пользователи могли привязать банковскую карту с минимальными затратами времени.



Назначение функции распознавания банковских карт


Прежде чем приступить к разработке, давайте рассмотрим, для чего нужна функция распознавания банковских карт. Она наиболее актуальна для приложений с функциями совершения платежей, таким как банковские приложения и онлайн-магазины. Эти приложения часто имеют ряд общих требований:

  • Привязка банковской карты

Пользователи могут привязать свои банковские карты для совершения быстрых онлайн-платежей.

  • Банковские переводы

Пользователи могут переводить деньги между счетами в одном банке или между разными банками.
Читать дальше →

Исследование устойчивости сверточных нейросетей. Часть 1: Теория

Время на прочтение11 мин
Количество просмотров5.1K
Если Вам интересно разобраться, насколько современные (прежде всего, сверточные) нейросети устойчивы, насколько легко можно менять их выход небольшим искажением входных данных, а также возможно ли это делать на уровне реальных (физических) атрибутов объектов перед их съемкой на (фото)видеокамеру — милости просим под кат!
Читать дальше →

Наша огромная гордость: мирные советские роботы-комбайны убрали первый урожай в южных регионах

Время на прочтение10 мин
Количество просмотров79K
image
А ведь в прошлом году это делали senior-разработчики.

Возможно, вы помните, что мы говорили про то, как можно сильно улучшить работу обычного сельскохозяйственного комбайна, если использовать нейросетки для распознавания культур и препятствий и робота для автопилотирования. Всё это (кроме процессоров Nvidia и ещё части железа) — наша разработка. А радость в том, что в некоторых южных регионах страны закончилась уборочная страда, и наши комбайны показали себя лучше, чем ожидалось. Слава роботам!

image

В этом году мы поставили несколько сотен блоков из мощного графического ядра (для нейросетей), камер, гидравлических насосов или CAN-модулей для подруливания. Если в прошлом году агропилоты были в опытной эксплуатации, то сейчас речь идёт уже про серийные модели. И они справились.

Более того, они справились лучше, чем мы ждали. Кроме того, в релиз вошли далеко не все фичи. В релизе осталось, по сути, ядро, но одно только это позволило получить очень заметный экономический эффект.

Конечно, обошлось не без сюрпризов. Но давайте расскажу более конкретно, с числами и примерами.

Multi-Target в Albumentations

Время на прочтение4 мин
Количество просмотров5.9K


Этот текст — это перевод блог поста Multi-Target in Albumentations от 27 июля 2020. Автор есть на Хабре, но переводить текст на русский поленился. И этот перевод сделан по его просьбе.

Я перевела на русский все, что можно, но какие-то технические термины на английском звучат более естественно. В таком виде они и оставлены. Если вам в голову приходит адекватный перевод — комментируйте — поправлю.

Как найти нужный видос в груде видеофайлов? Проект «Фабула»

Время на прочтение2 мин
Количество просмотров2.7K
image

Если человеку далеко за 20, то у него уже скопилась огромная фильмотека своей жизни, а также видеозаписей от друзей, родственников, с места работы… Найти там кого-то или что-то конкретное уже невозможно. Недавно готовил видео подборку на юбилей дочери – потратил неделю. Средства массовой информации тем более перегружены видеоархивами. И каждый день в мире появляются миллионы терабайт видеоконтента. И это в эпоху BIG DATA.
Читать дальше →

Нет времени объяснять, сделай автопилот

Время на прочтение4 мин
Количество просмотров9.1K
image

Здравствуйте, товарищи!

На выходных проходил хакасборкатон — гонки на самоуправляемых моделях автомобилей на базе комплекта donkeycar при содействии Х5, FLESS и сообщества энтузиастов self-driving.

Задача заключалась в следующем: сначала надо было собрать машинку из запчастей, затем ее обучить проходить трассу. Победитель определялся по самому быстрому прохождению 3 кругов. За наезд на конус — дисквалификация.

Хотя подобная задача для машинного обучения не нова, но сложности могут поджидать на всем пути: от невозможности заставить нормально работать вайфай до нежелания обученной модели пилотировать железо по треку. И все это в жестких временных рамках!

Когда мы собирались на это соревнование, сразу было понятно, что будет очень весело и очень сложно, ведь нам давалось всего 5 часов с учётом перерыва на обед чтобы собрать машинку, записать датасет и обучить модель.

Что такое тензорные ядра: вычисления со смешанной точностью

Время на прочтение10 мин
Количество просмотров75K
image

В течение последних трёх лет Nvidia создавала графические чипы, в которых помимо обычных ядер, используемых для шейдеров, устанавливались дополнительные. Эти ядра, называемые тензорными, уже есть в тысячах настольных PC, ноутбуков, рабочих станций и дата-центров по всему миру. Но что же они делают и для чего применяются? Нужны ли они вообще в графических картах?

Сегодня мы объясним, что такое тензор, и как тензорные ядра используются в мире графики и глубокого обучения.

Краткий урок математики


Чтобы понять, чем же заняты тензорные ядра и для чего их можно использовать, нам сначала разобраться, что такое тензоры. Все микропроцессоры, какую бы задачу они ни выполняли, производят математические операции над числами (сложение, умножение и т.д.).

Иногда эти числа необходимо группировать, потому что они обладают определённым значением друг для друга. Например, когда чип обрабатывает данные для рендеринга графики, он может иметь дело с отдельными целочисленными значениями (допустим, +2 или +115) в качестве коэффициента масштабирования или с группой чисел с плавающей точкой (+0.1, -0.5, +0.6) в качестве координат точки в 3D-пространстве. Во втором случае для позиции точки требуются все три элемента данных.

Тензор — это математический объект, описывающий соотношения между другими математическими объектами, связанными друг с другом. Обычно они отображаются в виде массива чисел, размерность которого показана ниже.
Читать дальше →

Intel RealSense Depth Camera D455 — четвертая из серии

Время на прочтение2 мин
Количество просмотров6.9K


Представляем новую камеру серии Intel RealSense — Depth Camera D455. В отличие от новинок прошлого года — трекинговой камеры T265 и лидара L515 — D455 представляет собой классическую камеру глубины, то есть продолжение линейки устройств, вот уже без малого десяток лет разрабатываемой Intel. В семействе D400 это четвертая модель, улучшенная и исправленная.
Читать дальше →

Ковыряемся в лидаре iPad 11 Pro

Время на прочтение6 мин
Количество просмотров14K
image

Распознавание трехмерных объектов в Apple iPad 11 Pro, оснащенном лидаром, стало более глубоким и детализированным. Для этого также используются ToF-камеры с разными технологиями измерения дальности положения точки.

Apple инициировала гонку использования лидаров в различных продуктах. Компания Apple встроила лидар в свой iPad Pro 11, и теперь кажется, что лидарами хотят пользоваться все.

Маневр Apple и реакция на него повлияли на всю электронную промышленность. Поставщики микросхем и датчиков пересматривают свои планы. Некоторые уже изменили свои бизнес-модели.

Но что такое лидар? Компания Apple выбрала этот термин для описания нового датчика, который измеряет глубину — другими словами, это датчик, который распознает объекты в трех измерениях.

Лидар в планшетах и смартфонах – это, по сути, «просто разновидность технологии для распознавания трехмерных объектов», — объяснил Пьер Камбу, главный аналитик отдела фотоники и дисплеев компании в Yole Développement.
Читать дальше →

Декодируем JPEG-изображение с помощью Python

Время на прочтение22 мин
Количество просмотров39K

Всем привет, сегодня мы будем разбираться с алгоритмом сжатия JPEG. Многие не знают, что JPEG — это не столько формат, сколько алгоритм. Большинство JPEG-изображений, которые вы видите, представлены в формате JFIF (JPEG File Interchange Format), внутри которого применяется алгоритм сжатия JPEG. К концу статьи вы будете гораздо лучше понимать, как этот алгоритм сжимает данные и как написать код распаковки на Python. Мы не будем рассматривать все нюансы формата JPEG (например, прогрессивное сканирование), а поговорим только о базовых возможностях формата, пока будем писать свой декодер.

Нейронное суперсэмплирование при рендеринге в реальном времени

Время на прочтение5 мин
Количество просмотров6.4K
image

Рендеринг в реальном времени для виртуальной реальности создаёт уникальный спектр задач, и основными из них являются необходимость поддержки фотореалистичных эффектов, достижение высоких разрешений и увеличение частоты обновления. Для решения этих задач исследователи Facebook Reality Labs разработали DeepFocus — систему рендеринга, представленную нами в декабре 2018 года; она использует ИИ для создания сверхреалистичной графики в устройствах с переменным фокусным расстоянием. В этом году на виртуальной Конференции SIGGRAPH мы представили дальнейшее развитие этой работы, открывающее новый этап на нашем пути к созданию будущих дисплеев высокой чёткости для VR.

Ближайшие события

ADAS: главные тренды в технологиях распознавания

Время на прочтение12 мин
Количество просмотров3.3K
Статья написана в сентябре 2019.

image

Тестовый автомобиль от Cruise, сошедший с производственной линии GM, оборудован датчиками (отмечены красным цветом).

Автомобильная промышленность до сих пор ищет надежную технологию распознавания, которая будет работать в любых условиях — ночь, туман, дождь, снег, гололед и т.д.

Выводом выставки AutoSens 2019, проходившей здесь на прошлой неделе, стало то, что недостатка в технологических инновациях нет. Разработчики технологий, Tier-1 и OEM-производители все еще преследуют цель создания «надежной» технологии распознавания, способной работать в любых дорожных условиях – в том числе ночью, в тумане, под дождем, в снегу, на гололеде, на дороге с пролитым маслом и так далее.

Несмотря на то, что на рынке автомобильной промышленности до сих пор нет серебряной пули, способной решить все проблемы разом, ряд компаний представили свои технологии распознавания и концепты новых продуктов.

В этом году на выставке AutoSens в Брюсселе более пристальное внимание было уделено не беспилотным автомобилям, а системам помощи водителю (ADAS).

Инженерное сообщество достигло определенного консенсуса. Многие признают, что существует большой разрыв между тем, что возможно сегодня, и перспективой выпуска коммерческих автономных автомобилей с искусственным интеллектом, не требующих участия человека-водителя.
Читать дальше →

Код аудита: поиск дублей, face detection и аномальные изображения

Время на прочтение9 мин
Количество просмотров5.7K
Хабр, привет! Сегодня я расскажу, как мы делали аудит изображений, используя компьютерное зрение, сверточную нейронную сеть FaceNet, а также про кластеризацию гистограмм с целью поиска аномальных изображений.

image
Читать дальше →

Computer Vision. Подсчет клиентопотока

Время на прочтение2 мин
Количество просмотров1.7K


Стояла задача проанализировать и подсчитать поток клиентов в офисе. Для похожих задач существует множество решений, как с использованием сверточных нейронных сетей (Convolution Neural Network, CNN), таких как YOLO (You Only Look Once), SSD (Single Shot Detection), R-CNN и т.д. Но так как входными данными были видео фрагменты различного разрешения и формата, в зависимости от модели регистраторов и выставленных настроек, было принято решение попробовать метод Background Subtraction. Так же хотелось попробовать данный алгоритм, потому что до этого не сталкивался с ним и было интересно на что он способен.



Читать дальше →

10 open source альтернатив Google Photos

Время на прочтение4 мин
Количество просмотров27K
image

Вам кажется, что вы тонете в цифровых фотографиях? Такое ощущение, что телефон сам по себе заполняется вашими селфи и снимками, а вот выбор лучших кадров и систематизация фотографий никогда не происходит без вашего вмешательства. Для упорядочивания созданных вами воспоминаний требуется время, но ведь со структурированными фотоальбомами так приятно иметь дело. В операционной системе вашего телефона наверняка имеется сервис для хранения и сортировки фотографий, однако существует добрая доля проблем конфиденциальности вокруг сознательного предоставления копий фотографий вашей жизни, друзей, детей и отдыха корпорациям (ещё и бесплатно). К счастью, существует большой выбор альтернатив с открытым исходным кодом, в которых вы сами выбираете, кто может просматривать ваши фотографии, а также инструменты с открытым кодом, которые помогут вам найти и улучшить самые лучшие из ваших любимых фото.
Читать дальше →

Линейная аппроксимация комбинации линий по набору зашумленных точек

Время на прочтение3 мин
Количество просмотров11K

Постановка задачи


Рассмотрим задачу аппроксимации комбинации прямых линий по набору зашумленных координат точек, находящихся на данной комбинации линий (см. Рис. 1 и Рис. 2). Обычная формула линейной аппроксимации здесь не подойдет, так как точки перемешаны и результат будет некая усредненная линия между ними (см. Рис. 3).



Рис. 1 Комбинация линий и зашумленный набор координат


Читать дальше →

Архитектура нейронной сети RetinaNet

Время на прочтение6 мин
Количество просмотров26K
Данная статья посвящается объяснению устройства архитектуры нейронной сети RetinaNet. Обзор был проведён мною в ходе выполнения дипломной работы, а так как для его написания потребовалось обращаться исключительно к англоязычным источникам и собрать найденную информацию воедино, я решил, что полученный материал поможет кому-то сократить время на поиск нужной информации и упростить понимание устройства нейросетей для задачи Object Detection.

Введение


Архитектура свёрточной нейронной сети (СНС) RetinaNet состоит из 4 основных частей, каждая из которых имеет своё назначение:

a) Backbone – основная (базовая) сеть, служащая для извлечения признаков из поступающего на вход изображения. Данная часть сети является вариативной и в её основу могут входить классификационные нейросети, такие как ResNet, VGG, EfficientNet и другие;

b) Feature Pyramid Net (FPN) – свёрточная нейронная сеть, построенная в виде пирамиды, служащая для объединения достоинств карт признаков нижних и верхних уровней сети, первые имеют высокое разрешение, но низкую семантическую, обобщающую способность; вторые — наоборот;

c) Classification Subnet – подсеть, извлекающая из FPN информацию о классах объектов, решая задачу классификации;

d) Regression Subnet – подсеть, извлекающая из FPN информацию о координатах объектов на изображении, решая задачу регрессии.

На рис. 1 изображена архитектура RetinaNet c ResNet нейросетью в качестве backbone.


Рисунок 1 – Архитектура RetinaNet с backbone-сетью ResNet

Разберём подробно каждую из частей RetinaNet, представленных на рис. 1.
Читать дальше →

Как мы контролируем качество моделей для детектирования объектов на изображениях

Время на прочтение5 мин
Количество просмотров2.3K
image

Добрый день. Нас зовут Татьяна Воронова и Эльвира Дяминова, мы занимаемся анализом данных в компании Center 2M. В частности, мы обучаем нейросетевые модели для детектирования объектов на изображениях: людей, спецтехники, животных.

В начале каждого проекта компания договаривается с заказчиками о приемлемом качестве распознавания. Этот уровень качества необходимо не только обеспечить при сдаче проекта, но и удерживать при дальнейшей эксплуатации системы. Получается, надо постоянно контролировать и дообучать систему. Хочется снизить затраты на этот процесс и избавиться от рутинной процедуры, высвободив время на работу по новым проектам.

Автоматическое дообучение – не уникальная идея, многие компании имеют подобные внутренние инструменты-конвейеры. В этой статье мы хотели бы рассказать о нашем опыте и показать, что для успешного внедрения таких практик вовсе не обязательно быть огромной корпорацией.
Читать дальше →