Как стать автором
Обновить
50.08

Обработка изображений *

Работаем с фото и видео

Сначала показывать
Порог рейтинга
Уровень сложности

Видеоаналитика в нефтехимии

Время на прочтение8 мин
Количество просмотров4.6K
Привет! Меня зовут Вадим Щемелинин, я владелец продукта по видеоаналитике в СИБУРе.

Как мы уже неоднократно писали, наши объекты — это довольно большие производства, как с точки зрения занимаемой площади, так и количества различных установок и узлов. Чтобы всё это работало и не возникало каких-то ситуаций, способных вызвать остановку производственного процесса, за каждым узлом нужно следить. Поэтому у нас есть и специальные люди, которые этим занимаются, и приложение для мобильных обходов, которое существенно упрощает этим людям жизнь.



Отдельно здесь стоит рассказать про видеоаналитику. Она может решать разные задачи — повышать качество продукции благодаря автоматическому контролю и отбраковке, помогать исключить внезапные остановы производственных линий, своевременно предупреждая оператора о необходимости вмешаться, контролировать соблюдение правил промышленной безопасности, что для промышленного объекта является задачей номер один. Что в принципе можно анализировать, просматривая видео с объектов (и нужно ли его просматривать), как видеоаналитика помогает экономить время и средства, на чем у нас все работает — об этом под катом.
Читать дальше →

Ресурсы для получения датасетов изображений, о которых вы могли не знать

Время на прочтение5 мин
Количество просмотров9.4K

Привет, Хабр! Как известно, топливом для машинного обучения являются наборы данных. В качестве источников для получения датасетов, которыми люди обычно пользуются и которые у всех на слуху, являются такие сайты как Kaggle, ImageNet, Google Dataset Search и Visual Genom, но довольно редко встречаю людей, которые для поиска данных используют такие сайты как Bing Image Search и Instagram. Поэтому в этой статье я покажу как легко получить данные с этих источников, написав две небольшие программы на Python.

Читать дальше

Камера, мотор, панорама: как создаются 3D-фото автомобилей в приложении Авто.ру

Время на прочтение7 мин
Количество просмотров10K


Чем лучше удастся рассмотреть потенциальную покупку перед оплатой, тем меньше шансов столкнуться с неприятными сюрпризами после, вопреки недобросовестным продавцам и недостаточно подробным описаниям. Чтобы ожидания пользователей чаще совпадали с реальностью, всё больше онлайн-магазинов внедряют 3D-фото на карточки своих товаров: одежда, электроника и даже маркетплейсы. Спрос на панорамные фото автомобилей был только делом времени и технологий, ведь в отличие от обуви или телефона, съёмка машины требует намного больше места и усилий.

Привет, на связи Антон Тимофеев, продуктовый менеджер в Авто.ру, и Александр Сапатов, разработчик команды компьютерного зрения Яндекса. Под катом расскажем о том, что происходит под капотом нашего приложения, после того как вы нажимаете кнопку «Панорама», и почему для создания хорошего снимка теперь достаточно обычного смартфона.

Пора обновить ваш монитор

Время на прочтение16 мин
Количество просмотров185K

Иллюстрация: Юлия Прокопова

Я программист. Я не занимаюсь цифровой живописью, обработкой фотографий, видеомонтажом. Меня действительно не волнует широкая гамма или даже правильная цветопередача. Я провожу большую часть своих дней в текстовом браузере, текстовом редакторе и текстовом терминале, глядя на едва движущиеся буквы.

Поэтому я оптимизирую настройки, чтобы показывать действительно, действительно хорошие буквы. Для этого необходим хороший монитор. Не просто нужен, а ОБЯЗАТЕЛЕН. А под «хорошим» я имею в виду настолько хороший, насколько это возможно. Это мои мысли, основанные на моём собственном опыте того, какие мониторы лучше подходят для программирования.
Читать дальше →

Помогут ли SWIR-камеры беспилотным автомобилям преодолеть ограничения геозон

Время на прочтение6 мин
Количество просмотров2.7K
Подписывайтесь на каналы:
@AutomotiveRu — новости автоиндустрии, железо и психология вождения
@TeslaHackers — сообщество российских Tesla-хакеров, прокат и обучение дрифту на Tesla


image


Транспортные средства, которые могут ездить куда угодно, при любых погодных или дорожных условиях – мечта индустрии беспилотного транспорта. В той или иной степени, современные автопроизводители способны создавать такие автомобили. Однако и сейчас, и в обозримом будущем, ни одна компания не гарантирует универсальность своего решения.

Современный беспилотный транспорт имеет множество ограничений. Робо-такси, например, могут работать только на участках. ограниченных геозонами. Развертывание услуг робо-такси происходит постепенно, "по одному городу за раз", — отметил Эгиль Юлиуссен.

Аналогичным образом, эксперты в области безопасности считают, что ODD (Operational Design Domain) имеет решающее значение для обеспечения безопасности самоходных автомобилей. ODD — это «модель условий, с которыми беспилотные автомобили будут иметь дело», объяснил Фил Купман (Phil Koopman), технический директор компании Edge Case Research. В реальном мире, однако, «несмотря на все усилия конструкторов», беспилотный транспорт всегда может оказаться за рамками своего ODD, предостерег он.

«Так, если ODD — это „Пустынный Лас-Вегас“, то система может быть спроектирована в основном для сухой погоды или, возможно, для легкого дождя», сказал Купман. «Но на самом деле в Вегасе время от времени идет дождь, а иногда даже снег. В день, когда пойдет снег, автомобиль окажется за пределами своего ODD».

Компания TriEye анонсирует SWIR-камеры


TriEye – тель-авивский разработчик технологии SWIR. Компания заявляет, что ее приоритетом является решение проблем, связанных с низкой видимостью, с которыми должна бороться автомобильная промышленность.
Читать дальше →

OpenCV — 20! Второй проект центра разработки Intel в России

Время на прочтение14 мин
Количество просмотров8.4K
Мы продолжаем рассказ о проектах и продуктах, неразрывно связанных с российским центром разработки Intel. И сегодня речь пойдет о проекте-ровеснике Intel в Нижнем Новгороде – он тоже в этом году отмечает двадцатилетие! Это хорошо известная и широко используемая (а также широко известная и хорошо используемая), без преувеличения великая библиотека компьютерного зрения OpenCV. Ее создатели поделились с нами своими воспоминаниями – как все начиналось и что из этого получилось.


Читать дальше →

Интерактивная сегментация: выделяем кошек, собак и людей

Время на прочтение7 мин
Количество просмотров7.3K
Мы уже рассказывали про некоторые работы исследователей из московского Центра искусственного интеллекта Samsung. Недавно вышла статья «f-BRS: Rethinking Backpropagating Refinement for Interactive Segmentation» Константина Софиюка, Ильи Петрова, Ольги Бариновой и Антона Конушина, которая была принята на всемирную конференцию по компьютерному зрению CVPR 2020. И в этом посте мы расскажем, о чем пишут наши коллеги в этой работе и об интерактивной сегментации как прикладной задаче компьютерного зрения в целом. 


Читать дальше →

Рубрика «Читаем статьи за вас». Май 2020. Часть 2

Время на прочтение13 мин
Количество просмотров7.5K


Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!


Статьи на сегодня:


  1. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks (China, 2020)
  2. TAPAS: Weakly Supervised Table Parsing via Pre-training (Google, 2020)
  3. DeepFaceLab: A simple, flexible and extensible faceswapping framework (2020)
  4. End-to-End Object Detection with Transformers (Facebook AI, 2020)
  5. Language Models are Few-Shot Learners (OpenAI, 2020)
  6. TabNet: Attentive Interpretable Tabular Learning (Google Cloud AI, 2020)
Читать дальше →

«Breakout-YOLO»: знакомимся с шустрой object-detection моделью, играя в классический «Арканоид»

Время на прочтение7 мин
Количество просмотров14K


Всем привет! Весенний семестр для некоторых студентов 3-го курса ФУПМ МФТИ ознаменовался сдачей проектов по курсу «Методы оптимизации». Каждый должен был выделить интересную для себя тему (или придумать свою) и воплотить её в жизнь в виде кода, научной статьи, численного эксперимента или даже бота в Telegram.


Жёстких ограничений на выбор темы не было, поэтому можно было дать разгуляться фантазии. You Only Live Once! — воскликнул я, и решил использовать эту возможность, чтобы привнести немного огня в бессмертную классику.

Читать дальше →

Как понять, что нейросеть решит вашу проблему. Прагматичное руководство

Время на прочтение12 мин
Количество просмотров13K
Haystacks at Sunset Reimagined by AshnoAlice

Инженер по машинному обучению Джордж Хосу задает вопрос: «Какие проблемы решает машинное обучение?». Или конкретнее, с учетом современного развития отрасли: «Какие проблемы нейросеть способна решить на практике?». Команда Mail.ru Cloud Solutions перевела статью, так как рассуждения на эту тему, как нам кажется, встречаются редко.
Читать дальше →

Как создавать и изменять интерактивные PDF-формы, или новый скилл ABBYY FineReader PDF

Время на прочтение7 мин
Количество просмотров51K
Мы регулярно обучаем ABBYY FineReader PDF новым навыкам. Две недели назад мы рассказали на Хабре, как научили ABBYY FineReader PDF редактировать целые абзацы. Этот пост — о еще одном продвижении нашего продукта на пути к совершенству: программа теперь умеет создавать и редактировать интерактивные PDF-формы.

Раньше ABBYY FineReader PDF мог только заполнять такие формы – заявления на отпуск или визу, резюме, согласие на обработку персональных данных, исследования, опросы и т.д. Но что если компании нужно создать в формате PDF анкету, разработать шаблон документа или отредактировать в готовом бланке несколько полей, чтобы затем отправить его сотрудникам или клиентам? Теперь все это можно сделать в одной программе. О том, как это работает, для чего и кому может понадобиться такая функциональность, мы сегодня и расскажем. Поехали!
Читать дальше →

Илон Маск против лидаров: Псевдолидар

Время на прочтение5 мин
Количество просмотров13K
Tesla давно мечтает сделать камеры, работающие не хуже лидара. Если ее мечта осуществится, это сильно поможет конкурентам.

image

Всем хорошо известно, что думает Илон Маск о применении лидара (технологии трехмерного изображения) в беспилотных автомобилях. Он не планирует использовать ее в Tesla и считает костылем. Это очень спорная точка зрения, только время покажет прав ли он.

Tesla продвигает технологию, называемую псевдо-лидаром или виртуальным лидаром. Эта технология заключается в построении инструментов для создания снимков с камеры (стерео или обычных). Нужно выяснить насколько далеко находится каждый пиксель на снимке. Лидар вычисляет расстояние до каждого пикселя. Он определяет сколько времени требуется световому импульсу, чтобы попасть в пиксель и вернуться обратно со скоростью света. Люди оценивают расстояние, используя мозг. Мы знаем насколько большие те или иные предметы и как они движутся. Это дает нам представление о том насколько далеко они находятся. Мы также используем стереозрение, потому что у нас два глаза. Однако стереозрение работает только на относительно близком расстоянии. Еще есть параллакс движения — вы наблюдаете за тем как движутся предметы на фоне и используете некоторые другие подсказки, чтобы определить расстояние до объекта.
Читать дальше →

Эволюция баркода

Время на прочтение17 мин
Количество просмотров13K
Баркод, безусловно, относится к одному из тех изобретений человечества, которые изменили течение нашей жизни. Благодаря появлению штрихового кодирования и его последующей эволюции, многие обыденные действия не только значительно упростились и ускорились, но иногда и приобрели неожиданные формы. В процессе нашей деятельности по разработке и улучшению алгоритмов интеллектуального распознавания документов (IDR) и движка распознавания баркодов Smart BarcodeReader мы постоянно систематизируем знания в предметной области. Понимание того, как развивается технология, позволяет нам совершенствовать наши разработки, делать их более быстрыми, точными и эффективными. Сегодня мы расскажем о том, как эволюционировал (и продолжает эволюционировать) баркод от линейного черно-белого рисунка к многомерной конструкции.


Читать дальше →

Ближайшие события

Чему я научился за (почти) 30 дней Codevemberа — 30 скетчей на p5.js

Время на прочтение4 мин
Количество просмотров3.6K
image

Что такое #codevember и зачем он нужен? В последние пару лет каждый ноябрь я натыкался в соцсетях на интересные произведения искусства, созданные ИИ, отмеченные этим хэштегом. Согласно информации с codevember.xyz:

Codevember – это челлендж для разработчиков, созданный для того, чтобы отточить их креативность и улучшить навыки. Цель – каждый день ноября создавать креативный фрагмент кода. Мы будем давать вам рекомендации для вдохновения каждый день, но вы можете создавать свои скетчи.

В этом году я решил попробовать поучаствовать и в ноябре изучить Processing (p5.js) и побаловаться созданием графики, которая создана не для какой-то определённой задачи.
Осторожно, много картинок

Рубрика «Читаем статьи за вас». Май 2020. Часть 1

Время на прочтение14 мин
Количество просмотров4.8K


Привет, Хабр! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!


Статьи на сегодня:


  1. Efficient Document Re-Ranking for Transformers by Precomputing Term Representations; EARL: Speedup Transformer-based Rankers with Pre-computed Representation (2020)
  2. MakeItTalk: Speaker-Aware Talking Head Animation (Adobe, University of Massachusetts Amherst, Huya, 2020)
  3. Jukebox: A Generative Model for Music (OpenAI, 2020)
  4. Recipes for building an open-domain chatbot (Facebook AI Research, 2020)
  5. One-Shot Object Detection without Fine-Tuning (HKUST, Hong Kong, Tencent, 2020)
  6. f-BRS: Rethinking Backpropagating Refinement for Interactive Segmentation (Samsung AI Center, Moscow, 2020)
  7. Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis (NVIDIA, 2020)
Читать дальше →

Самая сложная задача в Computer Vision

Время на прочтение13 мин
Количество просмотров74K
Среди всего многообразия задач Computer Vision есть одна, которая стоит особняком. К ней обычно стараются лишний раз не притрагиваться. И, если не дай бог работает, — не ворошить.
У неё нет общего решения. Практически для каждого применения существующие алгоритмы надо тюнинговать, переобучать, или судорожно копаться в куче матриц и дебрях логики.

Статья о том как делать трекинг. Где он используется, какие есть разновидности. Как сделать стабильное решение.

Генеративное искусство: создание треугольников после 3 часов изучения p5.js

Время на прочтение6 мин
Количество просмотров3.8K
У меня небольшой опыт использования компьютера для творчества и искусства. Когда я начал изучать p5.js, я вдохновился геометрическими рисунками и решил написать код, чтобы создать что-то крутое.

После примерно полутора часов мне удалось получить случайно сформированные треугольники различных цветов.

image
Случайные треугольники

В рамках урока нас просили не останавливаться, пока не получится то, чем мы будем действительно довольны – играть с формой, размером и цветом.
Читать дальше →

Открываем историю Большого. Часть вторая

Время на прочтение9 мин
Количество просмотров2.6K
image

Привет, Хабр. Хорошие новости: мы успешно завершили краудсорсинговый проект «Открой историю Большого» по оцифровке программ, афиш и фотографий, которые хранятся в музее Большого театра. Итогами делимся на сайте openbolshoi.ru, а в этом посте рассказываем, как технически был организован проект.

О том, почему мы начали заниматься этим проектом и что сделали на первом этапе, можно почитать здесь. А что же было дальше? После первой части проекта мы благодаря ABBYY FineReader PDF и с помощью волонтеров подготовили файлы программ и афиш в формате PDF с вычитанным текстовым слоем и передали их музею Большого театра. Теперь все данные хранятся в электронном виде, и сотрудники используют их, чтобы искать и копировать нужную информацию. Это быстрее и удобнее, чем перебирать документы в шкафах и перепечатывать текст из оригиналов.

Но как узнать больше о представлениях, а также о людях, чьи судьбы тесно связаны с историей театра? Как собрать статистику:


Помогли технологии Natural Language Processing (NLP), разработанные в ABBYY. Сегодня мы расскажем, как на втором этапе проекта алгоритмы извлекли из программ и афиш необходимые сведения, заполнили поля базы данных, а затем 7500 волонтеров проверили и дополнили информацию. А в конце поста читайте, как сейчас создается электронный архив музея с удобным поиском по всем представлениям и персонам.
Читать дальше →

OCR-конвейер для обработки документов

Время на прочтение11 мин
Количество просмотров17K
Сегодня я расскажу о том, как создавалась система для переноса текста из бумажных документов в электронную форму. Мы рассмотрим два основных этапа: выделение областей с текстом на сканах документов и распознавание символов в них. Кроме того, я поделюсь сложностями, с которыми пришлось столкнуться, способами их решения, а также вариантами развития системы.



Первичным переводом документа в электронную форму является его сканирование или фотографирование, в результате которого получается графический файл в виде фотографии или скана. Однако такие файлы, особенно высокого разрешения, занимают много места на диске, и текст в них невозможно редактировать. В связи с этим, целесообразно извлекать текст из графических файлов, что успешно делается с применением OCR.
Читать дальше →

RPA спешит на помощь: как распознать паспорт без единой строчки кода

Время на прочтение4 мин
Количество просмотров7.4K
Технология распознавания паспорта уже давно лежит в реестре необходимых решений у крупных корпораций, предоставляющих услуги B2C. Большая тройка операторов связи, крупные банки и страховые компании, Ж/Д и авиаперевозчики, билетные агрегаторы успешно интегрировали в собственные информационные системы технологии распознавания документов Smart IDReader, переведя качество предоставляемой услуги на новый уровень. Но для многих компаний, которые относятся к среднему и малому бизнесу, автоматизация процессов ввода данных из документов клиентов необходима, а интеграция новой функциональности путем встраивания библиотек — это дорого или даже недоступно. И как им быть? В сегодняшней статье мы расскажем вам про то, как за полчаса реализовать распознавание паспорта в практически любой информационной системе.


Читать дальше →