Подборка статей о машинном обучении: кейсы, гайды и исследования за июнь 2020 / Хабр

Здесь вас ждёт список вышедших за июнь материалов на английском языке. Все они написаны без лишнего академизма, содержат примеры кода и ссылки на непустые репозитории. Большинство упомянутых технологий находятся в открытом доступе и не требуют сверхмощного железа для тестирования.

Image GPT

В Open AI решили, что раз модель-трансформер, которая обучалась на тексте, способна генерировать связные законченные предложения, то если модель обучить на последовательностях пикселей, она сможет генерировать дополненные изображения. Open AI демонстрируют, как качественная выборка и точная классификация изображений позволяет созданной модели конкурировать с лучшими сверточными моделями в условиях обучения без присмотра.

Face depixelizer

Месяц назад нам предоставили возможность поиграть с инструментом, который с помощью модели машинного обучения делает из портретов прекрасный пиксель-арт. Это весело, но пока сложно представить широкую сферу применения этой технологии. А вот инструмент, который производит обратное действие, сразу же очень заинтересовал общественность. С помощью лицевого депикселизатора в теории можно будет устанавливать личность человека по видеозаписи с камер наружного наблюдения.

DeepFaceDrawing

Если работы с пиксельными изображениями недостаточно, и нужно составить фотографию с портретом человека по примитивному наброску, то и для этого уже появился инструмент на основе DNN. По замыслу создателей нужны только общие начертания, а не профессиональные эскизы — модель далее сама восстановит лицо человека, которое будет совпадать с наброском. Система создана с использованиям фремворка Jittor, как обещают создатели, исходный код на Pytorch скоро тоже будет добавлен в репозиторий проекта.

PIFuHD

С реконструкциями лиц разобрались, что насчет остального тела? Благодаря развитию DNN, стало возможным 3D-моделирование фигуры человека на основе двухмерного фото. Основное ограничение было связано с тем, что точные прогнозы требуют анализировать широкий контекст и исходные данные в высоком разрешении. Многоуровневая архитектура модели и способность к сквозному обучению помогут решить эту проблему. На первом уровне для экономии ресурсов изображение анализируется целиком в низком разрешении. После этого формируется контекст, и на более детальном уровне модель оценивает геометрию, анализируя изображение с высоким разрешением.

RepNet

Многие вещи, которые нас окружают, состоят из циклов разной периодичности. Часто для того, чтобы понять суть явления, нужно проанализировать информацию о его повторяющихся проявлениях. С учетом возможностей видеосъемки зафиксировать повторения уже давно не сложно, проблема заключалась в их подсчете. Способ покадрового сравнения плотности пикселей в кадре часто не подходил из-за тряски камеры, или загораживания объектами, а также резкой разницей в масштабе и форме при приближении и отдалении. Теперь эту проблему решает модель, разработанная Google. Она определяет повторяющиеся действия на видео, в том числе и те, которые не использовались при обучении. В результате модель возвращает данные о периодичности повторяющихся действий, распознанных на видео. Колаб уже доступен.

SPICE model

Раньше чтобы определить высоту тона, приходилось полагаться на созданные вручную сложные алгоритмы обработки сигналов. Самая большая сложность заключалось в том, чтобы отделить изучаемый звук от фонового шума или звука аккомпонимирующих инструментов. Теперь для этой задачи доступна предобученная модель, которая определяет высокие и низкие частоты. Модель доступна для использования в вебе и на мобильных устройствах.

Детектор социального дистанцирования

Кейс создания программы, с помощью которой можно следить, соблюдают ли люди социальное дистанцирование. Автор подробно рассказывает, как выбрал предобученную модель, как справился с задачей распознавания людей, и как с помощью OpenCV преобразовал изображение в ортографическую проекцию, чтобы высчитывать расстояние между людьми. Также можно подробно ознакомиться с исходным кодом проекта.

Распознавание типовых документов

На сегодняшний день существуют тысячи вариаций самых распространенных шаблонных документов вроде квитанций, счетов и чеков. Существующие автоматизированные системы, которые рассчитаны на работу с очень ограниченным типом шаблонов. Google предлагает использовать для этого машинное обучение. В статье рассматривается архитектура модели и результаты полученных данных. Вскоре инструмент станет частью сервиса Document AI.

Как создать масштабируемый пайплайн разработки и деплоя алгоритмов машинного обучения для бесконтактного ритейла

Израильский стартап Trigo делится опытом применения машинного обучения и компьютерного зрения для take-and-go ритейла. Компания является поставщиком системы, которая позволяет магазинам работать без кассы. Авторы рассказывают какие задачи перед ними стояли и объясняют, почему выбрали PyTorch в качестве фреймворка для машинного обучения, а Allegro AI Trains для инфраструктуры и как им удалось наладить процесс разработки.

На этом все, спасибо за внимание!