Нейродайджест: главное из области машинного обучения за февраль 2021 / Habr

Как вы знаете, в подборку мы всегда включаем самые интересные публикации на тему машинного обучения, и приоритет отдается проектам с непустыми репозиториями. Так вот, февраль порадовал в этом плане рядом сервисов, поэтому с них и начнем. Поехали:

Papers with Datasets and Libraries

Есть такой ресурс Papers with Code, миссия которого прямо соответствует названию — агрегировать публикации из сферы машинного обучения, у которых есть код, а также дать возможность предложить свою имплементацию.

В этом месяце они запустили раздел с доступными наборами данных, в котором уже проиндексировано больше 3000 исследовательских датасетов. В каталоге можно искать датасеты по частоте упоминаний, сфере применения, типу данных и поддерживаемому языку.

Помимо этого они добавили возможность искать предварительно обученные модели классификации изображений, которые можно файнтюнить на ваших собственных наборах данных. На данный момент их уже 300+, и каталог продолжит пополняться.

Google Model Search

Доступность: страница проекта / репозиторий

Успех нейронной с��ти часто зависит от того, насколько широко ее можно применять для различных задач. При создании модели приходится принимать ряд сложных архитектурных решений — какой глубины должна быть нейросеть, какие типы слоев в ней использовать и т.д.

Google представили платформу, которая поможет находить подходящую архитектуру, соответствующую вашему датасету и задаче, что сократит время на конфигурацию и написание кода и потребует меньше вычислительных ресурсов.

Библиотека позволяет запускать алгоритмы “из коробки” на ваших данных — независимо от предметной области автоматически подбирать оптимальную архитектуру, правильные ансамбли моделей или дистиллированные модели.

ZenML

Доступность: сайт проекта / репозиторий

MLOps фреймворк, который упрощает перенос пайплайнов из ноутбуков в продакшн-среду. Гарантированная воспроизводимость обучающих экспериментов за счет версионирования данных, кода и моделей. Платформа также позволяет быстро переключаться между локальной и облачной средой, предоставляет готовые хэлперы для сравнения и визуализации параметров и результатов, кеширования состояний конвейера для быстрых итераций и многое другое.

TensorFlow 3D

Доступность: Статья / репозиторий

С распространением устройств, захватывающих 3D-данные, вроде лидаров и камер измерения глубины, обострилась потребность в технологии обработки этих данных и понимания трехмерной сцены. Это нужно для навигации и работы в реальном мире самоуправляемых автомобилей и роботов, а также для совершенствования AR-технологий.

Google представили модульную библиотеку для применения глубокого обучения на 3D-данных в TensorFlow. Она содержит пайплайны обучения и оценки для трехмерной семантической сегментации, классификации сцены, обнаружения трехмерных объектов и т.д.

MeInGame

Доступность: статья / репозиторий

В компьютерных играх часто есть редактор персонажа, который позволяет с помощью настроек разных параметров менять внешность игрока. Алгоритм MeInGame позволяет создать кастомного персонажа всего по одной фотографии. Нейросеть предсказывает форму лица и его текстуру. Хотя методы, основанные на 3D Morphable Face Model (3DMM), могут генерировать 3D-портрет из отдельных изображений, топология сетки обычно отличается от тех, что используются в большинстве игр. Авторы этого алгоритма заявляют, что эту проблему решили.

SAM

Доступность: статья / репозиторий

Правдоподобное моделирование старения по одной фотографии лица — чрезвычайно сложная задача, так как нужно моделировать изменение отдельных лицевых черт и даже формы головы, сохраняя при этом идентичность человека.

Внутри используется StyleGAN, но здесь исследователи также используют предварительно обученную сеть возрастной регрессии, с помощью которой кодировщик генерирует скрытые коды, соответствующие целевому возрасту. Метод рассматривает процесс непрерывного старения как задачу регрессии между входным возрастом и целевым возрастом, обеспечивая точный контроль над созданным изображением. Модель позволяет редактировать сгенерированные изображения.

VOGUE

Доступность: страница проекта / интерактивное демо

Новый кейс применения StyleGAN для виртуальной примерки одежды. Алгоритм переносит одежду с фотографии одного человека на фотографию человека, которая подается на вход. В основе метода лежит интерполяция скрытого пространства с учетом позы StyleGAN2, которая работает с формой тела, волосами, цветом кожи целевого человека. Алгоритм позволяет одежде деформироваться в соответствии с заданной формой тела, сохраняя при этом узор и детали материала. На выходе получается фотореалистичные изображения в достойном разрешении 512x512.

NeRViS

Доступность: страница проекта / репозиторий

Существующие методы стабилизации видео либо сильно обрезают границы кадра, либо создают артефакты и искажения. Данный алгоритм
предварительно оценивает плотные поля деформации и для синтеза полного стабилизированного кадра использует соседние кадры. Новизна подхода в основанном на обучении гибридном пространственном синтезе, который устраняет артефакты, вызванные неточностью оптического потока и быстро движущимися объектами.

Stable View Synthesis

Доступность: статья / репозиторий

На основе набора фотографий, изображающих сцену со свободно распределенных точек обзора, алгоритм синтезирует новые виды сцены. Метод работает на геометрическом скаффолдинге, который расчитывается на основе SfM-фотограмметрии. Целевое представление рендерится сверточной сетью из тензора характеристик, синтезированных для всех пикселей.

Статью опубликовали еще в ноябре прошлого года, но код стал доступен только сейчас.

JigsawGan

Доступность: статья

Генеративная self-supervised нейросеть, обученная собирать пазлы. На вход модель принимает беспорядочно расположенные части изображения и без подсказок восстанавливает из них оригинальное изображение, то есть, модель не знает, каким было изображение изначально.

CharacterGAN

Доступность: статья / репозиторий

Генеративная нейросеть, которую можно обучить только на нескольких изображениях персонажа в разных позах, для генерации новых поз по расположению ключевых точек. Это позволяет анимировать статичные изображения. Новизна подхода в том, что изображение разбивается на слои, каждый из которых обрабатывается отдельно. Это решает проблему преграждений, когда на передний план выходит посторонний объект. Для удобства добавлен GUI, позволяющий вручную корректировать позы по ключевым точкам.

Discrete VAE

Доступность: репозиторий

В прошлом выпуске мы рассказывали о потрясающей DALL-E. В конце февраля OpenAI создали репозиторий с названием модели, но саму модель пока что не выложили — внутри только часть модели, а именно PyTorch пакет для discrete VAE. Это вариационный автоэнкодер, который, в нашем случае, генерирует изображения из текстовых описаний.

Deep Nostalgia

Доступность: онлайн-сервис

Ну и напоследок, всегда приятно когда на основе моделей делают простой и понятный продукт. Так вот, компания MyHeritage, которая занимается вопросами генеалогии и родословных, судя по всему, взяла алгоритм First Order Model, прикрутила удобный пользовательский интерфейс и сделала на его основе сервис по “оживлению” фотографий.

В результате — тонны сгенерированного пользовательского контета и огромные виральные охваты. А еще говорят, что бизнесу ИИ ни к чему.

На этом все, спасибо за внимание и до встречи через месяц!