Как искусственный интеллект меняет будущее: обзор конференции OpenTalks.AI 2023 / Хабр

В начале прошлой недели в Ереване проходила самая крупная русскоязычная конференция по искусственному интеллекту OpenTalks.AI. На конференции было ~600 участников, ~100 спикеров и 28 сессий в рамках трех крупных секций - бизнес, разработка и наука.

Я попал в число этих 600 счастливчиков, представляю Хабру обзор докладов.

Дисклеймер: Все доклады послушать физически было невозможно, т.к. три секции проходили параллельно, поэтому я ходил на те, в предметной сфере которых я более-менее разбираюсь. Наверняка на Хабре есть и другие участники конференции, будет здорово если вы дополните мою заметку вашими комментариями по понравившимся докладам, на которые не попал я.

Началась конференция с выступления Дмитрия Коробченко из NVIDIA. Дмитрий рассказал про новые алгоритмы и инструменты в сфере создания цифровых персонажей (аватаров для метавселенных).

В этой сфере есть три ключевых исследования последних лет: новая архитектура нейросети DeepPhase Periodic Autoencoder для изучения и синтеза движений персонажей; модель нейросети EMOCA (EMOtion Capture and Animation), которая по одной фото может сделать 3D реконструкцию с различными заданными эмоциями; метод и одноименный фреймворк, основанный на нём, DeepMotionEditing, для более точного синтеза движений с учётом скелета.

Для тех, кому нужно больше подробностей - вот ссылки на статьи и код на github

Periodic Autoencoders for Learning Phase Manifolds - статья

EMOCA: Emotion-Driven Monocular Face Capture and Animation - статья, сайт, github

Skeleton-Aware Networks for Deep Motion Retargeting - статья, github

Все эти ноу-хау, насколько я понял, уже можно потестить в платформе NVIDIA Omniverse, и созданных на её базе приложений (так, например, для липсинга существует приложение Audio2Face). Ну а решать более стандартные задачи, как синтез речи и распознавание речи, с GPU ускорением можно при помощи NVIDIA Riva SDK.

Алексей Досовицкий из Google Brain представил обзор трендов и результатов в компьютерном зрении в 2022 году. Это был самый информационно ёмкий обзор на конференции, но из-за отсутствия большого количества времени на выступления для спикера слайды менялись так быстро, что я не всегда успевал схватывать мысль и перед написанием этой части обзора пришлось догугливать чтоб понять откуда что растёт.

Итак, тезисно:

Битва архитектур между сверточными сетями и трансформерами продолжается. В настоящий момент в области обнаружения объектов и сегментации естественных изображений доминируют семейства моделей Google ViT или Microsoft Swin Transformer. Однако в 2022 году Facebook* AI Research (FAIR) group представила семейство моделей ConvNeXt, основанных на светочной архитектуре, превосходящие по некоторым тестам нейросети-трансформеры.

Google в свою очередь предложил алгоритм масштабирования архитектуры ViT до 22 миллионов параметров (!), гибридную нейросеть MaxViT (MaxViT = CNN + ViT) и модель OWL-ViT, являющуюся тюнингом модели CLIP от OpenAI и превосходно решающую задачу One-Shot object detection (OSOD), когда образцов объекта может быть всего один.

Также в прошлом году Google добавил в Tensorflow ещё один новый метод классификации изображений на основе открытого словаря (Open-vocabulary detection, OVD), называемый ViLD (Vision and Language knowledge Distillation).

С ростом количества данных всё сложнее и дороже становится использовать обучение с учителем и ученые давно работают в сфере автоматизации разметки данных. После появления трансформерной архитектуры её отдельные части получали отдельное существование. Вначале OpenAI разработал всем известный GPT, затем Google создал BERT, используя энкодер GPT. Обе этих модели объединяет стратегия обучения на большом корпусе неразмеченных текстов. В 2021 году Microsoft предложила распространить подход и на изображения, так появились модели BEiT, у которых в прошлом году уже вышла 3-я версия.

В 2022 у BEiT появился прямой конкурент от Google - модель PaLI.

Microsoft в ответ выпустила фреймворк SimMIM (A simple framework for masked image modeling), который в 2022 был слит с основным репозиторием модели Swin Transformer.

Google ответил выпуском pix2sec, дающий возможность детектировать и попиксельно размечать сразу множественные объекты.

А Meta выпустил алгоритм фреймворк data2vec, который подходит и для текста, и для аудио, и для визуального контента.

Allen Institute of AI (НИИ Microsoft имени Пола Аллена) выпустил универсальную модель Unified-IO, которая, как утверждается, одинаково подходит и для компьютерного зрения (CV) и для обработки текстов на естественном языке (NLP)

Кстати, интересный факт - Facebook* еще в 2021 предложил интересное применение трансформерного подхода - Masked autoencoder (MAE), позволяющий предсказать картинку целиком по отдельным её кусочкам и в целом дающий возможность ускорить обучение на большом корпусе неразмеченных картинок в 3 раза. В 2022 инженеры из Google развили концепт и создали нейросеть-трансформер MaskGIT, которая позволяет органично вписывать части одного изображения в другое и перерисовывать картинки. А инженеры из Facebook* создали ViTDet (ViTDet = ViT + МАЕ), еще более увеличивающий производительность MAE. В настоящий момент ViTDet является частью OpenCV фреймворка от Facebook detectron2.

За прошлый год появились и много моделей для решения более узкоспециализированных задач.

Так, поглощенная в 2014 году Google британская ИИ-компания DeepMind представила Flamingo - нейросеть, решающая по сути ту же задачу что и широко известный CLIP от OpenAI, обученный на огромном массиве пар “изображение-текст”. Нейронка Deepmind Flamingo отлично подходит для распознавания изображений и видео с минимальными примерами для конкретных задач, при этом она может учитывать и стиль аннотаций. А для автоматической классификации на основе CLIP в конце 2022 года появился алгоритм PACL (Patch Aligned Contrastive Learning).

В области сегментации изображений и обнаружения объектов в 2022 году появилась также одна принципиально новая архитектура (семейство моделей) - Mask2Former от Facebook*. Пока данных по ней мало, но предварительные тесты на стандартных датасетах многообещающи.

За прошлый год также появилась новая модель от Google, генерирующая 3D изображение на основе фото - MipNerf-360, являющаяся разновидностью архитектуры нейронного поля яркости (NeRF, neural radiance field). Что интересно, в этой задаче помимо нейростевых методов появляются и новые обычные - в прошлом году появились Plenoxels (plenoptic voxels).

В завершении своего обзорного доклада Алексей упомянул про 4 модели генерации изображений из текста, появившиеся за последний год.

Dall-E 2 от OpenAI (наверняка вам известная)
Parti (Pathways Autoregressive Text-to-Image), заточенная на генерацию фотореалистичных изображений
DreamFusion, работающая по принципу 3D диффузии (картинки получаются весьма специфично выглядящие)
Muse, заточенная на генерацию по маске (самая свежая и самая быстрая модель по сравнению с Dall-E и Parti)

3 из 4 моделей от Google - в задаче генерации 3D компания лидирует с большим отрывом ?

Если резюмировать все вышеизложенное, то сейчас в сфере ИИ видно три ключевых тренда:

новые генеративные Text-to-X модели
новые универсальные модели (типа GPT-4)
самостоятельное предобучение (в частности, masked modeling)

Все нейросети из доклада

Google ViT - github

Microsoft Swin Transformer - github

Facebook* ConvNeXt - github v1, v2

Google MaxViT - github, arxiv, blog post

Наглядное демо Google MaxViT

Google ViLD (Vision and Language Distillation) - github, arxiv

Наглядное демо Google ViLD

Google PaLI - github, arxiv, blog, site

демо PaLI

Google pix2sec - github, arxiv, blog

демо pix2sec

Google MaskGIT - github, arxiv

демо MaskGIT

Google MipNerf-360 - github, arxiv

демо MipNerf

Deepmind (Google) Flamingo - github, arxiv

демо Deepmind Flamingo

Google Parti - github, arxiv, site

демо Google Parti

Google DreamFusion - github, arxiv, site

демо Google DreamFusion

Google Muse - github, arxiv, site

демо Google Muse

Meta data2vec - official github, unoficial github, arxiv

Meta ViTDet - unofficial github , detectron2 (official) github, arxiv

Meta Mask2Former - github, arxiv

Microsoft BEiT - github, arxiv

Microsoft Unified-IO - github, arxiv, site

Berkeley Plenoxels - github, arxiv

Перейдем к секции по разметке и тестированию

Фаттахова Юлдуз из Сбера топила за синтетические данные. Для тех кто не в теме - это такой способ вычистить все персональные данные клиентов из датасета прежде чем отдать его на аутсорс внешнему разработчику ПО, при этом полностью сохраняя подобие реальным данным. Лидер в этой области сейчас Mostly.AI, но у Сбера тоже есть своё решение: https://promo.sber.ru/syntdata - вот по этой ссылочке можно потестить бета-версию (правда у меня после конференции ссылка перестала работать)

Женя Никитин из Цельса рассказывал про сложность разметки медицинских данных (в частности, рентгеновских снимков): как не дать ошибаться искусственному интеллекту, если даже люди ошибаются и имеют разные мнения. Был предложен метод, который позволяет нейронным сетям запоминать “стиль” конкретного врача-разметчика. Идея простая - каждому врачу-разметчику присваивается матрица вложений (класс Embedding из pyTorch), куда опционально могут входить другие количественные характеристики врача, например возраст и опыт. Метод имеет весьма хорошую метрику ROC AUC - 0.87.

Виктория Дочкина и Лаврентий Григорян из Газпромбанка рассказали о том, как тестировать созданные нейросети. Для крупных компаний и проектов недостаточное тестирование нейросети может обернуться скандалами и потерями миллионов долларов. Так например в феврале этого года Google потерял 100 миллиардов долларов капитализации из-за ошибки чат-бота, а американские нейросети вели себя предвзято по отношению к чёрным. Доклад Виктории и Лаврентия можно почитать на Medium, поэтому ограничусь просто ссылкой, без пересказа.

Роман Куцев из TrainingData.ru рассказал про свой подход к разметке данных при помощи краудсорсинга. Ключевая мысль: делить всё на три этапа (итерации), в соотношении 10-40-50%. Из опенсорсных инструментов Роман рекомендует CVAT - для задач компьютерного зрения и Label Studio - для всего остального.

Роман - активный пользователь Хабра, поэтому также не буду пересказывать его доклад а просто приведу ссылки на его три статьи

Как организовать разметку данных для машинного обучения: методики и инструменты

Способы обеспечения качества данных для машинного обучения

Десять лучших опенсорсных инструментов аннотирования 2021 года для Computer Vision

NLP

В секции по NLP у Марии Тихоновой из Sberdevices был интересный рассказ про различные подходы к стилизации текста (просто оставлю эти аббревиатуры здесь - CTLR, GeDi, ParaGeDI, FUDGE, DExperts и CIA), Анастасия Семёнова из CleverData рассказала про кастомизацию рекомендательного алгоритма TiSASRec, что в итоге позволяет по сути создать скрипт голосового робота-оператора на базе реальных диалогов живых операторов с абонентами одной магической кнопкой "Создать скрипт". А Мурат Апишев из моего любимого JustAI презентовал новую платформу платформу для хостинга ML-сервисов с коллекцией решений типовых NLP-задач - Just AI Caila (разработали на деньги гранта от РФРИТ)

Заключение

В завершении конференции была дискуссия про важные события в ML за прошедшие 10 лет под модерацией Александра Крайнова, директора по развитию технологий искусственного интеллекта Яндекса. Материалы были очень похожи на его доклад c YaTalks 2022, поэтому для тех, кому интересна эта тема, также просто оставлю здесь эту ссылку.

Интересно читать новости с технологических конференций из первых рук?Подписывайтесь на мой блог, конференции - у меня здесь одна из основных тем. Следующий обзор планирую сделать c Positive Hack Days 2023 :)

* Facebook — проект Meta Platforms Inc., деятельность которой в России запрещена

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

22.22%Слышал, был хотя бы раз6

22.22%Только слышал6

55.56%Услышал первый раз в этой статье15

Проголосовали 27 пользователей. Воздержался 1 пользователь.