VK тестирует собственное решение для обучения искусственного интеллекта, которое может одновременно тренироваться на данных из разных баз без их фактического обмена и риска утечки персональных данных. Этот принцип называется вертикальным федеративным обучением (VML). О разработке решения рассказал руководитель группы Data Science в подразделении VK Predict Артём Агафонов, пишут «Ведомости».

Сейчас компании для обучения аналитической модели вынуждены делиться собственными данными друг с другом, с разработчиками сервиса и владельцем инфраструктуры, занимающимся их обработкой, говорит Агафонов. Безопасность этих данных гарантируется лишь доверием между участниками процесса обучения, уточняет он.

Также существует вариант, при котором компании сами обучают собственную модель, затем на предсказаниях обучают meta‑модель, которая объединяет проанализированные данные, продолжает Агафонов. «Но в данном случае модели не видят всех данных сразу, а также требуется передача самих данных, что уже само по себе небезопасно», — пояснил он.

Предиктивные модели позволяют прогнозировать спрос и предложение или, например, поломки оборудования, говорит Агафонов. Например, модель одновременно сможет анализировать данные ретейлера о продажах и о трафике торгового центра. На основе полученной аналитики продавец может спрогнозировать спрос на свои товары в том или ином ТЦ, а ТЦ — выбрать подходящих арендаторов. Решение может быть востребовано в разных отраслях, например финтехе и промышленности, добавил Агафонов. Сейчас VK уже тестирует сервис с несколькими партнёрами из ретейла и девелопмента, в дальнейшем планирует продавать это решение.

В России федеративное обучение сейчас не распространено, говорит технический директор HFLabs Никита Назаров. «Если обучать модель на малом количестве характеристик, она будет бесполезной, — поясняет он. — Более того, при малом объёме данных в обучающей выборке конфиденциальность может быть нарушена. Но, думаю, как раз с этим у VK проблем не возникнет. VK — высокотехнологичная компания с самой популярной в России соцсетью „ВКонтакте“. Так что федеративное обучение хорошо вписывается в их продуктовый профиль».

Одним из первых технологию федеративного обучения начал использовать Google для обучения спам‑фильтров, говорит Назаров. Coogle, по словам эксперта, требовалось обучать модель на содержимом почтовых ящиков, но при этом не раскрывая их, и формулировать правила, по которым можно обнаружить спам. Платформы на базе VML также развивают Amazon, IBM и Nvidia.

При обучении VML-модели важно учитывать два момента, отметил ИИ-архитектор ГК «Самолёт», эксперт Альянса искусственного интеллекта Андрей Комиссаров. Во-первых, необходимо найти того, у кого тоже есть нужные данные, и с этим может возникнуть сложность, отмечает Комиссаров: владение такими данными может не афишироваться.

Во‑вторых, мало скормить данные нейросети, их нужно ещё и грамотно разметить, продолжает он. Качество разметки напрямую влияет на качество обучения, а у владельцев данных они, как правило, не подготовлены для обучения. «Если VK удастся решить две эти задачи, то может получиться весьма перспективное решение, — считает Комиссаров. — В целом я бы сказал, что это скорее пиар‑шаг, попытка застолбить тему, нежели реальный бизнес‑кейс. Хотя если у VK в шкафу сидит армия дата‑инженеров, то в плане бизнеса такая площадка также может открывать неплохие перспективы».