Коллектив из бывших инженеров АНБ США и Amazon создает «GitHub для данных» / Хабр

Около полугода назад у нескольких инженеров и разработчиков с опытом работы в Агентстве национальной безопасности США, Google и Amazon Web Services появилась любопытная идея.

Для создания новых функций и изобретения чего-то нового разработчикам и инженерам нужны данные. Но эти данные часто конфиденциальны и недоступны — из-за бюрократии и разного рода нормативных требований, — и чтобы получить одобрение на их использование, может понадобиться несколько недель. Поэтому недавно был запущен проект Gretel — стартап, цель которого — помочь разработчикам безопасно обмениваться конфиденциальными данными и совместно взаимодействовать с ними в режиме реального времени.

Алекс Уотсон, один из сооснователей проекта, говорит о предназначении новой платформы так: «Это не такая нишевая задача, как может показаться. Разработчики любой компании могут столкнуться с этой проблемой». Зачастую разработчикам нужен не полный доступ к банку пользовательских данных, а лишь фрагмент или выборка для работы. Во многих случаях достаточно будет данных, которые просто выглядят как реальные пользовательские данные.

«Для начала необходимо обеспечить безопасность обмена данными, — продолжает Уотсон. — Потому что есть множество классных вариантов использования данных другими людьми». Он рассказывает, что такие проекты, как широко используемая платформа для обмена исходным кодом GitHub, помогли сделать код доступным и упростили совместную работу с ним — однако с данными дело обстоит иначе: «Для данных эквивалента GitHub не существует».

Рассуждая таким образом, Алекс Уотсон, Джон Майерс, Али Гольшан и Ласло Бок придумали Gretel.

«Сейчас мы создаем ПО, которое даст разработчикам возможность автоматически получать анонимизированную версию набора данных», — рассказывает Уотсон. Эти так называемые «синтетические данные» по сути — искусственным образом сконструированные наборы данных, которые выглядят и ведут себя так же, как обычные конфиденциальные пользовательские данные. Платформа Gretel с помощью машинного обучения распределяет данные по категориям: имена, адреса и другие идентификаторы клиентов, — и назначает данным как можно больше меток. После соотнесения меток к данным можно применять политики доступа. Затем платформа проводит процедуру дифференциальной приватности (метод анонимизации очень больших объемов данных), что позволяет отвязать данные от информации о клиентах. В результате, как поясняет Уотсон, получается «полностью искусственный набор данных, сгенерированный машинным обучением».

Проект этого коллектива уже начинает привлекать внимание: стартап получил 3,5 млн долл. США в рамках начального финансирования — на запуск платформы. Основной вклад сделала компания Greylock Partners, среди других инвесторов — Moonshots Capital, Village Global и несколько бизнес-ангелов.

«Нам в компании Google приходилось создавать собственные инструменты, с помощью которых наши разработчики могли безопасно получать доступ к данным, потому что необходимых инструментов тогда не было», — говорит Шридхар Рамасвами, который ранее работал на руководящей должности в Google, а теперь является партнером в Greylock.

Планируется, что Gretel будет взимать плату с пользователей по мере пользования ресурсами — аналогично тому, как это делает Amazon в отношении своих сервисов облачных вычислений.

По словам Уотсона, сейчас команда полностью погружена в разработку, однако в ближайшие недели стартап планирует активизировать взаимодействие с разработчиками, с тем чтобы в следующие шесть месяцев выпустить Gretel в свет.

Новость переведена в Alconost, профессиональной студии по переводу и локализации

Коллектив из бывших инженеров АНБ США и Amazon создает «GitHub для данных»

Другие новости

Информация