Взгляд с высоты птичьего полета

Дисклеймер: несмотря на облегченный стиль, это не научпоп, это описание реальной исследовательской работы, ее мотивировок и подходов, которые часто остаются за кадром.

Этой публикацией мы начинаем серию статей, в которой хотим изложить наше видение пути, по которому сейчас идет развитие экономики данных, и возможных подходов к его рационализации. В первой статье рассматривается понятие биржи данных, которое мы считаем важным механизмом и двигателем развития экономики данных. Анализируется опыт текущих проектов по созданию платформ для обмена данными. Намечаются направления дальнейшего обсуждения.

Рискуя прослыть занудой, хочу напомнить, что выражение «экономика данных», относительно недавно введенное в оборот скорее как мем, чем как строгое научное понятие, обозначает новый этап развития мировой экономики, следующий после аграрной экономики, промышленной экономики, постиндустриальной (сервисной) экономики, информационной экономики. И вот, настала очередь ��кономики данных. Также полезно будет держать в уме описание смены технологических переделов, которые характеризуются как революции. Все они называются промышленными революциями, только после каждой из них само понятие промышленности (индустрии) кардинально меняется. По этой шкале мы переживаем четвертую промышленную революцию, если все еще верить Клаусу Швабу, председателю Всемирного экономического форума в Давосе, который, после того, как прослыл изрядным женолюбом, покинул пост после полувека правления.

Сразу оговоримся, что мы пока толком не знаем, что такое экономика данных, как она устроена, как работает, а как должна бы работать. Экономику, как и любую другую практику нельзя спроектировать и построить. Это типичный естественно-искусственный объект со своим собственным дрейфом развития, который невозможно учесть в проектном подходе. Большие надежды возлагали на программный подход, понимаемый как программирование развития, но для его эффективного применения нужны специальные формы коллективной работы, которые плохо уживаются с корпоративными и академическими структурами. Вероятно, в каких-то аналитических стратегических центрах (think tanks) такая со-организация возможна, но они, как правило, находятся под колпаком национальных правительств и служб безопасности и результаты свои не торопятся публиковать в открытой печати.

Нет, кое-что об экономике данных мы, конечно, знаем. Главное отличие от информационной экономики состоит в том, что если информационная экономика была о производстве, обработке и распространении информации как товара, то экономика данных — это экономика, где данные становятся фундаментальным ресурсом производства, сравнимым с землей, трудом и капиталом в классической экономике. В отличие от ресурсов классической экономики данные не истощаются при использовании, могут быть многократно переработаны, становятся более ценными при агрегации с другими данными, а также генерируют сетевые эффекты (чем больше данных, тем лучше алгоритмы).

Данные собираются часто не прямо, а как побочный продукт деятельности (поведение, местоположение, предпочтения). Это "невидимое производство». Тут я тоже усматриваю некоторое сходство с полезными ископаемыми, только процесс идет в миллионы раз быстрее.

Мир данных, так же как мир природных ресурсов, ассиметричен. Платформы, обладающие большими объемами данных и вычислительной мощностью (Google, Meta, Amazon, Alibaba, ByteDance), получают экспоненциально растущие преимущества. Это создаёт в их руках концентрацию власти, невозможную и небывалую в предшествующей информационной экономике.

Ну, и не будь я копирайтер компании IDX, если не отмечу еще одно отличие от предыдущей экономической парадигмы. В информационной экономике контроль был над каналами распространения информации. В экономике данных — над личными данными миллиардов людей, что дает беспрецедентный инструмент предсказания поведения и влияния. Да, персональные данные остаются особым сингулярным объектом во всем объеме данных и требует специального обращения с ними.

Все эти наблюдения за складывающейся экономикой данных — это феноменология, фиксация характерных явлений. А вот анатомия и физиология, образно выражаясь, остаются не до конца понятыми.

Генезис биржи данных

В заголовок этой публикации вынесена некоторая гипотеза. Основываясь на нашем опыте по предоставлению услуг удостоверения персональных данных, мы все время думаем метафору «биржи данных» (по-английски — data exchange), вспоминая о том, как сначала телефонные коммутаторы называли telephone exchange (telephone switch или central office). Позже, после победы технологии коммутации пакетов над технологией коммутации каналов в мировом масштабе, появились узлы глобальной сети под названием IP exchange или Internet exchange (IX), где интернет-операторы обмениваются IP-трафиком.

Прежде чем мы продолжим, замечу, что появление таких технологических новаций приводило к появлению нового типа массового товара (commodity). Именно такими массовыми товарами торговали на торговых площадках типа commodities exchange (товарные биржи). Однако после появления глобальных сетей и телефонный трафик, и IP-трафик стали новыми commodities. И они все еще торгуются, хотя эти виртуальные торговые площадки теперь выглядят иначе. Мы обобщаем эту метафору на данные — новый тип commodities, на сырьевой товар новой экономики данных.

Еще раз подчеркну, что такое обобщение — это просто когнитивная гипотеза, сработает она или нет, будет видно из дальнейшего. Здесь же можно сделать два замечания.

Во-первых, появление новых видов массового товара не отменяет старых видов. Сырьевые биржи как существовали, так и продолжают прекрасно работать. При этом неважно, что пшеницу меряют бушелями, а нефть — баррелями, потому что на сырьевом рынке работают не пшеница и нефть, а деньги. Деривативы (фьючерсы и опционы) остаются финансовым инструментом и основаны на довольно сложной математике — функциональном анализе, стохастическом исчислении – вплоть до мартингалов, не побоюсь этого слова.

Вы не поверите, но до сих пор торгуют международным голосовым трафиком, хотя инструментарий там попроще.

В истории Рунета был период, когда связность сетей интернет-операторов была слабой, а обмен локальным трафиком происходил через дорогие международные каналы доступа в Интернет. “Большие” операторы зарабатывали на присоединении и пропуске трафика “маленьких” интернет-провайдеров, и это привело к образованию ОПГ — отдельной пиринговой группы (в составе Ростелеком, ТТК, Golden Telecom и MTU-Intel), внутри которой трафиком обменивались бесплатно, а для тех, кто находился снаружи, пропуск трафика был платным. На смену ОПГ пришел MSK-IX. Теперь площадки обмена трафиком IX стали типовым элементом технической инфраструктуры интернета, и за пропуск трафика на них не платят, платят за потребляемые ресурсы IX, как на любом узле связи.

Уже из этих исторических примеров видно, что площадки для обмена массовым товаром бывают очень разные.

Реинкарнация биржи

До того, как появилось машинное обучение и нейросети, массовые перемещения данных были скорее технической операцией, например, заполнение хранилищ или их резервное копирование. Много лет клиент-серверная архитектура интернета и корпоративных сетей (интранетов), построенных по его образцу, обеспечивала обмен данными по мере необходимости, «запрос-ответ», и это считалось благом. Данные накапливались в хранилищах постепенно и обрабатывались по мере поступления.

Задачи машинного обучения нейронных сетей, и более узко — больших языковых моделей, потребовали подготовки датасетов для обучения, то есть, решения достаточно специфической задачи. При этом, при первых же успехах генеративного ИИ стали задаваться вопросы: а кто владелец данных, собранных в датасеты. Известна позиция многих художников, графиков, иллюстраторов, которые неодобрительно относятся к использованию в публикациях изображений и видео, сгенерированных моделями ИИ. До сих пор считается, что это неэтично, поскольку модели были обучены на изображениях, имеющих авторов, и делалось это без их согласия. Тут у понятия «копирайт», которое и без того пострадало в цифровую эпоху, просто съехала крыша. Авторские материалы были не просто скопированы, а пожраны и переварены. Доказать покражу невозможно, а осадочек остался.

Казалось бы, если ИИ-пузырь не лопнет, скоро датасеты заполонят цифровое пространство. Но, не будем горячиться и вернемся на шаг назад в процессе определения того, что нам кажется важнейшим механизмом экономики данных.

Мы проанализировали известные нам примеры проектов, которые можно назвать «биржами данных» (data exchange). Наша цель в этой первой публикации, описать (хотя бы эскизно) типологию бирж данных. Напомню, что типология — это не классификация. Это гораздо сложнее. Если классификация дает строгий порядок, то типология — более глубокое понимание.

Все найденные примеры приведены в таблице. Она полезна для быстрой справки о проекте, который упоминается в ходе анализа.

Ключевые выводы из расширенной таблицы

Анализ таблицы показывает несколько важных паттернов:


• Географическое разнообразие: Европейские инициативы (GAIA-X, IDSA) фокусируются на федеративной архитектуре и цифровом суверенитете. Азиатские модели (Индия DEPA, Япония DATA-EX) демонстрируют сильную государственную координацию. Китайские биржи (Shenzhen) реализуют рыночную торговлю под строгим государственным контролем
• Технологические провайдеры против операторов данных: Dawex успешно применяет модель white-label technology provider, позволяя клиентам создавать собственные data spaces. В производстве оборудования такая модель называется OEM.
• Важность стандартов: IDSA демонстрирует, что создание стандартов может быть более важным, чем создание отдельных платформ. Сертификация и операционная совместимость являются ключевыми факторами массового распространения.
• Уроки провалов обезличивания: Кейсы NYC Taxi и Netflix Prize показывают критическую необходимость применения PET (Privacy Enhancing Technologies) - дифференциальной конфиденциальности, проверок с нулевым раскрытием (zero-knowledge proofs) и контролируемого доступа. Наивное обезличивание не работает.
• Традиционные платформы НЕ являются биржами: Bloomberg и Refinitiv часто называют «биржами», но это просто поставка данных по подписке, не P2P обмен. Важно различать эти модели.
• Web3 как будущее: VANA и NEAR представляют децентрализованный подход с пользовательским контролем данных, токенизированными стимулами и ZK-проверками. Однако полная децентрализация создаёт сложности с комплаенсом и моделью управления и принятия решений (governance).

Эскизная типология бирж данных

Систематизируем известные нам примеры бирж данных по следующим аналитическим срезам.

Срез 1: Архитектура и контроль

Государственно-интегрированные (встроены в госархитектуру)

Часть государственной инфраструктуры, часто бесплатные или субсидированные.
Примеры: Сингапур APEX Cloud, госсектор в Ирландии, национальный хаб Уганды UGhub, СМЭВ (РФ).
Логика: государство обеспечивает инфраструктуру как общественное благо.

Централизованные платформы (классические маркетплейсы)

Один оператор контролирует весь обмен, устанавливает правила, берёт комиссию.
Примеры: Shenzhen SDEx, классические маркетплейсы.
Логика: традиционный посредник, взимает комиссию.

Федеративные/консорциумные (распределённое управление)

Несколько автономных узлов, согласованные стандарты, нет единого центра.
Примеры: PIONEER (UK HDR) с их Data Trust Committee.
Логика: попытка избежать монополизации при сохранении управляемости.

Децентрализованные/блокчейн (алгоритмический контроль)

Смарт-контракты, прозрачность, минимизация доверия к посреднику
Примеры: VANA (Web3), NEAR (Layer-1 blockchain)
Логика: кодированные правила вместо управления

Срез 2: Легитимность источника данных и правовая основа

Государственные данные (встроенная государственная легитимность)

Данные собраны государством в ходе своей деятельности.
Примеры: данные социального обеспечения в Ирландии, данные Сингапурского межведомственного агентства, правительственные реестры Уганды.
Правовая основа: государственные обязательства, законодательство.
Политическая экономия: государство имеет мандат на сбор и распределение.

Сектор с "естественной" моральной основой (здравоохранение, наука)

Данные из здравоохранения, научных исследований, где участники морально мотивированы делиться данными.
Примеры: PIONEER (медицинские записи), Netflix Prize (научное сообщество).
Правовая основа: этика, согласие участников, общественный интерес.
Политическая экономия: граждане готовы делиться ради улучшения сектора.

Коммерческие корпоративные данные (B2B)

Компании обмениваются агрегированными/обезличенными данными.
Примеры: Shenzhen SDEx (отраслевые данные), коммерческие датасеты.
Правовая основа: контрактная, между сторонами.
Политическая экономия: взаимная выгода, оптимизация операций.

Персональные данные индивидов (максимальная проблема легитимности)

Граждане выступают источниками и потенциально бенефициарами.
Примеры: VANA (попытка), NYC TLC (когда рассекретили).
Правовая основа: нечёткая; Web3 пытается это решить через токены.
Политическая экономия: конфликт интересов между бизнесом и приватностью

��лючевое наблюдение: Успешность биржи обратно пропорциональна степени персональности данных.

Срез 3: Геополитический контекст и цифровой суверенитет

Китайская модель (государственно-контролируемая)

Государственный контроль встроен в саму архитектуру.
Логика: «данные, как фактор производства» — откровенно инструментальный подход.
Примеры: Shenzhen SDEx, региональные биржи данных в Китае
Характеристики: жесткие кросс-граничные ограничения, регуляция «в процессе».
Философия: суверенитет данных как национальная безопасность.

Западная/европейская модель (этико-ориентированная)

Попытка балансировать инновацию и защиту прав.
Логика: встроенные конфиденциальность и этический надзор.
Примеры: PIONEER (этические обзоры), Ирландия (уведомления по предписаниям GDPR (DPIA), Сингапур (администрируется государством).
Характеристики: прозрачность, участие обществ, но может работать медленнее.
Философия: данные как общественный ресурс с защитой участников.

Web3/децентрализованная альтернатива (попытка обойти государство)

Попытка создать параллельную архитектуру вне государственного контроля.
Логика: технология (блокчейн) вместо доверия к институциям
Примеры: VANA, NEAR
Характеристики: открытость кода, токеномика, но проблемы с реальным управлением.
Философия: "code as law", но на деле часто контроль остается за фондом.

Срез 4: Зрелость инфраструктуры и экосистемная готовность

Уровень 0: Концепт-фаза (идея без системной реализации).

Проекты, которые существуют в виде документов/планов.
Характеристики: нет реальных транзакций, участников минимум, нет интеграции.
Риск: провал.


Уровень 1: API-инфраструктура (техническая интеграция).

Есть стандартные интерфейсы между сущностями, API-шлюзы.
Примеры: Сингапурский APEX Cloud (API шлюз), Угандийский UGhub (API шлюз).
Характеристики: работает, потому что опирается на существующую правительственную инфраструктуру.
Признак успешности: наличие SLA, ограничение пропускной способности (тротлинг), журналирование.

Уровень 2: Рыночная стадия (ценообразование и многосторонность).

Есть множество участников, механизмы ценообразования, некоторая ликвидность.
Примеры: Shenzhen SDEx (листинг, брокерство, платежи), возможно есть финансовые биржи (но они скрыты).
Характеристики: транзакции происходят, есть комиссионные схемы.
Неясность: реальный объём против заявленного.

Уровень 3: Стандартизация (межсистемная совместимость).

Есть согласованные стандарты, общие принципы управления, возможность интеграции между биржами.
Примеры: PIONEER (Data Trust Committee), некоторые международные инициативы.
Характеристики: тиражируемые принципы управления, общие стандарты.
Недостаток: это редко когда достигается.

Уровень 4: Юридическая укоренённость (отражено в законодательстве).

Биржа закреплена в законе, есть регуляторные рамки, обязательность участия или признания.
Примеры: Ирландия (Social Welfare Acts), Сингапур (как государственная инициатива).
Характеристики: долговечность, обязательность, устойчивость к изменению курса.

Срез 5: Типы данных и специализация

Универсальные платформы (все типы)

Попытка быть "маркетплейсом для любых данных».
Примеры: классические Dawex-подобные платформы.
Проблема: ценообразование становится невозможным для разнородных данных.

Сектор-специфичные

Финансовые: Bloomberg, Refinitiv (но это подписка на сервисы, а не биржи).
Здравоохранение: PIONEER.
Государственные: Singapore APEX (API для агенств).
Мобильность/транспорт: NYC TLC датасет.
Логика: глубокая интеграция возможна только при узкой специализации.

Типо-специфичные (по природе данных)

Исходные датасеты (неструктурированные).
Структурированные/обработанные (очищенные).
Производные продукты (модели, индексы, прогнозы).
Логика: разные уровни добавленной стоимости требуют разных моделей.

Срез 6: Механизм доступа и открытость

Открытые/публичные (Open Data)

Бесплатные или низкая цена, открытый доступ, без барьеров.
Примеры: Netflix Prize, NYC TLC датасет, некоторые Open Data порталы.
Характеристики: максимальный экосистемный эффект, но остаются проблемы конфиденциальности.
Риск: видно на примере NYC TLC — можно деанонимизировать.

Полузакрытые/членские

Доступ за членство, подписку, или участие в консорциуме.
Примеры: PIONEER (лицензированный доступ), Singapore APEX (только для правительственных органов).
Характеристики: контроль, кто получает доступ, но меньше охват реализации.

Приватные/корпоративные (закрытые экосистемы)

Только для внутренних партнёров, часто не видны извне.

Примеры: внутренние корпоративные хабы данных, возможно финансовые «биржи".
Характеристики: максимальный контроль, но минимальный масштаб.

Срез 7: Механизм ценообразования и экономика

Рыночные/аукционные (спрос-предложение)

Цена определяется динамически, часто через аукционы.
Примеры: пилоты в некоторых нишевых датасетах.
Проблема: очень сложно определить "справедливую" цену данных.

Фиксированные тарифы (управляемые оператором)

Цена установлена заранее, может быть дифференцирована по типам.
Примеры: большинство B2B платформ.
Логика: предсказуемость, но может быть неоптимально.

Бартер/натуральный обмен (прямой обмен без денег)

Компании обмениваются данными друг с другом.
Примеры: кросс-лицензирование между корпорациями.
Логика: избегают уплаты, но сложно масштабировать.

Freemium (гибридный)

Часть данных бесплатна, премиум-доступ платный.
Примеры: научные платформы, Netflix Prize (бесплатный доступ).
Логика: привлечь экосистему бесплатно, монетизировать пользователей премиального уровня.

Государственное субсидирование (не рыночный)

Государство оплачивает инфраструктуру, доступ бесплатный или недорогой.

Примеры: Singapore APEX, Uganda UGhub, Ирландия.
Логика: общественное благо, долгосрочная инвестиция в цифровой суверенитет.

Срез 8: Модель управления и принятия решений

Коммерческий управляющий (компания как оператор)

Частная компания управляет платформой в своих интересах.
Примеры: Shenzhen SDEx (хотя с госконтролем).
Проблема: конфликт интересов между прибыльностью и участниками.

Государственный/бюрократический

Государство управляет платформой через свое агентство.
Примеры: Singapore APEX, Ирландия, Уганда.
Логика: долгосрочность, стабильность, но может быть медленным.

Консорциум/Ассоциация (коллективное управление)

Несколько сторон управляют совместно.
Примеры: PIONEER (с Data Trust Committee), GAIA-X (если считать её биржей).
Проблема: сложность принятия решений, но лучше диверсификация власти.

Децентрализованное управление (DAO / Network governance)

Участники управляют через токены/голоса.
Примеры: VANA, NEAR.
Проблема: на деле часто остаётся контроль со стороны фонда (Foundation), токеномика до конца не ясна.

Этический надзор (встроенная модель управления)

Есть специализированные комитеты для этики, приватности, справедливости.
Примеры: PIONEER (этические обзоры + Data Trust Committee).
Логика: встроить принципы в операции с самого начала.

Срез 9: Стадия жизненного цикла

Пилотные проекты

Ограниченное число участников, тестирование модели.
Характеристики: высокая волатильность, риск, но гибкость.

Расширение.

Растущее число участников, оптимизация операций.
Примеры: Singapore APEX, Uganda UGhub (молодые, но растут).
Характеристики: инвестиции, риск провала.

Зрелость

Стабильное число участников, предсказуемые транзакции, рутинизированные процессы.
Примеры: возможно, PIONEER, некоторые финансовые биржи.
Характеристики: низкий рост, но высокая стабильность.

Упадок или Консолидация

Либо платформа закрывается, либо консолидируется с другой.
Примеры: многие коммерческие попытки (возможно Dawex, но нужна проверка).
Характеристики: выход инвесторов, слияния.

Подведем промежуточные итоги.

Кластеры успешности

Из этого обзора видно, что успешные биржи обладают следующим профилем:

  1. Государственное происхождение или поддержка (срез 1, 3)

  2. Легитимность источников (срез 2) — либо государство, либо уже морально мотивированные секторы.

  3. Сектор-специфичность (срез 5) — универсальные платформы не работают.

  4. Встроенность в существующую инфраструктуру (срез 4, уровень 1+).

  5. Долгосрочное финансирование, не зависящее от рентабельности (ось 7).

Наиболее жизнеспособная модель: государственная/полугосударственная инфраструктура для специфичных секторов с этическим надзором.

Критические проблемы, которые биржи решают (или не решают)

  1. Цена данных Невозможно установить единую цену, так как ценность зависит от контекста использования. Решение: специализированные платформы с известной ценностью (здравоохранение, финансы).

  2. Проблема доверия Продавец опасается копирования; покупатель опасается получить мусор. Решение: репутационные системы, лицензирование, сквозной аудит.

  3. Право собственности Кто владеет данными? Генератор? Собиратель? Обработчик? Решение: чёткие контракты (B2B) или государственный мандат (государственные данные).

  4. Проблема сетевых эффектов Монополистские платформы (Google, Meta) не заинтересованы в открытии своих данных. Решение: регулирование (вплоть до принудительного открытия) или создание альтернативных экосистем.

  5. Проблема конкурентности Обмен данными может нарушить конкуренцию (картель). Решение: регуляторный надзор, агрегация, анонимизация

  6. Проблема сохранения конфиденциальности при биржевом обмене данными Неудавшаяся анонимизация (NYC TLC case). Решение: дифференциальная конфиденциальность, более надежное обезличивание, но это может снизить ценность данных.

В следующих публикациях нам предстоит проделать глубокое погружение в собранные примеры (удачные и неудачные), помня о тех критических механизмах, которые пока так и не созданы:

  1. Как платить за данные справедливо?

  2. Как гарантировать честность в обмене?

  3. Как избежать концентрации власти у платформ?

  4. Как коммерциализировать персональные данные без ущемления прав владельцев данных?

  5. Как организовать трансграничный обмен данных?

Продолжение следует...