Как OpenAI похоронила традиционный BI — и что пришло ему на смену / Хабр

Привет, меня зовут Полоротов Александр, co-founder datanomix.pro последние восемь лет я помогал компаниям внедрять BI.

Насмотрелся на ситуации, когда существует десяток дашбордов, которые никто не смотрит. Хотя, какой только систематизацией не занимались.

На сотни отчётов, которые генерируются по расписанию и уходят в пустоту. И аналитиков, которые 80% времени тратят не на анализ, а на поиск «а где вообще эти данные лежат?»

Недавно OpenAI опубликовала статью о том, как устроена их внутренняя аналитика.

И меня зацепило: компания, которая создала ChatGPT, для анализа собственных 600 петабайт данных** не использует ни Tableau, ни Power BI, ни Looker, ни Qlik, ни SuperSet**, как централизованный инструмент удовлетворения информационной потребности.

Но думаю, вот такие ребята все равно существуют у них в компании, от этих дилеров правильных отчетов никогда не избавишься.

600 петабайт и ни одного дашборда

Масштаб проблемы

Дата-платформа OpenAI обслуживает 3 500 внутренних пользователей — это инженеры, продакт-менеджеры, аналитики, финансисты, исследователи. Они работают с 600 петабайтами данных, разбросанными по 70 000 датасетам.

И вот цитата из самой статьи OpenAI, от их реального внутреннего пользователя:

"We have a lot of tables that are fairly similar, and I spend tons of time trying to figure out how they're different and which to use. Some include logged-out users, some don't. Some have overlapping fields; it's hard to tell what is what."

Знакомая боль, да? У вас, может, не 70 000 таблиц, а 700 или 7 000.

Но ощущение «а какая из пяти похожих таблиц правильная?» универсальное.

Почему дашборды не справились

Проблема не в конкретном BI-инструменте.

Проблема в самой модели «человек → дашборд → инсайт». Вот что ломается на масштабе:

SQL-запросы на 180+ строк — это не аналитика, это программирование. Одна ошибка в JOIN-условии и результат молча искажается
Many-to-many джоины классический источник дублирования строк, который BI-инструменты не поймают
Unhandled nulls тихо обнуляют ваши средние и суммы, а вы об этом узнаёте через месяц
Filter pushdown errors когда фильтр применяется не на том уровне, и весь отчёт врёт

OpenAI показала SQL-запрос из своей реальной практики — 180+ строк. И честно написала: "It's not easy to know if we're joining the right tables and querying the right columns."

Вот тезис, от которого стоит оттолкнуться: Может, дело не в дашбордах, а в самом подходе?

Зачем OpenAI купила базу данных за $117M — и тут же её убила

Июнь 2024: неожиданное поглощение

Вернёмся на два года назад. Июнь 2024 OpenAI объявляет о покупке Rockset, real-time аналитической базы данных. Сделка непубличная, но известно, что Rockset к тому моменту привлёк $117.5 миллионов инвестиций от Sequoia, Greylock и Icon Ventures. Клиенты — Meta, JetBlue, финтех-компании.

Что происходит дальше? OpenAI закрывает Rockset для всех клиентов за три месяца и удаляет их данные. Вот так. Без предупреждения, без переходного периода.

Представьте: вы клиент Rockset, ваш прод работает на их базе, и вам говорят: «У вас три месяца, чтобы куда-нибудь уехать. Данные мы удалим.»

Что такое Rockset и почему именно он

Rockset основали в 2016 году экс-инженеры Facebook. Один из основателей — Dhruba Borthakur тот самый человек, который создал RocksDB в Facebook.

Из RocksDB выросла целая экосистема: это хранилище данных используется внутри десятков современных систем.

Ключевая идея Rockset три типа индексов в одной системе:

Индекс	Для чего	Аналог отдельной системы
Inverted Index	Полнотекстовый поиск	Elasticsearch
Columnar Index	Аналитические запросы	ClickHouse, Snowflake
Document Index	Key-value доступ	MongoDB, DynamoDB

Плюс real-time ingestion из Kafka, MongoDB, DynamoDB и SQL-интерфейс поверх полуструктурированных данных (JSON, CSV).

Одна система — вместо трёх-четырёх отдельных.

Контринтуитивный выбор

А вот что действительно интересно. В 2024 году, на пике хайпа векторных баз данных, когда Pinecone оценивалась в $750 миллионов, OpenAI покупает НЕ векторную БД, а аналитическую.

Почему? Потому что для AI нужны не только эмбеддинги. Нужны структурированные и полуструктурированные данные в реальном времени. Метрики, логи, транзакции, события всё то, что живёт в таблицах, а не в векторном пространстве.

Как точно подметил Madhukar Kumar:

"AI is a feature. Vectors are a feature. Data is the real product."

А Forbes добавил: поглощение Rockset это стратегический шаг OpenAI к созданию полного enterprise-стека.

Не просто LLM, а LLM + retrieval + real-time analytics. Полная вертикаль.

У Rockset есть живой родственник

Вот что мне показалось особенно любопытным. Архитектурная идея Rockset multi-index real-time analytics не уникальна. У неё есть живые open-source аналоги: Apache Doris (коммерческая версия VeloDB) и переписанный форк [StarRocks] (https://github.com/StarRocks/starrocks).

Сравните:

Аспект	Rockset	Apache Doris / VeloDB
Индексы	Inverted + Columnar + Document	Inverted + Columnar + Vector (HNSW)
Real-time ingestion	Kafka, MongoDB, DynamoDB	Kafka, Flink CDC, MySQL/PG binlog
SQL-интерфейс	SQL поверх JSON	MySQL-протокол, стандартный SQL
Философия	Одна система заменяет несколько	Одна система заменяет несколько
Векторный поиск	Нет	Нативный (HNSW, IVPQ)
Open-source	Нет (проприетарная)	Да (Apache License 2.0)
Статус	Убита после поглощения	Активно развивается

Одна и та же школа мысли: не множить системы, а объединить разные типы доступа к данным в одном движке. Только Doris ещё и добавил нативный векторный поиск для AI то, что OpenAI пришлось достраивать поверх Rockset самостоятельно.

Это не «Doris лучше Rockset». Это наблюдение: технология, за которую OpenAI заплатила как минимум $117M и закрыла для всех, существует в open-source и доступна любой компании.

Пять слоёв контекста как устроен AI-агент OpenAI

Окей, хватит про поглощения — давайте разберёмся, что OpenAI в итоге построила.

Архитектура агента

Их data agent работает на GPT-5.2 и доступен везде, где работают сотрудники: Slack, веб-интерфейс, IDE, Codex CLI через MCP, внутренний ChatGPT через MCP-коннектор.

Пользователь задаёт вопрос на естественном языке: "Для поездок на такси в Нью-Йорке, какие пары зон посадки-высадки самые ненадёжные, с наибольшей разницей между типичным и worst-case временем поездки?"

И агент сам делает всё: находит нужные таблицы, пишет SQL, запускает запросы, анализирует результаты, визуализирует и генерирует отчёт. Без единого дашборда.

Но самое интересное не сам агент, а то, откуда он берёт контекст. OpenAI описывает пять слоёв:

Слой 1: Table Usage — метаданные и история

Базовый слой: схемы таблиц, типы колонок, lineage (какие таблицы откуда берут данные), история SQL-запросов. Агент видит, какие таблицы обычно джойнятся вместе, какие колонки используются чаще всего.

Это то, что умеет любой data catalog. Необходимый, но недостаточный минимум.

Слой 2: Human Annotations — экспертное знание

Описания таблиц и колонок от доменных экспертов. Не автоматически сгенерированные, а написанные людьми, которые знают: «эта таблица не включает logged-out пользователей», «эта колонка содержит NULL для европейских клиентов до марта 2024».

Те самые оговорки и нюансы, которые обычно живут в головах аналитиков и передаются устно.

Слой 3: Codex Enrichment — смысл живёт в коде

А вот это уже по-настоящему ново. Агент через Codex читает код пайплайнов, которые создают таблицы. Не метаданные, не описания — а сам исходный код ETL.

Зачем? Потому что, как пишет OpenAI: "Meaning lives in code." Истинное определение таблицы — не в её схеме, а в коде, который её создаёт. Только из кода можно узнать:

Как часто таблица обновляется
Какие фильтры применяются при загрузке
Какие предположения заложены в трансформации
Уникальны ли значения в колонке

И этот контекст обновляется автоматически — агент перечитывает код по мере изменений.

Слой 4: Institutional Knowledge — корпоративная память

Агент имеет доступ к Slack, Google Docs и Notion. Оттуда он вытаскивает: даты запусков фичей, информацию об инцидентах, внутренние кодовые названия, канонические определения метрик.

Все эти документы индексируются, встраиваются (embeddings) и хранятся с метаданными и правами доступа. Retrieval-сервис обеспечивает контроль доступа и кэширование.

Слой 5: Memory — самообучение

Когда пользователь поправляет агента или агент обнаруживает нюанс в процессе анализа, он сохраняет это знание для следующего раза.

Пример из статьи OpenAI: агент не знал, как фильтровать конкретный A/B-тест (нужно было match-ить строку из experiment gate).

После корректировки он запомнил это — и в следующий раз сделал правильно сам.

Памяти бывают глобальные (для всех) и персональные. Пользователи могут создавать и редактировать их вручную.

┌─────────────────────────────────────────┐
│           AI Data Agent (GPT-5.2)       │
├─────────────────────────────────────────┤
│  Слой 5: Memory                         │
│  ↑ Самообучение, корректировки          │
├─────────────────────────────────────────┤
│  Слой 4: Institutional Knowledge        │
│  ↑ Slack, Docs, Notion, инциденты       │
├─────────────────────────────────────────┤
│  Слой 3: Codex Enrichment               │
│  ↑ Код пайплайнов, ETL-логика           │
├─────────────────────────────────────────┤
│  Слой 2: Human Annotations              │
│  ↑ Описания от экспертов, оговорки      │
├─────────────────────────────────────────┤
│  Слой 1: Table Usage                    │
│  ↑ Схемы, метаданные, история запросов  │
└─────────────────────────────────────────┘

Self-healing и workflows

Ещё два важных свойства.

Во-первых, агент сам себя проверяет: если промежуточный результат выглядит неправильно (например, 0 строк после джоина — красный флаг), он не выдаёт его пользователю, а исследует проблему, исправляет подход и пробует снова.

Во-вторых, повторяющиеся анализы упакованы в workflows переиспользуемые инструкции. Еженедельный бизнес-отчёт, валидация таблиц, анализ запуска фичи — всё это делается одним запросом, а не многочасовой ручной работой.

Три урока OpenAI, которые стоит украсть

OpenAI честно рассказала о своих ошибках. И вот три урока, которые применимы к любой компании:

Урок 1: Less is More

Первая версия агента получала слишком много контекста. Все метаданные, все описания, все связи. Результат? Агент путался и давал худшие ответы.

Решение: тщательная фильтрация контекста. Не «дай модели всё», а «дай модели только то, что релевантно именно этому вопросу». Меньше шума — лучше сигнал.

Если вы строите что-то подобное — не пытайтесь запихнуть весь ваш data catalog в промпт. Лучше вложитесь в качественный retrieval.

Урок 2: Guide the Goal, Not the Path

Ранние версии использовали очень детальные инструкции: «сначала найди таблицу X, потом соедини с Y, примени фильтр Z». И это работало хуже, чем просто: «Ответь на вопрос Q, используя данные платформы».

Почему? Потому что каждый аналитический вопрос уникален. Жёсткий алгоритм ломается на нестандартных случаях. А GPT-5, получив высокоуровневую цель, сам находит оптимальный путь.

Это принцип, который стоит запомнить: давайте модели цель, а не маршрут. (Если подумать, это работает не только с AI, но и с людьми. Но это тема для другой статьи.)

Урок 3: Meaning Lives in Code

Это, пожалуй, самый глубокий инсайт. Схема таблицы говорит вам «что». Описание — «зачем». Но только код пайплайна говорит «как именно» — а значит, раскрывает все скрытые допущения.

Таблица daily_active_users может выглядеть одинаково в каталоге. Но код покажет, что одна считает DAU по уникальным сессиям, а другая — по уникальным device_id. Разница? Потенциально 30% расхождение в метриках.

Для любой компании это значит: документируйте и поддерживайте в порядке код ваших пайплайнов. Это не техдолг — это будущий контекст для AI-агентов.

80% дашбордов никому не нужны

Статистика, которая отрезвляет

Пока OpenAI строила своего агента, индустрия BI тоже не стояла на месте. Вот что показывают исследования:

80%+ дашбордов в крупных компаниях не используются и не нуждаются в миграции при обновлении BI-платформы — Dataiku
Только 25% бизнес-пользователей реально работают с BI-инструментами — IBM. Остальные считают их слишком сложными
45% крупных предприятий уже внедрили AI-аналитику, 80-90% планируют в ближайшие два года — IBM

Вдумайтесь: мы годами строили дашборды, которые 80% сотрудников компании не могут или не хотят использовать.

Напишите в комментах честно: сколько дашбордов в вашей компании реально открывают хотя бы раз в неделю? Подозреваю, ответ многих расстроит.

Фундаментальное ограничение дашбордов

Дашборд отвечает на вопрос «что произошло?» — и только. Он не скажет «почему?», не предложит «что делать?». Для этого нужен аналитик, который интерпретирует графики, копает глубже, строит гипотезы.

Дашборд — это витрина, а не мозг.

AI-агенты переворачивают эту модель.

Вместо:

Пользователь ищет дашборд 
→ тыкает нужный фильтр 
→ интерпретирует график 
→ формулирует гипотезу → 
→ проверяет в другом дашборде → ...

Получается:

Пользователь задаёт вопрос 
→ получает ответ с анализом, источниками и рекомендациями 
→ предлагает конкретное действие 
→ выполняет действие при получении разрешения

Не «данные ждут, пока их найдут», а «данные находят пользователя».

Новая роль аналитика

И нет, это не «аналитики больше не нужны». Как раз наоборот. Dataiku описывает новую роль аналитика:

Архитектор знаний проектирует knowledge banks, из которых агент берёт контекст
Создатель инструментов пишет SQL-шаблоны, модели прогнозирования, логику извлечения
Аудитор качества проверяет reasoning traces агента, находит ошибки, улучшает точность
Хранитель semantic layer определяет, что такое «активный пользователь», «выручка», «churn»

Аналитик перестаёт быть человеком, который строит отчёты. Он становится человеком, который учит систему строить отчёты правильно. И это, честно говоря, гораздо интереснее.

Что делать уже сейчас

Окей, OpenAI построила агента за год, потратила $117M на поглощение Rockset, использует GPT-5.2 и Codex. Что из этого может взять обычная компания?

Что делать

1. Инвестировать в semantic layer и каталог данных.

Это фундамент. Без единых определений метрик AI-агент будет давать разные ответы разным людям. Когда отдел продаж и финансов спрашивают «какой у нас CAC?» — они должны получать одно и то же число.

Определите метрики один раз, задокументируйте — и любой будущий агент сможет на это опираться.

2. Документировать пайплайны и бизнес-логику.

«Meaning lives in code» работает, только если код читаем.
Прокомментируйте ваши ETL-пайплайны. Вот здесь мне становится понятным, почему ETL процессы, которые у вас остались зашиты в Informatica навсегда закрывают полезную информацию от AI агентов.

Объясните, почему фильтр применяется именно здесь. Зафиксируйте допущения. Это инвестиция, которая окупается даже без AI, потому что новый аналитик в команде тоже скажет спасибо.

3. Думать об аналитике как о диалоге.

Следующий раз, когда бизнес попросит «ещё один дашборд» задайте вопрос: а какой вопрос вы хотите задать?, какие решения или действия хотите выполнить?

Может, ответ лучше дать в виде автоматического отчёта в Slack? Или text-to-SQL запроса?
Или сразу предложить выполнить конкретное действие - сделать автозаказ, отклонить заявку.

Дашборд — один из форматов, не единственный.

4. Начать с малого: text-to-SQL уже работает.

Не нужно строить полноценного агента. Open-source стек вроде Apache Doris или DuckDB + LangChain или LlamaIndex + любая LLM, позволяет за пару недель собрать прототип, где бизнес-пользователь задаёт вопрос на естественном языке и получает SQL-запрос с результатом.

Это не замена BI — но это первый шаг к новой парадигме.

Чего НЕ делать

Не бросайте всё и не стройте «своего AI-агента». OpenAI потратила на это год плюс поглощение. У них в команде люди, которые буквально обучали GPT.

Если вы попытаетесь повторить это без подготовки — получите ~~революцию в аналитике~~ дорогой генератор галлюцинаций.

Ваш первый шаг — подготовить данные, мета-информацию, инфраструктуру.

Заключение: аналитика — это разговор, а не витрина

OpenAI показала, к чему идёт индустрия. Аналитика будущего — это не коллекция графиков на экране.

Это разговор с данными: вопрос → анализ → ответ → уточнение → новый инсайт.

Поглощение Rockset было не про покупку базы данных. Это была покупка фундамента для AI-first аналитики, real-time индексация, SQL поверх semi-structured данных, multi-index архитектура.

Всё то, что нужно, чтобы AI-агент мог быстро и точно работать с любыми данными компании.

И вот ещё один принцип, который здесь работает: Distribution = Product (Питер Тиль одобряет). Агент OpenAI встроен в Slack, IDE, CLI, MCP он там, где люди уже работают.

Лучший дашборд в мире проигрывает посредственному агенту, если агент отвечает в том же чате, где идёт обсуждение.

Мы стоим в начале этого перехода. Дашборды не исчезнут завтра — как не исчезли физические газеты с появлением интернета (хотя, если честно, когда вы в последний раз покупали газету?).

Но направление очевидно: от статичных отчётов к диалогу, от витрины к мозгу, от «посмотри сам» к «спроси и получи ответ, подтверди действие».

А у вас в компании сколько процентов дашбордов реально смотрят?

Источники

OpenAI: Inside our in-house data agent — основной источник
OpenAI acquires Rockset — официальное объявление о поглощении
Rockset — Database of Databases (CMU) — техническое описание архитектуры
Forbes: Analysis of OpenAI's Acquisition of Rockset — стратегический анализ
TechCrunch: OpenAI buys Rockset to bolster its enterprise AI — детали сделки ($117.5M, Sequoia, Greylock)
Medium: What Does OpenAI's Acquisition of Rockset Mean — "AI is a feature, data is the product"
Dataiku: The AI Agent Revolution for Self-Service BI — 80% дашбордов не используются
IBM: AI-Powered Business Intelligence — 25% adoption of BI tools, 80-90% planning AI analytics
Apache Doris — open-source аналог multi-index подхода Rockset
VeloDB — enterprise версия Apache Doris