Привет, Хабр! Меня зовут Стас Золотарев, я автор на курсах «Аналитик данных» и «Специалист по Data Science» в Яндекс Практикуме. В первой части статьи мы выяснили, как аналитик может использовать ИИ в своей повседневной работе и какие навыки в принципе нужны для этого.

Теперь поговорим про бизнес-пользователей, разговорную аналитику, а также возможные проблемы и ограничения в её применении. В этой статье я расскажу:

  • что такое семантический слой данных и почему без него невозможна разговорная аналитика,

  • порассуждаю о том, заменят ли ИИ-агенты привычные способы взаимодействия с данными — дашборды и таблицы.

Лирических отступлений сегодня не будет, поэтому сразу к делу.

ИИ для бизнес-пользователей: разговорная аналитика

Что такое разговорная аналитика и как её используют

Аналитики используют ИИ не только для оптимизации своих внутренних процессов, но и чтобы создавать инструменты для бизнес‑пользователей (заказчиков). Одно из наиболее заметных проявлений этого подхода — разговорная аналитика. 

В рамках неё сотрудники компании (условно, топ-менеджмент и руководители отделов) взаимодействуют с данными через ИИ-агентов. Работает это примерно так:

  • пользователь задаёт агенту вопрос на естественном языке, 

  • агент анализирует задачу, планирует шаги решения, 

  • после этого обращается к данным и вызывает свои инструменты для работы с ними 

  • и возвращает результат в удобной для человека форме — в виде числа, таблицы или графика. 

Задача аналитика здесь — собирать, дополнять и настраивать все данные и механизмы их обработки, чтобы агенты как можно лучше решали свои задачи.

Крупные технологические компании активно инвестируют в это направление. Google, например, развивает разговорную аналитику внутри BigQuery и Looker, встраивая LLM‑модели непосредственно в BI‑инструменты. Общий вектор очевиден: разговорный интерфейс становится ещё одним слоем доступа к данным.

Разговорная аналитика интерпретирует запросы на естественном языке, включая составные вопросы с общеупотребительными терминами вроде «продажи» и «горячие напитки», не требуя от пользователя указывать точные названия полей базы данных или задавать условия фильтрации (например, «тип напитка = горячий»)
Разговорная аналитика интерпретирует запросы на естественном языке, включая составные вопросы с общеупотребительными терминами вроде «продажи» и «горячие напитки», не требуя от пользователя указывать точные названия полей базы данных или задавать условия фильтрации (например, «тип напитка = горячий»)

В аналитическом контексте это означает переход от статичных отчётов и интерактивных дашбордов к диалоговому взаимодействию с данными.

Типичные вопросы к ИИ-агентам звучат максимально по‑бизнесовому, например: «Как изменилась выручка по клиентам из Москвы за последний квартал?» или «Какие продукты дали наибольший рост retention в этом месяце?»

В успешных сценариях ИИ корректно распознаёт метрику, период и фильтры, возвращая, например, процентное изменение выручки с графиком по месяцам или таблицу п��одуктов с приростом retention и визуальным ранжированием. Такие запросы хорошо работают, потому что опираются на чётко формализованные показатели и простую аналитическую логику.

Лучше всего разговорная аналитика показывает себя в описательных сценариях — когда нужно понять, что произошло, а не почему это произошло и что будет дальше. Она снижает порог входа в аналитику для менеджеров и операционных ролей, ускоряет работу с данными и, что важно, вынуждает команды чётче формализовывать метрики и бизнес‑логику. 

Плюсы и ограничения разговорной аналитики

Главное преимущество разговорной аналитики — пользователям не нужно понимать, как устроены отчёты, какие таблицы лежат в основе дашборда и где именно считается нужная метрика (за всё это отвечают аналитики). Достаточно сформулировать вопрос привычным языком — и ИИ сгенерирует ответ. Это подходит для одноразовых запросов: быстро посмотреть динамику показателя, сравнить сегменты или уточнить цифру, не погружаясь в BI-интерфейс.

На практике это снижает нагрузку на аналитиков в рутинных ситуациях. Вместо серии однотипных вопросов вроде «А можешь посмотреть выручку по этому сегменту?», бизнес получает инструмент самообслуживания. Аналитик при этом остаётся в контуре — он задаёт правила, описывает метрики и контролирует модель данных, — но меньше времени тратит на ручную поддержку.

Однако границы применимости проявляются довольно быстро. Если в данных существует несколько определений одной и той же метрики (например, gross и net revenue), либо бизнес‑термины интерпретируются неоднозначно («клиенты из Москвы» — это по юридическому или фактическому адресу?), система либо требует уточнения, либо молча делает допущение и даёт неполный или однобокий ответ. 

Неочевидная проблема — сложность контроля корректности ответов 

После ответа ИИ-агента, пользователь видит итоговое число или график, но не всегда понимает, какие именно фильтры и допущения были применены. В отличие от дашборда, где структура расчётов зафиксирована визуально, разговорная аналитика требует дополнительных механизмов прозрачности: пояснений, расшифровок и явного указания логики расчёта.

Наконец, разговорная аналитика часто отвечает на конкретный вопрос, но почти не даёт «общей картины». Бизнес получает ответ, не всегда видя контекст: как клиенты ведут себя в других сегментах, какие метрики связаны между собой и где находятся аномалии.

Из-за этого на практике разговорная аналитика пока распространена ограниченно. В продакшене такие решения чаще всего работают поверх строго заданного набора метрик — выручки, DAU/MAU, retention, churn — с заранее определёнными периодами, фильтрами и разрезами. 

Сейчас разговорная аналитика не заменяет дашборды, а дополняет их. Дашборды по‑прежнему остаются основным инструментом мониторинга и регулярного контроля показателей, а ИИ‑агенты — инструментом исследования, уточнения и быстрого доступа к данным. Это скорее аккуратное дополнение к классической аналитике, чем её полноценная замена — по крайней мере на текущем этапе развития ИИ-агентов.

И здесь мы подходим к ключевому элементу, без которого разговорная аналитика просто не работает.

Семантический слой данных

Что такое семантический слой?

Семантический слой — это перевод сырых данных в понятный бизнесу язык. Он объясняет, что именно означают цифры, и служит единым источником правды, чтобы все пользователи работали с одинаковыми метриками и понятиями.

Для аналитика наличие семантического слоя радикально меняет характер работы. Вместо того чтобы каждый раз пересобирать метрики и объяснять, почему цифры «не сходятся», он опирается на зафиксированные определения. Это снижает количество конфликтов между командами по поводу корректности расчётов и освобождает время для интерпретации результатов, а не для их пересчёта.

Инструменты для создания семантического слоя

Неважно, какое ПО вы используете. Семантический слой — это прежде всего функция, которая превращает сырые данные в понятные для бизнеса термины. К примеру, за это отвечают такие инструменты, как dbt или Looker.

dbt (data build tool) — это инструмент для трансформации данных внутри хранилища. Он описывает модели данных, метрики и зависимости между ними в виде кода, позволяет хранить их в Git, тестировать и следить за контролем версий. В контексте семантического слоя dbt часто используется для построения витрин данных и централизованного слоя метрик, где бизнес-логика формализована и проверяема. По сути, dbt помогает превратить SQL-скрипты в управляемый продукт с документацией и тестами. 

Семантический слой данных может быть реализован и в BI решениях. Например, Looker — это BI-платформа, в которой семантический слой реализуется через язык моделирования LookML. В Looker аналитик заранее описывает сущности, связи между таблицами, допустимые агрегации и бизнес-метрики. В Looker (и в экосистеме Google Cloud) ещё в 2024 году появились ИИ-функции, которые позволяют формулировать вопросы вроде «Покажи выручку по сегментам за последний квартал и сравни с прошлым годом» без написания SQL. Но ключевой момент в том, что такие ИИ-агенты не обращаются напрямую к таблицам хранилища. Они работают через описанную модель LookML — то есть через семантический слой, которым как раз и занимаются аналитики.

LookML (язык моделирования данных в платформе Looker) выполняет роль структурированного «слоя» между базой данных и языковой моделью (ИИ). Это повышает точность и снижает вероятность ошибок большой языковой модели
LookML (язык моделирования данных в платформе Looker) выполняет роль структурированного «слоя» между базой данных и языковой моделью (ИИ). Это повышает точность и снижает вероятность ошибок большой языковой модели

Что может пойти не так в разговоре с нейросетью

Если коротко — почти всё ¯\_(ツ)_/¯ 

С развитием разговорной аналитики и ИИ-интерфейсов значение семантического слоя становится критическим. Искусственный интеллект не «понимает» данные в человеческом смысле, а опирается на доступные поля, связи и описания. Если эти правила не заданы жёстко, модель начинает принимать решения самостоятельно — и не всегда корректно.

Представим простой вопрос: «Какая у нас выручка за квартал?» В базе могут существовать поля gross_revenue, net_revenue, recognized_revenue и booked_revenue. Без явного определения модель выберет одно из них — возможно, первое по алфавиту или наиболее часто используемое. Ответ будет выглядеть логично, цифра будет аккуратной, но бизнес-метрика может оказаться не той, что используется в отчётности. Ошибка будет не синтаксической, а смысловой.

Временные окна также становятся источником ошибок. Вопрос «Сколько активных пользователей в марте?» кажется очевидным, но что значит «активных»? Это пользователи с хотя бы одним визитом в марте? Или это MAU за март, рассчитанный как скользящее окно в 30 дней? Или пользователи, зарегистрированные в марте и совершившие действие? Если временные рамки не зафиксированы, ответ может быть логически последовательным, но фактически неверным.

Чаще всего проблемы начинаются с разночтений в определениях. Например, «активный пользователь» для маркетинга — это тот, кто хотя бы раз зашёл в продукт. Для продуктовой команды — тот, кто совершил целевое действие. Для финансов — тот, кто заплатил. Если эти различия не отражены в модели, каждая команда будет оперировать своей правдой. Это влияет на оценку retention, на маркетинговые бюджеты и на стратегические решения.

Подобные расхождения редко выглядят как сбой системы. Они вы��лядят как уверенный и очень аккуратный ответ — именно поэтому они опасны. Когда бизнес обнаруживает несоответствие цифр, доверие к инструменту падает. Разговорная аналитика, вместо того чтобы стать ускорителем принятия решений, превращается в дорогостоящий эксперимент.

Если аналитик не понимает устройство семантического слоя, он не способен валидировать ответы системы. В итоге он может принять «разумно звучащую» цифру за истину — и ошибка будет обнаружена уже на уровне управленческих решений.

Рекомендации по работе с семантическим слоем

Зрелая работа с данными требует дисциплины. Можно выделить несколько принципов, применение которые в работе над семантическим слоем данных  помогает превратить разговорную аналитику в инструмент, на который можно опираться при принятии решений:

  1. Метрики должны быть явно задокументированы: с определением, временным окном, уровнем агрегации и списком исключений. Формулы не должны содержать «магии»  — скрытых коэффициентов и неочевидных корректировок без объяснения. Логика расчётов должна быть прозрачной и проверяемой.

  2. Критически важно версионирование семантического слоя. Метрики меняются: появляются новые источники данных, обновляется бизнес-логика, корректируются правила отчётности. Если изменения не отслеживаются, невозможно понять, почему цифра сегодня отличается от цифры месяц назад. Хранение моделей в системе контроля версий и автоматическое тестирование инвариантов — например, что выручка не становится отрицательной или что суммы по сегментам сходятся с общим итогом — превращают слой в управляемый продукт, а не в набор скриптов.

  3. Наконец, в системах разговорной аналитики важно осознанно ограничивать свободу модели там, где цена ошибки высока. Финансовые показатели, показатели отчётности или юридически значимые метрики должны браться только из утверждённого списка и рассчитываться строго по заданной логике. Чем больше свободы у пользователя задавать произвольные вопросы, тем строже должны быть правила, ограничивающие интерпретацию.

Что в итоге

ИИ уже стал частью повседневной работы аналитика данных — прежде всего как инструмент ускорения и автоматизации. Разговорная аналитика открывает новые возможности для бизнеса, но не отменяет классические дашборды и отчёты. ИИ не меняет фундамент аналитики, но резко повышает требования к качеству данных, метрик и моделей.

А значит, роль аналитика смещается от «человека, который пишет запросы» к архитектору смыслов, определений и правил работы с данными. И именно в этом, а не в генерации SQL, сегодня заключается его основная ценность.