Мы часто воспринимаем дашборды как красивые визуализации – набор графиков, цифр и диаграмм. Но за этой «картинкой» скрывается огромный объём работы: настройка сбора данных, очистка, согласование метрик, построение архитектуры хранения и только затем — визуальная подача. Аналитик AkademiaDev [реклама удалена мод.] Сергей Тищенко подробно объясняет, из чего на самом деле состоит путь от сырых данных до управленческих инсайтов.
Дашборд это не просто картинка
Слово происходит от английского dashboard – приборная панель. По сути, это приборная панель, но для бизнеса. Она может отражать состояние процессов, достижение KPI, распределение финансов и т.д. Мне такое определение кажется суховатым. Для меня дашборд – это еще один способ рассказывать истории. У дашборда, как у театра или картины, есть свой визуальный язык: графики, цифры, таблицы, карты, цвет, размер.
За визуализацией данных стоит огромный объем кропотливого труда по сбору, описанию и выверке данных. В дашборде нет ни одной случайной цифры – показатели группируются и рассчитываются по определенной методике. Если при записи попался баг, дашборд будет выглядеть всё так же красиво, но лгать. А нет ничего хуже, чем дашборд, который выглядит красиво, но лжет. Этого можно избежать, если контролировать весь процесс прохождения данных от источника до итоговой визуализации.
Дашборд это не просто инфографика
Все, что было сказано выше, также применимо и для инфографики. Но инфографика рассказывает одну историю. А дашборд позволяет узнать всю, от общей картины до малейших деталей. Для этого как раз используют интерактивные элементы, и всевозможные фильтры. Именно фильтрация является основной отличительной особенностью подачи информации в дашборде, и также основной "сложностью".
Разберемся, откуда можно получить данные для дашборда и какие проблемы могут возникнуть в процессе их подготовки и выгрузки.
Откуда приходят данные

Аналитический процесс начинается с разнообразных, часто несовместимых источников. Среди них:
Excel-файлы;
выгрузки CRM;
данные форм, опросов, лендингов;
показатели соцсетей (лайки, подписки);
метрики посещаемости сайтов;
данные из 1С;
материалы, уже кем-то собранные в произвольных таблицах;
скриншоты таблиц в мессенджерах.
Кажется, что чем больше источников данных, тем лучше. Но есть один нюанс. Каждый источник “говорит” на своём языке: форматы дат, структура полей, часовые пояса, вложенные JSON, разная логика заполнения форм. Эти языки часто оказываются несовместимы друг с другом.
Что с этим можно сделать? Начать относиться к этому как к сырью, которое перерабатывают "Фабрики данных".
ETL или фабрика данных

Представим ситуацию: Нам нужно свести годовой отчет.
В качестве источника данных у нас 12 эксель файлов, которые ведут разные сотрудники в удобной им логике. Гуру экселя сможет, потратив уйму времени, свести все нужные данные и подготовить отчет.
А если нужно будет включить в отчет данные, которые формирует CRM, или вообще со стороннего api? Еще больше времени и ресурсов на процесс, который можно было бы автоматизировать. Можно решить эту проблему – наладить фабрику данных ETL.
ETL расшифровывается буквально:
Extract - Извлеки данные из всех доступных источников;
Transform -Трансформируй их в подходящий формат, посчитай;
Load - Загрузи данные в необходимое место.
Самое приятное в этом процессе то, что он автоматизирован и происходит в определенное время. Чтобы потоки данных оставались предсказуемыми и отслеживаемыми, придумали оркестраторы данных. Если вернуться к метафоре сцены, оркестратор – этот дирижер, который управляет всем представлением.
Он предлагает четкую инструкцию:
Сначала подключаемся к CRM;
Потом подтягиваем данные из API;
И добавляем разбивку по каждому менеджеру.
Airflow, NiFi, Dagster – это буквально укротители хаоса обновлений. Вместо поиска ошибки в формулах, у вас будут логи, в которых при необходимости можно отслеживать ошибки.
Но возникает вопрос, куда дальше фабрика данных складывает свои результаты?
Туда же, куда и любая другая фабрика – на склад, Data Warehouse или сокращенно DWH.
DWH и витрины данных: где рождается смысл
И вот наши данные уже не разбросаны по файлам и таблицам, а аккуратно сложены в базу данных. DWH – это не просто склад, а хранилище истины. Здесь у каждого объекта есть две стороны:
Факты, или события: покупка, посещение, эмоция, лайк;
Измерения, или фильтры: дата, регион, возраст, менеджер.
Вместе он�� создают осмысленные истории, из которых и строится дашборд. DWH – это место, где данные согласованы, метрики едины, а расчеты контролируемы.
Благодаря продуманной архитектуре склада, необходимые фильтры можно добавить с помощью буквально пары строчек SQL кода. Так как тут лежит только необходимое, системе не составляет труда отдать дашборду нужные метрики буквально за 3-5 секунд для всех таблиц, а не только для одной.
Таким образом рождаются витрины, тематические срезы под конкретные отчёты. Они передают данные для каждого конкретного виджета, и, как правило, разделены по тематике (PR, маркетинг, логистика, HR).

Возникает соблазн добавить на этот технологичный склад больше информации, которая может понадобиться в будущем – но этого делать не стоит, ведь тогда DWH придется расширять и данные будет не так просто искать.
Что же тогда делать с данными, которые не знаешь, куда определить? Для этого придумали Data Lake.
Data Lake – история о сохраненных знаниях
Вспомним один из кейсов AkademiaDev – визуализацию данных на фестивале “Ночь инноваций”. Яркий, впечатляющий дашборд с базой данных на отдельном компьютере, структурированными таблицами, и обновлением цифр на дашборде почти в реальном времени.

На этом проекте мы собирали данные по эмоциям, цвету одежды, наличию или отсутствию волос, демографии, возрасту. Более того, у нас были данные о перемещении по нескольким залам. Сами по себе они не кажутся полезными: да, мы знаем количество лысых людей в яркой одежде, но что это может нам дать?
Давайте попробуем взглянуть на это шире и подумать, с чем можно было бы объединить эти данные, чтобы они оказались полезны не только в моменте?
Именно с этим может помочь Data Lake – централизованное хранилище, которое может вмещать большие объемы необработанных данных.

Data lake позволяет хранить данные, которые могут пригодиться в будущем для создания визуализаций.
В нем хранится всё подряд:
Данные с датчиков и камер;
Выгрузки из CRM;
Данные о сотрудниках и их доступах;
Сырые Json из различных API;
Данные для обучения нейросетей;
Карты Москвы, России, и даже всего мира, в удобном формате, чтобы можно было быстро добавить их в дашборд;
Справочники с кодами стран, регионов, общепринятые сокращения.
Это то самое сырьё, из которого потом родятся инсайты, ещё не придуманные сегодня. Или те, для которых пока не собрано достаточно данных.
Поговорим, как это можно использовать в случае “Ночи инноваций”. Научившись хранить и обрабатывать собранные данные, мы могли бы делать предположения о том, какая аудитория сталкивается с нашими проектами на ивентах. Более того, в будущем можно будет попытаться узнать эту аудиторию лучше. Например, сопоставить данные с фестиваля с публикациями в соцсетях и привязать “всплески” положительных эмоций к конкретному времени. Также можно будет использовать WI-Fi ловушки, чтобы получить хешированные mac адреса, и сшить эти данные с информацией от Яндекс.Аудитории.
Данные позволят узнать, в какие моменты у посетителей возникали положительные эмоции, что побудило их перейти на сайт или подписаться на соцсети, какая механика на инсталляции заинтересовала их больше всего. Все это дает уже не только знания, но конкурентное преимущество.
Пока другие думают, нравится ли людям светящаяся фотозона, мы знаем, сколько людей там задерживались, снимали контент в соцсети и какие эмоции они испытывали.
Источники открытых данных
Если вы только начинаете самостоятельно собирать и хранить данные, можно развивать свое Data lake с помощью информации из открытых источников.
Вот несколько вариантов:
Open weather API. Самый популярный сервис, который предоставляет данные о погоде. К нему можно бесплатно обращаться 1000 раз в день – этого достаточно, чтобы собрать погодные данные по крупным городам России раз в час, или даже раз в полчаса, в зависимости от количества городов и потребности.
Dadata. Декодирование адресов, которые могут быть по-разному написаны, в координаты. Позволяет обработать 10000 адресов в день.
World Bank API. Предоставляет информацию по различным аспектам экономического и социального развития стран. Может быть полезен для глобальных исследований.
Alpha Vantage. Собирает данные финансового рынка в реальном времени и исторические данные через набор мощных и удобных для разработчиков API. Количество запросов: 5 запросов в минуту, 500 запросов в день.
Exchangerate-API. Показывает актуальные курсы валют, их конвертацию. 1500 запросов в день.
The Cat API. Самый важный API, который позволяет получить случайное фото котика. 10000 запросов в день. А на платном тарифе добавляются интересные факты.
Telegram API. Бесплатно отдает множество информации о группе: начиная от количества сообщений, заканчивая конкретным текстом. Предлагает огромный простор для тренировки ИИ на текстовых данных, ведь есть как текст, так и реакции на него. Минус в том, что для использования нужно быть админом в группе.
Источников открытых данных гораздо больше, и чтобы грамотно их использовать, важно понимать, какую именно информацию вы хотите найти. Помимо API, есть также источники данных, которые бесплатно делятся уже обработанной информацией. Приведем несколько таких источников:
Министерство культуры – один из моих любимых источников. У них есть, например, реестры прокатных удостоверений фильма или каталог произведений искусства в музеях РФ на 37 гб!
Еще очень развит портал открытых данных по Москве. Обещают 1247 наборов, не все одинаково полезны. Там можно найти геометрию (к сожалению, плоскую) для более чем 500 тысяч зданий Москвы. Если взять граф дорог из openstreetmap, то получится точная электронная копия Москвы! Также на портале есть данные пассажиропотоку по станциям метро, разбитые по кварталам.
Опять же, практически у каждого министерства есть страничка с открытыми данными, но не все они могут быть полезны – поэтому ресерч нужно делать под конкретную задачу.
Что это может дать бизнесу?
Итак, мы построили полноценную фабрику данных, наладили поставки сырья для будущих дашбордов, изучили открытые данные. Но нужно ли это бизнесу? Разберем, какие ответы можно получить благодаря анализу данных.
Выше качество стратегических решений. Данные позволяют лучше понимать, куда движется бизнес и насколько успешно достигаются поставленные KPI. Решения перестают быть интуитивными и опираются на конкретные метрики.
Возможность хранить знания. Без системной работы с данными опыт живёт в головах отдельных людей и исчезает вместе с ними, а отчеты хранятся в разрозненных таблицах и чатах. Когда данные попадают в Data Lake, они превращаются в общую память компании: можно вернуться к прошлым периодам, сравнить гипотезы, посмотреть, как менялись показатели после запуска кампаний или изменений в продукте.
Понимание финансовых результатов. Компания может не только ответить, сколько заработала на конкретном событии, но и учесть все скрытые расходы, отложенные платежи и долгие цепочки подрядчиков. Если есть история аналогичных проектов, дашборды помогают увидеть, какие мероприятия были убыточными, какие окупились и за счёт чего, а значит — взвешенно решать, имеет ли смысл повторять формат или менять механику.
Маркетинг и PR. Данные дают глубокое понимание целевой аудитории бизнеса, а также могут подсказать, где искать новых клиентов и как их можно привлечь. С их помощью можно отслеживать тренды в соцсетях, анализировать всплески интереса аудитории и выявить слабые места текущей стратегии.
Выводы
Когда в компании появляется культура работы с данными, ETL‑процессы, DWH и Data Lake перестают быть модными словами и становятся инфраструктурой, которая поддерживает бизнес и двигает его вперед. Дашборды систематизируют и презентуют ключевые знания: через них можно видеть, как построена организация, насколько эффективны внутренние процессы, какие возможности остаются нереализованными и какие решения дают эффект. Такой подход позволяет опираться не на интуицию, а на воспроизводимые данные, системно накапливать опыт и превращать его в конкурентное преимущество.
«Дашборды начинаются не с графиков, а с культуры обращения с данными.»
