Как стать автором
Поиск
Написать публикацию
Обновить
77.56

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

ELT процесс в архитектуре Data lakehouse на базе open-source (kafka, dagster, s3+iceberg, trino, clickhouse и DBT)

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.6K

К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах.

При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта — полностью закрытый контур с доступом через терминальные решения.

Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали — kafka, dagster, s3+iceberg, trino, clickhouse и DBT. В результате получилось более 1000 моделей DBT, 1 тб сжатых данных, и объем продолжает расти.

Из потребителей данных — бизнес системы, Power BI отчеты, аналитики и дата‑инженеры, веб‑приложения, MDX‑кубы.

Методология ведения проекта Scrum, команда DWH‑инженеров 11 человек и greenfield‑разработка.

Читать далее

Новости

Стратегия успеха: ключи к развитию карьеры в Data Science

Уровень сложностиПростой
Время на прочтение18 мин
Количество просмотров1.7K

Привет! Меня зовут Анна Ширшова, я уже 14 лет работаю в Data Science. В этом материале вы найдете мой личный чек‑лист по развитию карьеры: как ставить цели, где искать возможности, какие ошибки тормозят рост и как их обходить. 

Работу в ВТБ я начала в качестве лида команды, которую сама собирала с нуля. За время работы она была расширена до целого Кластера моделирования для СRM и оптимизации. В него вошли четыре команды из DE, DS, MLOPs, системных аналитиков и тестировщиков, руководителем которого являюсь. 

Некоторые коллеги, которые тогда вошли в команду в качестве junior DS, сейчас уже являются лидерами (product owner) команд Кластера. На основе своего опыта найма и развития сотрудников в сжатые сроки, в этой статье делюсь как стопперами, которые, на мой взгляд, мешают развитию карьеры, так и возможными путями по их устранению.

Читать далее

По ту сторону океана: как мы съездили на Databricks Data + AI Summit

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров307

Представьте, что вы ни разу не выступали на конференциях или митапах, а тут решились и едете на ваше первое выступление, да не куда-нибудь, а на Data + AI Summit в Сан-Франциско. «Так не бывает!» — скажете вы, а я отвечу: «бывает!»

Привет! Это Женя Добрынин, Senior Data Engineer в Dodo Engineering. Сегодня я расскажу о том, как мы с коллегой ездили на конференцию в США, а заодно и о том, во сколько вам обойдётся такая поездка, и что нужно сделать, чтобы она состоялась.

Читать далее

Почему простой парсер не всегда решает задачу: мой опыт интеграции спортивных API

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров586

В рамках собственной системы спортивной аналитики я хотел получить real-time доступ к данным о движении коэффициентов — в частности, с платформы pickingodds.com. У сервиса интересная фича — визуализация графика изменения линии по каждому событию. Это потенциально полезный источник вторичных сигналов (например, для обнаружения аномалий, связанных с резкой коррекцией маркет-мейкеров).

Изначальный план был прост: интегрироваться по REST API, выкачивать данные раз в несколько минут, писать в TSDB, использовать далее для анализа и фичей в ML-пайплайнах. На практике же всё быстро ушло в зону нетривиальной оптимизации.

Читать далее

MWS Data Compass: как мы в МТС свой корпоративный BI построили

Время на прочтение10 мин
Количество просмотров841

Привет, Хабр! Я Павел Шестаков, Product Owner BI в MWS. За последние годы цифровой трансформации в нашей компании многие команды прошли путь от хаоса и пересылаемых друг другу «экселек» до удобных выстроенных процессов. И инструменты BI (Business Intelligence) сыграли в этом не последнюю роль.

Сегодня расскажу, как и почему мы внедряли и развивали свой BI и как добились того, что сейчас он обслуживает тысячи пользователей и покоряет внешний рынок. Это будет история про энтузиазм, стартап внутри корпорации, импортозамещение и, конечно же, работу с пользователями. Поехали!

Читать далее

AI-агенты в деле: 15 рабочих примеров для роста вашего бизнеса

Время на прочтение14 мин
Количество просмотров4.7K

AI-агенты радикально меняют подход технических команд к автоматизации, переходя от традиционных, основанных на правилах workflow к более динамичным, интеллектуальным системам, способным адаптироваться и принимать решения в реальном времени.

В отличие от статической автоматизации, основанной на предопределенных триггерах и действиях, AI-агенты используют большие языковые модели (LLM) для обработки сложных данных, понимания контекста и реагирования на непредсказуемые сценарии.

В этой статье мы рассмотрим 15 практических примеров AI-агентов, продемонстрируем, как они автоматизируют сложные задачи и оптимизируют рабочие процессы. Также мы объясним, как платформы вроде n8n упрощают разработку, кастомизацию и масштабирование AI-агентов для применения в реальных бизнес-кейсах.

Поехали!

Читать далее

Фабрика данных 2030: от GAN-конвейеров до каузальных сетей — кто отвечает за рождение синтетической реальности

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров965

Десять лет назад мы говорили о «данных–нефть». В 2025-м метафора смещается: нефть закончилась, а нужен устойчивый источник энергии. Синтетические данные перестали быть лабораторным трюком — к 2030-му они превращаются в топливо, на котором летят банки, медицина и индустриальный IoT. GAN-ы научились соблюдать дифференциальную приватность, диффузионные модели вытягивают сигнал из шума лучше, чем биржевые трейдеры, а причинные графы заставляют базы данных «думать» о бизнес-логике. Мы собрали всё — от свежих метрик PrivEval до реляционной магии SCM и агентных симуляций, — чтобы показать: синтетика уже не копия реальности, а песочница для инноваций. Если вы ищете способ ускорить ML-проекты, избавиться от юридических цепей и заглянуть в будущее генеративного ИИ, эта статья станет вашим порталом.

Читать далее

BI: 5 трендов в сфере ИИ

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров3.2K

Привет, Хабр! Сегодня я предлагаю немного порассуждать на тему ИИ в сфере BI-аналитики. В последнее время тема искусственного интеллекта все чаще поднимается на конференциях, да и мне самому все больше приходится рассуждать про ИИ и даже делать доклады о методах его применения (например, как на конференции Data&AI). Совершенно точно вокруг очень много хайпа и хочется разобраться, где же на самом деле ИИ в контексте BI-аналитики даёт реальное преимущество, а где — всё ещё нет.

Читать далее

Data Lake 2.0: Iceberg и Parquet в бою за миллисекунды

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2.8K

Привет, Хабр! Меня зовут Валерий Бабушкин, я CDO МТС Web Services. Если достаточно много занимаешься машинным обучением, то однажды начинаешь говорить про дата-инженерию — как герой, который много сражается со злом и в итоге сам переходит на темную сторону. Вот и моя очередь настала.

На последнем True Tech Day я рассказал, как Apache Iceberg и Apache Parquet позволяют построить современную инфраструктуру для больших данных. В этом материале я расскажу, какие задачи решает каждый инструмент, как они работают в связке, и сравню производительность Hive с Parquet-партициями против Iceberg с Parquet-таблицами.

Читать далее

Чат-бот с LLM в облаке: опыт Новосибирского государственного университета и инструкция по запуску

Время на прочтение10 мин
Количество просмотров1.9K

Сейчас мало кого удивишь чат-ботом в Telegram, даже если он на базе LLM. Но, согласитесь, таким умным решением может похвастаться не каждый университет.

На связи Роман Дерунец и Иван Бондаренко (@bond005) — научные сотрудники лаборатории прикладных цифровых технологий механико-математического факультета НГУ. В статье поделимся опытом разработки нашего университетского чат-бота: расскажем, зачем он понадобился НГУ, почему мы решили создать его с нуля и что важно знать тем, кто хочет такой же. А еще — поделимся инструкцией, как запустить похожее решение в облаке.

Читать дальше

Мы достигли пика в развитии ИИ!… или нет?

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров6.7K

Вы, наверное, и сами заметили: в последние месяцы в мире ИИ не происходит ничего по-настоящему прорывного, особенно если сравнивать с предыдущими четырьмя годами. Похоже, возможности искусственного интеллекта уперлись в потолок. Особенно заметно, как гигантские корпорации — и даже целые страны — пытаются всеми силами преодолеть этот кризис. Кто как может.

Читать далее

Реализация правил IBCS в Power BI

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров315

Создание понятных и информативных отчетов — ключевая задача для аналитиков и специалистов по данным. В этой статье мы разбираем, как стандарты IBCS (International Business Communication Standards) могут помочь улучшить визуализацию данных в Power BI, повысив их читаемость и эффективность. Рассмотрим, как связать ClickHouse с Apache Superset для создания мощных аналитических дашбордов и какие практики помогут вам избежать избыточности и повысить точность представленных данных.

Читать далее

Запускаем личный АИ-инфоконвейер: как я строю систему смыслового мониторинга с YAML и GPT

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.8K

Мне приходится тратить много времени на мониторинг арбитража, госзакупок и других документов: PDF на сотни страниц, новости с «водой», RSS при этом отсутствует.

Поэтому я решил разработать open-source инструмент, который сам проверяет сайты, скачивает документы и с помощью локального ИИ (GPT4All / DeepSeek) делает краткую смысловую выжимку по YAML-шаблону.

Он должен работать как конвейер: источник → шаблон → интерпретация → результат. Локально, без облаков. И объединять всё в единую ленту новостей.

Сейчас я дорабатываю MVP — и я хочу понять, какие шаблоны наблюдения наиболее востребованы: законопроекты, торги, релизы, или что-то ещё?

Читать далее

Ближайшие события

Как мы строим real-time data-пайплайны для анонимных крипто-свапалок: опыт на примере risetocrypto

Уровень сложностиСложный
Время на прочтение5 мин
Количество просмотров931

В мире криптовалют анонимность и безопасность являются ключевыми элементами. Когда речь идет о крипто-свапалках, эффективность обработки данных в реальном времени играет решающую роль для обеспечения высокого качества сервиса. В этой статье расскажем, как мы реализовали масштабируемую архитектуру для обработки данных на платформе risetocrypto с использованием передовых технологий.

Читать далее

Алгоритмы для работы с большими данными в Go: HyperLogLog и Count-Min Sketch

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров3.9K

Алгоритмы для работы с большими данными

Всем привет! Для начала давайте разберем что такое вообще Алгоритмы для работы с большими данными, основная суть алгоритмов для работы с большими данными  — это эффективная обработка огромных объёмов информации при минимальных вычислительных ресурсах (памяти, CPU, диске). Их суть — жертвовать точностью ради скорости и масштабируемости.

Читать далее

Развёртывание боевого кластера Cassandra. Часть 2

Уровень сложностиСложный
Время на прочтение15 мин
Количество просмотров2.4K

Это продолжение цикла, рассказывающего о практике развёртывания производственного кластера Cassandra. В первой части мы начали продвигаться вот по такому плану:

1. Анализ рабочей нагрузки и требований
2. Разработка схемы данных
3. Настройка хостовых машин
= ВЫ НАХОДИТЕСЬ ЗДЕСЬ =
4. Настройка конфигурации Cassandra
5. Настройка топологии кластера
6. Подключение Prometheus Cassandra Exporter
7. Подключение Prometheus Node Exporter
8. Вывод всех метрик в Grafana
9. Проведение нагрузочного тестирования
10. Дополнительный тюнинг по результатам теста

Продолжим?

Читать далее

Как уменьшить размер модели Power BI на 90%

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров3K

Вы когда-нибудь задумывались, что делает Power BI таким быстрым и мощным с точки зрения производительности? Настолько мощным, что он выполняет сложные вычисления над миллионами строк за мгновение.

В этой статье мы подробно рассмотрим, что находится «под капотом» Power BI: как данные хранятся, сжимаются, запрашиваются и, наконец, возвращаются в отчёт. После прочтения, надеюсь, у вас появится лучшее понимание того, что происходит в фоновом режиме, и вы сможете оценить важность создания оптимальной модели данных для достижения максимальной производительности с использованием движка Power BI.

Читать далее

Краткий обзор платформы данных Т-Банка

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров9.5K

Привет, Хабр! Меня зовут Дима Пичугин, и уже семь лет я занимаюсь различными компонентами T Data Platform. Эта статья — результат внутреннего аудита наших инструментов, но я подумал, что она может быть интересна не только нашим аудиторам, но и более широкой аудитории. Enjoy!

Платформа данных в Т-Банке существует более 18 лет и за это время прошла значительный путь эволюции. Она помогает более чем 17 тысячам пользователей извлекать из данных ценную информацию для бизнеса. За последние годы подходы к работе с данными заметно изменились: индустрия постепенно отходила от классических концепций хранилищ данных по Инмону и Кимбеллу в сторону Data Lake, а затем — Lakehouse-архитектур. Вместе с отраслью менялась и наша платформа.

В статье расскажу, как трансформировалась T Data Platform за 18 лет развития, и опишу ее текущее устройство — без погружения в технические детали, но с акцентом на общую архитектуру. Для тех, кому интересны отдельные инструменты или решения, оставлю ссылки на подробные материалы и выступления.

Читать далее

MCP: новая игра на рынке искусственного интеллекта

Время на прочтение14 мин
Количество просмотров15K

Всё, что нужно знать о Model Context Protocol (MCP)

«Даже самые продвинутые модели ограничены своей изоляцией от данных — они заперты в информационных силосах и легаси-системах».
Anthropic о важности интеграции контекста

Сегодняшние большие языковые модели (LLM) невероятно умны, но находятся в вакууме. Как только им требуется информация вне их «замороженных» обучающих данных, начинаются проблемы. Чтобы AI-агенты действительно были полезны, им нужно получать актуальный контекст в нужный момент — будь то файлы, базы знаний, инструменты — и даже уметь совершать действия: обновлять документы, отправлять письма, запускать пайплайны.

Так сложилось, что подключение модели ко всем этим внешним источникам данных было хаотичным и нестабильным: разработчикам приходилось писать кастомные интеграции или использовать узкоспециализированные плагины под каждый API или хранилище. Такие «сделанные на коленке» решения были хрупкими и плохо масштабировались.

Чтобы упростить это, Anthropic представила Model Context Protocol (MCP) — открытый стандарт, предназначенный для того, чтобы связать AI-ассистентов с данными и инструментами, подключая любые источники контекста. MCP был анонсирован в ноябре 2024 года. Тогда реакция была сдержанной. Но сегодня MCP — на волне: он уже обогнал LangChain по популярности и, по прогнозам, скоро обойдёт OpenAPI и CrewAI.

Крупные игроки AI-индустрии и open source-сообщества начали активно поддерживать MCP, видя в нем потенциально революционный инструмент для построения агентных систем на базе LLM.

Читать далее

Российский новый университет подключился к «РосНавыку»

Время на прочтение3 мин
Количество просмотров586

9 июля для ректората Российского нового университета (РосНОУ) при поддержке Университетского консорциума исследователей больших данных прошёл семинар сервиса «РосНавык». Этот мониторинговый сервис представила Дарья Олеговна Дунаева, менеджер проекта, ведущий аналитик научно-исследовательской лаборатории прикладного анализа больших данных Томского государственного университета.

Читать далее
1
23 ...

Вклад авторов