Pull to refresh
4
0
abgroup.tech@abgroup_tech

User

Send message

Оптимизация обработки данных: как мы перестроили пайплайн с Apache Iceberg и S3

Level of difficultyMedium
Reading time3 min
Reach and readers5.1K

Исходная задача и контекст

Перед нами стояла типичная для дата‑инженеров задача: обработать поток Parquet‑файлов с данными о внутренних технических процессах заказчика. Ключевой запрос — извлечь метаданные из таблицы, чтобы в дальнейшем работать с ними быстрее и удобнее.

В качестве основного инструмента мы выбрали Apache Iceberg — проверенный в наших проектах фреймворк для управления метаданными. Изначально пайплайн выглядел так:

Читать далее

OpenForm — новые умные формы ввода данных

Level of difficultyEasy
Reading time3 min
Reach and readers6.6K

В 2025 году команда abgroup.tech внесла продукт OpenForm в Реестр российского программного обеспечения, подтвердив статус надежного open-source решения для отечественного рынка

OpenForm — это система ввода данных, предназначенная для создания отчетов в соответствии с корпоративными регламентами. Система обеспечивает сбор и структурирование информации. Продукт адаптирован под сложные бизнес-процессы, поддерживает многостраничность, расчеты и строгий контроль данных, а также избавляет от ручного ввода и ошибок в Excel.

abgroup.tech занимается разработкой систем управления данными и аналитических порталов

Читать далее

Создание Data Lakehouse системы: кейс строительного холдинга

Level of difficultyMedium
Reading time7 min
Reach and readers4.1K

К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах.

При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта — полностью закрытый контур с доступом через терминальные решения.

Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали — kafka, dagster, s3+iceberg, trino, clickhouse и DBT. В результате получилось более 1000 моделей DBT, 1 тб сжатых данных, и объем продолжает расти.

Из потребителей данных — бизнес системы, Power BI отчеты, аналитики и дата‑инженеры, веб‑приложения, MDX‑кубы.

Методология ведения проекта Scrum, команда DWH‑инженеров 11 человек и greenfield‑разработка.

Читать далее

Information

Rating
Does not participate
Registered
Activity

Specialization

Фулстек разработчик, Бизнес-аналитик
SQL
Python
PostgreSQL
Базы данных
Apache Kafka