Articles / Profile of abgroup

abgroup.tech@abgroup_tech

User

Subscribers

ProfileArticles3PostsNewsComments2

abgroup_tech Feb 11 at 13:27

Оптимизация обработки данных: как мы перестроили пайплайн с Apache Iceberg и S3

Medium

3 min

5.2K

Data Engineering *

Opinion

Исходная задача и контекст

Перед нами стояла типичная для дата‑инженеров задача: обработать поток Parquet‑файлов с данными о внутренних технических процессах заказчика. Ключевой запрос — извлечь метаданные из таблицы, чтобы в дальнейшем работать с ними быстрее и удобнее.

В качестве основного инструмента мы выбрали Apache Iceberg — проверенный в наших проектах фреймворк для управления метаданными. Изначально пайплайн выглядел так:

abgroup_tech Jan 19 at 09:57

OpenForm — новые умные формы ввода данных

Easy

3 min

6.6K

Database Administration * Data storage *

Review

В 2025 году команда abgroup.tech внесла продукт OpenForm в Реестр российского программного обеспечения, подтвердив статус надежного open-source решения для отечественного рынка

OpenForm — это система ввода данных, предназначенная для создания отчетов в соответствии с корпоративными регламентами. Система обеспечивает сбор и структурирование информации. Продукт адаптирован под сложные бизнес-процессы, поддерживает многостраничность, расчеты и строгий контроль данных, а также избавляет от ручного ввода и ошибок в Excel.

abgroup.tech занимается разработкой систем управления данными и аналитических порталов

abgroup_tech Jul 26 2025 at 06:31

Создание Data Lakehouse системы: кейс строительного холдинга

Medium

7 min

9.6K

Data Engineering * Big Data * SQL * Open source *

Case

From sandbox

К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах.

При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта — полностью закрытый контур с доступом через терминальные решения.

Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали — kafka, dagster, s3+iceberg, trino, clickhouse и DBT. В результате получилось более 1000 моделей DBT, 1 тб сжатых данных, и объем продолжает расти.

Из потребителей данных — бизнес системы, Power BI отчеты, аналитики и дата‑инженеры, веб‑приложения, MDX‑кубы.

Методология ведения проекта Scrum, команда DWH‑инженеров 11 человек и greenfield‑разработка.

Оптимизация обработки данных: как мы перестроили пайплайн с Apache Iceberg и S3

OpenForm — новые умные формы ввода данных

Создание Data Lakehouse системы: кейс строительного холдинга

Information

Specialization