Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

@andrew_109443 28 ноя в 09:38

Как автоматизировать загрузку данных в DWH и не сойти с ума

Простой

5 мин

7K

Блог компании GRIData Engineering * Хранение данных *

Кейс

Привет! Меня зовут Андрей, я Data Engineer в компании GRI. Мы занимаемся заказной разработкой, и один из наших ключевых клиентов — Sunlight. Я расскажу, как не тратить время на рутину в процессах и автоматизировать всё, что только можно. Это будет особенно актуально тем, кто в компании solo Data Engineer.

Читать далее

+2

@PhoenixLi 26 ноя в 09:08

От минут к секундам, от ClickHouse к StarRocks: путь к real‑time в Hello

Средний

12 мин

6.3K

Big Data * Data Engineering * Open source * Java *

Кейс

Recovery Mode

Кейс Hello: миграция 100+ млрд строк с ClickHouse на StarRocks. Как ускорить аналитику в 5 раз, снизить расходы на инфраструктуру на 80% и построить real-time DWH. Разбор архитектуры, самописных инструментов валидации и подводных камней перехода.

Читать далее

+2

@qlever 18 ноя в 15:48

Подход к построению DWH, основанный на единой инфраструктуре данных Unified Data Infrastructure или модели a16z

5 мин

9.2K

Высоконагруженные системы * Анализ и проектирование систем * Data Engineering * Big Data * Базы данных *

В статье рассказываем о подходе к построению DWH на базе единой инфраструктуры данных (Unified Data Infrastructure), разработанной Andreessen Horowitz.

Разбираемся, почему модель a16z полезна в быстрорастущих компаниях или тех, кто переходит к data-driven управлению.

Читать далее

+2

@ArtemVarkulevich 10 ноя в 08:56

Живое знание как процессный движок для импорта данных

Сложный

15 мин

4.2K

Data Engineering *

Кейс

Этот материал — про наш путь на ЛЦТ Фест 2025 в задаче «Интеллектуальный цифровой инженер данных». Мы пришли не с ещё одним «ML-демо», а с управляемым процессом импорта: Графовые структуры как мозг (сигнатуры, профили датасетов, шаблоны пайплайнов), MCP как оркестратор шагов, MinIO для presigned-загрузки без лишнего трафика, Airflow с одним универсальным DAG и Postgres на выходе. Вместо «магии нейросети» в критическом пути — алгоритмы и правила, а LLM — ассистент и объяснитель. Результат — предсказуемость, воспроизводимость и ощутимая экономия: один процесс вместо зоопарка MVP, storage-first вместо переделок, повторное использование классов и шаблонов вместо ручных костылей.

Читать далее

+2

@kucev 3 ноя в 11:00

GDPval: измерение производительности AI-моделей на реальных задачах

15 мин

7.7K

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

Наша миссия — обеспечить то, чтобы искусственный общий интеллект (AGI) приносил пользу всему человечеству. В рамках этой миссии мы стремимся максимально прозрачно освещать прогресс того, как AI-модели учатся помогать людям в реальной жизни. Именно поэтому мы представляем GDPval — новую систему оценки, разработанную для отслеживания того, насколько эффективно наши модели и модели других разработчиков справляются с задачами, имеющими экономическую ценность и практическое значение. Мы назвали эту метрику GDPval, потому что она вдохновлена концепцией валового внутреннего продукта (ВВП, англ. GDP) как ключевого экономического индикатора, а набор задач основан на типичных ролях в индустриях, которые вносят наибольший вклад в ВВП.

Люди часто рассуждают о масштабном влиянии AI на общество, но самый наглядный способ понять каков его потенциал, это посмотреть на то, что модели уже умеют делать на практике. История показывает, что крупным технологиям, от интернета до смартфонов, требовалось более десяти лет, чтобы пройти путь от изобретения до массового внедрения. Такие оценки, как GDPval, помогают приземлить разговоры о будущем ИИ на факты, а не на догадки, и дают возможность отслеживать прогресс моделей во времени.

Читать далее

+2

@Devenir-Glorieux 13 окт в 07:00

Когда чёрное золото становится умным: нефтегаз в эпоху AI

13 мин

4.3K

Data Engineering * Будущее здесьPython *

Перевод

Представьте инженера по добыче на центральном объекте в Permian Basin (прим.перев. крупнейший нефтегазовый бассейн США), которому до рассвета нужно успеть десятки дел. Одна скважина работает ниже нормы. Для другой нужно принять решение о капитальном ремонте. Данные разбросаны по электронным таблицам, SAP, PDF‑документам и полевым логам. Знакомая ситуация? А теперь представьте, что у инженера есть помощник, который читает все файлы по скважинам, анализирует сигналы SCADA, понимает исторические тенденции добычи, проверяет наличие запчастей на складе, формирует рекомендацию и отправляет краткий отчет руководителю операций — ещё до второй чашки кофе.

Читать далее

+2

@dar0nn 8 окт в 09:00

Как из готовых инструментов сделать систему на петабайт данных: рецепт счастья для разработчиков и бизнеса

14 мин

3.3K

Блог компании Конференции Олега Бунина (Онтико)Блог компании AGIMAData Engineering * Управление разработкой *

Любому бизнесу не нравится терять деньги — в этом смысл бизнеса. Каждая партия брака — это потраченные время и ресурсы, упущенная прибыль. Тогда бизнес приходит и говорит: «Давайте как-то измерять показатели, чтобы вовремя что-то менять, видеть всё это в реальном времени, и, главное — на основе данных». Так как же осчастливить сразу бизнес, разработчиков и себя?

Привет, Хабр! Я — Павел Лукьянов, системный архитектор и Deputy CTO в AGIMA. В этой статье по мотивам доклада с Saint HighLoad++ на примере одного из реальных кейсов с большим количеством внешних систем для сбора данных расскажу, как их собирать и обрабатывать, представлю готовые импортозамещённые инструменты для систематизации и хранения. Кроме того, покажу, почему не стоит заморачиваться из-за безопасности и по какой причине бизнесу важно следить за проектом в реальном времени и принимать решения.

Читать далее

+2

@Ozkolok 6 окт в 10:16

Как я сдал экзамен AWS DEA-C01 Data Engineering Associate в 2025 году

Простой

5 мин

5.1K

Amazon Web Services * Data Engineering * Базы данных * Облачные сервисы * Учебный процесс в IT

Из песочницы

Всем привет! Меня зовут Роман, и я хочу поделиться своим опытом сдачи экзамена AWS DEA-C01: Data Engineer Associate. Когда сам готовился, то много искал реальных отзывов и заметок о том, как проходит экзамен, как лучше всего готовиться и на что обращать внимание. Поэтому надеюсь, что мой опыт будет полезен.

Немного о себе: сейчас я учусь на дата-инженера, и уже через несколько месяцев завершаю программу обучения. Параллельно начал задумываться о будущем трудоустройстве и изучал доступные вакансии. Довольно быстро стало очевидно, что учебная программа и реальные ожидания компаний пересекаются не во всём: последние делают большой упор на облака.

В IT у меня почти не нет опыта, так как вся моя предыдущая деятельность связана с аналитическим маркетингом: построение моделей работы рынка, прогнозирование цен, решение разных оптимизационных задач. То есть, по-хорошему, будущему работодателю надо показать как знания, так и практические результаты их применения, а именно пет-проекты.

Так у меня и появилась первая цель — подготовиться и успешно сдать экзамен DEA-C01.

Читать далее

+2

@kucev 2 окт в 11:00

IT-лидеры видят большой бизнес-потенциал в малых моделях ИИ

5 мин

5.4K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

ИТ-лидеры видят большой бизнес-потенциал в малых моделях ИИ благодаря гибкости, низкой стоимости и нацеленности на конкретные задачи малые языковые модели (SLM) лучше подходят для бизнес-специфичных приложений и вскоре могут обойти LLM по использованию в корпоративной среде.

Читать далее

+2

@koptelovak 18 сен в 13:45

Data Governencе – это про ответственность за данные и их качество

Простой

6 мин

4.6K

Блог компании OTUSData Engineering *

Мнение

Мой опыт работы больше связан с темой анализа и оптимизации бизнес-процессов, поэтому процессное регулирование (process governance) мне было знакомо не понаслышке: реестр процессов, владельцы процессов, непрерывный цикл улучшения процессов, требования к целевому состоянию процессов (описан, измеряется, оптимизирован, оцифрован). Еще помню еженедельные заседания комитета по бизнес-процессам, секретарем которого я являлся несколько лет, а возглавлял этот комитет – ключевой руководитель в организации.

Поэтому, когда в мне потребовалось разобраться с системой управления данными, мне было не сложно, просто меняется объект управления и добавляется специфика объекта, то есть данных.

Для тех, кто не знает, что такое регулирование (governance) и чем оно отличается от обычного управления, регулирование – это практики для больших организаций, которые фокусируются на создании организационной среды, в которой «классическое» управление сможет эффективно функционировать, а также в поддержании этой среды на необходимом уровне.

Читать далее

+2

@anselvo 1 сен в 12:32

Ivory — удобный инструмент для работы с кластерами PostgreSQL

Средний

3 мин

6.3K

PostgreSQL * DevOps * Data Engineering *

Обзор

Перевод

Ivory — это бесплатный open-source инструмент с веб-интерфейсом, созданный для управления кластерами PostgreSQL, которые работают под контролем Patroni. Если раньше для таких задач приходилось использовать командную строку или Patroni API, то с Ivory всё можно делать через удобный браузерный интерфейс.

Цель проекта — упростить жизнь администраторам баз данных (DBA) и разработчикам:

Читать далее

+2

@mipt_digital 27 авг в 09:00

Строим корпоративную GenAI-платформу: от концепции до ROI. Часть 4. Безопасность и ограничения (guardrails)

7 мин

8.7K

Блог компании Центр «Пуск» МФТИМашинное обучение * Информационная безопасность * Data Engineering * Анализ и проектирование систем *

Роадмэп

Это четвертая статья специалиста по архитектуре ИТ-систем и трансформации ИТ-ландшафта Дениса Прилепского из серии «Строим корпоративную GenAI-платформу: от концепции до ROI». Он объясняет, какие бывают guardrails, как они встроены в архитектуру платформы и зачем нужны: от защиты пользователей до соответствия требованиям регуляторов.

Читать далее

+2

@PhoenixLi 21 авг в 11:00

StarRocks и Trino: сходства, различия, бенчмарки и кейсы

Средний

8 мин

4.4K

Data Engineering * Big Data * Сжатие данных * Базы данных *

Перевод

Проект Trino (ранее PrestoSQL) изначально разработан в Meta, чтобы аналитики могли выполнять интерактивные запросы по широкому спектру хранилищ данных на базе Apache Hadoop. Благодаря эффективной обработке крупных наборов и сложных запросов, а также гибкому подключению к множеству источников данных, Trino быстро стал предпочтительным инструментом аналитики для крупных организаций.

Со временем потребности пользователей в аналитике эволюционировали. С ростом мобильного интернета и SaaS-приложений критически важной стала оперативная (в том числе потоковая) аналитика. Компаниям потребовались более производительные движки, поддерживающие большое число одновременных запросов и обеспечивающие низкие задержки. На этом фоне всё больше пользователей стали искать альтернативы.

StarRocks как новый аналитический движок получил широкое признание отрасли. Он демонстрирует заметные преимущества по производительности, поддержке высокой степени параллелизма и низкой задержке, привлекая внимание крупных компаний, таких как WeChat , Xiaohongshu (RedNote), Ctrip, Beike и др. Как именно StarRocks формирует свои преимущества? В чём его сходства и различия с Trino? Ниже — подробный разбор.

Читать далее

+2

@kucev 21 авг в 11:00

Time Horizon моделей AI: почему рост скорости зависит от сферы применения

21 мин

3.5K

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

В статье Measuring AI Ability to Complete Long Software Tasks (Kwa & West и др., 2025) команда METR ввела понятие 50% time horizon модели: это длительность задачи (в пересчете на время выполнения профессиональным подготовленным человеком), которую модель может автономно завершить с вероятностью 50%. Мы оценили time horizon у флагманских моделей, выпущенных с 2019 года, на бенчмарке, объединяющем три набора задач в области программирования и исследований, с длительностью от 1 секунды до 16 часов для человека (HCAST, RE-Bench и SWAA; далее — METR-HRS). METR обнаружила, что time horizon удваивается каждые 7 месяцев, с возможным ускорением до 4 месяцев в 2024 году.

Существенным ограничением того анализа был домен задач: все они относились к программной инженерии или исследовательской деятельности, в то время как известно, что способности AI значительно варьируются между типами задач^[1]. В этом исследовании мы рассматриваем, сохраняются ли аналогичные тренды к другим типам задач, включая автономное вождение и агентное использование компьютера, применяя методологию, позволяющую оценивать time horizon на менее детализированных данных. Данные для многих из этих бенчмарков менее надежны по сравнению с оригинальной работой, и результаты по каждому отдельному бенчмарку следует трактовать как шумные. Однако в совокупности они демонстрируют схожую динамику.

Домен программного обеспечения и reasoning-задач — таких как научные QA (GPQA), математические соревнования (MATH, Mock AIME), полуреалистичные задачи по программированию (METR-HRS) и соревновательное программирование (LiveCodeBench) — показывает time horizon в диапазоне 50–200+ минут, который в настоящее время удваивается каждые 2–6 месяцев. Таким образом, ~100-минутные time horizons и ~4-месячное время удвоения, наблюдавшиеся на METR-HRS в исходной работе, скорее всего, не являются исключением.

Читать далее

+2

@PhoenixLi 8 авг в 05:51

StarRocks 3.5: Snapshot, Load Spill, партиции, MV, транзакции, безопасность

Сложный

5 мин

5.5K

Java * Data Engineering * Big Data *

Ретроспектива

Перевод

StarRocks 3.5 приносит точечные улучшения по надёжности, производительности и безопасности: кластерные Snapshot для DR в архитектуре shared-data (разделение хранения и вычислений), оптимизацию пакетной загрузки (Load Spill) для сокращения мелких файлов и пропуска Compaction, более гибкое управление жизненным циклом партиций (слияние по времени и автоматический TTL), многооператорные транзакции для ETL, ускорение запросов по озеру данных через автоматические глобальные словари, а также поддержку OAuth 2.0 и JWT.

Читать далее

+2

@MaxRokatansky 22 июл в 12:02

Архитектура корпоративных данных: AWS + Snowflake

21 мин

1.1K

Блог компании OTUSИнформационная безопасность * IT-инфраструктура * Data Engineering * Data Mining *

Перевод

Одна из самых больших проблем, с которой, как мы видим, сталкиваются дата‑инженеры и инженеры‑аналитики, — это то, что они тратят слишком много времени на поддержание устаревшей инфраструктуры, не имея при этом четкой наблюдаемости сбоев в работе конвейера.

Это приводит к тому, что они постоянно находятся в состоянии тушения пожара и не могут сосредоточиться на решении более важных задач. И хуже всего то, что из‑за этого бизнес теряет доверие к данным.

Читать далее

+2

@protmaks 8 июл в 09:26

Сделал простое сравнение Excel и CSV Онлайн без загрузки — MaksPilot

Простой

2 мин

1.3K

Data Engineering * Open source *

Обзор

Перевод

Здравствуйте! Меня зовут Максим — я Senior Data Engineer, и мне нравится максимально автоматизировать все в своей работе. Последние несколько лет я активно перевожу проекты с устаревшей системы SAS на Databricks. Мне часто приходится сравнивать разные таблицы, и у меня уже есть многочисленные наработки для этого.

Однако недавно возникла необходимость сравнить данные в двух файлах Excel или файле Excel и CSV. Поскольку результатом работы скрипта в SAS был Excel, а по умолчанию таблица из Databricks может быть выгружена в CSV. Прототип был на Databricks, с помощью Python можно загружать Excel в таблицы и также сравнивать.

Из минусов — получаем таблицу, в которой невозможно выделить отличающиеся ячейки. Поэтому возникла идея: а что если создать простой сайт сравнения, который будет более удобен для этой задачи и может использоваться также бизнес пользователями.

Меня вдохновил продукт с открытым исходным кодом PondPilot, который может легко открывать различные файлы таблиц в браузере, но мне не хватало функциональности, и к тому же нужно было понимать синтаксис Duck SQL.

Так родился мой довольно простой, но удобный проект MaksPilot, который на данный момент решает следующие задачи:

Можно сравнивать Excel и Excel или Excel и CSV. Есть поддержка Excel с вкладками.

Читать далее

+2

@kucev 9 июн в 11:01

MCP — новая эра в AI или просто модное слово?

6 мин

3.6K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

TL;DR: MCP стремительно набирает обороты. Сейчас уже существуют тысячи MCP-"серверов", и хотя эту концепцию изначально предложила Anthropic, всего несколько дней назад к ней присоединилась и OpenAI. Серверы — это что-то вроде "приложений" для ИИ, но, что важно, они гораздо более гибко сочетаются между собой. Мы наблюдаем зарождение полноценной AI-экосистемы — аналогично тому, как это происходило с мобильными платформами десять лет назад.

Подробности:

MCP (Model Context Protocol) был представлен Anthropic в ноябре 2024 года как открытый стандарт. Хотя поначалу реакция сообщества была сдержанной, за последние месяцы протокол стал развиваться. В конце марта даже OpenAI — главный конкурент Anthropic — официально внедрила его.

Но что это такое и почему это важно?

Читать далее

+2

@MaxRokatansky 23 мая в 16:49

Какую архитектуру данных мне выбрать? — Подход Data-инженера. Часть 1

Простой

16 мин

3.9K

Блог компании OTUSData Engineering *

Перевод

Выбор архитектуры данных — это не просто техническое решение, а стратегический шаг, от которого зависит эффективность работы с данными во всей компании. Data Warehouse, Data Lake, Lakehouse или Data Mesh — у каждого подхода есть свои сильные и слабые стороны, и не существует универсального ответа. В этой статье — прагматичный разбор современных архитектур с точки зрения дата-инженера с акцентом на реальные кейсы. Если вы стоите перед выбором или хотите убедиться, что двигаетесь в правильном направлении — разложим всё по полочкам.

Читать далее

+2

@alealandreev 22 мая в 09:30

SRE в инженерии данных: профессия и ее перспективы

Простой

23 мин

3.4K

Big Data * Data Engineering * DevOps * Kubernetes * Системное администрирование *

Обзор

Всем привет! Меня зовут Александр Андреев, я старший SRE дата-инженер в компании "Криптонит". Сегодня я хочу рассказать о необычной, но набирающей обороты роли в области обработки данных - SRE Data Engineer: кто это такой, чем занимается, как им стать, куда развиваться и какие перспективы у этой профессии.

Читать далее

+2

1 2 ...

16