Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

@vera_romantsova 30 янв в 10:58

Менеджер данных: как новая роль изменила подход к работе с ML

10 мин

2.8K

Блог компании 2ГИСPython * Машинное обучение * Карьера в IT-индустрииData Engineering *

Кейс

Меня зовут Вера Романцова, я работаю в 2ГИС в команде компьютерного зрения. Мы создаём ML-модели и сервисы, которые автоматизируют работу с картами и данными.

Но перед тем, как обучить модель и выкатить сервис, есть ещё много работы по сбору датасетов и разработке моделей. И обычно все эти задачи выполняли ML-инженеры. В один из моментов моя будущая команда пришла к выводу, что для эффективных процессов разметки, сбора и валидации данных нужна отдельная роль — менеджер данных. Этим первопроходцем в нашей компании стала я.

В этой статье я расскажу:

🌚 Кто такой менеджер данных и чем он занимается.

🦾 Как эта роль помогла нашей команде ML-инженеров.

🔜 Когда такой специалист может понадобиться вам.

🔎 Как найти подходящего кандидата на эту позицию.

Читать далее

+21

@reskin 21 янв в 10:35

Перенос Orca в расширение Postgres: цели и детали реализации

Средний

10 мин

1.2K

Блог компании ArenadataData Engineering * PostgreSQL * Базы данных *

Обзор

Greengage Database — наш форк Greenplum Database. Основная идея — оставить исходный код открытым и продолжить разработку и совершенствование базы данных. Мы собираемся перенести Greengage Database на более новую версию Postgres, предоставив более богатый набор функций всем пользователям сообщества и нашим клиентам.

Но эта задача сложнее, чем может показаться. Ранее для реализации функций массивно-параллельных вычислений Greenplum Database основная функциональность Postgres была существенно переработана. Таким образом, обновление версии Postgres создавало огромные сложности. Например, переход с Postgres 9 на Postgres 12 потребовал огромных усилий — между мажорными релизами было почти 5 лет разработки.

Имея это в виду, мы начали масштабный рефакторинг ядра Greengage Database. Мы собираемся разделить ядро Postgres и специфичные функции Greengage Database, используя стандартные существующие средства Postgres для расширений.

Читать далее

+21

@fivelife 5 ноя в 03:02

Делаем LLM-советника по акциям РФ как в Alfa Arena

Простой

4 мин

13K

Python * Data Engineering * Искусственный интеллектКриптовалютыФинансы в IT

Кейс

Недавно стартовал необычный эксперимент — Alfa Arena, где шесть лучших LLM моделей (Claude 4.5 Sonnet, DeepSeek V3.1, Gemini 2.5 Pro, GPT-5, Grok 4 и Qwen 3 Max) соревнуются между собой в реальном трейдинге. Каждой модели дали по $10,000, и они торгуют криптой на бирже.

Что особенно интересно — это не просто шоу. Alfa Arena показывает принципиально новый подход в трейдинге. И хоть любопытно следить за тем, какая модель заработает больше денег или кто первый сольет, но настоящая ценность эксперимента совсем в другом.

Читать далее

+20

@para_7 3 окт в 14:16

PostgreSQL против 10 миллионов записей: оптимизация запросов, которая спасла наш проект

Средний

3 мин

15K

DevOps * Базы данных * PostgreSQL * Data Engineering * Серверная оптимизация *

Из песочницы

Это был обычный понедельник. Я пил кофе, проверял почту, и вдруг — волна уведомлений в Slack. «Сайт не грузится!», «Отчеты зависли!», «Что происходит?».

Наш проект, который успешно работал с несколькими сотнями тысяч записей, перешагнул психологически важный рубеж — 10 миллионов строк в таблице заказов. И PostgreSQL, который раньше летал, внезапно начал ползти как улитка.

Читать далее

+20

@IAlexOps 29 сен в 13:59

GitOps для Airflow: как мы перешли на лёгкий K8s-native Argo Workflows

Простой

8 мин

5.7K

Блог компании Альфа-БанкБлог компании KTSBig Data * Data Engineering * Машинное обучение *

Обзор

Привет! Меня зовут Александр Егоров, я MLOps-инженер в Альфа-Банке, куда попал через проект компании KTS.

За свою карьеру я построил четыре ML-платформы (одна из которых сейчас в Росреестре) и развиваю с командой пятую. Параллельно учусь в ИТМО по направлению «Безопасность искусственного интеллекта».

В этой статье я немного покритикую Airflow и поделюсь нашей историей миграции на связку Argo Workflows и Argo CD. Spoiler alert: технические подробности и результаты в наличии.

Читать далее

+20

@hypermachine 8 авг в 08:11

APL: математика на стероидах, о которой никто не говорит

Простой

10 мин

14K

Программирование * Data Engineering * Алгоритмы * Математика * Будущее здесь

Мнение

В 1957 году, когда компьютеры программировались на машинных кодах и ассемблере, канадский учёный Кеннет Айверсон задумался: как сделать описание алгоритмов столь же строгим, как математические формулы, но при этом ещё и сделать интерактивном исполняемым? Да-да, интерактивный язык в 60-х, задолго до пайтона, перла и тикля.

Так родился APL — сначала как академический инструмент для описания алгоритмов в книгах (например, в его работе "A Programming Language" 1962 г.), постепенно эволюционировавший в исполняемый язык.

Но причём здесь 2025-й год спросите вы?

Data Science: APL опередил NumPy/Pandas на 40 лет — матричные операции здесь вшиты в ядро.

Обучение: Лучший способ понять SVD или преобразование Фурье — записать их в APL.

Прототипирование: Проверить идею можно быстрее, чем ChatGPT сгенерирует ответ.

Почему об этом мало говорят?

Читать далее

+20

@beget_com 17 июл в 16:09

Основы ETL на примере работы с Superset, Airflow и ClickHouse

39 мин

6.8K

Блог компании BegetВизуализация данных * Data Engineering * Python *

В этой статье я расскажу, как можно запустить простой ETL-процесс на виртуальном сервере, используя связку Superset, Airflow и ClickHouse. В качестве платформы я взял готовую конфигурацию от Beget, включающую Superset и Airflow из коробки — это позволяет сосредоточиться на логике обработки данных, а не на настройке окружения.

В качестве примера мы подготовим процесс выгрузки и визуализации данных о товарах с сайта Wildberries.

Для извлечения данных мы будем использовать Python-библиотеки selenium и BeautifulSoup — они хорошо подходят для парсинга веб-страниц. Дополнительно применим re для обработки текстовой информации с помощью регулярных выражений.

Читать далее

+20

@VagDV 31 окт в 08:12

Выбираем open-source эмбеддинг-модель для AI-консультанта на русском (RAG-подход)

Средний

11 мин

9K

Искусственный интеллектПоисковые технологии * Big Data * Data Engineering * Natural Language Processing *

Из песочницы

Разрабатывая AI-консультантов и ассистентов на базе RAG-архитектуры, работающих с корпоративными базами знаний на русском языке, мы столкнулись с вопросом: какие открытые эмбеддинг-модели дают лучший баланс качества семантического поиска на русском и скорости работы. Особенно это актуально, когда запросы и документы русскоязычные, но внутри часто попадаются фрагменты кода/SQL и англоязычной терминологии.

Мы прогнали 9 open-source эмбеддинг-моделей через несколько тестов, включающих проверки:

Читать далее

+19

@devozerov 16 окт в 13:52

Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех

19 мин

7.4K

Блог компании CedrusDataBig Data * Data Engineering * Алгоритмы * Высоконагруженные системы *

В этой статье мы детально рассмотрим поведение аналитических движков при выполнении отдельного TPC-DS запроса на одном узле.

Это глубоко технический текст, в котором мы увидим, как (1) три родственных движка (Impala, StarRocks и Doris) с трудом справляются с конкурентной нагрузкой, (2) разработчики StarRocks и Doris затачивают дефолты своих движков под бенчмарки, (3) Trino реализует эффективный шедулер запросов, но имеет ряд дефектов, ухудшающих производительность, (4) Presto строит хорошие планы запросов, но демонстрирует катастрофически плохую производительность из-за отсутствия буквально одной фичи. Ну а победит, конечно, наш движок CedrusData.

Хочу, чтобы подгорело

+19

@select_zvezdo4ka_from 30 июл в 14:18

ClickHouse не тормозит, но теряет данные. Часть 1 — дедупликация

7 мин

11K

Data Engineering * Big Data * Базы данных * Серверное администрирование *

Туториал

ClickHouse не тормозит, но теряет данные. Набор простых действий с объяснениями, позволяющий избежать потери данных

Читать далее

+19

@art-adept 23 дек 2024 в 10:59

Разбор и стандартизация имен, адресов и других типов пользовательских данных в миллионных базах

14 мин

1.4K

Блог компании HFLabsBig Data * Data Engineering * Открытые данные * Анализ и проектирование систем *

Во всевозможных заявлениях, анкетах и обращениях пользователи вводят свои ФИО, адреса и прочие персональные данные в настолько разном формате, что даже человеку бывает сложно понять, где ошибки, а где правильное написание. Например, «Саша Петрович» — это имя с отчеством или фамилия с именем? А, может, это сокращённая форма имени? И кто перед нами — мужчина или женщина?

Такие же сложности возникают и с другими данными: адресами, телефонами, названиями компаний. В этом посте расскажем о наших методах разбора и стандартизации клиентских данных, разговор про которые начали в статье про поиск дубликатов при объединении огромных клиентских баз.

Читать далее

+19

@full_moon 15 авг в 09:47

Выбираем архитектуру данных для компании: руководство от дата-инженера

Средний

16 мин

8.1K

Блог компании Magnus TechData Engineering * Базы данных * Big Data * Хранение данных *

Перевод

Сегодня данные превратились в один из главных активов бизнеса. От того, как компания их использует, зависит и качество принимаемых решений, и эффективность процессов, и шансы обойти конкурентов.

Эпоха, когда бизнесу достаточно было просто владеть данными, осталась в прошлом. Теперь их нужно интерпретировать, делать легкодоступными, встраивать системы, поддерживающие принятие решений. При этом объемы данных растут, их форматы множатся, а сценарии использования — усложняются.

Чтобы справиться с этим, компании переходят на более гибкие подходы к управлению данными. В этой статье разберем четыре наиболее популярные архитектуры: Data Warehouse, Data Lake, Data Lakehouse и Data Mesh. Обсудим, чем они отличаются и какую выбрать под конкретные задачи.

Читать далее

+18

@ai_lab_experiments5566 25 июн в 09:16

Обнаружение дронов (БПЛА) с использованием ИИ и компьютерного зрения

Средний

8 мин

7.2K

Python * Искусственный интеллектМашинное обучение * Data Engineering * Data Mining *

Из песочницы

Обнаружение дронов (БПЛА) object-detection с использованием ИИ YOLOv12 и компьютерного зрения OpenCV.

Читать далее

+18

@ArtemBoiko 16 июл в 03:40

Автоматизация для всех: как n8n революционизирует рабочие процессы в бизнесе

Простой

12 мин

14K

Data Engineering * JavaScript * Python * Будущее здесьИскусственный интеллект

Туториал

До 2022 года я думал, что автоматизация — это удел только крупных компаний. Но в 2022 году я открыл для себя n8n, и всё изменилось. Теперь я автоматизирую рутинную работу, отчёты и даже целые бизнес-процессы — иногда менее чем за 30 минут. Вот как это работает, что меня удивило и что вы можете попробовать уже сегодня.

Читать далее

+17

@GolosCD 31 мар в 10:52

Sandbox DB: универсальная песочница для погружения в Big Data, аналитику и визуализацию

Простой

4 мин

7.7K

SQL * Data Engineering * Big Data *

Из песочницы

Recovery Mode

Запускайте PostgreSQL, ClickHouse, Airflow, Superset и другие инструменты одним кликом: учите, экспериментируйте, осваивайте новое!

Читать далее

+17

@appp_master 30 янв в 14:49

Apache Flink: использование и автоматическая проверка собственного сериализатора состояния

Сложный

11 мин

823

Блог компании МТСData Engineering * Big Data * Java * Распределённые системы *

Привет, Хабр! На связи Александр Бобряков, техлид команды МТС Аналитики. Это мой финальный пост про Apache Flink. В предыдущих частях мы рассматривали процессы сериализации данных, написали кастомный сериализатор, а также покрыли его тестами. В них проверялась поддержка эволюции схемы состояния. Для этого мы реализовали много удобных абстракций, связанных с перезагрузкой Flink MiniCluster, компиляцией тестовых java-классов, использованием их в classpath кластера и так далее.

В этом материале мы применим разработанный сериализатор JacksonStateSerializer в бою, а также автоматизируем проверку эволюции схемы для всех наших классов, участвующих в сериализации.

Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии. Данная статья соответствует релизной ветке с названием release/11_JacksonEvolvingState. По мере выхода новых материалов на Хабре ссылки на них будут появляться ниже.

Список моих постов про Flink:

Читать далее

+17

@alexeychumagin 29 окт в 11:03

DataHub не заменил наш самописный дата-каталог — и это нормально. Оптимизируем работу с метаданными

9 мин

5.8K

Блог компании Островок!Data Engineering * Big Data * IT-инфраструктура * Визуализация данных *

В Островке мы строим экосистему вокруг данных — от хранилищ и пайплайнов до систем мониторинга и каталогов. Но когда всё только начиналось, под часть наших процессов просто не существовало готовых решений. Так появился наш собственный дата-каталог DataPortal — лёгкий, быстрый и идеально подходящий для небольшой компании.

Со временем всё изменилось: объём данных вырос в десятки раз, появились новые команды, и вместе с этим начали звучать вопросы вроде «где лежат данные для этого дашборда?», «кому писать, если он упал?» и «можно ли этим данным доверять?». Так мы поняли, что пора взрослеть — и искать инструмент, который поможет масштабировать не только инфраструктуру, но и дата-культуру.

Мы выбрали DataHub — open-source каталог, обещавший прозрачность, автоматизацию и гибкость. Развернули, подключили источники, построили lineage, и даже порадовались, что всё заработало с первого раза. А потом стало ясно: DataHub не заменил наш DataPortal. Более того, оба инструмента отлично дополнили друг друга — инженерное ядро и удобное окно в данные для бизнеса.

Почему два дата-каталога оказались лучше одного, как это повлияло на культуру работы с данными и что нам дал DataHub помимо красивых графов lineage — рассказываем под катом.

Читать далее

+16

@ddmitry 5 окт в 20:04

Учебный кластер ClickHouse на Docker Compose: от нуля к работающему стенду

Средний

6 мин

11K

Big Data * Data Engineering * DevOps *

Туториал

Запускаем на ноутбуке учебный кластер ClickHouse — шардированный (sharding) и реплицируемый (replication) — на Docker Compose.
Это не один сервер в контейнере, а стенд из 2 шардов × 2 реплики, с координацией через ZooKeeper и балансировкой HAProxy — поднимается за несколько минут.
Зачем: на практике разобрать репликацию и распределение по шардам, увидеть базовую отказоустойчивость и спокойно экспериментировать — всё в контейнерах, всегда можно снести и развернуть заново.
Кому: новичкам, кто хочет «пощупать» кластер; тем, кто знает базовый синтаксис ClickHouse, но не пробовал шардирование/репликацию; тем, кто готовится к собеседованию или приценивается к архитектуре перед продом.
В комплекте — готовые конфиги и docker-compose.yml в репозитории; всё, что нужно, — Docker и несколько команд.

Читать далее

+16

@mark-rtb 20 фев в 11:19

Код устареет, принципы — останутся: подборка книг для мидлов и сеньоров в Data Science

Простой

3 мин

5.1K

Блог компании Ozon БанкBig Data * Машинное обучение * Профессиональная литература * Data Engineering *

Мнение

Привет! Меня зовут Марк Паненко, и я Chief Data Science в Ozon Банке. Сегодня я хочу поговорить не о моделях или фреймворках, а о том, что останется с вами — даже когда Python 3 сменится на Python 4, а PyTorch уступит место новым инструментам. О принципах — ну и о книгах, которые научат видеть их за строками кода.

Это вторая часть книжной подборки — в первой книги для джунов.

Читать далее

+16

@StanislavRG 14 янв в 10:06

Apache Kyuubi + Spark: как приручить большие данные

Средний

11 мин

2.8K

Блог компании ArenadataBig Data * Data Engineering * DevOps * Машинное обучение *

Обзор

Привет, Хабр! Меня зовут Станислав Габдулгазиев, и я архитектор департамента поддержки продаж Arenadata. В этом материале поделюсь впечатлениями от использования Kyuubi — инструмента, который значительно упрощает работу пользователей с SQL, а также затрону вопросы его сравнения с другими решениями для обработки больших данных.

Kyuubi — это сервис, предоставляющий механизмы для распределённого выполнения SQL-запросов поверх различных вычислительных движков, таких как Apache Spark, Hive, Flink и Impala. Он часть дистрибутива Arenadata Hadoop (ADH), который включает эти движки для обработки и анализа данных.

Читать далее

+16

3

4 5 ...