Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

kxyfi 7 окт в 11:24

Как мы захотели контролировать SPILL’ы в Greenplum и сделали «Демократизатор»

Сложный

16 мин

6.6K

Блог компании РостелекомBig Data * Базы данных * Data Engineering * IT-инфраструктура *

Кейс

Представьте: Один неоптимизированный запрос от неопытного коллеги - и вот уже 40 ТБ SPILL-файлов парализуют систему.

Срабатывает лимит на уровне Greenplum, запрос завершён. Никто ничего не знает.

Создаются заявки, пишутся письма, пользователь недоволен.

Это не какая-то выдуманная история, а обычный будний день в большом Greenplum. Вернее, так было раньше.

Читать далее

+14

thedarksideblog10 6 окт в 19:50

AgentKit от OpenAI: как закончилась эпоха хаоса в мире ИИ-агентов

Средний

4 мин

11K

Data Engineering * Визуальное программирование * Искусственный интеллектМашинное обучение *

Обзор

До сегодняшнего дня сборка и запуск AI-агентов напоминала джунгли. Разработчики метались между десятками несовместимых SDK, кастомных пайплайнов и ручных интеграций. Построить надёжного агента значило неделями клеить код, чинить баги в оркестрации и постоянно балансировать между скоростью и качеством. Теперь OpenAI предлагает другой путь — AgentKit, набор инструментов, который объединяет в себе всё, что раньше требовало десятков фреймворков и недель настройки.

Читать далее

+5

Ozkolok 6 окт в 10:16

Как я сдал экзамен AWS DEA-C01 Data Engineering Associate в 2025 году

Простой

5 мин

5.1K

Amazon Web Services * Data Engineering * Базы данных * Облачные сервисы * Учебный процесс в IT

Из песочницы

Всем привет! Меня зовут Роман, и я хочу поделиться своим опытом сдачи экзамена AWS DEA-C01: Data Engineer Associate. Когда сам готовился, то много искал реальных отзывов и заметок о том, как проходит экзамен, как лучше всего готовиться и на что обращать внимание. Поэтому надеюсь, что мой опыт будет полезен.

Немного о себе: сейчас я учусь на дата-инженера, и уже через несколько месяцев завершаю программу обучения. Параллельно начал задумываться о будущем трудоустройстве и изучал доступные вакансии. Довольно быстро стало очевидно, что учебная программа и реальные ожидания компаний пересекаются не во всём: последние делают большой упор на облака.

В IT у меня почти не нет опыта, так как вся моя предыдущая деятельность связана с аналитическим маркетингом: построение моделей работы рынка, прогнозирование цен, решение разных оптимизационных задач. То есть, по-хорошему, будущему работодателю надо показать как знания, так и практические результаты их применения, а именно пет-проекты.

Так у меня и появилась первая цель — подготовиться и успешно сдать экзамен DEA-C01.

Читать далее

+2

VladAleshin 6 окт в 08:15

Как мы в Циане готовим Data Vault на GreenPlum

Простой

8 мин

3.5K

Big Data * Базы данных * SQL * Data Engineering *

Из песочницы

Привет! Меня зовут Влад, я DWH-инженер в Циан. Занимаюсь проектированием витрин и пайплайнов для доставки данных в корпоративное хранилище. В этой статье хочу поделиться опытом применения методологии Data Vault на Greenplum.

Data Vault часто упоминают рядом с Kimball и Inmon, но практических материалов по его внедрению заметно меньше. Для инженеров, которые только начинают строить DWH или думают о переходе на Data Vault, я собрал практический разбор: на каких задачах методология действительно помогает, с какими трудностями можно столкнуться и как это выглядит в реальном проекте.

Читать далее

+1

ddmitry 5 окт в 20:04

Учебный кластер ClickHouse на Docker Compose: от нуля к работающему стенду

Средний

6 мин

11K

Big Data * Data Engineering * DevOps *

Туториал

Запускаем на ноутбуке учебный кластер ClickHouse — шардированный (sharding) и реплицируемый (replication) — на Docker Compose.
Это не один сервер в контейнере, а стенд из 2 шардов × 2 реплики, с координацией через ZooKeeper и балансировкой HAProxy — поднимается за несколько минут.
Зачем: на практике разобрать репликацию и распределение по шардам, увидеть базовую отказоустойчивость и спокойно экспериментировать — всё в контейнерах, всегда можно снести и развернуть заново.
Кому: новичкам, кто хочет «пощупать» кластер; тем, кто знает базовый синтаксис ClickHouse, но не пробовал шардирование/репликацию; тем, кто готовится к собеседованию или приценивается к архитектуре перед продом.
В комплекте — готовые конфиги и docker-compose.yml в репозитории; всё, что нужно, — Docker и несколько команд.

Читать далее

+16

kruglikle 5 окт в 10:19

Учебник под микроскопом. Часть 2. Предобработка текста: регулярки, токенизация и лемматизация на практике

Простой

4 мин

6K

Python * Data Mining * Data Engineering *

Туториал

В статье рассмотрен процесс предобработки текстов учебников для последующего анализа и обучения моделей машинного обучения. Показано, как из "сырого" текста, извлечённого из PDF, получить очищенный, структурированный и готовый к обработке набор данных. Основное внимание уделено этапам очистки текста от лишних символов, нормализации регистра, токенизации, лемматизации и удалению стоп-слов, а также POS-теггингу. Для каждого этапа приведены примеры с использованием Python и библиотек spaCy, re, а также альтернативные инструменты (NLTK, ftfy, clean-text). В качестве практического применения рассматривается проект EduText Analyzer, направленный на автоматизированный анализ учебников по иностранным языкам. Данные после предобработки сохраняются в форматах CSV и TXT, что обеспечивает дальнейшую обработку, анализ и обучение моделей. Статья предназначена для исследователей в области NLP, педагогов и разработчиков образовательных технологий.

Читать далее

+3

EvgeniyRasyuk 5 окт в 06:48

Data Forge: Собираем весь современный дата-стек на своем ноутбуке одной командой

Простой

4 мин

5.7K

Big Data * Data Engineering *

Туториал

Привет, Хабр!

Давайте признаемся: порог входа в Data Engineering довольно высок. И дело не только в знании SQL или Python. Настоящая боль начинается, когда ты пытаешься собрать на своей машине хотя бы простенький пайплайн.

Нужно поднять Kafka, рядом поставить Zookeeper (или обойтись Kraft, если ты хипстер), прикрутить Debezium для CDC, развернуть Spark для обработки, где-то хранить результат (привет, MinIO!), а потом всё это оркестрировать через Airflow и визуализировать в Superset. Каждый инструмент — это отдельный Docker-контейнер, своя конфигурация, свои порты и свои зависимости. Через пару часов борьбы с docker-compose.yml и сетевыми настройками желание учиться и экспериментировать улетучивается.

Знакомо? А что, если я скажу, что весь этот зоопарк можно поднять одной командой, и он просто... заработает?

Сегодня я хочу рассказать о проекте, который стал для меня настоящей находкой — Data Forge. Это готовая песочница для дата-инженера, или, как называет её автор, "Data Engineering Playground".

Читать далее

+9

thedarksideblog10 4 окт в 11:15

Как я пытался сделать нейросеть аналитиком: провалы и уроки

Средний

3 мин

10K

Data Engineering * Искусственный интеллектАналитика мобильных приложений *

Из песочницы

Наверняка многим знакома ситуация: у тебя есть куча данных, отчетов, KPI, а команда тонет в Excel‑таблицах и Jira‑тикетах. И вот тебе кажется, что решение простое: «Давайте посадим нейросеть на аналитику».

Я решил попробовать. И вот что из этого вышло.

Читать далее

+4

KhanAta 3 окт в 16:16

Байесовский анализ и временные ряды в прогнозировании отказов оборудования на примере нефтегазовых компаний

Простой

7 мин

7.4K

Data Engineering * Python * Big Data * Data Mining *

Из песочницы

Предсказание отказов оборудования в нефтегазовой отрасли задача, которая напрямую связана с деньгами и безопасностью. Простои установки стоят миллионы, а аварии могут привести к еще большим потерям. В компаниях вроде X и Z тема предиктивного обслуживания обсуждается не ради модернизации ради самой модернизации, а потому что каждый дополнительный час работы без поломки снижает затраты.

В отличие от прогнозирования спроса или продаж, где данных много и повторяются стандартные паттерны, с отказами все иначе. Оборудование способно работать месяцами без проблем, а потом неожиданно ломается. Получается, что у нас есть длинная история "все было нормально" и очень мало записей про то, как и когда все же что-то сломалось.

Читать далее

+4

para_7 3 окт в 14:16

PostgreSQL против 10 миллионов записей: оптимизация запросов, которая спасла наш проект

Средний

3 мин

15K

DevOps * Базы данных * PostgreSQL * Data Engineering * Серверная оптимизация *

Из песочницы

Это был обычный понедельник. Я пил кофе, проверял почту, и вдруг — волна уведомлений в Slack. «Сайт не грузится!», «Отчеты зависли!», «Что происходит?».

Наш проект, который успешно работал с несколькими сотнями тысяч записей, перешагнул психологически важный рубеж — 10 миллионов строк в таблице заказов. И PostgreSQL, который раньше летал, внезапно начал ползти как улитка.

Читать далее

+20

SiYa_renko 3 окт в 14:05

Что такое DWH и зачем оно нужно бизнесу?

Простой

5 мин

6K

Блог компании OTUSBig Data * Data Engineering * Хранение данных *

Обзор

Всем привет! Сегодня рассмотрим, что из себя представляет Data Warehouse и зачем оно нужно вашему бизнесу.

Статья рассчитана на то, чтобы дать общее представление широкой аудитории, так что возможны упрощения и небольшие неточности – буду рада подискутировать о них в комментариях, если вы заметите их.

Подробнее о DWH

+6

1kotleta 3 окт в 11:00

Почему не стоит заменять пустые значения нулями в Power BI

Простой

5 мин

3.8K

Big Data * Data Engineering * Визуализация данных * Хранение данных *

Аналитика

Перевод

Вас просили заменить пустые значения нулями в отчетах? Возможно, стоит дважды подумать, прежде чем это делать!

Читать далее

+1

MaxRokatansky 2 окт в 16:48

Apache Kafka: ZooKeeper vs KRaft — полное сравнение подходов

10 мин

7.7K

Блог компании OTUSApache * Big Data * Data Engineering *

Apache Kafka — один из самых популярных распределенных систем потоковой передачи данных. Исторически Kafka использовала Apache ZooKeeper для управления кластером, но с версии 2.8.0 появилась альтернатива — KRaft (Kafka Raft Metadata mode).

В этой статье мы подробно рассмотрим оба подхода, их преимущества и недостатки, а также поможем выбрать правильный путь для вашего проекта в микросервисной архитектуре.

И, чтобы статья была практико-ориентированной, мы рассмотрим примеры того, как можно поднять в Docker оба варианта кластера.

Перейти к сравнению

+3

runity 2 окт в 11:30

RAG на практике: как мы в Рег.облаке на базе ИИ-ассистента собрали бота для поддержки в Rocket.Chat

Простой

5 мин

6.5K

Блог компании РунитиGPGPU * Искусственный интеллектData Engineering * Облачные сервисы *

Кейс

Привет, Хабр! На связи команда Рег.облака. Мы давно следим за развитием Retrieval-Augmented Generation (RAG) и хотели проверить, как эта технология работает в живых сценариях. У нас есть ИИ-ассистент — это образ виртуальной машины с предустановленными Ollama, Open WebUI и набором моделей. Его можно развернуть в пару кликов и сразу работать с LLM в приватном окружении. Но мы решили пойти дальше и проверить, как он справится в прикладной задаче: собрать чат-бота для нашей техподдержки.

Читать далее

+9

kucev 2 окт в 11:00

IT-лидеры видят большой бизнес-потенциал в малых моделях ИИ

5 мин

5.4K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

ИТ-лидеры видят большой бизнес-потенциал в малых моделях ИИ благодаря гибкости, низкой стоимости и нацеленности на конкретные задачи малые языковые модели (SLM) лучше подходят для бизнес-специфичных приложений и вскоре могут обойти LLM по использованию в корпоративной среде.

Читать далее

+2

gleb_l 2 окт в 10:34

Гематоэнцефалогический барьер для динамического SQL-кода

Средний

7 мин

4.5K

SQL * Microsoft SQL Server * Data Engineering *

Туториал

Создаем песочницу для безопасного выполнения non-trusted DSQL-кода и возвращаем из него by design безопасный результат в высокопривилегированное кольцо

добро пожаловать под кат

+1

olegbunin 2 окт в 09:00

Как обмануть LLM: обход защиты при помощи AutoDAN. Часть 2

7 мин

8.1K

Блог компании Конференции Олега Бунина (Онтико)Искусственный интеллектData Engineering *

В прошлой части мы разобрались, что такое состязательные суффиксы и почему они так легко ломают модели. Но этими суффиксами атаки не ограничиваются. Им на смену пришёл AutoDAN — наследник состязательных суффиксов и популярного jailbreak-метода DAN (Do Anything Now). Разберёмся, чем он отличается от GCG-алгоритма, посмотрим на практические примеры атак и обсудим, как защищаться и тестировать модели.

Читать далее

+15

olegbunin 1 окт в 09:00

Как обмануть LLM: обход защиты при помощи состязательных суффиксов. Часть 1

9 мин

39K

Блог компании Конференции Олега Бунина (Онтико)Искусственный интеллектData Engineering *

Что будет, если к опасному запросу в LLM приписать специально подобранную строку токенов? Вместо отказа модель может послушно сгенерирует подробный ответ на запрещённую тему — например, как ограбить магазин. Именно так работают состязательные суффиксы: они заставляют LLM игнорировать ограничения и отвечать там, где она должна сказать «опасно».

Читать далее

+72

AygulKurlykina 1 окт в 08:11

Опыт разработки и внедрения универсального коллектора для интеграции КХД с Kafka

Средний

10 мин

3.6K

Блог компании МегаФонData Engineering * Big Data *

Туториал

Привет, Хабр!

В этой статье хочу поделиться нашим опытом интеграции с Kafka.

В Мегафоне несколько десятков сервисов являются потребителями данных, публикуемых в кластерах Kafka. Все они разрабатывались под узкоспециализированные задачи.

В какой-то момент в нашем КХД также появилась необходимость интеграции с Kafka.

При разработке первой интеграции мы пошли традиционным путем и использовали Kafka Connect для Confluent 6.0.1. Сообщения, читаемые коннектором, перекладывались в Hadoop. Далее в PySpark выполнялся парсинг нужных данных, и полученные пачки выгружались в Oracle Exadata.

Но на этапе опытно-промышленной эксплуатации у нас возникли проблемы с производительностью из-за большого объема читаемых данных: ~100-110 млн сообщений в час (поток со звонками абонентов). Также было требование от бизнеса - данные в конечной витрине должны появляться с задержкой не более часа. Оптимизация интеграции затянулась еще на пару месяцев.

В итоге решение, которое мы внедрили в пром, не в полной мере устроило нас. Сложная реализация подразумевала необходимость привлекать на его дальнейшую доработку дефицитных экспертов.

Тем временем, перед нами встала задача разработки еще нескольких интеграций с Kafka.

Было очевидно, что требуется какое-то решение, которое не только ускоряло бы внедрение, исключая рутинную разработку, но и позволяло реализовать стандартную для таких интеграций батчевую выгрузку считанных сообщений в разные БД (Oracle/Hive/ClickHouse и в перспективе в Greenplum). И кроме того, умело выполнять предварительную обработку данных на лету (парсинг и трансформацию значений заданных атрибутов).

Читать далее

+3

IAlexOps 29 сен в 13:59

GitOps для Airflow: как мы перешли на лёгкий K8s-native Argo Workflows

Простой

8 мин

5.8K

Блог компании Альфа-БанкБлог компании KTSBig Data * Data Engineering * Машинное обучение *

Обзор

Привет! Меня зовут Александр Егоров, я MLOps-инженер в Альфа-Банке, куда попал через проект компании KTS.

За свою карьеру я построил четыре ML-платформы (одна из которых сейчас в Росреестре) и развиваю с командой пятую. Параллельно учусь в ИТМО по направлению «Безопасность искусственного интеллекта».

В этой статье я немного покритикую Airflow и поделюсь нашей историей миграции на связку Argo Workflows и Argo CD. Spoiler alert: технические подробности и результаты в наличии.

Читать далее

+20

6

7 8 ...