Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

Ins4n3 8 окт в 11:46

Как я автоматизировал анализ логов из Kibana с помощью LLM и AI-агентов

5 мин

4.5K

Блог компании «Лаборатория Касперского»Машинное обучение * Тестирование IT-систем * Data Engineering * Информационная безопасность *

Инструменты вроде OpenSearch, Elastic или Kibana давно стали стандартом для поиска и визуализации логов благодаря удобству и мощной поисковой системе. Однако, когда речь заходит о сложном анализе — агрегациях, парсинге, выявлении сложных закономерностей — их встроенные средства быстро достигают предела возможностей. Особенно сложно становится, если структура логов далека от идеала: например, как у нас — всё содержимое свалено в одно поле Message в формате JSON.

Меня зовут Игорь Щегловитов, я работаю экспертом по тестированию в QC облачной инфраструктуры и веб-порталов. Раньше наша команда решала такие задачи кастомными утилитами на C#, которые выгружали логи из ELK и анализировали их локально. Однако каждое новое требование превращалось в мини-проект: доработать код, написать новые парсеры, скрипты агрегации и фильтрации. Работа замедлялась, техдолг рос.

Я решил использовать связку AI-агентов с кастомными промптами, собственный сервисный слой (MCP) для доступа к логам и LLM-модель, чтобы превращать пользовательские запросы в автоматический алгоритм анализа. Так, кейсы вроде «Посчитай уникальных пользователей за сутки» или «Проанализируй ошибки за период» решаются без ручного кодинга.

Под катом мой кейс: расскажу, как это сделал, поделюсь ссылкой на гитхаб, так что, если хотите упростить себе анализ логов, — эта статья для вас.

Читать далее

+7

full_moon 8 окт в 09:08

130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных

27 мин

9.2K

Блог компании Magnus TechМашинное обучение * Искусственный интеллектData Engineering *

Обзор

Сколько раз вы начинали новый ML-проект и первым делом отправлялись на поиски подходящих данных? Процесс этот знаком каждому: есть задача, выбрана архитектура модели, но без качественного датасета дальше не продвинуться. Тут и начинается квест по бесконечному поиску «того самого» набора по репозиториям, форумам и каталогам.

Хороших датасетов множество, но найти среди тысяч вариантов нужный — отдельная история. Чтобы облегчить вам эту задачу, мы сделали подборку датасетов, которые активно используются ML-инженерами: от классических наборов данных, известных каждому, до новичков в информационном поле.

Читать далее

+36

dar0nn 8 окт в 09:00

Как из готовых инструментов сделать систему на петабайт данных: рецепт счастья для разработчиков и бизнеса

14 мин

702

Блог компании Конференции Олега Бунина (Онтико)Блог компании AGIMAData Engineering * Управление разработкой *

Любому бизнесу не нравится терять деньги — в этом смысл бизнеса. Каждая партия брака — это потраченные время и ресурсы, упущенная прибыль. Тогда бизнес приходит и говорит: «Давайте как-то измерять показатели, чтобы вовремя что-то менять, видеть всё это в реальном времени, и, главное — на основе данных». Так как же осчастливить сразу бизнес, разработчиков и себя?

Привет, Хабр! Я — Павел Лукьянов, системный архитектор и Deputy CTO в AGIMA. В этой статье по мотивам доклада с Saint HighLoad++ на примере одного из реальных кейсов с большим количеством внешних систем для сбора данных расскажу, как их собирать и обрабатывать, представлю готовые импортозамещённые инструменты для систематизации и хранения. Кроме того, покажу, почему не стоит заморачиваться из-за безопасности и по какой причине бизнесу важно следить за проектом в реальном времени и принимать решения.

Читать далее

+2

kxyfi 7 окт в 11:24

Как мы захотели контролировать SPILL’ы в Greenplum и сделали «Демократизатор»

Сложный

16 мин

2.2K

Блог компании РостелекомBig Data * Базы данных * Data Engineering * IT-инфраструктура *

Кейс

Представьте: Один неоптимизированный запрос от неопытного коллеги - и вот уже 40 ТБ SPILL-файлов парализуют систему.

Срабатывает лимит на уровне Greenplum, запрос завершён. Никто ничего не знает.

Создаются заявки, пишутся письма, пользователь недоволен.

Это не какая-то выдуманная история, а обычный будний день в большом Greenplum. Вернее, так было раньше.

Читать далее

+14

thedarksideblog10 6 окт в 19:50

AgentKit от OpenAI: как закончилась эпоха хаоса в мире ИИ-агентов

Средний

4 мин

8.3K

Data Engineering * Визуальное программирование * Искусственный интеллектМашинное обучение *

Обзор

До сегодняшнего дня сборка и запуск AI-агентов напоминала джунгли. Разработчики метались между десятками несовместимых SDK, кастомных пайплайнов и ручных интеграций. Построить надёжного агента значило неделями клеить код, чинить баги в оркестрации и постоянно балансировать между скоростью и качеством. Теперь OpenAI предлагает другой путь — AgentKit, набор инструментов, который объединяет в себе всё, что раньше требовало десятков фреймворков и недель настройки.

Читать далее

+5

Ozkolok 6 окт в 10:16

Как я сдал экзамен AWS DEA-C01 Data Engineering Associate в 2025 году

Простой

5 мин

900

Amazon Web Services * Data Engineering * Базы данных * Облачные сервисы * Учебный процесс в IT

Из песочницы

Всем привет! Меня зовут Роман, и я хочу поделиться своим опытом сдачи экзамена AWS DEA-C01: Data Engineer Associate. Когда сам готовился, то много искал реальных отзывов и заметок о том, как проходит экзамен, как лучше всего готовиться и на что обращать внимание. Поэтому надеюсь, что мой опыт будет полезен.

Немного о себе: сейчас я учусь на дата-инженера, и уже через несколько месяцев завершаю программу обучения. Параллельно начал задумываться о будущем трудоустройстве и изучал доступные вакансии. Довольно быстро стало очевидно, что учебная программа и реальные ожидания компаний пересекаются не во всём: последние делают большой упор на облака.

В IT у меня почти не нет опыта, так как вся моя предыдущая деятельность связана с аналитическим маркетингом: построение моделей работы рынка, прогнозирование цен, решение разных оптимизационных задач. То есть, по-хорошему, будущему работодателю надо показать как знания, так и практические результаты их применения, а именно пет-проекты.

Так у меня и появилась первая цель — подготовиться и успешно сдать экзамен DEA-C01.

Читать далее

+2

VladAleshin 6 окт в 08:15

Как мы в Циане готовим Data Vault на GreenPlum

Простой

8 мин

596

Big Data * Базы данных * SQL * Data Engineering *

Из песочницы

Привет! Меня зовут Влад, я DWH-инженер в Циан. Занимаюсь проектированием витрин и пайплайнов для доставки данных в корпоративное хранилище. В этой статье хочу поделиться опытом применения методологии Data Vault на Greenplum.

Data Vault часто упоминают рядом с Kimball и Inmon, но практических материалов по его внедрению заметно меньше. Для инженеров, которые только начинают строить DWH или думают о переходе на Data Vault, я собрал практический разбор: на каких задачах методология действительно помогает, с какими трудностями можно столкнуться и как это выглядит в реальном проекте.

Читать далее

+1

ddmitry 5 окт в 20:04

Учебный кластер ClickHouse на Docker Compose: от нуля к работающему стенду

Средний

6 мин

7.7K

Big Data * Data Engineering * DevOps *

Туториал

Запускаем на ноутбуке учебный кластер ClickHouse — шардированный (sharding) и реплицируемый (replication) — на Docker Compose.
Это не один сервер в контейнере, а стенд из 2 шардов × 2 реплики, с координацией через ZooKeeper и балансировкой HAProxy — поднимается за несколько минут.
Зачем: на практике разобрать репликацию и распределение по шардам, увидеть базовую отказоустойчивость и спокойно экспериментировать — всё в контейнерах, всегда можно снести и развернуть заново.
Кому: новичкам, кто хочет «пощупать» кластер; тем, кто знает базовый синтаксис ClickHouse, но не пробовал шардирование/репликацию; тем, кто готовится к собеседованию или приценивается к архитектуре перед продом.
В комплекте — готовые конфиги и docker-compose.yml в репозитории; всё, что нужно, — Docker и несколько команд.

Читать далее

+16

kruglikle 5 окт в 10:19

Учебник под микроскопом. Часть 2. Предобработка текста: регулярки, токенизация и лемматизация на практике

Простой

4 мин

1.5K

Data Engineering * Data Mining * Python *

Туториал

В статье рассмотрен процесс предобработки текстов учебников для последующего анализа и обучения моделей машинного обучения. Показано, как из "сырого" текста, извлечённого из PDF, получить очищенный, структурированный и готовый к обработке набор данных. Основное внимание уделено этапам очистки текста от лишних символов, нормализации регистра, токенизации, лемматизации и удалению стоп-слов, а также POS-теггингу. Для каждого этапа приведены примеры с использованием Python и библиотек spaCy, re, а также альтернативные инструменты (NLTK, ftfy, clean-text). В качестве практического применения рассматривается проект EduText Analyzer, направленный на автоматизированный анализ учебников по иностранным языкам. Данные после предобработки сохраняются в форматах CSV и TXT, что обеспечивает дальнейшую обработку, анализ и обучение моделей. Статья предназначена для исследователей в области NLP, педагогов и разработчиков образовательных технологий.

Читать далее

+3

EvgeniyRasyuk 5 окт в 06:48

Data Forge: Собираем весь современный дата-стек на своем ноутбуке одной командой

Простой

4 мин

3.3K

Big Data * Data Engineering *

Туториал

Привет, Хабр!

Давайте признаемся: порог входа в Data Engineering довольно высок. И дело не только в знании SQL или Python. Настоящая боль начинается, когда ты пытаешься собрать на своей машине хотя бы простенький пайплайн.

Нужно поднять Kafka, рядом поставить Zookeeper (или обойтись Kraft, если ты хипстер), прикрутить Debezium для CDC, развернуть Spark для обработки, где-то хранить результат (привет, MinIO!), а потом всё это оркестрировать через Airflow и визуализировать в Superset. Каждый инструмент — это отдельный Docker-контейнер, своя конфигурация, свои порты и свои зависимости. Через пару часов борьбы с docker-compose.yml и сетевыми настройками желание учиться и экспериментировать улетучивается.

Знакомо? А что, если я скажу, что весь этот зоопарк можно поднять одной командой, и он просто... заработает?

Сегодня я хочу рассказать о проекте, который стал для меня настоящей находкой — Data Forge. Это готовая песочница для дата-инженера, или, как называет её автор, "Data Engineering Playground".

Читать далее

+9

thedarksideblog10 4 окт в 11:15

Как я пытался сделать нейросеть аналитиком: провалы и уроки

Средний

3 мин

7.8K

Data Engineering * Искусственный интеллектАналитика мобильных приложений *

Из песочницы

Наверняка многим знакома ситуация: у тебя есть куча данных, отчетов, KPI, а команда тонет в Excel‑таблицах и Jira‑тикетах. И вот тебе кажется, что решение простое: «Давайте посадим нейросеть на аналитику».

Я решил попробовать. И вот что из этого вышло.

Читать далее

+4

KhanAta 3 окт в 16:16

Байесовский анализ и временные ряды в прогнозировании отказов оборудования на примере нефтегазовых компаний

Простой

7 мин

1.9K

Data Engineering * Python * Big Data * Data Mining *

Из песочницы

Предсказание отказов оборудования в нефтегазовой отрасли задача, которая напрямую связана с деньгами и безопасностью. Простои установки стоят миллионы, а аварии могут привести к еще большим потерям. В компаниях вроде X и Z тема предиктивного обслуживания обсуждается не ради модернизации ради самой модернизации, а потому что каждый дополнительный час работы без поломки снижает затраты.

В отличие от прогнозирования спроса или продаж, где данных много и повторяются стандартные паттерны, с отказами все иначе. Оборудование способно работать месяцами без проблем, а потом неожиданно ломается. Получается, что у нас есть длинная история "все было нормально" и очень мало записей про то, как и когда все же что-то сломалось.

Читать далее

+4

para_7 3 окт в 14:16

PostgreSQL против 10 миллионов записей: оптимизация запросов, которая спасла наш проект

Средний

3 мин

17K

DevOps * Базы данных * PostgreSQL * Data Engineering * Серверная оптимизация *

Из песочницы

Это был обычный понедельник. Я пил кофе, проверял почту, и вдруг — волна уведомлений в Slack. «Сайт не грузится!», «Отчеты зависли!», «Что происходит?».

Наш проект, который успешно работал с несколькими сотнями тысяч записей, перешагнул психологически важный рубеж — 10 миллионов строк в таблице заказов. И PostgreSQL, который раньше летал, внезапно начал ползти как улитка.

Читать далее

+20

SiYa_renko 3 окт в 14:05

Что такое DWH и зачем оно нужно бизнесу?

Простой

5 мин

3.2K

Блог компании OTUSBig Data * Data Engineering * Хранение данных *

Обзор

Всем привет! Сегодня рассмотрим, что из себя представляет Data Warehouse и зачем оно нужно вашему бизнесу.

Статья рассчитана на то, чтобы дать общее представление широкой аудитории, так что возможны упрощения и небольшие неточности – буду рада подискутировать о них в комментариях, если вы заметите их.

Подробнее о DWH

+6

1kotleta 3 окт в 11:00

Почему не стоит заменять пустые значения нулями в Power BI

Простой

5 мин

491

Big Data * Data Engineering * Визуализация данных * Хранение данных *

Аналитика

Перевод

Вас просили заменить пустые значения нулями в отчетах? Возможно, стоит дважды подумать, прежде чем это делать!

Читать далее

+1

MaxRokatansky 2 окт в 16:48

Apache Kafka: ZooKeeper vs KRaft — полное сравнение подходов

10 мин

5K

Блог компании OTUSApache * Big Data * Data Engineering *

Apache Kafka — один из самых популярных распределенных систем потоковой передачи данных. Исторически Kafka использовала Apache ZooKeeper для управления кластером, но с версии 2.8.0 появилась альтернатива — KRaft (Kafka Raft Metadata mode).

В этой статье мы подробно рассмотрим оба подхода, их преимущества и недостатки, а также поможем выбрать правильный путь для вашего проекта в микросервисной архитектуре.

И, чтобы статья была практико-ориентированной, мы рассмотрим примеры того, как можно поднять в Docker оба варианта кластера.

Перейти к сравнению

+3

runity 2 окт в 11:30

RAG на практике: как мы в Рег.облаке на базе ИИ-ассистента собрали бота для поддержки в Rocket.Chat

Простой

5 мин

4.1K

Блог компании РунитиGPGPU * Искусственный интеллектData Engineering * Облачные сервисы *

Кейс

Привет, Хабр! На связи команда Рег.облака. Мы давно следим за развитием Retrieval-Augmented Generation (RAG) и хотели проверить, как эта технология работает в живых сценариях. У нас есть ИИ-ассистент — это образ виртуальной машины с предустановленными Ollama, Open WebUI и набором моделей. Его можно развернуть в пару кликов и сразу работать с LLM в приватном окружении. Но мы решили пойти дальше и проверить, как он справится в прикладной задаче: собрать чат-бота для нашей техподдержки.

Читать далее

+9

kucev 2 окт в 11:00

IT-лидеры видят большой бизнес-потенциал в малых моделях ИИ

5 мин

1.3K

Big Data * Машинное обучение * Искусственный интеллектData Mining * Data Engineering *

Перевод

ИТ-лидеры видят большой бизнес-потенциал в малых моделях ИИ благодаря гибкости, низкой стоимости и нацеленности на конкретные задачи малые языковые модели (SLM) лучше подходят для бизнес-специфичных приложений и вскоре могут обойти LLM по использованию в корпоративной среде.

Читать далее

+2

gleb_l 2 окт в 10:34

Гематоэнцефалогический барьер для динамического SQL-кода

Средний

7 мин

635

SQL * Microsoft SQL Server * Data Engineering *

Туториал

Создаем песочницу для безопасного выполнения non-trusted DSQL-кода и возвращаем из него by design безопасный результат в высокопривилегированное кольцо

добро пожаловать под кат

+1

olegbunin 2 окт в 09:00

Как обмануть LLM: обход защиты при помощи AutoDAN. Часть 2

7 мин

6.8K

Блог компании Конференции Олега Бунина (Онтико)Искусственный интеллектData Engineering *

В прошлой части мы разобрались, что такое состязательные суффиксы и почему они так легко ломают модели. Но этими суффиксами атаки не ограничиваются. Им на смену пришёл AutoDAN — наследник состязательных суффиксов и популярного jailbreak-метода DAN (Do Anything Now). Разберёмся, чем он отличается от GCG-алгоритма, посмотрим на практические примеры атак и обсудим, как защищаться и тестировать модели.

Читать далее

+15

4

5 6 ...