Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

@rpuropuu 21 июл в 18:20

Введение и суть Canvas for Data as a Product

Средний

18 мин

1.3K

Data Engineering * Анализ и проектирование систем * Управление проектами * Управление продуктом *

Из песочницы

Эта статья является дополненной адаптацией статьи профессора Леонардо Карвало. Сначала описывается структура ОБЛАСТЕЙ (выделены разным цветом), затем перечисляются блоки (пронумерованы). В каждом блоке есть: описание в чем его задумка и примеры вопросов, советы, пример заполнения.

Читать далее

+9

@Arenadata 29 мая в 10:13

От точечных решений к экосистеме: как «Национальная Лотерея» улучшает качество данных

Простой

17 мин

841

Блог компании ArenadataBig Data * Data Engineering * PostgreSQL * DevOps *

Кейс

Привет, Хабр! Сегодня мы расскажем, как «Национальная Лотерея» — компания, обрабатывающая сотни миллионов транзакций ежегодно, полностью перестроила свою работу с данными. Изначально инфраструктура данных опиралась на Excel-отчёты, ручные выгрузки и разнородные базы — подход, типичный для старта аналитических процессов. Однако со временем такие методы стали сдерживать скорость и масштабируемость аналитики.

Читать кейс

+9

@brmn 27 апр в 08:54

Kafka без дисков: плюсы и минусы KIP‑1150 (Diskless Topics)

Средний

9 мин

1.4K

Apache * Data Engineering * Amazon Web Services *

Аналитика

TL;DR: KIP‑1150 (Diskless Topics) предлагает Kafka писать сообщения сразу в облачное хранилище (S3 и аналоги), минуя диски брокеров. Это сильно экономит деньги и упрощает масштабирование в облаке, но увеличивает задержки и делает Kafka зависимой от облачных сервисов. Отлично для дешёвых, «толстых» потоков логов, но плохо подходит для real‑time систем с миллисекундными требованиями.

Читать далее

+9

@GenomeDust 9 ноя в 13:08

AI-драгдизайн: первая молекула прошла Фазу II

Средний

11 мин

6.9K

Python * Data Engineering * Big Data * Data Mining *

Аналитика

AI-драгдизайн: первая молекула прошла Фазу II. Разбираем, как GNN, AlphaFold 3 и $2.23 млрд на провал меняют фармакологию

Читать далее

+8

@Ipukhov 7 ноя в 09:10

Чипсы вместо поиска: рекомендации пользователям, когда о них ничего не известно

Средний

14 мин

4.9K

Big Data * Повышение конверсии * Data Engineering * Поисковые технологии * Анализ и проектирование систем *

На mir-kvestov.ru нужно давать рекомендации пользователям, про которых мы почти ничего не знаем: большинство не авторизованы, истории просмотров нет, на сайте только точный поиск по названию квеста. Т.е. не было даже нормальной истории текстовых запросов, из которой можно было бы собрать частотные подсказки или похожие запросы. Я обучил решающее дерево на 6500 анкетах пользователей, превратив 60 вопросов анкеты в 5 кликов по чипсам под строкой поиска. Так появилась фича, которая за пять шагов отправляет человека в нужный тип квестов. По пути пришлось согласовать математическую модель с пониманием стейкхолдеров о том «как правильно». Из этого конфликта родилось гибридное дерево, понятное и людям, и метрикам.

Читать далее

+8

@ex610z 31 окт в 16:16

Data Quality в масштабе Big Data: как мы построили систему контроля качества данных в Hadoop

9 мин

9.4K

Блог компании Ozon TechBig Data * Data Engineering * Hadoop *

Качество данных — это не просто вопрос наличия значений в столбцах таблиц. Это вопрос доверия к данным в целом. Мы можем создавать сложные системы отчётности, но если на каком-то этапе ETL в данных возникают пропуски, дубликаты или они не соответствуют ожиданиям, вся система теряет доверие потребителей. В результате приходится тратить много времени на поиск и устранение причин таких проблем.

Читать далее

+8

@badcasedaily1 1 сен в 16:55

Обзор UDTF в PySpark

Средний

8 мин

7.8K

Блог компании OTUSPython * Высоконагруженные системы * Big Data * Data Engineering *

Обзор

Привет, Хабр!

Сегодня разберём фичу из PySpark — UDTF. Если раньше мы писали UDF и UDAF, то UDTF — это про функцию, которая запускается в секции FROM запроса и возвращает как бы несколько строк для каждой входной записи. Звучит круто.

UDTFs пригодятся, когда на один входной объект нужно получить множество выходных строк. Простой пример: у нас есть строка текста и мы хотим разделить её на слова так, чтобы каждое слово вышло отдельной строкой. Со стандартным UDF такое не сделать (он возвращает одно значение, например конкатенацию или длину). Но UDTF может делать цикл yield внутри и выдавать сколько угодно строк. Итак, приступим к делу.

Читать далее

+8

@StanislavRG 28 авг в 10:16

Spark 4.0 на горизонте: Готовимся к апгрейду или остаёмся на проверенном 3.0?

Простой

13 мин

5.7K

Блог компании ArenadataBig Data * Искусственный интеллектData Engineering * Apache *

Обзор

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Кажется, ещё вчера мы радовались возможностям Apache Spark 3.0, разбирались с Adaptive Query Execution и наслаждались улучшениями Pandas API. Но мир больших данных не стоит на месте, и вот уже на подходе Apache Spark 4.0. Новый мажорный релиз — это всегда событие: он обещает новые фичи, прирост производительности и, конечно же, новые вызовы при миграции.

Apache Spark де-факто стал стандартом для распределённой обработки данных. От классических ETL-пайплайнов и SQL-аналитики до сложного машинного обучения и стриминга — Spark так или иначе задействован во многих современных data-платформах. Поэтому каждый новый релиз вызывает живой интерес у комьюнити: что там под капотом? Какие проблемы решены? Не сломается ли то, что работало годами?

Читать далее

+8

@kucev 25 авг в 11:00

Неожиданный результат: ИИ замедляет опытных разработчиков

9 мин

7.3K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Мы провели рандомизированное контролируемое исследование (RCT), чтобы оценить, как инструменты искусственного интеллекта начала 2025 года влияют на продуктивность опытных open-source разработчиков, работающих в своих собственных репозиториях. Неожиданно оказалось, что при использовании ИИ-инструментов разработчики выполняют задачи на 19% дольше, чем без них — то есть ИИ замедляет их работу.

Мы рассматриваем этот результат как срез текущего уровня возможностей ИИ в одном из прикладных сценариев. Поскольку системы продолжают стремительно развиваться, мы планируем использовать аналогичную методологию в будущем, чтобы отслеживать, насколько ИИ способен ускорять работу в сфере автоматизации R&D^[1].

Подробности — в полной версии статьи.

Читать далее

+8

@randall 24 авг в 12:33

Собрать команду ИИ-агентов: инструменты для дата-сайентистов, разработчиков, тестировщиков и инженеров

Простой

4 мин

7.3K

Блог компании MWSМашинное обучение * Data Engineering * Искусственный интеллектУправление разработкой *

Обзор

Мы запустили собственную платформу полного цикла производства ПО с ИИ‑агентами — MWS DevRails. Решение позволяет управлять жизненным циклом продукта и контролировать все этапы создания ПО: от проектирования и анализа до разработки, тестирования и выхода официального релиза. В платформу интегрированы ролевые ИИ-агенты, которые автоматизируют до 40% задач.

И сегодня больше расскажем о других фреймворках и библиотеках, предлагающих возможности ИИ-агентов для обработки данных и визуализации содержимого датасетов.

Читать далее

+8

@select_zvezdo4ka_from 5 авг в 18:00

ClickHouse не тормозит, но теряет данные. Часть 2 — от буферных таблиц к Kafka Engine

6 мин

7.2K

Data Engineering * Big Data * Базы данных * Серверное администрирование * Apache *

Туториал

ClickHouse не тормозит, но теряет данные. Набор простых действий с объяснениями, позволяющий избежать потери данных.

Читать далее

+8

@badcasedaily1 28 июл в 16:38

Расчет RFM-модели в чистом SQL на примере магазина котиков: коротко

Простой

6 мин

1.9K

Блог компании OTUSSQL * Базы данных * Data Mining * Data Engineering *

Обзор

Привет, Хабр!

Сегодня мы рассмотрим, как реализовать RFM‑модель в чистом SQL на примере магазина котиков.

Читать далее

+8

@jd2050 24 июл в 10:01

По ту сторону океана: как мы съездили на Databricks Data + AI Summit

Простой

7 мин

802

Блог компании Dodo EngineeringData Engineering * Big Data * КонференцииDeveloper Relations *

Репортаж

Представьте, что вы ни разу не выступали на конференциях или митапах, а тут решились и едете на ваше первое выступление, да не куда-нибудь, а на Data + AI Summit в Сан-Франциско. «Так не бывает!» — скажете вы, а я отвечу: «бывает!»

Привет! Это Женя Добрынин, Senior Data Engineer в Dodo Engineering. Сегодня я расскажу о том, как мы с коллегой ездили на конференцию в США, а заодно и о том, во сколько вам обойдётся такая поездка, и что нужно сделать, чтобы она состоялась.

Читать далее

+8

@cyberscoper 5 июл в 14:42

Оживляем данные Strava: от парсинга GPX до интерактивной карты на Python и JS

Простой

8 мин

1.9K

Python * Data Engineering * Веб-дизайн * Веб-разработка * Визуализация данных *

Кейс

Привет, Хабр! Меня зовут Александр, я разработчик и, как многие в IT, стараюсь уравновешивать сидячую работу спортом — в моем случае, это велосипед и бег. И, как многие спортсмены-любители, я пользуюсь Strava.

В этой статье я хочу провести вас «под капот» моего проекта и показать на реальных фрагментах кода, как с помощью Python, щепотки NumPy и капли JavaScript можно построить собственный мощный инструмент для анализа спортивных данных. Это история не только про код, но и про философию открытых данных и желание сделать профессиональные инструменты доступными для всех.

Читать далее

+8

@badcasedaily1 3 июл в 05:22

Кросс-валидация на временных рядах: как не перемешать время

Простой

6 мин

1.8K

Блог компании OTUSПрограммирование * Машинное обучение * Data Engineering * Data Mining *

Обзор

Привет, Хабр!

Сегодня рассмотрим то, что чаще всего ломает даже круто выглядящие модели при работе с временными рядами — неправильная кросс‑валидация. Разберем, почему KFold тут не работает, как легко словить утечку будущего, какие сплиттеры реально честны по отношению ко времени, как валидировать фичи с лагами и агрегатами.

Читать далее

+8

@Dazl 2 июл в 07:10

От сырого кликстрима к чистым датасетам: как мы в Lamoda Tech варим данные

Средний

12 мин

1.2K

Блог компании Lamoda TechData Engineering * Big Data *

Кейс

Привет, Хабр! Это тимлид DS группы ранжирования и поиска Дана Злочевская и тимлид группы разработки Михаил Нестеров из Lamoda Tech.

Как и у любой крупной e-commerce платформы, данные — наш главный актив. Они помогают бизнесу принимать обоснованные решения, а пользователям — получать персонализированный, качественный опыт во всех продуктах Lamoda.

Поэтому в продакшене ежедневно работают десятки ML-пайплайнов, а в Airflow запускаются сотни DAG-воркфлоу. Данные готовят и используют более 100 специалистов из самых разных команд: аналитики, дата-сайентисты, ML-инженеры, маркетологи — у каждой свои задачи и логика работы с ними.

Однако с ростом команд, задач и инфраструктуры мы начали сталкиваться с рядом системных проблем:

• Разрозненные подходы к подготовке данных. Каждая команда собирала данные «под себя», по своим правилам и в своем формате, что приводило к дублированию информации и нерациональному использованию вычислительных ресурсов.

• Дублирование логики. Одни и те же преобразования выполнялись в разных пайплайнах с минимальными отличиями — это не только неэффективно, но и увеличивает риск ошибок.

• Сложности с переиспользованием. Найти нужные данные, понять, как они были получены, и интегрировать их свой пайплайн — становилось нетривиальной задачей.

• Рост time-to-market. На каждый новый ML-продукт или эксперимент у команд уходило всё больше времени просто на «разогрев»: сбор данных, выравнивание форматов, отладка пайплайна.

Тогда мы поняли, что пора систематизировать наш подход к хранению и работе с датасетами, и реализовали собственный фреймворк на основе Apache Spark — Feature Storage, который сейчас является стандартом в компании. А позже мы выделили отдельное решение для специфичных кликстрим-данных — Action Storage.

В этой статье мы хотим поделиться нашим опытом построения этих инструментов и рассказать, как со временем эволюционировал наш подход к хранению данных в Lamoda Tech. Надеемся, он будет вам полезен и подарит парочку интересных идей.

Читать далее

+8

@aprygin 20 июн в 10:26

Как настроить ежедневный алертинг по маркетинговым метрикам с помощью SQL

Средний

10 мин

1.7K

Блог компании Garage EightData Engineering * SQL * Статистика в IT

Кейс

Привет, Хабр! На связи Антон Прыгин, аналитик данных в Garage Eight. Расскажу, как с помощью простых SQL-запросов и базовых математических методов получилось построить систему ежедневного мониторинга и алертинга маркетинговых метрик, которая работает в связке с таск-трекером.

+8

@dvgureev 13 июн в 11:48

Большой тест 12 LLM моделей на арифметику (~100 тыс запросов)

Средний

6 мин

1.3K

Искусственный интеллектData Engineering *

Обзор

Ловушка для бизнеса: почему LLM иногда 'угадывает' математику, а потом подводит? Часто вижу, как на моих ИИ-интенсивах пытаются автоматизировать нейросетями то, что легко делается без них – например, финансовый анализ из PDF. И поначалу LLM даже выдает верные цифры! Это создает опасную иллюзию, что им можно доверять расчеты.

Поэтому решил получить конкретные значения: когда именно LLM начинает ошибаться в элементарных операциях – сложении, вычитании, умножении?

Протестировал 12 моделей на числах разной длины. Результаты – внутри и почему калькулятор все еще ваш лучший друг, когда речь идет о числах больше 4 знаков.

Читать далее

+8

@StanislavRG 11 июн в 09:50

Влияние маленьких файлов на Big Data: HDFS vs S3

Средний

13 мин

2.8K

Блог компании ArenadataХранение данных * Data Engineering * Big Data * Базы данных *

Обзор

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API.

Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse. Сравним производительность HDFS и объектных хранилищ с S3 API. На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC).

Тесты, графики, инсайды

+8

@denislialin 6 июн в 09:32

Там, где метрики молчат: как расшифровка звонков помогла лучше понимать бизнес-клиентов

Средний

7 мин

1.2K

Блог компании ВкусВиллИскусственный интеллектУправление продуктом * Data Engineering * CRM-системы *

Кейс

Привет, Хабр! Меня зовут Денис, я один из лидеров направления ВкусВилл Бизнес. Вместе с командой продактов занимаюсь развитием клиентского пути бизнес-клиентов.

Эта статья о том, как мы нашли для себя ещё один способ услышать реальные голоса наших клиентов, чтобы понять, как работает наш продукт в реальной жизни, не опираясь исключительно на метрики. Расскажу, как ИИ помог нам самостоятельно, без разработки увидеть то, что скрывают дашборды.

Читать далее

+8

1 2 ...

7

8 9 ...