Data Engineering *

обсуждаем вопросы сбора и подготовки данных

Статьи Посты Новости Авторы Компании

vladislav_shevchenko 7 ноя 2023 в 13:53

Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди

Средний

14 мин

6.5K

Блог компании Альфа-БанкApache*Big Data*DevOps*Data Engineering*

Туториал

Бывало у вас так, что некоторые аналитики запрашивают побольше вычислительных ядер и оперативной памяти для своих Jupyter-ноутбуков, а у вас в это время ничего не работает? У меня бывало, ведь недостаточно уметь разрабатывать код на Spark — еще нужно уметь его настраивать, правильно инициализировать сеансы работы и эффективно управлять доступом к вычислительным ресурсам. Если отдать настройку на волю случая, Spark может (и будет) потреблять ресурсы всего кластера, а другие приложения будут стоять в очереди.

Меня зовут Владислав, я работаю Дата инженером в Альфа-Банке, и в этой статье мы поговорим о том, как правильно подобрать необходимое количество параметров и не положить кластер на коленочки.

+19

WeiDai 5 ноя 2023 в 10:17

Milk Sad уязвимость в библиотеке Libbitcoin Explorer 3.x. Крупная кража на $ 900 000 у пользователей Биткоин Кошельков

11 мин

5.1K

Настройка Linux*Информационная безопасность*Криптография*КриптовалютыData Engineering*

Из песочницы

Исследователи компании «Slowmist» проводят регулярное исследование сферы безопасности блокчейна Биткоин. Они обнародовали уязвимость в библиотеке Libbitcoin Explorer 3.x, которая позволила злоумышленникам украсть более $ 900 000 у пользователей Биткоин Кошельков (BTC).

По данным аналитиков, эта уязвимость может также затронуть пользователей Ethereum, Ripple, Dogecoin, Solana, Litecoin, Bitcoin Cash и Zcash, которые используют Libbitcoin для создания учетных записей.

mvideo 3 ноя 2023 в 19:00

Прогнозирование временных рядов с помощью библиотеки Skforecast

Средний

7 мин

6.6K

Блог компании М.Видео-ЭльдорадоPython*Анализ и проектирование систем*Читальный залData Engineering*

Кейс

В открытом доступе существует огромное число библиотек для построения моделей машинного обучения в Python. Самые популярные — scikit-learn, XGBoost, LightGBM, Catboost, PyTorch. Каждая из них позволяет построить регрессионную модель для прогнозирования на временных рядах, но для этого требуется преобразование данных и создание новых фичей (feature engineering).

Кроме того, временные ряды требуют своих подходов в оценивании моделей машинного обучения, так как стандартная кросс-валидация не подходит для временных данных. В этой статье мы (я + я) рассмотрим нюансы прогнозирования на практике и с помощью библиотеки skforecast.

Читать дальше →

+20

Liloon21 31 окт 2023 в 15:19

Руководство для начинающих по Spark UI: Как отслеживать и анализировать задания Spark

Простой

13 мин

4.6K

Блог компании СлёрмBig Data*Data Engineering*

Туториал

Recovery Mode

Перевод

Публикуем перевод гайда по Spark UI. Это встроенный инструмент Apache Spark, который предоставляет полный обзор среды Spark: узлов, исполнителей, свойств и параметров среды, выполняемых заданий, планов запросов и многого другого. Кроме теории в статье вы найдёте несколько примеров, которые помогут попрактиковаться в отслеживании и анализе заданий Spark.

IKURDINS 31 окт 2023 в 10:37

Знакомство с разработкой SAP Data Services

3 мин

1.8K

Хранилища данных*Data Engineering*Визуальное программирование*

Из песочницы

Что такое SAP Data Services

Это графический ETL инструмент для обеспечения качественной обработки данных и их интеграции в единое хранилище. Используя Data Services (в дальнейшем DS), можно преобразовывать и очищать данные, независимо от их источника. Имеется гибкая возможность интегрироваться с любым источником. Возможно иметь единую среду для разработки, выполнения, управления и проверки безопасности.

Одной из главных функций Data Services является извлечение, преобразование и загрузка (ETL) данных из разнородных источников в целевую базу данных или хранилище данных. При помощи инструмента Designer создаются приложения (задания), которые определяют порядок преобразования и обработки данных. DS самостоятельно отслеживает время и параметры запуск заданий, собирается статистику и пробует оптимизировать работу задач. Рабочий сервер DS может выдерживать большой объем данных и поддерживать обработку данных в реальном времени.

pavel_shunkevich 25 окт 2023 в 14:28

Как получить полезную информацию из своих категориальных признаков?

Простой

9 мин

4.8K

Блог компании KarunaPython*Data Mining*Машинное обучение*Data Engineering*

Туториал

В этой статье я выскажу свою точку зрения о том, что из себя представляют категориальные признаки. Расскажу про способы работы с ними, которыми пользуюсь сам как антифрод-аналитик в Каруне.

+10

SovaSova15 23 окт 2023 в 10:00

Введение в data science: инструменты и методы анализа

Простой

7 мин

8.2K

Блог компании СлёрмData Engineering*

Перевод

Представьте, что вам предстоит собрать сложную головоломку, но вы не знаете, как будет выглядеть конечный результат. Наука о данных может помочь нам решить эту головоломку, используя специальные инструменты и методы, чтобы различные фрагменты, собранные вместе, имели смысл.

SiplatovKirill 22 окт 2023 в 13:30

Airflow в Kubernetes. Часть 1

Средний

10 мин

8.1K

Python*Apache*DevOps*Kubernetes*Data Engineering*

Из песочницы

Приветствую!

На пути инженера данных часто встречаются задачи связанные с DevOps. Одна из таких - развернуть Airflow в Kubernetes кластере. Если до этого похожего опыта работы не было, то эта задача может показаться нетривиальной. Конечно, можно выполнить несколько команд из официального гайда, но если нужно будет что-то поправить, то без понимания, что происходит внутри, обойтись будет сложно.

Эта статья призвана облегчить данную задачу. Она поможет тем, кто уже работал с Airflow, но еще не касался технологии Kubernetes.

p_a_arty 20 окт 2023 в 12:50

Приглашаем на Ozon Tech Community ML&DS Meetup

2 мин

1.1K

Блог компании Ozon TechМашинное обучение*КонференцииData Engineering*

Всем привет, меня зовут Артём, я руководитель команды «Эффективность рекламы». Мы пока не предлагаем генеративные модели для пользователей, но мы делаем другие крутые вещи, связанные с ML&DS. И хотим о них рассказать.

Приглашаю на Ozon Tech Community ML&DS Meetup, где вас ждут сразу 4 темы от экспертов блока по продукту и технологиям «Поиск, Рекомендации и Реклама». На встрече мы рассмотрим, что такое поисковые подсказки в Ozon, как были внедрены нейросети в рекомендации, зачем нужен автобиддер в рекламе и как он влияет на эффективность, а также поговорим про ML-инфраструктуру и её отдельных компонентах.

Flexxxey 19 окт 2023 в 13:00

YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее

Сложный

13 мин

2.3K

Блог компании Конференции Олега Бунина (Онтико)Блог компании Yandex Cloud & Yandex InfrastructureBig Data*Data Engineering*

В больших распределённых системах многое зависит от эффективности запросов: если на гигабайте данных неоптимальный запрос может выполняться за миллисекунды, то при увеличении массива в тысячи раз, сервер начнёт кряхтеть, пыхтеть и жаловаться. Чтобы избежать этого, помогут знания о работе распределённых систем и их частей, а именно — планировщиков.

Ещё с университетских времён я исследую распределённые системы, а последние два года в Яндексе адаптирую Apache Spark к внутренней инфраструктуре. Эта статья посвящена Apache Spark, а именно: как мы в рамках YTsaurus делали его ещё эффективнее. Написана она по мотивам моего доклада для «Онтико».

+17

kucev 19 окт 2023 в 12:32

Размерности качества данных: обеспечение качества данных с помощью Great Expectations

7 мин

1.9K

Data Mining*Администрирование баз данных*Big Data*Хранение данных*Data Engineering*

Перевод

Качество данных играет критически важную роль в любом процессе управления данными. Организации используют данные для принятия решений и улучшения различных бизнес-показателей. Однако если данные усеяны неточностями, ошибками или несогласованностями, то они могут нанести больше вреда, чем пользы.

Согласно опросу Gartner за 2020 год, в среднем потери из-за низкого качества данных составляют примерно $12,8 миллиона за год. Как сообщается в последнем отчёте State of Data Quality, задержки продакшена (задержки с выпуском продукта) — характерный симптом низкого качества данных. Высококачественные и безошибочные данные повышают надёжность и верность полученных из них выводов.

Для повышения качества данных необходима система его оценки. В достижении этой цели вам помогут размерности качества данных. Размерности позволяют измерять покрытие и выявлять компоненты, требующие тестирования качества данных.

В этой статье рассматриваются шесть размерностей качества данных: полнота, согласованность, целостность, вневременная актуальность, уникальность и валидность. Определив их, вы сможете обеспечить исчерпывающее понимание качества данных и выявить аспекты, требующие совершенствования. И здесь нам на помощь приходит Great Expectation (GX).

Читать дальше →

ITSumma 16 окт 2023 в 14:27

Потоковая обработка данных: анализ альтернативных решений

8 мин

3.4K

Блог компании ITSummaАдминистрирование баз данных*Apache*Big Data*Data Engineering*

Обзор

Всем привет! Я Алексей Пономаревский, разработчик решений для платформ сбора и обработки больших данных.

Два года назад мы в ITSumma создали решение для потоковой обработки данных с помощью Apache Spark и базы данных Greenplum — spark-greenplum-connector. Это многофункциональный плагин для Spark, на его основе инженеры могут строить ETL-решения и анализировать данные in-memory.

Изначально мы разработали его, как часть клиентской платформы потоковой обработки данных. Но со временем он прирос одной интересной функциональностью, которая недоступна сейчас в других подобных решениях. В этой статья я хочу сделать краткое сравнение между двумя opensource-продуктами Apache Spark и Flink, а также рассказать об одной интересной особенности Spark, которую мы реализовали в коннекторе.

+21

Doctor_IT 12 окт 2023 в 17:36

Как «воспитать ламу» и ускорить ML-эксперименты

8 мин

6.3K

Блог компании SelectelВысокая производительность*Машинное обучение*Искусственный интеллектData Engineering*

Кейс

https://image.mel.fm/i/1/1Ud7AReU87/1210.jpg

Часто проведение ML-экспериментов сводится к долгому поиску и загрузке нужных датасетов и моделей, скрупулезной настройке гиперпараметров с целью проверки гипотез. Но что делать, когда времени мало, а за ночь нужно зафайнтюнить ламу? Давайте это и узнаем.

Статья написана по мотивам доклада Ефима Головина, MLOps-инженера в отделе Data- и ML-продуктов Selectel.

Читать дальше →

+35

neoflex 10 окт 2023 в 18:16

Airflow vs NiFi: исследуем оркестратор для формирования витрин данных

Средний

19 мин

5.4K

Блог компании NeoflexPython*SQL*Data Engineering*

Обзор

Сегодня концепция витрин данных является стандартом и используется повсеместно. Поэтому даже небольшим компаниям важно определиться с помощью каких инструментов они будут решать проблему оркестрации процессов построения витрин. Какой инструмент в условиях относительно небольшого бюджета позволит достигать поставленных целей? Этот вопрос мы и постараемся раскрыть в статье. Для этого рассмотрим два известных инструмента: Airflow и NiFi, а также постараемся выявить их сильные и слабые стороны.

gonchar4habr 10 окт 2023 в 13:18

Применение нейросетевых подходов для формирования признаков в моделях

Средний

9 мин

2.2K

Блог компании ВТБBig Data*Машинное обучение*Искусственный интеллектData Engineering*

Обзор

Наша команда Графовой аналитики стрима Моделирование КИБ и СМБ занимается различными исследовательскими задачами для двух основных направлений: риск- и бизнес-моделирования.

В данной статье мы расскажем о том, как продвинутые подходы машинного обучения, в частности нейронные сети, помогают генерировать признаки для моделей, сокращая трудозатраты на проработку гипотез и операционные издержки при подготовке данных для моделей.

Интересно? Поехали...

+10

lstchk 9 окт 2023 в 09:21

ipywidgets: создаем графические приложения на базе Jupyter

Простой

9 мин

5.4K

Блог компании NeoflexPython*Data Engineering*

Кейс

Jupyter Notebook – это крайне удобный инструмент для разработчика. Являясь дата-инженером, я использую его, как основную IDE. Единственным его ограничением является невозможность создания графических форм классическими методами, принятыми в Python. В этой статье я хочу поделиться лучшим способом решить эту проблему.

datacompboy 29 сен 2023 в 15:09

TechArena Ireland: как готовился хакатон

Средний

11 мин

565

ХакатоныУправление проектами*Искусственный интеллектNatural Language Processing*Data Engineering*

Ретроспектива

На прошлых выходных (23-24 сентября) Huawei проводил хакатон TechArena Ireland в Дублине. Несколько сотен зарегистрировались, больше сотни пришло. Организация потребовала немало времени и сил на подготовку места, рекламы, и прочего. (Я не буду перечислять в переводе всех пострадавших :) Они все упомянуты в англоязычном посте на LinkedIn и Medium.)

Я отвечал за подготовку задания, оценки решений и подобных мелочей. Вот как это выглядело.

badcasedaily1 28 сен 2023 в 15:44

Построение пайплайна обработки данных в реальном времени с использованием Python

Сложный

11 мин

7.2K

Блог компании OTUSPython*Программирование*Проектирование и рефакторинг*Data Engineering*

Обзор

Привет, Хабр!

Обработка данных в реальном времени стала важной составной частью современного мира. Бизнес, исследователи, разработчики и многие другие специалисты сталкиваются с необходимостью обрабатывать потоки данных в реальном времени, чтобы принимать решения быстрее и более точно.

В этой статье мы рассмотрим как построить пайплайн обработки данных в реальном времени с использованием Python.

+14

VASExperts 28 сен 2023 в 15:13

Исследования возможностей нейронных сетей глубокого обучения в распознавании маскируемого трафика

Средний

9 мин

3.8K

Блог компании VAS ExpertsМашинное обучение*Исследования и прогнозы в IT*Искусственный интеллектData Engineering*

Аналитика

Классификация сетевого трафика является важным процессом, необходимым для правильной организации передачи данных между приложениями, которые его генерируют. Определение трафика в DPI обеспечивает основу для множества сетевых функций, таких как управление, обеспечение безопасности, разделение услуг, полисинг и другие.

В данной статье мы рассматриваем новый подход к классификации прикладных протоколов в сетевых пакетах.

Aeryukov 28 сен 2023 в 09:27

Как мы создавали self-service функционал проверки качества данных для ML-моделей

Простой

10 мин

2.1K

Блог компании ГазпромбанкOpen source*Big Data*Машинное обучение*Data Engineering*

Кейс

Привет! Продолжу рассказ о том, как мы превращаем банк в «биг дата» — организацию. Очевидно, что чем больше данных использует компания, тем больше зависит от их качества. Но, зачастую, вопросам качества данных при разработке витрин уделяется недостаточно внимания. Это связано с тем, что требования к качеству данных не фиксируются в бизнес‑требованиях, а разработчик витрины/инженер данных не всегда досконально знает предметную область. Будущее — за организацией контрольных мероприятий в контуре бизнес‑заказчиков. Этот тренд получил название Self‑Service функции. У нас в Газпромбанке по такому принципу строится проверка качества данных для ML‑моделей. Каждому аналитику/разработчику моделей доступен функционал оценки качества данных любой витрины. Рассказываю, как выстроили такую схему работы.

1 2 3 4 5

7 8 ...

45 46

Data Engineering *

Подбираем параметры сессии в Apache Spark, чтобы не стоять в очереди

Milk Sad уязвимость в библиотеке Libbitcoin Explorer 3.x. Крупная кража на $ 900 000 у пользователей Биткоин Кошельков

Прогнозирование временных рядов с помощью библиотеки Skforecast

Руководство для начинающих по Spark UI: Как отслеживать и анализировать задания Spark

Истории

Знакомство с разработкой SAP Data Services

Как получить полезную информацию из своих категориальных признаков?

Введение в data science: инструменты и методы анализа

Airflow в Kubernetes. Часть 1

Приглашаем на Ozon Tech Community ML&DS Meetup

YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее

Размерности качества данных: обеспечение качества данных с помощью Great Expectations

Потоковая обработка данных: анализ альтернативных решений

Как «воспитать ламу» и ускорить ML-эксперименты

Ближайшие события

Airflow vs NiFi: исследуем оркестратор для формирования витрин данных

Применение нейросетевых подходов для формирования признаков в моделях

ipywidgets: создаем графические приложения на базе Jupyter

TechArena Ireland: как готовился хакатон

Построение пайплайна обработки данных в реальном времени с использованием Python

Исследования возможностей нейронных сетей глубокого обучения в распознавании маскируемого трафика

Как мы создавали self-service функционал проверки качества данных для ML-моделей

Вклад авторов