Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

Liloon21 31 окт 2023 в 12:19

Руководство для начинающих по Spark UI: Как отслеживать и анализировать задания Spark

Простой

13 мин

16K

Блог компании СлёрмBig Data * Data Engineering *

Туториал

Recovery Mode

Перевод

Публикуем перевод гайда по Spark UI. Это встроенный инструмент Apache Spark, который предоставляет полный обзор среды Spark: узлов, исполнителей, свойств и параметров среды, выполняемых заданий, планов запросов и многого другого. Кроме теории в статье вы найдёте несколько примеров, которые помогут попрактиковаться в отслеживании и анализе заданий Spark.

IKURDINS 31 окт 2023 в 07:37

Знакомство с разработкой SAP Data Services

3 мин

6.7K

Data Engineering * Визуальное программирование * Хранение данных *

Из песочницы

Что такое SAP Data Services

Это графический ETL инструмент для обеспечения качественной обработки данных и их интеграции в единое хранилище. Используя Data Services (в дальнейшем DS), можно преобразовывать и очищать данные, независимо от их источника. Имеется гибкая возможность интегрироваться с любым источником. Возможно иметь единую среду для разработки, выполнения, управления и проверки безопасности.

Одной из главных функций Data Services является извлечение, преобразование и загрузка (ETL) данных из разнородных источников в целевую базу данных или хранилище данных. При помощи инструмента Designer создаются приложения (задания), которые определяют порядок преобразования и обработки данных. DS самостоятельно отслеживает время и параметры запуск заданий, собирается статистику и пробует оптимизировать работу задач. Рабочий сервер DS может выдерживать большой объем данных и поддерживать обработку данных в реальном времени.

pavel_shunkevich 25 окт 2023 в 11:28

Как получить полезную информацию из своих категориальных признаков?

Средний

9 мин

18K

Блог компании KarunaData Engineering * Машинное обучение * Data Mining * Python *

Туториал

В этой статье я выскажу свою точку зрения о том, что из себя представляют категориальные признаки. Расскажу про способы работы с ними, которыми пользуюсь сам как антифрод-аналитик в Каруне.

+10

SovaSova15 23 окт 2023 в 07:00

Введение в data science: инструменты и методы анализа

Простой

7 мин

19K

Блог компании СлёрмData Engineering *

Перевод

Представьте, что вам предстоит собрать сложную головоломку, но вы не знаете, как будет выглядеть конечный результат. Наука о данных может помочь нам решить эту головоломку, используя специальные инструменты и методы, чтобы различные фрагменты, собранные вместе, имели смысл.

SiplatovKirill 22 окт 2023 в 10:30

Airflow в Kubernetes. Часть 1

Средний

10 мин

16K

Kubernetes * DevOps * Apache * Python * Data Engineering *

Из песочницы

Приветствую!

На пути инженера данных часто встречаются задачи связанные с DevOps. Одна из таких - развернуть Airflow в Kubernetes кластере. Если до этого похожего опыта работы не было, то эта задача может показаться нетривиальной. Конечно, можно выполнить несколько команд из официального гайда, но если нужно будет что-то поправить, то без понимания, что происходит внутри, обойтись будет сложно.

Эта статья призвана облегчить данную задачу. Она поможет тем, кто уже работал с Airflow, но еще не касался технологии Kubernetes.

p_a_arty 20 окт 2023 в 09:50

Приглашаем на Ozon Tech Community ML&DS Meetup

2 мин

1.6K

Блог компании Ozon TechМашинное обучение * КонференцииData Engineering *

Всем привет, меня зовут Артём, я руководитель команды «Эффективность рекламы». Мы пока не предлагаем генеративные модели для пользователей, но мы делаем другие крутые вещи, связанные с ML&DS. И хотим о них рассказать.

Приглашаю на Ozon Tech Community ML&DS Meetup, где вас ждут сразу 4 темы от экспертов блока по продукту и технологиям «Поиск, Рекомендации и Реклама». На встрече мы рассмотрим, что такое поисковые подсказки в Ozon, как были внедрены нейросети в рекомендации, зачем нужен автобиддер в рекламе и как он влияет на эффективность, а также поговорим про ML-инфраструктуру и её отдельных компонентах.

Flexxxey 19 окт 2023 в 10:00

YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее

Сложный

13 мин

3.5K

Блог компании Конференции Олега Бунина (Онтико)Блог компании Yandex Cloud & Yandex InfrastructureBig Data * Data Engineering *

В больших распределённых системах многое зависит от эффективности запросов: если на гигабайте данных неоптимальный запрос может выполняться за миллисекунды, то при увеличении массива в тысячи раз, сервер начнёт кряхтеть, пыхтеть и жаловаться. Чтобы избежать этого, помогут знания о работе распределённых систем и их частей, а именно — планировщиков.

Ещё с университетских времён я исследую распределённые системы, а последние два года в Яндексе адаптирую Apache Spark к внутренней инфраструктуре. Эта статья посвящена Apache Spark, а именно: как мы в рамках YTsaurus делали его ещё эффективнее. Написана она по мотивам моего доклада для «Онтико».

+17

kucev 19 окт 2023 в 09:32

Размерности качества данных: обеспечение качества данных с помощью Great Expectations

7 мин

13K

Big Data * Data Engineering * Data Mining * Базы данных * Хранение данных *

Перевод

Качество данных играет критически важную роль в любом процессе управления данными. Организации используют данные для принятия решений и улучшения различных бизнес-показателей. Однако если данные усеяны неточностями, ошибками или несогласованностями, то они могут нанести больше вреда, чем пользы.

Согласно опросу Gartner за 2020 год, в среднем потери из-за низкого качества данных составляют примерно $12,8 миллиона за год. Как сообщается в последнем отчёте State of Data Quality, задержки продакшена (задержки с выпуском продукта) — характерный симптом низкого качества данных. Высококачественные и безошибочные данные повышают надёжность и верность полученных из них выводов.

Для повышения качества данных необходима система его оценки. В достижении этой цели вам помогут размерности качества данных. Размерности позволяют измерять покрытие и выявлять компоненты, требующие тестирования качества данных.

В этой статье рассматриваются шесть размерностей качества данных: полнота, согласованность, целостность, вневременная актуальность, уникальность и валидность. Определив их, вы сможете обеспечить исчерпывающее понимание качества данных и выявить аспекты, требующие совершенствования. И здесь нам на помощь приходит Great Expectation (GX).

Читать дальше →

ITSumma 16 окт 2023 в 11:27

Потоковая обработка данных: анализ альтернативных решений

8 мин

5.7K

Блог компании ITSummaData Engineering * Big Data * Apache * Базы данных *

Обзор

Всем привет! Я Алексей Пономаревский, разработчик решений для платформ сбора и обработки больших данных.

Два года назад мы в ITSumma создали решение для потоковой обработки данных с помощью Apache Spark и базы данных Greenplum — spark-greenplum-connector. Это многофункциональный плагин для Spark, на его основе инженеры могут строить ETL-решения и анализировать данные in-memory.

Изначально мы разработали его, как часть клиентской платформы потоковой обработки данных. Но со временем он прирос одной интересной функциональностью, которая недоступна сейчас в других подобных решениях. В этой статья я хочу сделать краткое сравнение между двумя opensource-продуктами Apache Spark и Flink, а также рассказать об одной интересной особенности Spark, которую мы реализовали в коннекторе.

+21

Doctor_IT 12 окт 2023 в 14:36

Как «воспитать ламу» и ускорить ML-эксперименты

8 мин

7.4K

Блог компании SelectelИскусственный интеллектВысоконагруженные системы * Data Engineering * Машинное обучение *

Кейс

https://image.mel.fm/i/1/1Ud7AReU87/1210.jpg

Часто проведение ML-экспериментов сводится к долгому поиску и загрузке нужных датасетов и моделей, скрупулезной настройке гиперпараметров с целью проверки гипотез. Но что делать, когда времени мало, а за ночь нужно зафайнтюнить ламу? Давайте это и узнаем.

Статья написана по мотивам доклада Ефима Головина, MLOps-инженера в отделе Data- и ML-продуктов Selectel.

Читать дальше →

+36

neoflex 10 окт 2023 в 15:16

Airflow vs NiFi: исследуем оркестратор для формирования витрин данных

Средний

19 мин

17K

Блог компании NeoflexPython * SQL * Data Engineering *

Обзор

Сегодня концепция витрин данных является стандартом и используется повсеместно. Поэтому даже небольшим компаниям важно определиться с помощью каких инструментов они будут решать проблему оркестрации процессов построения витрин. Какой инструмент в условиях относительно небольшого бюджета позволит достигать поставленных целей? Этот вопрос мы и постараемся раскрыть в статье. Для этого рассмотрим два известных инструмента: Airflow и NiFi, а также постараемся выявить их сильные и слабые стороны.

gonchar4habr 10 окт 2023 в 10:18

Применение нейросетевых подходов для формирования признаков в моделях

Средний

9 мин

3.8K

Блог компании ВТБBig Data * Машинное обучение * Искусственный интеллектData Engineering *

Обзор

Наша команда Графовой аналитики стрима Моделирование КИБ и СМБ занимается различными исследовательскими задачами для двух основных направлений: риск- и бизнес-моделирования.

В данной статье мы расскажем о том, как продвинутые подходы машинного обучения, в частности нейронные сети, помогают генерировать признаки для моделей, сокращая трудозатраты на проработку гипотез и операционные издержки при подготовке данных для моделей.

Интересно? Поехали...

+10

lstchk 9 окт 2023 в 06:21

ipywidgets: создаем графические приложения на базе Jupyter

Простой

9 мин

13K

Блог компании NeoflexPython * Data Engineering *

Кейс

Jupyter Notebook – это крайне удобный инструмент для разработчика. Являясь дата-инженером, я использую его, как основную IDE. Единственным его ограничением является невозможность создания графических форм классическими методами, принятыми в Python. В этой статье я хочу поделиться лучшим способом решить эту проблему.

datacompboy 29 сен 2023 в 12:09

TechArena Ireland: как готовился хакатон

Средний

11 мин

890

Natural Language Processing * Искусственный интеллектУправление проектами * ХакатоныData Engineering *

Ретроспектива

На прошлых выходных (23-24 сентября) Huawei проводил хакатон TechArena Ireland в Дублине. Несколько сотен зарегистрировались, больше сотни пришло. Организация потребовала немало времени и сил на подготовку места, рекламы, и прочего. (Я не буду перечислять в переводе всех пострадавших :) Они все упомянуты в англоязычном посте на LinkedIn и Medium.)

Я отвечал за подготовку задания, оценки решений и подобных мелочей. Вот как это выглядело.

badcasedaily1 28 сен 2023 в 12:44

Построение пайплайна обработки данных в реальном времени с использованием Python

Сложный

11 мин

12K

Блог компании OTUSData Engineering * Проектирование и рефакторинг * Программирование * Python *

Обзор

Привет, Хабр!

Обработка данных в реальном времени стала важной составной частью современного мира. Бизнес, исследователи, разработчики и многие другие специалисты сталкиваются с необходимостью обрабатывать потоки данных в реальном времени, чтобы принимать решения быстрее и более точно.

В этой статье мы рассмотрим как построить пайплайн обработки данных в реальном времени с использованием Python.

+14

VASExperts 28 сен 2023 в 12:13

Исследования возможностей нейронных сетей глубокого обучения в распознавании маскируемого трафика

Средний

9 мин

6.4K

Блог компании VAS ExpertsМашинное обучение * Исследования и прогнозы в IT * Искусственный интеллектData Engineering *

Аналитика

Классификация сетевого трафика является важным процессом, необходимым для правильной организации передачи данных между приложениями, которые его генерируют. Определение трафика в DPI обеспечивает основу для множества сетевых функций, таких как управление, обеспечение безопасности, разделение услуг, полисинг и другие.

В данной статье мы рассматриваем новый подход к классификации прикладных протоколов в сетевых пакетах.

Aeryukov 28 сен 2023 в 06:27

Как мы создавали self-service функционал проверки качества данных для ML-моделей

Простой

10 мин

3.3K

Блог компании ГазпромбанкData Engineering * Машинное обучение * Big Data * Open source *

Кейс

Привет! Продолжу рассказ о том, как мы превращаем банк в «биг дата» — организацию. Очевидно, что чем больше данных использует компания, тем больше зависит от их качества. Но, зачастую, вопросам качества данных при разработке витрин уделяется недостаточно внимания. Это связано с тем, что требования к качеству данных не фиксируются в бизнес‑требованиях, а разработчик витрины/инженер данных не всегда досконально знает предметную область. Будущее — за организацией контрольных мероприятий в контуре бизнес‑заказчиков. Этот тренд получил название Self‑Service функции. У нас в Газпромбанке по такому принципу строится проверка качества данных для ML‑моделей. Каждому аналитику/разработчику моделей доступен функционал оценки качества данных любой витрины. Рассказываю, как выстроили такую схему работы.

mngr 27 сен 2023 в 16:55

Становясь Пангеей: будущее современного стека для анализа данных

Средний

10 мин

3.9K

Big Data * Развитие стартапаОблачные сервисы * Data Engineering * Хранение данных *

Аналитика

Перевод

Это перевод поста из блога The Analytics Engineering Roundup (горячо рекомендую!) под названием Becoming Pangea про тенденции в индустрии данных и аналитики, стратегические преимущества и проблемы, с которыми сталкиваются компании в ней, влияние основных облачных провайдеров на её будущее и роль стандартов в формировании в ней технологических экосистем.

Как выжить стартапу в области данных?

OnlyAnalyst 27 сен 2023 в 08:37

Как я пришёл в дата-анализ после долгих блужданий по онлайн-курсам, маршрут со всеми тупиками и ухабами

Простой

15 мин

53K

Data Mining * Big Data * Учебный процесс в ITКарьера в IT-индустрииData Engineering *

Роадмэп

Привет! Меня зовут Алексей, я дата-аналитик. Четыре года назад я пришёл в дата-анализ из сферы, далековатой от IT, — пивоварения (хотя о том, что на самом деле они не так далеки, я рассказывал здесь). До того как я нашёл свою нишу, тщетно пробовал вкатиться в IT через разные курсы по Python, TensorFlow и веб-разработке. Потратил на это три года и 100 тысяч рублей, в какой-то момент выгорел ещё в процессе обучения, чуть не бросил попытки, но собрался и в итоге самостоятельно и бесплатно изучил анализ данных, который мне сразу зашёл.

Сейчас я вижу, что многие начинающие блуждают теми же окольными путями. Поэтому решил написать про свой путь с фейлами и граблями и рассказать, что мне помогло найти своё. Надеюсь, мой текст будет полезен — добро пожаловать под кат.

+20

astoulov 25 сен 2023 в 05:00

Как оценить объем работ по миграции хранилища данных на Arenadata DB / Greenplum: методика и пример

Средний

9 мин

2.5K

Блог компании Sapiens solutionsХранение данных * Data Engineering * Управление проектами * Big Data *

Туториал

Некоторое время назад многие российские компании, чей бизнес очень сильно завязан на обработке и анализе больших объемов данных (банки, ритейл, телеком) задумались о том, как можно уменьшить стоимость владения хранилищами данных, построенных на западных технологиях. События последнего времени только ускорили этот процесс. И сейчас количество компаний, для которых актуальна миграция существующих хранилищ данных, построенных на Oracle, MS SQL и других проприетарных СУБД, на решения открытого ПО и отечественных поставщиков, резко выросло, а СУБД GreenPlum фактически становится отраслевым стандартом в хранилищах данных.

При этом и компании-заказчику, и организации-исполнителю необходимо оценить бюджет проекта миграции. Первые обычно запрашивают подобную оценку у вторых.

Именно такую задачу поставил нам клиент – крупная торговая компания. После небольшого ознакомления с возможными методиками, выбор пал на метод COSMIC (Common Software Measurement International Consortium [1]), являющийся одной из разновидностей оценки функционального объема по функциональным точкам и выросший до стандарта ISO 19761. Плюсом в пользу СOSMIC стало разработанное консорциумом адаптированное руководство для оценки функционального объема хранилищ данных [2].

1 2 ...

40 41

43 44 ...

81 82

Data Engineering *

Руководство для начинающих по Spark UI: Как отслеживать и анализировать задания Spark

Знакомство с разработкой SAP Data Services

Как получить полезную информацию из своих категориальных признаков?

Введение в data science: инструменты и методы анализа

Airflow в Kubernetes. Часть 1

Приглашаем на Ozon Tech Community ML&DS Meetup

YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее

Размерности качества данных: обеспечение качества данных с помощью Great Expectations

Потоковая обработка данных: анализ альтернативных решений

Как «воспитать ламу» и ускорить ML-эксперименты

Airflow vs NiFi: исследуем оркестратор для формирования витрин данных

Применение нейросетевых подходов для формирования признаков в моделях

ipywidgets: создаем графические приложения на базе Jupyter

Ближайшие события

TechArena Ireland: как готовился хакатон

Построение пайплайна обработки данных в реальном времени с использованием Python

Исследования возможностей нейронных сетей глубокого обучения в распознавании маскируемого трафика

Как мы создавали self-service функционал проверки качества данных для ML-моделей

Становясь Пангеей: будущее современного стека для анализа данных

Как я пришёл в дата-анализ после долгих блужданий по онлайн-курсам, маршрут со всеми тупиками и ухабами

Как оценить объем работ по миграции хранилища данных на Arenadata DB / Greenplum: методика и пример

Вклад авторов