Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

Cloudera 1 июл 2021 в 07:56

Фильтруйте больше — тратьте меньше с последней версией Cloudera Data Warehouse Runtime

5 мин

491

Блог компании ClouderaБазы данных * Big Data * Хранение данных * Data Engineering *

Перевод

Сегодня одним из наиболее эффективных способов повышения производительности и минимизации затрат в системах баз данных является отказ от излишних операций, таких как чтение данных с уровня хранения (например, с дисков или из удаленного хранилища), их передача по сети или даже материализация данных при выполнении запроса. Apache Hive изначально улучшает выполнение распределенных запросов, передавая предикаты фильтров столбцов обработчикам подсистемы хранения, таким как HBase, или «читателям» данных в колоночном формате, например Apache ORC. Оценка этих предикатов вне механизма выполнения дает меньше данных для оценки запроса (сокращение данных) и приводит к уменьшению времени выполнения запроса и количества операций ввода-вывода.

Читать далее

0

volinski 28 июн 2021 в 06:48

Как работать с Big Data быстрее и эффективнее: Kubernetes для Data Science

10 мин

10K

Блог компании VKОблачные вычисления * Kubernetes * Data Engineering * Big Data *

Big Data by Batjorge

Традиционный подход к построению работы с большими данными — развернуть Hadoop-кластер, установить дополнительные инструменты и построить на нем платформу для работы с данными. Но в таком подходе есть несколько ограничений, вроде невозможности разделения Storage- и Compute-слоев, сложностей масштабирования и изоляции сред для разных приложений. Даже несмотря на то, что Hadoop можно арендовать у облачного провайдера как сервис (aaS), такой подход все равно мало чем отличается от развертывания на собственном оборудовании.

Однако есть другой, Cloud-Native подход работы с большими данными. Он позволяет решить эти проблемы, а также получить дополнительные возможности от облачных технологий. Для этого используют Kubernetes, интегрируя его с различными инструментами.

Я Александр Волынский, архитектор облачной платформы Mail.ru Cloud Solutions. Расскажу, как Kubernetes помогает в работе с Big Data, какие используются инструменты и какие преимущества можно получить по сравнению с классическим развертыванием.

Также вы можете посмотреть видеовыступление на митапе «Большие данные: не хайп, а индустрия».

Читать дальше →

+17

X5Tech 25 июн 2021 в 10:31

Аналитик на прокачку

5 мин

7.4K

Блог компании X5 TechPython * Big Data * Карьера в IT-индустрииData Engineering *

Ни для кого не секрет, что область Data Science сегодня горяча, работы полно, рук не хватает, а 300 кк/сек можно начать зарабатывать даже раньше, чем конкуренты пройдут курсы по саморазвитию и созданию своего бизнеса от обладателей селфи со спорткарами. Мы в Х5 Group тоже активно помогаем молодым специалистам стать зрелыми мастерами, и можем заверить, что, пусть даже 300 кк/сек это утопия, но 300 к/мес – это вполне себе реальность.

Типовой кейс выглядит так: к нам приходит молодой стажер, получает ментора из числа старших сотрудников, проходит обучающие курсы в нашей Цифровой Академии Х5, наращивает компетенции, и в 3-4 месяца становится младшим аналитиком, а на самом деле Менеджером по Анализу Больших Данных, так эта позиция называется в штатном расписании. А кое-кто и сразу Старшим Менеджером, если затащил, заделиверил и продемонстрировал.

Читать далее

+4

Cloudera 25 июн 2021 в 06:50

Создание системы мониторинга Kafka с помощью NiFi, Kudu и Tableau

9 мин

4.7K

Блог компании ClouderaBig Data * Визуализация данных * Data Engineering * Хранение данных *

Перевод

При масштабной работе с Apache Kafka вы рано или поздно столкнетесь с проблемой доступного дискового пространства, темпами роста тем или общими вопросами использования диска. Это особенно актуально при работе с внешними источниками - вне вашего прямого контроля и настройки жестких ограничений по размеру в вашей конфигурации хранения.

Инструмент kafka-log-dirs позволяет определить текущий размер и расположение всех доступных разделов в вашем кластере Kafka. Из-за своей природы этот инструмент представляет собой лишь снимок текущего состояния без какой-либо истории, и пользоваться им неудобно. Но мы покажем как это исправить!

Читать далее

+5

andylar 23 июн 2021 в 11:17

DAG’и без напрягов: наш опыт использования метаданных при работе с Apache Airflow

4 мин

7.1K

Блог компании Лемана ТехApache * Big Data * Data Engineering * Хранение данных *

Apache Airflow – простой и удобный batch-ориентированный инструмент для построения, планирования и мониторинга дата-пайплайнов. Ключевой его особенностью является то, что, используя Python-код и встроенные функциональные блоки, можно соединить множество различных технологий, использующихся в современном мире. Основная рабочая сущность Airflow – DAG – направленный ацикличный граф, в котором узлами являются задачи, а зависимости между задачами представлены направленными ребрами.

Те, кто использует Apache Airflow для оркестрации задач загрузки данных в хранилище, наверняка оценили гибкость, которую он предоставляет для решения шаблонных задач. Когда весь процесс разработки сводится к заполнению конфигурационного файла с описанием параметров DAGа и списком задач, которые должны выполняться. У нас в Леруа Мерлен такой подход успешно используется для создания задач по перекладыванию данных из raw-слоя в ods-слой хранилища. Поэтому было решено распространить его на задачи по заполнению витрин данных.

Читать далее

+3

deft31 22 июн 2021 в 07:14

Найти подстроку в строке

6 мин

33K

Программирование * Алгоритмы * Data Engineering * СофтДизайн

Из песочницы

Алгоритм поиска строки Бойера — Мура — алгоритм общего назначения, предназначенный для поиска подстроки в строке.

Давайте попробуем найти вхождение подстроки в строку.

Подготовка к собеседованию

+18

ieBoytsov 18 июн 2021 в 14:31

RamblerMeetup&Usermodel

2 мин

883

Блог компании Rambler&CoData Engineering * Data Mining * Big Data *

Мы долго шли к этому и вот наконец! Наш внутренний RamblerMeetup&Usermodel выходит в свет! Уже 30 июня эксперты поделятся своими кейсами в области ML и Big Data.

Читать далее

+2

X5Tech 16 июн 2021 в 15:31

Почему в X5 Group выделили Data Engineering в отдельный центр компетенций

5 мин

4.2K

Блог компании X5 TechPython * Big Data * Карьера в IT-индустрииData Engineering *

Когда в X5 Group начали развивать BigData, то помимо самой DMP платформы и BI-аналитики, в компании стали активно запускать цифровые продукты, построенные на основе больших данных, использующие сложную аналитику и машинное обучение. Для примера можно привести продукты по прогнозированию спроса, управлению ассортиментной матрицей магазинов, предсказанию отсутствия товаров на полках, динамического ценообразования и т.п

Читать далее

0

Ninil 16 июн 2021 в 13:05

Что нам стоит… загрузить JSON в Data Platform

12 мин

3.5K

Блог компании Лемана ТехData Engineering * Хранение данных * Big Data *

Всем привет! В недавней статье мы рассказали, как мы шли к построению нашей Data Platform.

Сегодня хотелось бы глубже погрузиться в «желудок» нашей платформы и попутно рассказать вам о том, как мы решали одну из задач, которая возникла в связи с ростом разнообразия интегрируемых источников данных.

То есть, если возвращаться к финальной схеме из упомянутой выше статьи (специально дублирую ее ниже, чтобы уважаемым читателям было удобнее), то сегодня мы будем более углубленно говорить о реализации «правой части» схемы — той, что лежит после Apache NiFi.

Читать далее

+2

zaitsevio 15 июн 2021 в 17:48

Проблемы мониторинга дата-пайплайнов и как я их решал

7 мин

3.6K

Data Engineering * DevOps * Data Mining * Анализ и проектирование систем * Системное администрирование *

Мониторинг - сложная, но необходимая часть разработки, она становится вдвойне сложней, когда мониторить надо не просто технические вещи, а их фактический смысл для бизнеса.

Данные, собранные и трансформированные в дата-пайплайнах очень часто поступают сразу к аналитикам и к другим людям, принимающим бизнес-решения, так что мониторинг таких вещей должен быть удобен не только инженерам, но и для других людей, которым важно знать, можно ли доверять данным и есть ли какие-то проблемы с их обработкой.

О том, какие проблемы со сбором и обработкой данных бывают, как избежать ложных алертов и как я делал мониторинг на основе событий максимально понятным и прозрачным для бизнеса, я и приглашаю почитать в этой статье.

Читать далее

+7

VTB 8 июн 2021 в 18:23

Чтобы потолка не стало, а крышу не снесло: о чем новый подкаст ВТБ

3 мин

3.1K

Блог компании ВТБData Engineering * Big Data * Финансы в ITИскусственный интеллект

Привет, Хабр! Команда ВТБ запустила серию подкастов о передовых решениях финтеха «Деньги любят техно». Журналист, технологический обозреватель Марина Эфендиева будет обсуждать с экспертами банка, рынка, учеными и бизнесменами перспективы и сложности финтеха: внедрения технологий на основе Big Data, машинного обучения, искусственного интеллекта, вопросы кибербезопасности и защиты данных, перспективные технологические специальности, голосовых помощников и многое другое.

В первом выпуске заместитель президента-председателя правления ВТБ Вадим Кулик и директор Физтех-школы прикладной математики и информатики д.ф.-м.н. Андрей Райгородский обсуждают, почему банки в России так любят Data science, можно ли стать дата-сайнтистом за три месяца и где учиться, чтобы создать успешную карьеру. Под катом основные темы этой беседы и ссылка на сам подкаст.

Читать далее

+4

honyaki 3 июн 2021 в 11:24

Новая система автоматически очищает массивы ненадёжных данных

9 мин

2.3K

Блог компании SkillfactoryПрограммирование * Искусственный интеллектData Engineering * Julia *

Перевод

Специально к старту курса о Data Science мы перевели статью о созданной исследователями из Массачусетского технологического института программе, занимающей около 50 строк кода (ссылку на который мы разместили в конце) и автоматически очищающей "грязные данные" — описки, дубликаты, пропущенные значения, опечатки и несоответствия, которых так опасаются аналитики, дата-сайентисты и дата-инженеры.

Система, получившая название PClean, — уже третья в серии проблемно-ориентированных языков вероятностного программирования, созданных членами Проекта вероятностного программирования (Probabilistic Computing Project), целью которого является упрощение и автоматизация разработки приложений ИИ (первая система была посвящена 3D-восприятию с помощью инверсной графики, а вторая — моделированию временных рядов и баз данных).

Читать далее

+4

selesnow 3 июн 2021 в 07:31

Вращение таблиц в Google BigQuery (PIVOT)

7 мин

5.5K

Data Engineering * Google Cloud Platform * Big Data * Data Mining * SQL *

Туториал

Сводные таблицы в Excel являются чрезвычайно мощным инструментом, поскольку позволяют быстро изменять форму данных в пару кликов мышки. Например, вам необходимо построить отчёт продаж по магазинам за год, таким образом, что бы в строках были названия магазинов, а в столбцах месяца. Не проблема, кидай в область столбцов сводной таблицы поле месяц, в область строк поле с названием торговых точек, а в поле значение сумму продаж. Отчёт готов.

До недавних пор реализовать такую операцию в SQL было довольно проблематично, но недавно в функционал Google BigQuery была добавлен оператор PIVOT, о нём и пойдёт речь в этой статье.

Читать далее

0

Kiryl_Halozhyn 1 июн 2021 в 09:22

Как Apache Spark 3.0 увеличивает производительность ваших SQL рабочих нагрузок

5 мин

5.2K

Блог компании ClouderaApache * Big Data * Hadoop * Data Engineering *

Перевод

Практически в каждом секторе, работающем со сложными данными, Spark "де-факто" быстро стал средой распределенных вычислений для команд на всех этапах жизненного цикла данных и аналитики. Одна из наиболее ожидаемых функций Spark 3.0 - это новая платформа Adaptive Query Execution (AQE), устраняющая проблемы, которые возникают при многих рабочих нагрузках Spark SQL. Они были задокументированы в начале 2018 года командой специалистов Intel и Baidu и сегодня мы детально их обсудим.

Читать далее

+3

beneton2003 30 мая 2021 в 14:27

Clarion. Процесс миграции Clarion приложения на Microsoft SQL 2019

4 мин

3.6K

Data Engineering *

Туториал

Продолжаю повествовать о жизни с Clarion. В этом посте я опишу свой путь решения одной из частых задач, стоящих перед Clarion разработчиками, это миграция Clarion программы на СУБД Miscrosoft SQL.

Читать далее

+2

kuzin_d 28 мая 2021 в 11:55

5 условий зарождения искуственного интеллекта в индустрии

7 мин

2.9K

Блог компании Axenix (ex-Accenture)Искусственный интеллектИнженерные системы * Data Engineering * Big Data *

Революция искусственного интеллекта не грядёт, она уже здесь и требует от компаний переосмысления бизнес-процессов, чтобы максимально использовать возможности искусственного интеллекта (ИИ) для расширения человеческих способностей.

Итак, у всех, кто интересуется современными технологиями, на слуху цифровизация, большие данные и проникновение искусственного интеллекта в разные области нашей жизни и деятельности. Ни для кого не секрет, что жизнь ИИ потихоньку зародилась вокруг нас: в наших карманах, сумках, машинах и домах, где «живут» наши гаджеты и различные электронные помощники. По словам ведущих специалистов в области искусственного интеллекта, эти технологии переживают сейчас третью волну, они наконец-то вырвались из исследовательских лабораторий и быстро становятся «ключевым элементом трансформации бизнеса» [1].

Читать дальше →

+1

MaxRokatansky 27 мая 2021 в 11:41

Задачка для дата сайентистов по Data Warehouse

2 мин

2.8K

Блог компании OTUSData Engineering * Big Data *

Привет, хабровчане! Недавно в OTUS мы провели соревнования по Data Science. По задаче в категории Data Warehouse нам прислали всего два решения — и мы решили поинтересоваться у более широкой аудитории, насколько сложной получилась эта задача. Если вы работаете с данными, приглашаем попробовать ее решить и получить приятные бонусы от OTUS.

Читать далее

+4

MaxRokatansky 26 мая 2021 в 11:06

5 вещей о наблюдаемости данных, которые должен знать каждый дата-инженер

7 мин

4K

Блог компании OTUSData Engineering * DevOps *

Перевод

Если вы начинающий дата-инженер, вот несколько важных технологий и фреймворков, которые вам следует знать. Построить конвейер данных? Легко. Очистить, преобразовать и смоделировать ваши данные? Легко. Предотвратить нарушение рабочих процессов до того, как вы получите неприятный звонок от генерального директора по поводу ее недостающих данных? Ну, может не так легко.

Используя передовой опыт наших друзей в области разработки программного обеспечения и DevOps, мы можем более стратегически подходить к решению проблемы «хорошие конвейеры - плохие данные». В значимой степени этот подход также включает в себя наблюдаемость.

Джесси Андерсон, управляющий директор Big Data Institute и автор книги «Команды инженерии данных: создание успешных Big Data команд и продуктов», и Барр Мозес, соучредитель и генеральный директор Monte Carlo, делятся всем, что вам нужно знать, чтобы начать работу на этом новом уровне стека данных.

Инжиниринг данных (Data Engineering) часто называют «водопроводом data science» - обычно, имея в виду способ, которым инженеры по обработке данных обеспечивают правильное функционирование всех конвейеров и рабочих процессов, а также правильные данные, поступающие в нужных направлениях к нужным заинтересованным сторонам. Но большинство дата-инженеров, с которыми я разговариваю, имеют одно вполне конкретное мнение о водопроводчиках: вы звоните им только тогда, когда что-то идет не так.

Вечернее электронное письмо от вашего вице-президента - мне нужны последние цифры для моей завтрашней презентации, а мой Looker дашборд не работает.

Читать далее

+5

Cloudera 24 мая 2021 в 06:00

Архитектура непрерывной потоковой доставки в Cloudera Flow Management

7 мин

1.4K

Блог компании ClouderaData Engineering * Hadoop * Big Data * Apache *

Перевод

Cloudera Flow Management, основанная на Apache NiFi и являющаяся частью платформы Cloudera DataFlow, используется некоторыми из крупнейших организаций в мире для обеспечения простого в использовании, мощного и надежного способа распределения и высокоскоростной обработки данных в современной экосистеме больших данных. Клиенты все чаще используют CFM для ускорения обработки потоковых данных на предприятии от концепции до реализации. Интерфейс разработки потоков Cloudera отличается от типичных стилей структурированного кодирования, что часто создает проблему применения лучших практик непрерывного совершенствования/непрерывной доставки (CI/CD) в стиле DevOps для доставки потоков.

Читать далее

+2

kzzzr 19 мая 2021 в 13:15

Курсы валют и аналитика – использование обменных курсов в Хранилище Данных

8 мин

4.4K

Блог компании OTUSBig Data * Data Engineering *

Привет! На связи Артемий – Analytics Engineer из Wheely.

Сегодня хотел бы поговорить о вопросах конвертирования финансовых показателей в разные валюты. Вопрос достаточно актуальный, так как большое количество компаний имеют мультинациональные зоны присутствия, строят аналитику глобального масштаба, готовят отчетность по международным стандартам.

Покажу как этот вопрос решается с помощью современных подходов на примере кейса Wheely:

– Расширение списка базовых валют

– Регулярное обновление и получения актуальных курсов

– Обеспечение корректности исторических показателей

– Максимальное удобство и простота использования в аналитических инструментах

Велком под кат для разбора решения проблемы учета мультивалютных метрик и показателей: Open Exchange Rate, Airflow, Redshift Spectrum, dbt.

Смотреть решение

+6

1 2 ...

64

65 66 ...