Обновить
75.71

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга
Уровень сложности

Как собрать датасет за неделю: опыт студентов магистратуры «Наука о данных»

Время на прочтение12 мин
Охват и читатели11K
Привет, Хабр! Сегодня хотим представить вам некоммерческий открытый датасет, собранный командой студентов магистратуры «Наука о данных» НИТУ МИСиС и Zavtra.Online (подразделении SkillFactory по работе с вузами) в рамках первого учебного Дататона. Мероприятие проходило как один из форматов командной практики. Данная работа заняла первое место из 18 команд.

Датасет содержит полный список объектов торговли и услуг в Москве с транспортными, экономическими и географическими метаданными. Исходная гипотеза состоит в том, что близость объекта к транспортным узлам является одним из важнейших показателей и ключевым фактором экономического успеха. Мы попросили команду детально описать свой опыт сбора такого датасета, и вот что получилось.

TLTR: Ближе к концу статьи вы найдёте информативные графики, карты и ссылки.

Приятного чтения

Наши грабли — залог вашего успеха. Кейсы DevOps и SQL-команд

Время на прочтение2 мин
Охват и читатели3.2K
Пятница — самое время занимательных историй. Сегодня предлагаем вам послушать доклады DevOps и SQL-направления с конференции ЮMoneyDay. Специалисты расскажут про:

  • устройство кластера логов, который позволяет нам понимать, что происходит с платежами и транзакциями (а также в целом с компонентами и сервисами);
  • работу дата-инженеров в машинном обучении;
  • внедрение и трансформацию CI/CD.

Делимся ценным опытом, чтобы вы не совершали наших ошибок. Надеемся, будет полезно!


Читать дальше →
С каждым годом сфера Data Science обрастает новыми методиками, терминами и направлениями. К счастью, у нас есть почти готовая энциклопедия по этой теме, которую год за годом кропотливо наполняло сообщество Хабра. Есть, правда, проблема: материалы сообщества почти не структурированы и в них сложновато ориентироваться. Чтобы упростить жизнь тем, кто пытается разобраться в этом сумбуре из полезных (и не очень) статей, мы в Data-Science департаменте Газпромбанка собрали коллекцию лучших постов о том, как грамотная работа с данными меняет компании и людей. Подробности — под катом.
Читать дальше

Как мы автоматизировали выгрузки и другие Ad-hoc задачи аналитика с помощью Zeppelin

Время на прочтение8 мин
Охват и читатели14K

На момент написания этой статьи в компании Cardsmobile, которая разрабатывает мобильное приложение «Кошелёк», работает 195 человек: 8 аналитиков и 187 потенциальных заказчиков аналитиков. Мы делаем приложение для конечных пользователей, а также работаем с ритейлом, банками, брендами и другими партнерами. Долгое время работа аналитика в Кошельке состояла не только из исследований поведения пользователя, но и из различных выгрузок, типовых анализов для партнеров и прогнозов для потенциальных клиентов. Конечно, дашборды сильно спасали нам жизнь и позволяли всей компании следить за показателями продукта. Но мы всё ещё тратили время на остальную текучку, и с ростом команды (заказчиков) и бизнеса упёрлись: Ad-hoc задач стало слишком много, а исследования, желание развиваться и светлое будущее простаивали в отсутствие у нас времени.

Читать дальше →

Быстро и гибко настраиваем  наблюдаемость с помощью канонических строк логов

Время на прочтение10 мин
Охват и читатели5.1K

В постах на Хабре тема структурного логирования упоминается часто, но вскользь. Поэтому, когда я наткнулся на эту подробную статью Brandur Leach из Stripe, я решил перевести её и поделиться с сообществом. 

В Badoo мы оценили пользу структурного логирования в частности для группировки ошибок. Хеш сообщения об ошибке часто содержит динамические данные — например, id пользователя, — которые мешают корректно группировать такие сообщения. Поэтому мы перешли на структурное логирование, где текст ошибки — это некий шаблон, а вся динамическая информация передается в контексте и не влияет на группировку.

В статье Brandur Leach предлагает идею, как открыть еще больше возможностей в структурном логировании. Есть и описание практической пользы от использования такого подхода — в Stripe даже сделали продуктовый функционал на основе данных, полученных из логов, — и детали реализации такого решения (без ухода в дебри конкретного стека технологий).

Приятного чтения!

Читать далее

Мультиоблачная стратегия: управление сложной структурой в большом масштабе

Время на прочтение17 мин
Охват и читатели2.7K

Вряд ли у кого вызывает сомнение, что современную экономику можно назвать экономикой данных, поскольку данные превратились в валюту, товар и новый природный ресурс, своего рода топливо для инноваций. Однако объем данных безудержно растет. Данные содержат в себе огромную ценность, они все чаще нужны нам в небывало больших объемах и на высокой скорости. Как нам кажется, организациям следует меньше беспокоиться о затратах на управление данными и больше думать о новых возможностях, которые дает это управление. Как лучше всего раскрыть потенциал этих возможностей?

Наша статья посвящена компонуемой архитектуре данных на основе мультиоблака, которая будет расти вместе с бизнесом и автоматически доставлять данные туда, где они принесут больше всего пользы. Она позволит достичь главной цели мультиоблака — создать комбинированную среду с упрощенным управлением с одной стороны и доставкой сервисов по требованию — с другой.

Как преуспеть в экономике данных?

Современную экономику можно назвать экономикой данных, поскольку данные превратились в валюту, товар и новый природный ресурс, своего рода топливо для инноваций. Питер Норвиг, директор по исследованиям в Google, однажды так объяснил успех своей организации: «Наши алгоритмы не лучше, чем у других. Просто у нас больше данных».

Однако объем данных безудержно растет. В основном это созданные машинами, неструктурированные, хаотичные и разрозненные данные, которые используются недостаточно продуктивно — или не используются вовсе. При этом они все чаще нужны нам в небывало больших объемах и на высокой скорости.

Как добиться успеха в экономике данных? Как нам кажется, достаточно соблюдать три правила:

Читать далее

Заметки Датасатаниста: реляционные vs связанные данные

Время на прочтение5 мин
Охват и читатели9.7K


Сегодня мы поговорим о простой, казалось бы, теме, как реляционные и связанные данные.

Несмотря на всю ее простоту, замечаю, что иногда люди действительно путаются в них — я решил это исправить, написав краткое и неформальное объяснение, чем они являются и зачем нужны.

Мы обсудим, что такое реляционная модель и связанные с ней SQL и реляционная алгебра. Потом перейдем к примерам связанных данных из Викидата, а далее RDF, SPARQL и чутка поговорим про Datalog и логическое представление данных. В конце выводы — когда применять реляционную модель, а когда связно-логическую.

Основная цель заметки — это описать, когда что имеет смысл применять и почему. Так как тут немало непростых концепций сошлись в одном месте, то конечно же можно было бы по каждой написать книгу — но наша задача сегодня дать представление о теме и мы будем разбирать неформально на простых примерах.

Если у вас есть сомнения, чем одно отличается от второго и зачем вообще нужны связанные данные (LinkedData), то добро пожаловать под кат.
Читать дальше →

Логирование выполнения скриптов на языке R, пакет lgr

Время на прочтение14 мин
Охват и читатели2.8K

При проведении разового анализа логирование вам не понадобится. Но в случае разработки скриптов, которые будут по расписанию запускаться в пакетном режиме, логирование упростит вам процесс определения и исправления возникающих в работе скрипта ошибок.


По умолчанию скрипты которые запускаются командой R CMD BATCH логируются в одноимённые файлы с расширением .Rout. Но такие логи неудобно читать, а анализировать невозможно.


Есть целый ряд пакетов, которые берут на себя процесс логирования. В этой статье мы рассмотрим один из наиболее функциональных и новых пакетов — lgr.


Читать дальше →

Главные тренды Data Science 2020 года, которые будут актуальны в 2021-м

Время на прочтение6 мин
Охват и читатели8K
Привет, Хабр! Сегодня я расскажу, как развивается сфера Data Science. 2020 год стал переломным не только для мира в целом, сфера данных активно совершенствуется и сегодня можно уже подводить итоги года. Встречайте тренды DS в 2020-2021 году.

Приятного чтения!

Как бы я изучал Data Science, если бы начал пару лет назад, или Руководство по эффективному изучению науки о данных

Время на прочтение5 мин
Охват и читатели32K
Когда я только начал своё путешествие к науке о данных, я потратил много времени на то, чтобы понять, с чего начать, что я должен узнать в первую очередь и какие ресурсы должен использовать. За последние два года я узнал несколько вещей, о которых хотел знать раньше, например о том, стоит ли сначала сосредоточиться на программировании или статистике, какие ресурсы я должен использовать для изучения новых навыков, как я должен подходить к изучению этих навыков и так далее. Таким образом, эта статья написана, чтобы дать направления и идеи для тех, кто изучает Data Science.

Приятного чтения!

Как мы Data-Office создавали

Время на прочтение4 мин
Охват и читатели4.3K


Привет, я – Ильдар Райманов и я руковожу департаментом в «БАРС Груп», который отвечает за развитие BI-решений в компании. Имея широкий опыт по работе с данными, а также обладая отраслевой экспертизой, мы решили попробовать сформировать центр компетенций, который, позволяя обрабатывать большие массивы данных, сможет обеспечить сервис по формированию знаний на те или иные предметные запросы клиентов.

Data-Office включает в себя сразу несколько составляющих – это проработанное хранилище, включающее как «озеро больших данных», так и подготовленные витрины, процессы наполнения данных из систем источников, механизмы проверки качества данных; команда методологов, которые понимают, о чем говорят те или иные цифры согласно отраслевой специфике, ну и конечно набор различных софтверных инструментов, основным из которых является платформа бизнес-аналитики Alpha BI, разработанная компанией «БАРС Груп».

Чтобы информация воспринималась еще более понятно, постараюсь раскрыть простым языком ключевые термины, акцентировано выделенные в тексте.
Читать дальше →

Как создать свою собственную библиотеку AutoML в Python с нуля

Время на прочтение8 мин
Охват и читатели6.7K
Библиотеки и сервисы AutoML вошли в мир машинного обучения. Для дата-сайентиста это очень полезные инструменты, но иногда они должны быть адаптированы к потребностям бизнес-контекста, в котором работает дата-сайентист. Вот почему вам нужно создать свою собственную библиотеку AutoML. В преддверии старта нового потока курса «Машинное обучение» мы делимся материалом, в котором описано, как это сделать на Python.


Давайте начнём

Автоматическое обучение моделей с помощью Vowpal Wabbit

Время на прочтение12 мин
Охват и читатели6K
Всем привет, меня зовут Артем Жаринов, я специалист по анализу данных и машинному обучению команды RnD в Lamoda.

Блуждая по нашему сайту вы, возможно, заметили такие полки рекомендаций «С этим товаром покупают» или «Популярные товары». Для персонализированного ранжирования товаров в этих полках мы используем модель из фреймворка Vowpal Wabbit, написанного на языке C. Другой алгоритм отбирает определенный набор товаров, который может показываться на этой полке, а задача Vowpal Wabbit – предсказать вероятность того, что пользователь кликнет на какой-либо товар.

В этой статье расскажу, как мы:

  • составляем рекомендации, которые отображаются на сайте;
  • обучаем модели, которые эти рекомендации делают;
  • и почему мы пришли к тому, что необходимо автоматизировать весь процесс обучения моделей.

image
Читать дальше →

Ближайшие события

Программа SmartData 2020

Время на прочтение14 мин
Охват и читатели2K


Мы уже рассказывали Хабру, что новая SmartData — это конференция про data engineering. Но что именно это значит на практике, какие доклады подходят под такое определение? На момент анонса мы могли объяснить только общими словами, а вот теперь программа конференции готова — так что показываем всю конкретику. Под катом — описания всех докладов.


А в преддверии конференции будет ещё и маленькое бесплатное онлайн-мероприятие о жизни дата-инженеров: 1 декабря на YouTube пройдёт разговорное шоу, где участники программного комитета конференции (Паша asm0dey Финкельштейн, Олег olegchir Чирухин, Дарья Буланова, Сергей Бойцов) обсудят свои проблемы и провалы — грубо говоря, как они тратили слишком много времени на решение простой задачи. Увидимся в YouTube-трансляции.

Читать дальше →

Как разработать ансамбль Light Gradient Boosted Machine (LightGBM)

Время на прочтение16 мин
Охват и читатели62K
В преддверии старта нового потока курса «Машинное обучение» представляем вашему вниманию материал о Light Gradient Boosted Machine (далее — LightGBM), библиотеке с открытым исходным кодом, которая предоставляет эффективную и действенную реализацию алгоритма градиентного бустинга.

LightGBM расширяет алгоритм градиентного бустинга, добавляя тип автоматического выбора объектов, а также фокусируясь на примерах бустинга с большими градиентами. Это может привести к резкому ускорению обучения и улучшению прогнозных показателей. Таким образом, LightGBM стала де-факто алгоритмом для соревнований по машинному обучению при работе с табличными данными для задач регрессионного и классификационного прогностического моделирования. В этом туториале вы узнаете, как разрабатывать ансамбли машин Light Gradient Boosted для классификации и регрессии. После завершения этого урока вы будете знать:

  • Light Gradient Boosted Machine (LightGBM) — эффективную реализацию ансамбля стохастического градиентного бустинга с открытым исходным кодом.
  • Как разрабатывать ансамбли LightGBM для классификации и регрессии с помощью API scikit-learn.
  • Как исследовать влияние гиперпараметров модели LightGBM на её производительность.


Давайте начнём

Snowflake, Anchor Model, ELT и как с этим жить

Время на прочтение15 мин
Охват и читатели16K
Привет! Меня зовут Антон Поляков, и я разрабатываю аналитическое хранилище данных и ELT-процессы в ManyChat. В настоящий момент в мире больших данных существуют несколько основных игроков, на которых обращают внимание при выборе инструментария и подходов к работе аналитических систем. Сегодня я расскажу вам, как мы решили отклониться от скучных классических OLAP-решений в виде Vertica или Exasol и попробовать редкую, но очень привлекательную облачную DWaaS (Data Warehouse as a Service) Snowflake в качестве основы для нашего хранилища.

С самого начала перед нами встал вопрос о выборе инструментов для работы с БД и построении ELT-процессов. Мы не хотели использовать громоздкие и привычные всем готовые решения вроде Airflow или NiFi и пошли по пути тонкой кастомизации. Это был затяжной прыжок в неизвестность, который пока продолжается и вполне успешно.

Под катом я расскажу про архитектуру нашего аналитического хранилища и покажу, каким образом мы производим загрузку, обработку и трансформацию данных.
Читать дальше →

Spark 3.0: новые возможности и примеры их использования – часть 1

Время на прочтение6 мин
Охват и читатели9.3K

К нашей новой программе "Apache Spark на Scala для дата-инженеров" и вебинару о курсе, который пройдет 2 декабря, мы подготовили перевод обзорной статьи о Spark 3.0.

Spark 3.0 вышел с целым набором важных улучшений, среди которых: повышение производительности с помощью ADQ, чтение бинарных файлов, улучшенная поддержка SQL и Python, Python 3.0, интеграция с Hadoop 3, поддержка ACID. 

В этой статье автор постарался привести примеры использования этих новых функций. Это первый первый материал о функциональности Spark 3.0 и у этой серии статей планируется продолжение.

Читать далее

Задачи и инструменты ML и их практическое применение

Время на прочтение7 мин
Охват и читатели55K

Машинное обучение – распространившийся термин, но не все понимают его верно. В этом материале эксперты направления аналитических решений ГК «КОРУС Консалтинг» Алена Гайбатова и Екатерина Степанова расскажут, что же на самом деле такое machine learning (ML), в каких случаях эту технологию стоит использовать в проектах, а также где машинное обучение активно применяется на практике. 

Читать далее

Секреты производительности Spark, или Почему важна компиляция запросов

Время на прочтение8 мин
Охват и читатели5.1K

Criteo — это компания, работа которой основана на данных. Каждый день через наши системы проходят десятки терабайт новых данных для обучения моделей рекомендаций, обрабатывающих запросы в масштабах всего Интернета. Spark — наше основное средство обработки больших данных. Это мощный и гибкий инструмент, однако он отличается довольно высокой сложностью в освоении, а чтобы пользоваться им эффективно, зачастую требуется читать исходный код платформы.

Читать далее

Дизайн и подходы создания Big Data пайплайнов

Время на прочтение23 мин
Охват и читатели9.9K
image
(Корень всех зол в data engineering лежит в излишне сложном конвейере обработки данных)

Исторический контекст


Разработка конвейера данных достаточно серьезная задача, а с учетом областей с огромными объемами данных, эта сложность многократно увеличивается. Инструменты и концепции, связанные с большими данными, начали развиваться примерно в начале 2000-х годов, когда масштабы и скорость интернета резко начали возрастать. Компании внезапно обнаружили, что им приходится иметь дело с огромными объемами и скоростью передачи данных. Возможно, одним из пионеров в этой области был Google, инженеры которого боролись с поисковым сканером и индексатором. По сути это по, которое в то время лежало в основе поисковика Google. Поскольку количество веб-сайтов и страниц астрономически росло, Google не мог решить, как масштабировать свой сканер/индексатор, используя существующие вычислительные ресурсы, которые были распределены географически. Ни одна из коммерческих баз данных или технологий в то время не могла масштабироваться быстро и с минимальными затратами, и обе эти технологии были необходимы Google для масштабирования своего основного продукта.
Читать дальше →