Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

@Mojsha 9 сен 2021 в 17:58

Kedro — ключ к модульной Data Science

8 мин

7.4K

Блог компании SkillfactoryPython * Программирование * Машинное обучение * Data Engineering *

Туториал

Перевод

Kedro — фреймворк модульного кода в Data Science. С его помощью вы можете создавать проекты по шаблону, настраивать конвейер в YAML, делить его на части, документировать проект — и это далеко не всё. Материалом о работе с Kedro делимся к старту курса по Data Science.

@nasingfaund 9 сен 2021 в 15:20

Парсим базу юриков ФНС (велосипедостроение с xml, csv, SQLite и Питоном)

7 мин

10K

Python * SQL * XML * SQLite * Data Engineering *

Туториал

Из песочницы

Замечания: статья для совсем маленьких и крутым спецам по кодингу будет не интересно, лучше ее пропустить. В коде первым комментарием поставлена ссылка на расположение файла с этим кодом для удобства и простоты. Главная задача была получить результат в виде таблицы SQLite. Качество кода оцениваем как ниже среднего, но с заявкой на максимальную простоту. Код написан достаточно просто и без пояснений, но готовы исправиться, поясниться.

Вводная

Что хотим сделать: взять данные по юридическим лицам (ЮЛ) РФ за 2019 год (идентификаторы ЮЛ: наименование и ИНН(ЮЛ), оборот, расход) и положить в SQLite.

@selesnow 9 сен 2021 в 07:51

Обзор R пакетов для интернет маркетинга, часть 2

5 мин

2.3K

Data Engineering * Контекстная реклама * Интернет-маркетинг * R * Проектирование API *

Туториал

Первой моей публикацией на Хабре была "Обзор R пакетов для интернет маркетинга, часть 1", с тех пор прошло почти 3 года. За это время какие-то пакеты стали не актуальны, какие-то сильно изменились и конечно появились новые пакеты, которые могут значительно облегчить жизнь интернет маркетологам и веб аналитикам.

В этой статье мы рассмотрим следующую порцию R пакетов предназначенных для интернет - маркетинга.

@MrNightSky 7 сен 2021 в 11:30

Как классифицировать данные без разметки

7 мин

10K

Блог компании FUNCORPPython * Обработка изображений * Машинное обучение * Data Engineering *

Технотекст 2021

Пользователи iFunny ежедневно загружают в приложение около 100 000 единиц контента, среди которого не только мемы, но и расизм, насилие, порнография и другие недопустимые вещи.

Раньше мы отсматривали это вручную, а сейчас разрабатываем автоматическую модерацию на основе свёрточных нейросетей. Систему уже обучили на разделение контента по трём классам: она распознает, что пропустить в ленты пользователей, что удалить, а что скрыть из общей ленты. Чтобы сделать алгоритмы точнее, решили добавить конкретизацию причины удаления контента, у которого до этого не было подобной разметки.

Как мы это в итоге сделали — расскажу под катом на наглядном примере. Статья рассчитана на тех, кто знаком с Python (при этом необязательно разбираться в Data Science и Machine Learning).

+54

@Anastasia_rova 6 сен 2021 в 10:35

«Футбол в цифрах»: как аналитика может улучшить ситуацию с футболом в России

8 мин

9.1K

Блог компании НетологияData Engineering * DIY или Сделай самСтатистика в ITВизуализация данных *

Привет, Хабр! Меня зовут Владимир Герингер, я автор проекта «Футбол в цифрах». В нём я собираю футбольную статистику, анализирую данные, вывожу закономерности и рассказываю аудитории о самом интересном в виде коротких заметок и подробных статей. Данные — моё хобби, я собрал их достаточно, чтобы сделать выводы об основных проблемах российского футбола и предложить решения.

Как рост и вес футболистов влияют на игру

@IvanSGlazunov 4 сен 2021 в 15:38

Фактор рефакторинга

4 мин

7.2K

Блог компании Deep.FoundationАнализ и проектирование систем * Проектирование API * Big Data * Data Engineering *

Из песочницы

Код зависим от данных и моделей, а значит от абстракций используемых в них, поэтому рефакторинг неминуем сегодня. Почему? Обычно под рефакторингом подразумевают реорганизацию кода из соображений необходимости использовать данные по-новому. Мы поговорим о самом частом и нелюбимом типе рефакторинга - лавинообразный рефакторинг, возникающий при изменениях в моделях данных, структурах таблиц и бизнес логике.

Это те дроиды, которых вы ищете

@phillennium 2 сен 2021 в 15:55

Осенний экспресс прибывает: анонс TechTrain 2021 Autumn

6 мин

1.2K

Блог компании JUG Ru GroupData Engineering * Node.JS * Android * Java *

IT-экспресс TechTrain мчится в онлайн и открывает наш осенний сезон конференций.

Это бесплатное мероприятие, где с 8 докладами на самые разные темы выступят спикеры самого разного профиля. Пишете вы на Kotlin или C++, ближе вам DevOps или дата-инжиниринг — найдется доклад для вас.

Чтобы запрыгнуть на бесплатный осенний поезд, который отправится 18 сентября, достаточно пройти регистрацию на сайте.

А чтобы вспомнить или впервые увидеть доклады прошлого сезона, можете посмотреть их плейлист.

Все это, только в расширенном формате, ждет вас и на наших крупных осенних конференциях. Поэтому по программе TechTrain можно даже погадать: посмотрите на нее под катом, выберите самый интересный вам доклад, а в конце текста мы по вашему выбору нагадаем, на какой из наших конференций вам точно будет интересно.

+13

@kmoseenk 1 сен 2021 в 10:32

Функции высшего порядка в Spark 3.1

9 мин

7.4K

Блог компании OTUSData Engineering *

Перевод

Сложные типы данных, такие как массивы (arrays), структуры (structs) и карты (maps), очень часто встречаются при обработке больших данных, особенно в Spark. Ситуация возникает каждый раз, когда мы хотим представить в одном столбце более одного значения в каждой строке, это может быть список значений в случае с типом данных массива или список пар ключ-значение в случае с картой.

Поддержка обработки этих сложных типов данных была расширена, начиная с версии Spark 2.4, за счет выпуска функций высшего порядка (HOFs). В этой статье мы рассмотрим, что такое функции высшего порядка, как их можно эффективно использовать и какие связанные с ними функции были выпущены в последних выпусках Spark 3.0 и 3.1.1. Для кода будем использовать Python API.

После агрегаций и оконных функций, которые мы рассмотрели в прошлой статье, HOF представляют собой еще одну группу более продвинутых преобразований в Spark SQL.

Давайте сначала посмотрим на разницу между тремя сложными типами данных, которые предлагает Spark.

@Cloudera 31 авг 2021 в 10:47

Аудит в CDP Private Cloud Base с использованием внешних систем

10 мин

995

Блог компании ClouderaBig Data * Data Engineering * Хранение данных * Hadoop *

Регулируемые отрасли и правительственные организации по всему миру доверяют Cloudera хранение и анализ петабайтов данных - очень важной или конфиденциальной информации о людях, персональных и медицинских данных, финансовых данных или просто служебной информации, конфиденциальной для самого клиента.

Любой, кто хранит информацию о клиентах, медицинскую, финансовую или конфиденциальную информацию, должен убедиться, что приняты необходимые меры для защиты этих данных, включая обнаружение и предотвращение непреднамеренного или злонамеренного доступа. Согласно исследованию Ponemon Institute, за два года в мире средний ущерб от инсайдерских угроз вырос на 31% и достиг 11,45 миллиона долларов, а частота инцидентов за тот же период увеличилась на 47%. В отчете за 2019 год указано, что компании больше всего беспокоятся о непреднамеренных нарушениях со стороны инсайдеров (71%), утечках данных из-за небрежности (65%) и злонамеренных действиях злоумышленников (60%), чем о взломанных учетных записях или машинах (9%).

В этой статье мы разберем как правильно интегрировать платформу CDP с внешними SIEM системами.

@EVRAZ 26 авг 2021 в 11:46

Хитрый сплав: как мы соединили дата-сайентистов, разработчиков и технологов и чем это помогло металлургии

10 мин

12K

Блог компании ЕВРАЗПромышленное программирование * Машинное обучение * Управление разработкой * Data Engineering *

Мы — ЕВРАЗ. Горно-металлургическая компания. В рамках производственного процесса мы производим кокс — твёрдое топливо для доменных печей, где выплавляют чугун. Чтобы получить качественное топливо (кокс), нам нужно подобрать правильную шихту — смесь разных углей в определённой пропорции. Но до сих пор приходилось подбирать по наитию. От решения этой задачи фактически зависит прибыль предприятия, но ни один исследовательский институт ещё не смог разработать подходящую математическую формулу.

Мы попробовали соединить в одной команде технологов, разработчиков и дата-сайентистов. Дополнили это накопленной базой знаний о параметрах кокса и угольных шихт, из которых он получен. Потратили время, чтобы понять технологический процесс и химию в его основе. И не пожалели: через восемь месяцев получили работающую модель предсказания, которая преодолела скепсис технологов и экономит нам сотни миллионов рублей в год.

+12

@kzzzr 26 авг 2021 в 10:09

Airbyte для управления потоками данных – репликация Яндекс.Метрика в S3

9 мин

24K

Блог компании OTUSBig Data * Data Engineering *

Современные Data Pipelines превратились в commodity наподобие электричества в розетке – они просто должны быть и функционировать, обеспечивая базовые потребности аналитиков и инженеров.

Множество компаний, таких как Fivetran, Hevo, Alooma, сегодня зарабатывают на предоставлении Data Pipelines / Integration как сервис. Наряду с очевидными преимуществами, основными недостатками являются закрытый исходный код и отсутствие возможности быстро добавлять новые коннекторы.

В этой публикации на примере репликации данных открытого счетчика Яндекс.Метрика в объектное хранилище S3 я познакомлю вас с Airbyte – решением с открытым исходным кодом. Это новый стандарт для выстраивания потоков интеграции данных из всевозможных приложений, баз данных и API в аналитические хранилища данных, озера данных.

@kormschikova 26 авг 2021 в 09:42

Сам себе дата-инженер: открыта регистрация на митап Ростелеком х Qlik 2 сентября

2 мин

1.2K

Блог компании РостелекомКарьера в IT-индустрииКонференцииData Engineering *

Если вы хотите начать работать с данными без бюджета и большого штата ИТ специалистов – приходите на митап Ростелекома и Qlik «Сам себе дата-инженер» 2 сентября. Мы ждем всех, кто давно хочет начать работать с данными, но не знает с чего начать.

На встрече представители бизнес-подразделений крупных компаний расскажут о том, как выстроить самостоятельную работу с данными внутри бизнес-подразделений, и как строить аналитику, если нет ничего,кроме желания и энтузиазма.

Подробности под катом

@i_shutov 22 авг 2021 в 15:14

ETL в анализе данных без перерывов на кофе и курилку

18 мин

8.3K

Data Engineering * Data Mining * Python * R *

Кадр из фильма «Индиана Джонс: В поисках утраченного ковчега» (1981)

Наблюдаемая все чаще и чаще картина в задаче анализа данных вызывает удручающее впечатление. Intel, AMD и другие производители непрерывно наращивают вычислительную мощность. Гениальные математики-программисты пишут суперэффективные библиотеки и алгоритмы. И вся эта мощь гасится и распыляется рядовыми аналитиками и разработчиками. Причем начинается это все с нулевого этапа — этап подготовки и загрузки данных для анализа. Многочисленные вопросы и диалоги показывают, что в нынешних программах обучения зияют огромные дыры. Людям просто незнакомы многие концепции и инструменты, уже давно придуманные для этих задач. Для тех, кто хочет увеличить свою продуктивность, далее тезисно будут рассмотрены ряд таких подходов и инструментов в частичной привязке к реальным задачам.

В первую очередь, материал ориентирован на аналитиков, которые манипулируют разумными объемами данных, необходимых для решения практических задач. ETL из Бигдаты в котором перекачиваются сотни Тб ежесуточно живет своей отдельной жизнью.

Является продолжением серии предыдущих публикаций.

Читать дальше →

@phaser6 18 авг 2021 в 17:17

Большие данные и математические алгоритмы в руках коммерсанта

10 мин

11K

Блог компании М.Видео-ЭльдорадоАнализ и проектирование систем * Big Data * Машинное обучение * Data Engineering *

Вы когда-нибудь задумывались, почему на полках любых магазинов — от гипермаркетов электроники до гастрономов — стоят именно эти товары и именно в такой последовательности? А Категорийные Менеджеры (и дата-сайентисты, кстати) думают об этом постоянно. Сегодня мы расскажем, как в М.Видео-Эльдорадо использовали искусственный интеллект для заполнения полок и изучили потребности клиентов при управлении ассортиментом.

+34

@honyaki 16 авг 2021 в 16:01

Трюки Pandas от RealPython

15 мин

14K

Блог компании SkillfactoryPython * Программирование * Data Engineering *

Туториал

Перевод

К старту флагманского курса по Data Science делимся сокращённым переводом из блога RealPython о трюках с Pandas, материал начинается с конфигурирования запуска библиотеки и заканчиваются примерами работы с операторами и их приоритетом. Затрагивается тема экономии памяти, сжатие фреймов, интроспекция GroupBy через итерацию и другие темы. Подробности, как всегда, под катом.

@MaxRokatansky 14 авг 2021 в 06:14

Как в Datalake объединить слишком большое количество небольших файлов в несколько больших с помощью Apache Spark

7 мин

2.4K

Блог компании OTUSData Engineering * Apache *

Перевод

Один из современных способов хранения большущего объема данных для платформ обработки и анализа данных - это распределение каждого датасета между несколькими узлами в кластере. Если мы используем облако, то весь датасет разделяется на множество объектов. Это может привести к появлению “слишком большого количества небольших файлов” что является хорошо известной проблемой в области Big Data. Формирование небольших файлов происходит по нескольким причинам, например, при сохранении входящих потоковых данных, сообщение за сообщением, при партиционировании по ключу с перекосом данных и т.д. Драйвер должен следить за изменениями метаданных всех файлов, чтобы планировать распределенную обработку данных при сохранении или чтении данных датасета используя Namenode, MapReduce или задачи Spark. Когда файлов слишком много, для хранения их метаданных требуется дополнительная память, а при их перечислении этих данных требуется гораздо больше времени на сетевое взаимодействие.

Во время работы в Datalake вы могли заметить, что при выполнении задачи Spark затрачивается слишком много времени на чтение датасета из s3/HDFS, где нужно подождать, даже чтобы увидеть запущенные экзекьюторы. Или вы могли заметить, что вашему Hive запросу может понадобиться несколько минут, чтобы инициировать задачи. Скорее всего, причина в том, что изначально драйвер большую часть времени тратит на просмотр всех метаданных файлов/объектов датасета в s3, особенно когда небольших файлов слишком много. Это связано с тем, что именно драйвер выполняет перечисление файлов в датасете, оценивает размер/партиции, а затем распределяет работу между экзекьюторами. Таким образом, слишком большое количество небольших файлов может привести к снижению производительности, а в худшем случае драйвер может поймать исключение из-за нехватки памяти.

@kzzzr 13 авг 2021 в 16:12

SQL на стероидах – 5 кейсов использования dbt + Jinja

10 мин

6.8K

Блог компании OTUSSQL * Big Data * Data Engineering *

SQL – это нескучно. С современными инструментами возможности языка кратно возросли. Мультитул для моделирования данных dbt, современные колоночные аналитические СУБД позволяют буквально творить с данными чудеса.

Меня зовут Артемий и я Analytics Engineer в компании Wheely. И сегодня я подготовил небольшой экскурс в реальные и интересные сценарии использования гибридного SQL

– Операции Pivot и Unpivot для табличных данных

– Генерирование суррогатного ключа и ключа конкатенации

– Гибкая фильтрация записей из таблиц-источников

– Автоматизация экспорта данных из Хранилища в S3

– Валютные курсы, Continuous Integration, Data Quality

@X5Tech 12 авг 2021 в 12:58

Собеседование на позицию Data Engineer в Х5: чего ждать и как лучше подготовиться

4 мин

20K

Блог компании X5 TechPython * SQL * Apache * Data Engineering *

В X5 Group активно развивают цифровые продукты, построенные на основе больших данных, использующие сложную аналитику и машинное обучение, такие как прогнозирование спроса, управление ассортиментной матрицей магазинов, предсказание отсутствия товаров на полках, динамическое ценообразования и т.п.

Для разработки продуктов формируются автономные, кросс-функциональные команды, которые имеют минимум внешних зависимостей и могут двигаться вперед с максимальной скоростью. Одной из ключевых ролей в таких командах является роль Data Engineer.

@lelyakuznetsova 6 авг 2021 в 13:56

Обзор технологий хранения больших данных. Плюсы, минусы, кому что подойдет

22 мин

32K

Блог компании JUG Ru GroupКонференцииОблачные сервисы * Data Engineering * Хранение данных *

Если вы собираетесь построить или перестроить свое хранилище данных, то столкнетесь с внушительным списком технологий на рынке. Пробовать каждую из них в поисках подходящей именно вам — долго и затратно.

На нашей конференции SmartData ведущий разработчик в Яндексе Максим Стаценко рассказал про плюсы и минусы различных решений для хранения данных: облака или железо, Hadoop, Vertica, ClickHouse, Exasol, Greenplum, Teradata и не только.

Работая в крупных компаниях, Максим попробовал много решений, сравнил их на одинаковых данных и задал вопросы их разработчикам и поставщикам.

Видео и расшифровка доклада — под катом. Далее повествование будет от лица Максима.

+29

@mongohtotech 5 авг 2021 в 17:25

Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно

10 мин

13K

Data Engineering * Google Cloud Platform * Машинное обучение * Big Data * Облачные вычисления *

Туториал

Рассказываем как перестать переживать о том, что вы не знаете Hadoop и вывести работу с данными в компании на новый уровень, как быстро и без больших затрат создать в аналитическое хранилище, наладить процессы загрузки туда данных, дать возможность аналитикам строить отчеты в современных BI инструментах и применять машинное обучение.

1 2 ...

60 61

63 64 ...

77 78

Data Engineering *

Kedro — ключ к модульной Data Science

Парсим базу юриков ФНС (велосипедостроение с xml, csv, SQLite и Питоном)

Обзор R пакетов для интернет маркетинга, часть 2

Как классифицировать данные без разметки

«Футбол в цифрах»: как аналитика может улучшить ситуацию с футболом в России

Фактор рефакторинга

Осенний экспресс прибывает: анонс TechTrain 2021 Autumn

Функции высшего порядка в Spark 3.1

Аудит в CDP Private Cloud Base с использованием внешних систем

Хитрый сплав: как мы соединили дата-сайентистов, разработчиков и технологов и чем это помогло металлургии

Airbyte для управления потоками данных – репликация Яндекс.Метрика в S3

Сам себе дата-инженер: открыта регистрация на митап Ростелеком х Qlik 2 сентября

ETL в анализе данных без перерывов на кофе и курилку

Ближайшие события

Большие данные и математические алгоритмы в руках коммерсанта

Трюки Pandas от RealPython

Как в Datalake объединить слишком большое количество небольших файлов в несколько больших с помощью Apache Spark

SQL на стероидах – 5 кейсов использования dbt + Jinja

Собеседование на позицию Data Engineer в Х5: чего ждать и как лучше подготовиться

Обзор технологий хранения больших данных. Плюсы, минусы, кому что подойдет

Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно

Вклад авторов