Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

antipov_dmitry 30 сен 2024 в 05:40

Corner-кейсы в разработке и разметке данных: что это такое, как с этим жить и при чем тут Достоевский?

Простой

5 мин

6.2K

Data Engineering * Data Mining * Машинное обучение * Искусственный интеллектBig Data *

Мнение

Изначально я писал с прицелом на разметку, но все написанное оказалось легко перекладываемо и на разработу софта, да и вообще на любые сложные процессы.

На обложке — главный corner-case всея Руси от Достоевского. Про такое в общем смысле и поговорим.

Читать далее

0

k0rsakov 27 сен 2024 в 06:01

Что такое Big Data | Биг Дата?

Простой

4 мин

3.5K

Big Data * Data Engineering * Data Mining * Терминология ITКарьера в IT-индустрии

Мнение

Big Data – термин, который вы можете часто встретить на просторах интернета. Вы можете найти множество статей, докладов и прочих материалов по этому термину, но давайте попробуем разобраться в нём, потому что он не так страшен, как о нём говорят.

Читать далее

0

KlimenkoIv 25 сен 2024 в 07:00

Академия Arenadata: How to ADS.NiFi. Базы данных

Простой

12 мин

1.7K

Блог компании ArenadataВизуальное программирование * Data Engineering * Apache *

Туториал

Добрый день. Меня зовут Иван Клименко, и я архитектор департамента поддержки продаж компании Arenadata. В основном занимаюсь продуктом Arenadata Streaming (ADS) — это масштабируемая отказоустойчивая система для потоковой обработки данных в режиме реального времени, адаптированная для корпоративного использования и построенная на базе Apache Kafka и Apache NiFi. В продукт входит cервис Arenadata Streaming NiFi, который является LowCode-средством построения интеграционных потоков с возможностью масштабирования.

Сегодня я бы хотел открыть цикл статей практического применения, так называемого «HowTo…», и первой темой выбрано взаимодействие с базами данных в NiFi. Рассмотрим простые заготовки потоков обработки данных, которые извлекают данные из таблиц и помещают данные в другую, либо эту же базу. Разберем, как создавать подключение к базам, какими процессами пользуемся для выборки, а также как оптимизировать эти процессы. Эта статья будет интересна в первую очередь новичкам в NiFi, ну а от опытных разработчиков всегда жду комментариев с дополнениями или с конструктивной критикой.

Читать далее

+12

kucev 24 сен 2024 в 12:28

Полный гид по бенчмаркам LLM

12 мин

4.3K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполнении этой задачи критически важны бенчмарки, представляющие собой стандартизированные способы численного измерения и сравнения моделей ИИ с целью обеспечения согласованности, надёжности и справедливости. В условиях быстрого развития LLM возможности бенчмарков тоже существенно расширились.

В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.

Читать дальше →

+5

ak19 24 сен 2024 в 09:15

FineBI 6: Обработка данных для начинающих пользователей — 2

Простой

7 мин

2.5K

Блог компании GlowByteBig Data * Визуализация данных * Data Engineering *

Туториал

Команда Business Intelligence GlowByte приветствует всех читателей сегодняшнего гайда по обработке данных в FineBI 6 версии. Меня зовут Александр Ларин, руководитель центра поддержки и обучения BI-решений в GlowByte, и в этой статье я поделюсь полезными функциями, которые облегчат вашу работу по подготовке данных для их последующего анализа. С первой частью вы можете ознакомиться по ссылке.

Гайд включает в себя 5 уроков, которые помогут вам ближе познакомиться с инструментами подготовки данных в FineBI. Этот материал будет полезен начинающим BI-разработчикам. Если после прочтения вы захотите разобраться со всеми особенностями платформы, закрепить базовые знания и прокачать навыки создания сложных визуализаций, приглашаю на наши курсы.

Читать далее

+6

kucev 23 сен 2024 в 07:45

Самые популярные LLM бенчмарки

7 мин

4.4K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

Зачем использовать бенчмарки для оценки LLM?

Бенчмарки LLM помогают оценивать точность больших языковых моделей, обеспечивая стандартизированную процедуру измерения метрик выполнения различных задач.

Бенчмарки содержат все структуры и данные, необходимые для оценки LLM, в том числе:

«Эталонные» датасеты (релевантные задачи/вопросы/промты с ожидаемыми ответами)
Способы передачи входных промтов в LLM
Способы интерпретации/сбора ответов
Вычисляемые метрики и оценки (а также способы их вычисления)

Всё вместе это позволяет согласованным образом сравнивать точность разных моделей. Но какой же бенчмарк LLM стоит использовать? В основном это зависит от сценария использования, то есть от того, для чего вы намереваетесь применять LLM. Давайте разбираться!

Читать дальше →

+7

FaryaRos 20 сен 2024 в 11:32

Управляем моделью с помощью метаданных в dbt

Сложный

20 мин

1.9K

Data Engineering * Хранение данных * Big Data *

Туториал

Это приключение посвящено созданию продвинутых макросов, которые используют метаданные модели для управления инкрементальностью и тестами качества. Задание параметров модели в виде метаданных позволяет наглядно представлять их в каталоге данных и переиспользовать в разных задачах.

Квест подготовлен для раскрытия темы в рамках dbt Meetup #5 и нацелен на инженеров аналитики, которые готовы глубоко погрузиться в написание макросов dbt для решения сложных практически значимых задач.

Предложенный подход позволяет эффективно выстраивать сложные автоматизации в проекте, является незаменимым для больших дата‑лейков на базе Trino/Presto и позволяет изучить макросы на продвинутом уровне, достаточном для создания собственных сложных автоматизаций.

Читать далее

+6

k0rsakov 20 сен 2024 в 06:00

Pet-проекты и данные для Data-Engineer

Простой

6 мин

5.4K

Python * Data Mining * Проектирование API * Big Data * Data Engineering *

Туториал

При изучении дата‑инжиниринга часто возникает вопрос: «откуда брать данные?»

В данной статье вы узнаете про крутые инструменты, которые позволят вам создавать свои pet‑проекты c использованием разнообразных данных.

Читать далее

+7

PaulKov007 19 сен 2024 в 11:54

Не потеряться в данных: оптимизируем аналитику с помощью DataHub

Простой

7 мин

2.9K

Блог компании СравниIT-инфраструктура * Big Data * Визуализация данных * Data Engineering *

Кейс

Как не потеряться в данных для аналитики?

Когда количество их источников ограничено, а аналитикой занимается пара человек, в целом всё понятно: обеспечить прозрачность вполне можно на уровне ведения документации (если заниматься этим ответственно).

Но что, если данных в компании много, они отличаются сложной структурой и поступают из разных источников? Едут и из MongoDB, и из PostgresSQL, и из MS SQL; при этом постоянно появляются новые продукты и направления, данных становится ещё больше. Документация по ним устаревает примерно в тот момент, когда заканчиваешь её писать.

Попутно растёт команда аналитиков — новым людям нужно рассказывать, что где лежит, откуда прилетает, какие есть особенности.

Упростить жизнь в такой ситуации призван Data Catalog, и в Сравни мы выбрали популярный вариант — DataHub. Под катом рассказываем, как меняется работа с данными для аналитики, когда в твоей жизни появляется визуализация потоков данных.

Читать далее

+19

breakmirrors 19 сен 2024 в 09:28

Как сделать так, чтобы ваши открытые данные были никому не интересны

Простой

5 мин

12K

Блог компании Magnus TechData Mining * Big Data * КопирайтData Engineering *

Перевод

Публикация открытых данных — благородное занятие, которое стимулирует исследования, инновации и прозрачность. В то же время заниматься этим бывает утомительно, а пользователи могут делать с вашими данными все, что им угодно. Такая утеря контроля над данными может быть нежелательной, но в некоторых случаях закон обязывает публиковать их именно под открытой лицензией.

Лучший выход из подобной ситуации — опубликовать формально открытые данные, но сделать так, чтобы они никому не были интересны. Специально для таких сценариев я составил перечень стратегий, которые помогут избежать нежеланного внимания пользователей, заинтересованных в работе с вашими данными.

Читать далее

+32

badcasedaily1 19 сен 2024 в 04:32

Автоматизация процессов в DWH с помощью Python и Snowflake

Простой

5 мин

1.4K

Блог компании OTUSPython * Data Engineering *

Обзор

Сегодня рассмотрим тему автоматизации процессов в хранилищах данных с помощью мощного тандема — Snowflake и Python. Разберем, как с помощью Python можно легко подключаться к Snowflake, загружать данные, управлять таблицами и автоматизировать повседневные задачи.

Читать далее

+13

devozerov 17 сен 2024 в 05:30

Как мы ускорили Trino, научив оптимизатор удалять ненужные Join

Простой

10 мин

2.3K

Блог компании CedrusDataSQL * Big Data * Data Engineering *

Как мы ускорили запросы в Trino, научив оптимизатор удалять из плана лишние операторы Join.

Обсудим, почему в аналитических запросах часто возникают избыточные Join, почему это плохо для SQL-движков, какие эквивалентные преобразования позволяют избавиться от ненужных Join, и с какими проблемами мы столкнулись при интеграции данного функционала в наш форк Trino.

Читать далее

+9

prfnv 16 сен 2024 в 07:00

Drag and drop деплой ML-моделей: убираем рутину с помощью web-интерфейса

6 мин

2.2K

Блог компании МТСМашинное обучение * Искусственный интеллектData Engineering *

Привет, Хабр! Мы — DS-ы Павел Парфенов и Максим Шаланкин в команде Финтеха Big Data МТС. У нас много ML-моделей, которые нужно тестировать и внедрять в прод. Все это создает высокий темп разработки c кучей рутинных и ручных операций: от постановки задачи до продуктивизации и сопровождении модели. Мы смогли частично победить эту рутину с помощью drag and drop деплоя ML-моделей через web-интерфейс. В этой статье расскажем, что у него под капотом и какие функции в нем реализованы.

Читать далее

+10

ENRUStudio 13 сен 2024 в 09:16

Пошаговое руководство по созданию синтетических данных в Python

Простой

7 мин

5.6K

Блог компании НетологияPython * Программирование * Data Engineering * Машинное обучение *

Туториал

Перевод

Простое руководство для новичков: как самому генерировать данные для анализа и тестирования

Представьте: вы только что написали модель машинного обучения и вам нужно протестировать её работу в конкретном сценарии. Или вы собираетесь опубликовать научную статью о пользовательском решении в области Data Science, но имеющиеся датасеты нельзя использовать из-за юридических ограничений. А может быть, в рамках проекта машинного обучения вы занимаетесь отладкой и исправлением ошибок и вам нужны данные, чтобы идентифицировать и устранить проблемы.

В этих, да и во многих других ситуациях могут пригодиться синтетические данные. Реальные данные часто недоступны: уже кому-то принадлежат или дорого стоят. Так что умение создавать синтетические данные — важный навык для дата-сайентистов.

В этой статье я расскажу, с помощью каких приёмов и методов можно с нуля создать в Python синтетические данные, игрушечные датасеты и фиктивные значения. В некоторых решениях применяются методы из библиотек Python, в других — приёмы, основанные на встроенных функциях Python.

Читать далее

+11

Alexsaykov 13 сен 2024 в 07:15

Кто такой и чем занимается дата-инженер

Простой

8 мин

2.2K

Блог компании Яндекс ПрактикумАнализ и проектирование систем * Big Data * Карьера в IT-индустрииData Engineering *

Мнение

Хабр, привет! Меня зовут Саша Сайков, я дата-инженер в PepsiCo и старший ревьюер на курсах «Инженер данных» и «Инженер машинного обучения» в Яндекс Практикуме. Я хочу рассказать, чем занимаются дата-инженеры, в каких компаниях мы работаем и чем отличается наша работа от работы других специалистов по данным.

Читать далее

+4

k0rsakov 13 сен 2024 в 06:00

Как растут компании

Простой

7 мин

975

Data Mining * Big Data * Развитие стартапаУправление продуктом * Data Engineering *

Мнение

В прошлой статье мы обсудили кто такой дата-инженер. Давайте теперь обсудим на каком этапе жизненного цикла компании он появляется в команде/компании.

В этой статье вы узнаете как могут развиваться компании и какие роли бывают в ней, и как они влияют на её развитие.

Читать далее

-2

PicoPicoRobotWoman 12 сен 2024 в 13:26

Создание data lineage в Apache Atlas из логических планов Spark (не без «костылей»)

Средний

16 мин

718

Data Engineering * Big Data * Apache * Scala * Программирование *

В статье обсуждается процесс интеграции Apache Spark с Apache Atlas для визуализации выполнения ETL-процессов на основе построения связей между операциями в Spark. Автор описывает создание пользовательских сущностей в Apache Atlas, таких как Process и DataSet, которые необходимы для отражения трансформаций данных.

Основной фокус статьи заключается в построении графа lineage (происхождения данных) для операций в Spark. Автор выделяет ограничения архитектуры Apache Atlas, например, необходимость наследования от стандартных типов Process и DataSet для корректного отображения lineage. Также описывается создание и отправка новых типов сущностей в Apache Atlas с использованием REST API, а также проблемы, возникающие при попытках обновления сущностей.

Читать далее

+2

koloff_dan 11 сен 2024 в 11:09

Как мы строили сквозную аналитику и укрощали бизнес-требования

Средний

9 мин

1.4K

Блог компании iSpringData Engineering *

Кейс

Привет! На связи Даниил, дата-инженер компании iSpring. Уже 23 года мы создаём инструменты для корпоративного обучения. В статье расскажу, как и почему мы решили внедрить сквозную аналитику в компанию, с какими сложностями столкнулись и как побеждали бизнес-требования.

Читать далее

+10

eekazakov 9 сен 2024 в 09:15

Начало работы с растровыми геоданными средствами GDAL/Python

Простой

17 мин

3.5K

Геоинформационные сервисы * Data Engineering *

Из песочницы

Введение в растровую модель геоданных и работу с ней средствами GDAL в Python.

Растровая модель геоданных, наряду с векторной, является одним из наиболее распространенных и важных способов представления пространственной информации в цифровом виде. Она помогает описывать состояние и характеристики территории в компактном и хорошо подходящем для хранения, обработки и анализа виде. В этом материале мы познакомимся с ключевыми понятиями растровой модели геоданных, а также разберемся с базовыми приёмами управления растровыми геоданными с помощью GDAL в Python.

Читать далее

+6

Lkalyadin10 6 сен 2024 в 08:00

Вредные советы по работе с данными. Если вы сломать решили всю отчетность у коллег

Простой

4 мин

2K

Блог компании МТСХранение данных * Data Engineering *

Привет, Хабр! Меня зовут Леонид Калядин, я Cluster Data lead в МТС Диджитал, занимаюсь развитием практики Data Governance и Data Quality в 25+ продукта кластера. Мне довелось долго работать в консалтинге и разбираться с проблемами в других системах. Вот смотришь со стороны на ИТ-продукт: все классно и продумано, должно работать как часы. А потом спускаешься на уровень данных и хватаешься за голову: как же допустили такую ошибку? Ее можно было избежать, если задать пару вопросов на стадии проектирования. Зато теперь переделывать все чуть ли не с нуля и ждать возможности вписать изменения в какой-нибудь релиз. Красота!

В этом посте я на основе своего и чужого опыта собрал несколько вредных советов, как не надо хранить историю, объединять данные из разных источников и отслеживать их качество.

В общем,
Если вы сломать решили всю отчетность у коллег,
Обязательно зайдите в этой записи под кат!

Читать далее

+4

1 2 ...

30

31 32 ...