Как стать автором
Обновить
62.7

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга
Уровень сложности

Оценка приложений RAG с помощью RAGA

Время на прочтение8 мин
Количество просмотров210

Фреймворк с метриками и данными, сгенерированными LLM, для оценки производительности конвейера с дополненной генерацией данных.

Читать далее

Новости

Генерация дополненного извлечения (RAG): от теории к реализации LangChain

Время на прочтение6 мин
Количество просмотров1.3K

От теории из оригинальной академической статьи до ее реализации на Python с OpenAI, Weaviate и LangChain

Читать далее

Как приготовить DataVault и не испортить Greenplum

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров1.8K

Меня зовут Виталий Дудин, я руководитель направления Платформы больших данных в Х5 Digital. Вместе с командой мы строим аналитическую дата-платформу для экспресс-доставки. В этой статье поговорим про то, как она устроена и почему в какой-то момент мы решили всё переделать с нуля. Также немного расскажу про старое хранилище на PostgreSQL, про его преимущества и недостатки. Про то, как устроена новая аналитическая дата-платформа, модель DataVault на Greenplum и про то, как сделать так, чтобы всё работало, а не тормозило.

Читать далее

В поисках потерянных данных: переход со StreamSets на Data Boring

Время на прочтение5 мин
Количество просмотров209

Наш заказчик столкнулся с реальной проблемой, когда из-за использования устаревшего ETL-инструмента StreamSets оказался в ситуации, в которой его система начала давать сбои, а это напрямую влияло на финансовые результаты. Мы решили помочь, организовав миграцию на более современное решение — Luxms Data Boring.

В этой статье мы, Николай Павлов и Наталья Глодя, делимся опытом нашей команды в поисках потерянных данных и рассказываем о том, как важно не дожидаться критических ситуаций, а заранее обновлять свои инструменты. Узнайте, как мы смогли не только решить проблему заказчика, но и обеспечить надежность и эффективность бизнес-процессов с помощью отечественного ПО, подходящего под условия импортозамещения.

Читать далее

Истории

Инфраструктура для Data-Engineer форматы файлов

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров717

В современной дата-инженерии работа с данными неразрывно связана с различными форматами файлов. Каждый формат имеет свои особенности, преимущества и области применения. В этой статье мы рассмотрим наиболее популярные форматы, научимся с ними работать и поймем, когда какой формат лучше использовать.

Читать далее

Михаил Водолагин, ex-CDO Deeplay: «Люди умудряются выстрелить себе в ногу очень по-разному!»

Уровень сложностиСредний
Время на прочтение34 мин
Количество просмотров1.3K

Что, на ваш взгляд, самое странное может сделать кандидат на собеседовании? Вы когда‑нибудь задавали себе вопрос, в чём главное отличие дата инженера от «обычного» аналитика? Знаете, в чём основная разница между опытным сотрудником и тимлидом? Слышали истории о том, как можно с нуля вырастить и поддерживать на плаву полноценный департамент работы с данными?

На эти и многие другие вопросы я разговаривал с Михаилом Водолагиным. Он очень долго руководил командами дата саентистов и аналитиков, строил команды с нуля, внедрял аналитические системы. CDO (chief data oficer) для него — уже пройденный этап.

Кроме того, Миша обладает уникальной эмпатией, которая позволяет ему видеть проблемы с разных сторон.

Читать далее

От слов к делу: Практические кейсы применения NLP в Ингосстрахе

Уровень сложностиСредний
Время на прочтение22 мин
Количество просмотров1.1K

Для полноценной работы страховой компании нужен большой штат сотрудников, которые общаются при помощи великого и могучего русского языка. А значит есть поле для автоматизации процессов работы средствами NLP. Именно про это данная статья.

Мы рассмотрим варианты решения типовых задач в страховании и не только.

Читать далее

Инженер машинного обучения: чем он занимается и какие ему нужны навыки

Время на прочтение6 мин
Количество просмотров950

Привет! Меня зовут Антон Моргунов, я инженер МО в «Базис.Центре» и программный эксперт курса «Инженер машинного обучения» в Яндекс Практикуме. В этой статье я расскажу, что такое машинное обучение, чем занимается инженер МО, какие навыки и компетенции ему пригодятся, а также в каких компаниях востребован этот специалист. А в конце дам пару советов для начинающих инженеров МО.

Читать далее

Репликация данных с использованием Debezium и Kafka

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров2.8K

В этой статье мы рассмотрим эволюцию стратегий репликации данных, начиная с ручных подходов и заканчивая автоматизированными решениями, использующими современные технологии, такие как Kafka и Debezium. Ниже описан пример примененный в компании Wildberries.

Читать далее

Эпоха перемен: IFC уходит в прошлое или почему Autodesk готов отказаться от IFC ради USD в 14 ключевых фактах

Уровень сложностиПростой
Время на прочтение23 мин
Количество просмотров7.5K

В 2024 году в сфере проектирования и строительства происходит значительный технологический сдвиг в области использования и обработки данных. Если вы считаете, что понимание основ BIM (openBIM и closedBIM) будет достаточно для работы с данными в строительстве в ближайшие годы, то вас вскоре может ждать сюрприз. Вместо свободного доступа к проектным данным, производители CAD-систем, сосредотачиваются на продвижении очередных новых концепций. Устаревающие подходы, такие как BIM (2002 год) и openBIM (2012 год), постепенно уступают место современным технологическим решениям, которые ожидают нас в ближайшем будущем:

Читать далее

Гайд по установке Apache Airflow, на случай, если у тебя его ещё нет в преддверии 2025 года

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров7.8K

Немного лирики, что такое Apache Airflow — это оркестратор (ваших данных), инструмент для создания, планирования и мониторинга рабочих процессов (так называемых DAGs — Directed Acyclic Graphs).

Читать далее

Полное руководство по оценке компонентов системы RAG: что необходимо знать

Время на прочтение9 мин
Количество просмотров2.5K

Системы дополненной генерации (RAG) были разработаны для улучшения качества ответа крупной языковой модели (LLM). Когда пользователь отправляет запрос, система RAG извлекает релевантную информацию из векторной базы данных и передает ее в LLM в качестве контекста. Затем LLM использует этот контекст для генерации ответа для пользователя. Этот процесс значительно улучшает качество ответов LLM с меньшим количеством «галлюцинаций».

Читать далее

Будь T-shape

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.8K

Сегодня поговорим о T-shape — концепции, которая играет огромную роль для дата-инженеров и профессионалов в работе с данными.

Почему важно быть не только специалистом в своей области, но и понимать, как работают другие направления? Почему T-shape подход лучше узкой специализации или полной универсальности?

Читать далее

Ближайшие события

2 – 18 декабря
Yandex DataLens Festival 2024
МоскваОнлайн
11 – 13 декабря
Международная конференция по AI/ML «AI Journey»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань

Как обеспечить Data Quality терабайтов данных и зачем: опыт СИБУРа

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров1.1K

Современное производство — это уже давно не просто набор станков и всяких железок в ангарах, теперь это ещё и автоматизации, IT-инфраструктура и много, очень много данных, которые в режиме реального времени стекаются в DWH (Data Warehouse — хранилище данных) из сотен источников.

Эти данные нужно собирать, хранить, обрабатывать и анализировать, чтобы компания могла принимать правильные бизнес-решения. Качество данных (Data Quality, DQ) в таких условиях становится критически важным показателем, от которого зависит рентабельность бизнеса в целом.

Это вторая статья из небольшого цикла, в котором мы разбираем опыт СИБУРа в создании, поддержке и развитии DQ-сервиса. И этот опыт универсален — его можно применять в любой компании, перед которой стоят задачи по обеспечению качества данных.

В первой статье мы рассказывали про импортозамещение DQ-решений после ухода вендора с рынка РФ. В этой статье мы поговорим о задачах, которые решает DQ в целом, и рассмотрим архитектуру решения, которое мы строим в СИБУРе.

Рассказывать об этом опыте будет Александр Бергер, Lead DQ Analyst в СИБУРе, которому посчастливилось лидить процесс создания DQ-сервиса в компании последние несколько лет.

Читать далее

CedrusData Catalog — новый технический каталог с поддержкой Iceberg REST API

Время на прочтение4 мин
Количество просмотров410

Мы выпустили новый технический каталог для аналитических платформ, который поддерживает спецификацию Iceberg REST API. Рассказываем, зачем это нужно вам и нам

Читать далее

Модели Take-Rate: погружение в бизнес-процессы для успешного ценообразования

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров871

Привет, меня зовут Даниил, я занимаюсь Data Science в Альфа-Банке! Думаю, каждый из нас при разработке модели сталкивается с различными трудностями. Часто нам удаётся наступить на новые грабли, но намного чаще — на старые. Чтобы вам не пришлось наступать на мои, хочу на примере своего проекта, касающегося ценообразования, рассказать, на что стоит обращать внимание при создании моделей, и почему глубокое погружение в бизнес-процесс так важно.

Читать далее

Как LLM может валидировать данные

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров2.1K

Привет! Меня зовут Мира и я работаю DQE (Data Quality Engineer) в крупной международной компании.

В этой статье я расскажу, как у нас получилось автоматизировать работу аналитиков DQ и разработать продукт, который генерирует тесты автоматически на любой source.

Всё началось с того, что в компании зародилась новая команда, целью которой было построить качественное хранилище данных. Хранилище, которому можно доверять «без угрызения совести». И, конечно же, без DQ здесь не обойтись. 

Читать далее

Как мы попробовали Apache Iceberg в связке со Spark и что из этого вышло

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров2.7K

Тема преимуществ открытых табличных форматов при работе с озерами данных всё чаще поднимается в среде дата-инженеров. Предполагается, что их использование способно устранить недостатки популярного Apache Hive. Но так ли это на практике?

Меня зовут Иван Биленко, я инженер данных в команде дата-платформы Циан. В этой статье я хочу немного познакомить вас с процессами и стеком внутри нашей платформы, рассказать, почему мы решили попробовать Iceberg, с какими проблемами столкнулись при тестировании и какие преимущества Iceberg может дать тем, кто еще только задумывается о переходе. Дисклеймер: статья носит обзорный характер.

Читать далее

Совпадение? Не думаю! Удивительные сходства нашего мышления и систем IT-мониторинга в поиске причин проблем (Часть 2)

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров729

Привет! Меня зовут Дмитрий Литвиненко, я Data Scientist в компании Prooftech IT. В первой части статьи мы задали довольно обширную базу по событиям, корреляции и причинности. Эта часть статьи более глубоко погружается в причинность и причуды с ней связанные. Что примерно происходит в мозгах людей и мощных системах мониторинга? Как же мы:

- восстанавливаем причинность,

- (не)справляемся с иллюзиями в процессе этого,

- и наконец, находим способы ослабить иллюзии?

Читать далее

И снова о dbt…

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров2.5K

Привет, сообщество. Меня зовут Илья, я старший разработчик в БФТ-Холдинге. В этой статье хочу поделиться опытом использования dbt (data build tool) в рамках проекта «Консолидации и нормализации данных» для процессов трансформации данных и создания витрин.

Читать далее
1
23 ...