Обновить
256K+

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

64,31
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Iceberg без Spark для каждой мелочи: UPDATE, DELETE и MERGE INTO из одного SQL-движка в Apache Doris 4.1

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели8.6K

Apache Doris 4.1 добавляет UPDATE, DELETE и MERGE INTO на Iceberg-таблицы прямо из SQL-клиента — без отдельного Spark job. Iceberg V3 Deletion Vectors и Row Lineage делают этот DML архитектурно здоровым: нет линейной деградации от delete files, нет false positives в CDC после compaction. Перевод и адаптация статьи Mingyu Chen (CC BY 4.0) с бенчмарками, SQL-примерами и Quick Start.

Читать далее

Новости

Если у математиков нет идеального фильтра, тогда у философов нет инстины?

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели4.9K

Если у математиков нет идеального фильтра, тогда у философов нет истины?

В математике есть понятие «фильтр» — это инструмент, который позволяет отделять одни множества от других, выделять главное, отбрасывать лишнее. Но что, если в самой математике нет идеального фильтра? И если так, то что это значит для философии и её вечного поиска истины?

Читать далее

Мал, да удал: почему пять строк рефакторинга могут сказать о разработчике больше, чем весь его GitHub

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели12K

Привет, Хабр! Жизнь не стоит на месте, как и мое исследование, так что пришла пора пересмотреть то, как я оцениваю код.

Изначально я опиралась на анализ целых репозиториев — мы вычисляли семантическую плотность и классические метрики кода. Результаты были многообещающими, но на практике я столкнулась с «шумом», который невозможно игнорировать:

Читать далее

Тонкости Kafka Connect и Debezium

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели6.8K

Привет! Меня зовут Ильсаф, я инженер данных в MAGNIT OMNI — бизнес-группе ритейлера «Магнит», которая отвечает за развитие омниканального опыта для клиентов. В этой статье я собрал свои практические наблюдения по работе Kafka Connect и Debezium с PostgreSQL: от настройки репликации до мониторинга и бэкфиллинга.

Читать далее

Почему 70% BI-систем не окупаются: 5 фатальных ошибок

Время на прочтение6 мин
Охват и читатели6.1K

P.S. Как вам этот тест для глаз?

Каждый год компании по всему миру тратят миллиарды долларов на внедрение BI-систем (Tableau, Power BI, Qlik, Looker). Аналитики Gartner и Forrester упорно твердят, что рынок растёт. Но есть цифра, о которой говорят немногиедо 70% проектов по внедрению бизнес-аналитики так и не выходят в окупаемость.

Почему? Ведь BI звучит как панацея: «Данные — это новая нефть», «Управление на основе KPI», «Дашборды первого лица». Проблема в том, что бизнес путает нефть с бензином, а бензин заливает не в тот бак. Разберем 5 фатальных ошибок, которые превращают BI в дорогую игрушку.

Читать далее

Как я пришёл в аналитику, устроился в бигтех и понял, что только на рабочих задачах у меня не получится расти

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели18K

Всем привет! Меня зовут Сергей Тимакин, мне 22 года. Я учусь в онлайн-магистратуре НИЯУ МИФИ в партнёрстве с Яндекс Практикум на программе «Специалист по работе с данными и ИИ» и работаю аналитиком данных в Озоне. В статье рассказываю, как я стал аналитиком, устроился в Озон, зачем пошел онлайн-магистратуру и как я совмещаю учёбу с работой.

Читать далее

$110 млрд в тени: анатомия санкционного кластера после Garantex

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели8.3K

$56 млрд за 48 часов

15–17 апреля биржа Grinex — предполагаемый преемник Garantex — была взломана.

В это же время через связанный санкционный кластер на Tron прошло 56 млрд USDT крупными переводами ($100K).

Хак не остановил инфраструктуру. Трафик в отдельные часы — ускорился.

Либо выводили ликвидность. Либо хеджировались. Либо кластер просто продолжал работать параллельно — как работал всегда.

Читать далее

Поиск видеоконтента: сравнение Hikvision и СпецЛаб

Уровень сложностиПростой
Время на прочтение1 мин
Охват и читатели7.4K

Не смотря на развитие MML, поиск видеоконтента остался на доИИшном уровне. Найти фильм по содержанию невозможно даже на Ютьюбе.

Поисковая проблема поиска видеоконтента сегодня решается не IT-гигантами, а компаниями по производству систем видеонаблюдения.

Давайте посмотрим, что на сегодняшний день есть, и заодно сравним две ведущие в нашей стране фирмы.

Смотреть...

Как подготовить данные к анализу: очистка и предобработка, без которых всё остальное не имеет смысла

Время на прочтение12 мин
Охват и читатели12K

Ваши данные врут. Не потому, что кто-то хотел вас обмануть, а потому, что вы им это позволили.

Всё выглядит правильно: модель обучилась, метрики зелёные, дашборд аккуратный. А потом бизнес-решение, принятое на основе этих данных, приводит не туда. В этот момент начинают проверять алгоритм, гипотезу или эксперимент. Но в большинстве случаев проблема была раньше — в данных, которые никто толком не подготовил.

Даже аккуратный дашборд может скрывать проблемы в данных, если этап подготовки был сделан формально.

Пройти путь до данных, которым доверяем →

Как объединить данные Яндекс Метрики и CRM: от загрузки данных до дашборда в DataLens

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели10K

Всем привет!

На одном из проектов я настраивал дашборд в Yandex DataLens, который объединяет данные о трафике из Яндекс Метрики с данными о заказах из CRM и позволяет анализировать доход в разрезе источников трафика.

В этой статье расскажу, как был выстроен процесс обработки данных и к какому результату в итоге пришёл.

Читать далее

Как мы строили MVP data lineage системы в ЮMoney

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели6.5K

Привет, меня зовут Юля, я дата-инженер в департаменте аналитических решений ЮMoney. Мы разрабатываем и поддерживаем ETL(ELT)-процессы загрузки данных для BI-продуктов компании: отчётов, дашбордов, витрин, API и других.

В этой статье поделюсь, как мы разрабатывали MVP для построения data lineage системы и к каким выводам пришли, — так вы сможете адаптировать подход под свои процессы.

Проблема, которая привела нас к разработке MVP, заключается в том, что в начале работы над большинством задач требуется подготовительная аналитика: восстановить путь происхождения данных, чтобы понимать, какие ETL(ELT)-процессы будут затронуты и на что повлияют изменения. Это увеличивает время выполнения задачи. Но, что ещё существеннее, процесс достаточно рутинный: каждый раз необходимо проводить статический анализ кода и изучать документацию (при её наличии). Мы решили автоматизировать эту работу, чтобы иметь под рукой инструмент для построения пути данных по точкам их обработки и применения, — то есть создать data lineage систему.

Читать далее

OpenSearch Dashboards и как веб‑интерфейс упрощает работу с кластером

Время на прочтение15 мин
Охват и читатели13K

Мы уже рассказывали, что такое OpenSearch как сервис в Selectel и как легко и быстро начать им пользоваться. Если коротко — это managed-решение, где кластер развертывается за несколько минут, а все заботы берет на себя провайдер: обслуживает кластеры, настраивает СУБД, обеспечивает отказоустойчивость, беспокоится о бэкапах и масштабировании, предоставляет  поддержку.

Но дальше возникает вопрос — как с этим кластером работать? Как настроить мониторинг, визуализировать данные и метрики, работать с бэкапами, управлять пользователями и доступами? Можно, конечно, отправлять curl-запросы к API. Можно подключать сторонние инструменты, вроде Grafana. Но есть способ проще и удобнее — OpenSearch Dashboards.

Привет, Хабр! Меня зовут Сергей Кардапольцев, я технический писатель в Selectel. В этой статье расскажу, как можно упростить работу с кластером OpenSearch с помощью OpenSearch Dashboards.

Читать далее →

Как мы встроили LLM в Data Quality и не потеряли контроль

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели5.2K

Привет, Хабр! Меня зовут Макунина Арина, я аналитик и инженер данных в Just AI.

Рутина в работе с качеством данных почти всегда сводится к бесконечному повторению одних и тех же шагов: созданию проверок для новых таблиц и однотипному расследованию инцидентов. И без автоматизации команда может терять слишком много времени на повторяющиеся шаги.

Рассказываем, как с помощью LLM мы превратили рутинные проверки данных в спокойный и предсказуемый процесс и экономим свыше 80% рабочего времени.

Читать далее

Ближайшие события

Как я сделал Variables в Airflow 3 удобнее

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели5.6K

Ровно год назад, 22 апреля, вышел Airflow 3, который сильно изменил архитектуру и UX платформы. Но одно из изменений неожиданно ухудшило повседневную работу — Variables: маленькое поле ввода, неудобный JSON и отсутствие нормального редактирования. В статье разбираю, что именно сломалось в привычном сценарии и как я решил это с помощью собственного плагина.

Читать далее

От слов к числам: как математически отличить Middle от Senior

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели7.5K

Привет, Хабр! В своей первой статье про анализ вакансий C#/.Net разработчиков на рынке я выделила очень интересное замечание, которое определило тему сегодняшней статьи – «не количество навыков делает из мидла синьора, а образ его мышления». Построить граф связности компетенций для синьора это конечно хорошо, но к сожалению, на практике применить его достаточно сложно.

Сделав упор на навыки в своем исследовании, я получила зашумленный датасет, не поддающийся адекватной кластеризации. Так что пришло время попытаться пересмотреть подход к использованию полученных данных и попытаться вычленить из них тот качественный скачок, который отделит мидла от синьора.

Читать далее

Архивист — ламповый консольный API-архиватор

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели4.7K

Две причины побудили меня написать эту статью и небольшой MVP.

1. Потребность в большем объеме сырых данных с наших рынков. Большую часть из них я могу получать посредством API. Такую возможность предоставляет и Московская биржа, и Т-Банк и Финам. Причем, речь идет не о разовой загрузке больших архивов, а скорей о регулярных задачах, которые должны выполняться с определенной периодичностью.

2. Ностальгия по ламповому TUI(Text User Interface). В этом направлении всегда было место для творчества в условиях ограничений в части отображения (картинки и графики особо не покажешь). Но есть и преимущество - консольное приложение в сравнении с GUI - не столь требовательно к ресурсам и по сути может работать везде, где есть текстовая консоль, ну а в случае моего MVP - еще и Python.

В статье описал личную историю вдохновления, ссылку на код проекта ну и небольшую инструкцию.

Читать далее

Искусственный интеллект в Data Science: инструменты и границы возможностей

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели5.5K

Хабр, привет! Меня зовут Вячеслав Демин, я больше пяти лет работаю в сфере Data Science. Сейчас я руководитель направления аналитики данных в Сбере и эксперт на курсе «Специалист по Data Science» в Яндекс Практикуме. Начинал с этого же курса в 2020 году, после чего работал в сфере страхования и нефтехимии.

В этом материале я расскажу, для каких задач в Data Science использую ИИ и почему полагаться на него на 100% всё ещё не стоит.

Читать далее

Next Best Action: от задолженности к прибыли через персонализацию коммуникаций

Время на прочтение13 мин
Охват и читатели5.6K

Привет, Хабр! На связи — Ольга Кравченко, техдиректор по разработке моделей Газпромбанк.Тех. Сегодня я поделюсь кейсом, как наша команда создала инструмент, позволяющий нам продвигаться от просроченной задолженности к прибыли через персонализацию коммуникаций. Эта статья основана на моём выступлении на HighLoad++.

Прогресс не остановить — ML и здесь! Внутри — про развитие модельного скоринга и о том, как это повлияло на опыт пользователей и архитектуру решения.

Читать далее

ClickHouse не тормозит, но заставляет глаз дергаться. Materialized Views

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели6K

Вы пришли из мира PostgreSQL, Oracle или MSSQL. Вы знаете: материализованное представление — это «замороженный» результат запроса. Удобно. Предсказуемо.

Вы открываете документацию ClickHouse. Видите знакомые слова. Радуетесь. Пишете свой первый MATERIALIZED VIEW. Запускаете. И... получаете не то, что ожидали.

Потому что в ClickHouse материализованные представления работают СОВСЕМ не так, как везде.

Читать далее

Что если собирать агентов как dbt-проект?

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели8.3K

Что делать когда существующие инструменты бесят? Правильно, писать свои! Рассказываю про декларативный фреймворк, созданный, чтобы сделать процесс построения мультиагентных систем приятным. Или как минимум необычным для всех, кроме дата инженеров.

Читать далее
1
23 ...