Обновить
81.15

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга
Уровень сложности

CI/CD в Data Science, MLOps в финтехе и тенденции в потоковой передаче данных

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели6K

Звание текста с лучшими мемами получила статья про антисоветы для работы с ML-экспериментами.

Привет, Хабр! Это уже четвертый выпуск дайджеста по ML и работе с данными для тех, кто тащит эти направления в своих компаниях. Сегодня в программе — антисоветы для работы с ML-экспериментами, обзор библиотеки для Pandas с примесью ChatGPT, очень сложная статья про Ray и многое другое. Еще больше полезных текстов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».

Используйте навигацию, если не хотите читать текст полностью:

Теория
Практика
Мнение
Инструменты
Видео
Читать дальше →

Что такое NiFi

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели28K

Эта статья для тех, кто только открывает для себя мир NiFi или планирует применять этот чудесный инструмент. Инструмент необычный, и, чтобы его эффективно использовать, важно понимать, как NiFi работает, какие у него сильные и слабые стороны.

Читать далее

ClickHouse в ритейловом проекте

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели5.8K

Всем привет!

Всегда интересно узнавать, как устроено IT в различных сферах и компаниях: какие задачи ставятся и как находятся решения. Да и в целом, делиться опытом полезно!

Меня зовут Илья Панов, я инженер данных в X5 Tech и участвую в развитии продукта CVM (Customer Value Maximization). В этой статье хочу рассказать о том, как живёт и развивается IT-продукт в ритейле. Расскажу, откуда появилась потребность в инструменте, подобном ClickHouse, и как проходило RnD для его внедрения.

Читать далее

Mini-ml-stand для бедных

Уровень сложностиПростой
Время на прочтение17 мин
Охват и читатели8.3K

Всем привет! Снова на связи General RJ45 с новым прекрасным решением, но на сей раз по теме ML и аналитики.

На моем счету уже два законченных ML проекта и за это время я достаточно много поработал с аналитиками и ML инженерами, да и вообще над созданием ML и аналитических решений и могу сказать что у меня сформировалось своё представление о данных решения и я вижу какие проблемы возникают в данных процессах и что нужно разработчикам для их более эффективной работы, как пример это прозрачность всего процесса чтобы они могли видеть весь процесс от начала до конца и контролировать его.

В рамках данной статьи хочу рассказать как можно максимально просто поднять ML стенд на котором можно будет вести полноценную разработку и ETL процессов, и различных обучений моделей и их переобучений.

Стек того что мы поднимем в рамках этой статьи, также будут и другие инструменты как Nginx, Postgresql но мы их учитываем как часть компонентов ниже:

Развернем свой стенд с мл и etl?

ClickHouse: полезные лайфхаки

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели53K

Я начала пользоваться ClickHouse до того, как это стало мэйнстримом: первый раз я столкнулась c этой базой данных лет 8 назад. C тех пор я уверена, что это лучшая DB для аналитики. Большинство аналитиков, которых я знаю, в восторге от ClickHouse (иногда чтобы проникнуться, требуется немного времени: разобраться и привыкнуть к синтаксису).

В этой статье я расскажу что такое ClickHouse и почему я считаю его идеально подходящим мощным инструментом для аналитики. А также поделюсь tips & tricks из моего опыта. Поехали.

Поехали

Фреймворк vtb_scorekit для разработки интерпретируемых скоринговых моделей

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели4.6K

Всем привет! Меня зовут Сакович Руслан, я занимаюсь корпоративным риск-моделированием, и сегодня расскажу о построении скоринговых моделей. Эти модели позволяют оценивать кредитные риски и являются крайне важными в деятельности банка. К ним предъявляются высокие требования в плане точности, стабильности и интерпретируемости результатов, поэтому мы в основном не можем использовать методы «черные ящики» (как например бустинги или нейросети), и обычно вынуждены пользоваться логистической регрессией. Сам по себе метод логистической регрессии довольно простой с точки зрения математики, однако для построения хорошей модели он требует тщательной предварительной обработки и энкодинга исходных данных, а также последующего довольно трудоемкого отбора переменных в модель. Причем стандартные библиотеки вообще не предоставляют возможности построения хоть какой-нибудь адекватной модели прямо из коробки. Мы решили стандартизировать весь процесс разработки скоринговых моделей, собрали используемые нами алгоритмы и объединили в библиотеку vtb_scorekit.

Читать далее

Анализировать данные — это как варить пиво. Почему дата-анализ и пивоварение — одно и то же с техноизнанки

Время на прочтение10 мин
Охват и читатели18K

Три года я был эстонским пивоваром: придумывал рецепты и сам варил. Когда начал изучать Python, SQL и анализ данных, понял, что между подготовкой данных и подготовкой сусла много общего: оказывается, в цеху я занимался DS, но не подозревал об этом. Меня зовут Алексей Гаврилов, я сеньор дата-аналитик в ретейле. В этой статье расскажу, чем пивоварение и аналитика данных похожи изнутри.

Читать далее

Актуальные подходы к ETL. Или EL-T? Технологический разбор

Время на прочтение12 мин
Охват и читатели8.3K

Центр управления данными нашей компании занимается построением хранилищ, Data Lake, платформ данных и BI-систем. ETL — неотъемлемая часть нашей работы. Сегодня мы рассмотрим актуальные подходы к созданию подобных решений и расскажем о двух проектах, где они были реализованы нестандартными способами.

ETL vs EL-T, Плюсы и минусы DIY, кейсы

Зачем Data-инженеру Spark

Уровень сложностиСредний
Время на прочтение24 мин
Охват и читатели16K

Привет, Хабр, меня зовут Дима. В последние пару лет занимаюсь аналитикой, отвечаю за данные в Почте Mail.ru. Развиваю аналитическое хранилище данных и инструменты для работы с ними. Мы плотно работаем со стеком Hadoop, Hive, Spark, Clickhouse и Kafka. Я хочу остановиться на некоторых аспектах работы с данными в Spark: как мы храним петабайты информации и как выполняем запросы к ним?

Прежде всего поделюсь своими практическими наблюдениями. Расскажу как в нашем хранилище мы превратили 7 петабайт в 0,5 петабайт, что позволило сэкономить годовой бюджет по закупке серверов. И также расскажу о ключевых проблемах с данными, знание о которых помогло бы вам построить своё классное хранилище без последующей переделки.

Читать далее

Борьба за открытый исходный код: BI-шоудаун на вебинаре «Open-source vs пропиетарный BI»

Время на прочтение19 мин
Охват и читатели3.6K

Являясь сторонником решений с открытым исходным кодом в области бизнес-аналитики (BI), я был рад принять участие в онлайн-вебинаре Visiology в прошлый четверг. Я присоединился к увлекательной дискуссии не только для того, чтобы предаться интеллектуальному спору, но и для того, чтобы продемонстрировать практичность технологий с открытым исходным кодом на конкретных примерах.

Ландшафт BI меняется, и недоступность традиционных коммерческих решений заставила многие российские компании пересмотреть свои стратегии. Я продемонстрировал потенциал решений с открытым исходным кодом, объясняя, почему они могут быть прагматичным выбором для компаний, стремящихся к экономичности, свободе технической разработки и свободе от привязки к поставщику (вендор-лок).

Однако эта дискуссия не была односторонней. Мне противостоял Евгений Скребанов, опытный профессионал, который твердо поддерживает проприетарное программное обеспечение BI. Евгений, обладающий обширными знаниями в области аналитических систем и не понаслышке знакомый с западным и российским рынками BI, представил иную точку зрения.

Хотя мы понимаем, что в этой дискуссии нет однозначного "победителя" - разные платформы и системы подходят для разных ситуаций, - наша цель - дать вам полное представление об обоих подходах.

Выражаю благодарность всем участникам данного батла за то, что потратили вечернее время на в увлекательную дискуссию о будущем BI-технологий и были активны в чате.

В данной статье, я открою материалы встречи и отвечу на вопросы, которые задавались в чате вебинара (это был самый активный чат из всех последних вебинаров). Если у вас есть вопросы по теме выбора BI или своя точка зрения, буду рад увидеть ее и ответить в комментариях под постом.

Читать далее

Data Fusion Contest. Издание 2-ое, переработанное и дополненное

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели1.5K

Соревнование Data Fusion Contest 2023 в этом году состоялось во второй раз и собрало  сильнейшие индустриальные команды и отдельных любителей моделей алгоритмов машинного обучения. Кто-то участвовал впервые, а кто-то, уже умудрённый прошлым опытом был явно настроен только на победу.

В этот раз мы решили принципиально изменить задание и придумали новый формат. Что произойдет, если столкнуть лицом к лицу участников, мотивированных атаковать модели машинного обучения, с другими участниками, мотивированными свои модели защищать? Кто победит, каким окажется тот стек моделей и подходов, который приведет к победе? Что важнее, знания и опыт, или гибкость ума или нестандартные подходы?

Мы задали себе все эти вопросы и решили найти ответы на практике, подготовив для участников Data Fusion Contest 2023 очень нестандартное и по теме и по формату соревнование по Adversarial ML с атаками на модели машинного обучения, а также с их защитой.

Давайте разбираться, что из этого получилось по факту, и какие решения предложили участники, чтобы оказаться в рядах победителей!

Читать далее

Apache Airflow в связке с Kubernetes

Уровень сложностиСложный
Время на прочтение5 мин
Охват и читатели15K

Привет! Меня зовут Алексей Карпов, я DevOps-инженер (MLOps) отдела ML разработки в OKKO. Хочу поделиться опытом в работе с Apache Airflow в связке с Kubernetes. Расскажу, как установить Airflow в Kubernetes, настроить автоматическую синхронизацию DAG'ов с удалённым репозиторием, а также как отладить его работу. Всё это — на примере запуска простейшего DAGа. 

Читать далее

Что такое индексация смарт-контрактов в Web3 разработке? (Начальные знания не требуются)

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели5.9K

Всем привет, решил перевести свою англоязычную статью, в которой я скомпилировал знания полученные в течение года работы в web3 инфраструктурном провайдере о данных на EVM блокчейнах и инструментах разработчика для доступа к ним.

Сложно сказать, что культура инженерии данных глубоко укоренилась в сообществе разработчиков Web3. И не каждый разработчик может легко определить, что означает индексация в контексте Web3. Я хотел бы уточнить некоторые детали на эту тему и поговорить об инструменте под названием The Graph, который стал де-факто стандартом индустрии для доступа к данным на блокчейне для создателей DApp'ов (децентрализованных приложений).

Под кат

Ближайшие события

Разбираемся в терминах искусственный интеллект и машинное обучение

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели8.2K

Словосочетание «Искусственный интеллект» (ИИ) и все, что крутится вокруг него в последнее время — одна из самых животрепещущих тем во всем мире. Горячий пирожок в технологической среде. Он оказал влияние на многие аспекты жизни, в том числе на образование. Эксперты в данной области заявляют, что «искусственный интеллект» — это общий термин и следует разделять такие специальности, как программирование, статистика и машинное обучение. Машинное обучение всегда подразумевает использование искусственного интеллекта, однако ИИ не всегда подразумевает машинное обучение.

Читать далее

Что такое исследование данных и почему оно необходимо — кейс rdl by red_mad_robot и «АгроТерры»

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели2.2K

Перед тем как проводить исследования на данных, нужно исследовать сами данные. Достаточно ли их для анализа, какие гипотезы и факторы влияют на результат, а какие — чистая рулетка? На эти вопросы отвечает исследование данных — Exploratory Data Analysis (EDA). Его rdl by red_mad_robot и проводил для «АгроТерры».​

Читать далее

Модификация алгоритма FP Growth или как правильно ухаживать за своими деревьями

Уровень сложностиСложный
Время на прочтение8 мин
Охват и читатели4.8K

Привет, Хабр!

В поисках варианта алгоритма FP Growth, который мог бы удовлетворить моим потребностям, я столкнулся с неожиданным и крайне удивительным обстоятельством - все решения из коробки не предполагали разбиения данных на батчи (относительно небольшие наборы элементов) и последующем обучении на них. Также они не были способны дообучаться на вновь полученных транзакциях да и в целом были заточены на единовременный анализ всей транзакционной базы данных. Меня это смутило - неужели в эпоху обработки больших данных не было подробно описано или хотя бы выложено на всеобщее обозрение ни одной реализации подобного алгоритма. Возможно, я не первый, кто придумал что-то подобное, и в кулуарах научных статей найдутся схожие идеи - что ж, в любом случае это мой личный опыт и я надеюсь в каком-либо приближении он окажется вам полезен или хотя бы интересен.

Читать далее

Сингулярность, в результате которой ИИ сам сделает себя умнее людей. GPT-4 играет в Minecraft и самообучается

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели6.1K

В этой статье речь пойдет об эксперименте Voyager: An Open-Ended Embodied Agent with Large Language Models, в котором группа исследователей (Guanzhi WangYuqi XieYunfan JiangAjay MandlekarChaowei XiaoYuke ZhuLinxi FanAnima Anandkumar ) дала GPT-4 поиграть в Minecraft.

В этом видео есть объяснение на английском языке. Оригинал текста на английском языке находится здесь.

Новость не кажется чем-то громким, но есть нюанс: нейросеть сама учила себя играть. Она принимала решения, но также обучалась разным действиям вроде «срубить дерево» или «убить паука». ИИ сталкивался с проблемами и самостоятельно учился их решать, добавляя скиллы в свою библиотеку. Проще говоря, GPT-4 теперь пишет код, проверяет его и совершенствует.

Именно с такого начинается так называемая сингулярность, в результате которой ИИ сам сделает себя умнее людей. Сингулярость Майнкрафта.

Читать далее

Кейс внедрение Dbt в «Детском мире»

Уровень сложностиСложный
Время на прочтение3 мин
Охват и читатели6.8K

Всем привет! Меня зовут Антон и я руковожу Big Data платформой в Детском Мире. 

На Хабре проходит сезон Больший данных, и я решил что это отличная возможность поделиться нашим опытом внедрения Dbt (инструмент для оркестрации Sql витрины). На хабре уже статьи по инструменту, в моей статье, покажу как пришли от запуска ноутбука в Zeppelin к промышленному решению запуска большого количества витрин написанных на SparkSql в OnPrem Hadoop.

Читать далее

Почему Trino такой быстрый: динамические фильтры

Время на прочтение8 мин
Охват и читатели5.8K

Принцип большинства оптимизаций производительности в аналитических SQL-движках — ответить на запрос пользователя, затратив минимум вычислительных ресурсов. Динамические фильтры — это оптимизация, которая создает дополнительный предикат для одной из сторон оператора Join на основе данных другой стороны.

Так как аналитические запросы часто содержат операции Join и сканируют таблицы большого размера, наличие динамических фильтров позволяет существенно сократить объем обрабатываемой информации, а значит повысить производительность.

Рассмотрим реализацию динамических фильтров на примере Trino.

Узнать, как работают динамические фильтры

Автоматизированное развертывание моделей машинного обучения или как мы создаем реальные проекты в магистратуре

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели2.7K

Бесконечно можно смотреть на то, как горит огонь, течет вода и как дата сайентисты и ML-инженеры развертывают модели машинного обучения. Примерно у трети ML-инженеров данная задача занимает не менее часа рабочего времени. На хакатоне Data Product Hack от AI Talent Hub мы разработали инструмент для упрощения развертывания моделей машинного обучения MLJET. В статье рассказываем, как он работает. 

Читать далее