Обновить
256K+

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

78,17
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Книга: «Архитектура медальона. Проектирование с помощью Delta Lake и Spark»

Время на прочтение2 мин
Охват и читатели4.4K

Привет, Хаброжители! Книга предлагает практическое руководство по внедрению архитектуры медальона (bronze, silver, gold уровни) для эффективной работы с большими данными, чтобы избежать превращения хранилищ в бесполезное «болото данных».

Автор делится реальными кейсами и примерами кода для Microsoft Fabric и Azure Databricks, объясняет, как интегрировать медальон в data mesh, и рассматривает вопросы безопасности, контрактов данных и применения генеративного ИИ.

Книга будет полезна дата-инженерам, архитекторам и руководителям, ищущим проверенные решения для построения востребованной и управляемой аналитики.

Читать далее

Новости

Spark SQL Scripting. Новые возможности для инженеров данных

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели4.4K

До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов.

Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику.

В данной публикации мы, команда вендора Data Sapience, разберем возможности Spark scripting на практике.

Читать далее

Как перестать терять данные в Kafka: окно безопасности и проактивный мониторинг «возраста» данных

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели5.9K

В Kafka данные могут пропадать, даже если в конфигах стоит хранение 7 дней. В этом коротком кейсе — как я решил проблему потери данных, внедрив мониторинг «окна безопасности».

Проблема: Байты сильнее времени

Решение: Метрика «Data Safety Window»

Конфигурация — это лишь декларация о намерениях. Реальное окно жизни данных диктует нагрузка в моменте.

Чтобы не гадать по конфигам, я внедрил расчет фактического запаса времени в Grafana.

Читать далее

Как мы построили речевую аналитику для кол-центров и начали анализировать тысячи звонков

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели9.7K

Привет! Я Артём Юрченко — DS-инженер в команде Недвижимости Авито. Наши кол-центры совершают до 30 000 звонков в день, и вручную можно проверить лишь небольшую часть из них. Расскажу, как мы начали строить систему речевой аналитики и разработали первую модель, которая автоматически находит в звонках возражения клиентов и анализирует, как операторы их отрабатывают. 

Статья будет полезна DS-инженерам, аналитикам и продакт-менеджерам, которые работают над продуктами построения речевой аналитики.

Читать далее

ClickHouse не тормозит, но заставляет глаз дергаться. CTE

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели5.8K

Каждый, кто приходит в ClickHouse из мира классических OLTP-баз, несет с собой багаж священных знаний. Один из таких «священных граалей» — Common Table Expressions (CTE).

Казалось бы, что в ClickHouse может пойти не так? Ведь там тоже есть WITH! Любой нормальный человек просто возьмет и начнет использовать, казалось бы, привычный функционал. Но в итоге останется у разбитого корыта.

В этой статье мы разберем главные грабли: почему WITH в ClickHouse — это не оптимизация, а макрос для парсера и выстрел себе в ногу, если этого не знать.

Читать далее

Как я обрабатываю 15 миллионов GPS-пингов в день для системы транспортной аналитики Ташкента

Время на прочтение6 мин
Охват и читатели10K

В Ташкенте курсируют около 1 800 активных автобусов на 170 маршрутах. Их GPS-координаты поступают каждые 10 секунд. В сутки это составляет порядка 15 миллионов координатных пингов. Но объём – не самая сложная часть.

Настоящая проблема в том, что отдельный GPS-пинг сам по себе ничего не значит. Координата автобуса на заданной широте/долготе не отвечает на вопросы:

Читать далее

Data Gravity и отравление выборки

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели9.8K

Любой, кто хоть немного знаком с ИИ знает, что для эффективной работы искусственного интеллекта необходимы качественные данные. В результате 80% времени любого ML-проекта уходит не на подбор гиперпараметров и не на архитектуру нейросети, а на рутинный, выматывающий процесс — вылизывание данных. Мы собираем данные из множества устаревших систем, разбираемся с пустыми полями, убираем дубликаты, корректируем разметку. А после всего этого модель приходит ровно туда, куда мы её привели — шуму, смещениям и отравленным выборкам. В этой статье мы разберём основные проблемы, из-за которых все это происходит.

Открыть материал

Вайбкодинг — это смерть AGI. Claude это доказал

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели6.7K

TL;DR: Claude Code слил свои исходники, потому что у него нет инстинкта самосохранения. Проблема не в баге, проблема в архитектуре: LLM-агенты не владеют ничем и не боятся ничего. Пока у ИИ нет шкурного интереса, вайбкодинг - это русская рулетка с корпоративными секретами.

Читать далее

Мета-теория связей 0.0.3

Уровень сложностиСложный
Время на прочтение10 мин
Охват и читатели7.7K

Этому миру нужна новая теория — теория, которая могла бы описать все существующие теории на планете. Теория, которая смогла бы описать философию, математику, физику и психологию единым формальным языком, чтобы сделать все виды наук исчисляемыми.

Именно над этим мы сейчас работаем. Когда нам удастся добиться успеха, эта теория станет единой мета-теорией всего и коснётся каждого на этой планете.

Прошел год с момента нашей последней публикации, и наша задача — поделиться достигнутым прогрессом с русскоязычной аудиторией. Это всё ещё не финальная версия, а черновик, перевод прошлогодней статьи на английском с улучшениями. Поэтому мы будем рады любым отзывам, а также вашему участию в развитии мета-теории связей.

Как и всё, что мы делали раньше, теория связей публикуется и передаётся в общественное достояние — она принадлежит всему человечеству, а значит, и вам лично. У этой работы много авторов, но сама работа гораздо важнее любого отдельного авторства. Мы надеемся, что уже сегодня она сможет принести пользу ещё большему числу людей.

Мы приглашаем вас стать частью этого захватывающего приключения.

Стать свидетелем рождения мета-теории

ORC in Hive/Spark — «анатомия» файла, индексация и фильтр Блума

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели5.3K

ORC — это колоночный формат, то есть данные хранятся не по строкам (как в CSV), а по столбцам. Именно это даёт ему способность эффективно сжимать и читать только нужные колонки. Есть ещё встроенная индексация и фильтр Блума, которые позволяют не перелопачивать лишние данные.

Давайте заглянем под капот и посмотрим, как устроен ORC-файл, зачем там индексы и как фильтр Блума ускоряет поиск.

Читать далее

Рейтинг языков программирования на GitHub: анализ 2024–2025 в JupyterLab и Anaconda

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели14K

Мы не стали спорить с TIOBE и RedMonk и собрали свой рейтинг языков программирования на основе GitHub. Данные за 2024–2025 показывают неожиданные вещи: JavaScript впереди, TypeScript резко растёт, а Rust и Go выигрывают по качеству проектов. Разбираем, что стоит за цифрами и где могут быть искажения.

Читать далее

Гонка вооружений. Почему античиты всегда проигрывают?

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели7.4K

ДИСКЛЕЙМЕР:

Автор не призывает к игре с сторонним ПО. Вся информация, приведенная в статье - приведена лишь в образовательных и ознакомительных целях. Информация была взята из открытых источников и ни к чему не призывает.

СОДЕРЖАНИЕ:

Читать далее

AiConf 2026: переход от теории к практике

Время на прочтение6 мин
Охват и читатели3.3K

Привет, Хабр! Есть такое ощущение, что сейчас ИИ везде. Он пишет код, водит грузовики, торгует на бирже, даже планирует военные операции. Искусственный интеллект изменил и продолжает трансформировать привычную для нас реальность. Новостей и теоретической информации о возможностях AI предостаточно. И кажется, будто мы уже пресытились лекциями, вебинарами и докладами на эту тему.

Поэтому в 2026 году AiConf пройдёт в формате «конференция развития». Это значит больше интерактивных форматов и нетворкинга, чтобы участники были не пассивными слушателями, а активными создателями решений, знаний, новых контактов и инсайтов.

Читать далее

Ближайшие события

Для создания AGI нам нужно сделать шаг назад

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели11K

Современные языковые модели демонстрируют отличные способности к рассуждению, но при этом остаются инструментами. У инструмента нет выбора. В основе LLM лежит предсказание следующего токена. В основе агентных систем — оптимизация внешней целевой функции. В обоих случаях цель задана извне. Система не имеет права её пересмотреть.

Вы в праве сказать, что содержание статьи — это одна большая глупость, но я хочу предложить альтернативу. «Сознание» возникает не из сложности и объёма вычислений, а из архитектуры, где «Я» — не метафора в промте, а функциональный компонент системы.

Нам необходимо построить субъектность с нуля.

Читать далее

Как я впервые услышал черную дыру: Python и LIGO

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели6.4K

Привет, Хабр!

Когда речь заходит об обсерватории LIGO, большинство из нас вспоминает классический сценарий: где-то за миллиарды световых лет слились две черные дыры, и через миллионы лет детекторы на Земле зафиксировали гравитационный всплеск, длившийся доли секунды. В классической Общей теории относительности (ОТО) считается, что изолированная или просто поглощающая газ черная дыра гравитационно «нема». Она ничего не излучает.

Но что, если это не так? Что, если гравитационные телескопы способны «слышать» не только редкие катастрофические слияния, но и постоянный, фоновый гул от обычных черных дыр, которые прямо сейчас пожирают материю в нашей галактике? И что, если этот гул может рассказать нам о физическом размере объектов, внутри которых, как нам говорят, находится «бесконечная сингулярность»?

В этой статье я покажу, как концепция механики сплошных сред позволяет предсказать точную частоту такого резонанса. А затем мы откроем Python, подключимся к серверам GWOSC (Gravitational Wave Open Science Center), выкачаем гигабайты сырых тензорных данных LIGO и методами цифровой обработки сигналов (DSP) вытащим этот акустический след из шума.

Спойлер: мы найдем этот гул для трех разных черных дыр. И он совпадет с расчетным до десятых долей процента. Такого анализа (поиск непрерывного гравитационного резонанса от аккреции) еще никто не делал. Это буквально новый метод определения параметров черных дыр.

Слушать черные дыры

TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели5.3K

В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации.

В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта...

Читать про кожу

Как мы подружили DataLens и OpenMetadata: архитектура, код и подводные камни

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели5K

Всем привет! Меня зовут Саша, я тимлид в DWH MAGNIT OMNI — бизнес-группе ритейлера «Магнит», которая отвечает за развитие омниканального опыта для клиентов.

Недавно ребята из Datalens проводили вебинар в честь выпуска Public API, в котором я принял участие. Эта статья — развернутая версия моего доклада об интеграции Datalens с OpenMetadata.

Читать далее

TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели5.5K

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят.

Долой трансформеры

Как компании строят MLOps: три архитектурных подхода

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели5.8K

Всем привет! Меня зовут Катерина Цаплина, я программный эксперт курса «MLOps для разработки и мониторинга моделей». Работаю на стыке ML, инфраструктуры и корпоративной архитектуры в крупной промышленной компании и на практике вижу, насколько непросто выстраивать такие процессы в реальной организации. 

Это первая статья из цикла о том, как компании реализуют MLOps. Она будет полезна тем, кто строит или развивает ML-процессы в компании и хочет разобраться, почему под словом MLOps часто скрываются довольно разные практики и решения. 

В этой части не будем уходить в детали конкретных платформ, а сначала соберём общую картину: какие архитектурные модели скрываются за словом MLOps, чем они отличаются и почему компании с похожими задачами приходят к разным способам организации ML-инфраструктуры. В следующих статьях пойдём глубже и посмотрим на конкретные реализации.

Читать далее

CSV в Spark: Искусство правильной загрузки данных

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели6.6K

В этой статье мы разберём, как правильно загружать CSV в Apache Spark — распределённую вычислительную систему, ставшую стандартом для обработки больших данных. Это первый и самый важный шаг в знакомстве с API Spark и основа для любой последующей обработки.

Читать далее
1
23 ...