Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

kucev 12 июн в 11:00

Хочешь своего AI-бота? Пошаговый план для новичков и не только

6 мин

6.8K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

AI-чатботы стремительно трансформируют способы взаимодействия бизнеса и пользователей с технологиями. Эти интеллектуальные виртуальные ассистенты способны обрабатывать клиентские обращения, давать рекомендации и даже автоматизировать сложные бизнес-процессы.

В результате, около 65% организаций заявляют об использовании генеративного ИИ как минимум в одной бизнес-функции на регулярной основе — почти в два раза больше, чем десять месяцев назад.

naumtsevalex 12 июн в 01:24

Валерий Бабушкин & MLinside, часть 1 | Автократия. System Design. Lego & Sport. Срезание углов

Простой

4 мин

2.9K

Data Engineering * IT-стандарты * Исследования и прогнозы в IT * Читальный залМашинное обучение *

Обзор

На днях посмотрел подкаст с Валерием Бабушкиным. Как всегда, было очень приятно слушать, и я хочу поделиться с вами основными тезисами, которые я для себя вынес.

Узнаем как быстро вникнуть в ML System Design, чем лего и спорт помогают, и почему важно уметь срезать углы на работе!

Порассуждать вместе с Валерой Бабушкиным

StanislavRG 11 июн в 09:50

Влияние маленьких файлов на Big Data: HDFS vs S3

Средний

13 мин

2.9K

Блог компании ArenadataХранение данных * Data Engineering * Big Data * Базы данных *

Обзор

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API.

Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse. Сравним производительность HDFS и объектных хранилищ с S3 API. На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC).

Тесты, графики, инсайды

Arhimagic 10 июн в 09:07

Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS

12 мин

3.6K

Блог компании Конференции Олега Бунина (Онтико)Высоконагруженные системы * Big Data * Data Engineering * Хранение данных *

Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе?

Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы.

Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.

+28

kucev 9 июн в 11:01

MCP — новая эра в AI или просто модное слово?

6 мин

3.6K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

TL;DR: MCP стремительно набирает обороты. Сейчас уже существуют тысячи MCP-"серверов", и хотя эту концепцию изначально предложила Anthropic, всего несколько дней назад к ней присоединилась и OpenAI. Серверы — это что-то вроде "приложений" для ИИ, но, что важно, они гораздо более гибко сочетаются между собой. Мы наблюдаем зарождение полноценной AI-экосистемы — аналогично тому, как это происходило с мобильными платформами десять лет назад.

Подробности:

MCP (Model Context Protocol) был представлен Anthropic в ноябре 2024 года как открытый стандарт. Хотя поначалу реакция сообщества была сдержанной, за последние месяцы протокол стал развиваться. В конце марта даже OpenAI — главный конкурент Anthropic — официально внедрила его.

Но что это такое и почему это важно?

Serj_ssv 7 июн в 13:00

Кригинг F-фактора или кормить, любить и никогда не покидать — «достаточно, но не чрезмерно»

Средний

22 мин

789

Python * Data Engineering * Инженерные системы *

Кейс

Девочка и мальчик — метисы хаски (да, да, природа прекрасна и удивительна) жили на стройке в трубах, в феврале 2025 года спасены волонтерами, откормлены, отмыты и подлечены. Сейчас у них появились хозяева и теперь, очень надеемся, их будут навсегда "Кормить, любить и никогда не покидать!". Про любовь как-нибудь в другой раз, а сегодня - про "кормить".

На профессиональном языке наших домашних любимцев называют непродуктивными животными. Это название нам кажется неправильным. Они очень даже продуктивные. Их продукция - это любовь и преданность, наши позитивные эмоции, прогулки в любую погоду и многие другие радости жизни.

Для непродуктивных животных в России сформирована новая отрасль - Петфуд (в СССР ее не было) с полными сырьевым, производственным и сбытовым циклами. Объем по итогам 2024 года - более 400 млрд рублей. Видов кормов много, но чаще всего домашних собак и кошек мы кормим влажными консервированными кормами. Поговорим об их производстве, узнаем почему F-фактор критически важен, зачем ему самому нужен кригинг и про баланс "достаточно, но не чрезмерно".

Статья адресована двум категориям читателей.

- Покупателям, тем кто сформировал спрос, заплатив 400 миллиардов. Всегда интересно знать, за что платишь.

- Специалистам отрасли, тем кто ответил 400 миллиардным предложением на спрос, разместив свой продукт на полке. Возможно, у них возникнет инновационная мотивированность увеличения доли в этом предложении.

vladislav_dt 7 июн в 11:17

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

Сложный

18 мин

1.7K

Блог компании DoubletappData Mining * Искусственный интеллектМашинное обучение * Data Engineering *

Обзор

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статье, а здесь сосредоточимся на результатах тестирования. Мы оцениваем ряд ведущих открытых LLM, предоставляя подробный количественный и качественный анализ, а также рассматриваем, как качество бенчмарка влияет на достоверность и объективность оценки моделей.

Содержание
• Общая информация о датасете
• Стенд для тестирования
• Результаты
• Заключение

+11

denislialin 6 июн в 09:32

Там, где метрики молчат: как расшифровка звонков помогла лучше понимать бизнес-клиентов

Средний

7 мин

1.2K

Блог компании ВкусВиллИскусственный интеллектУправление продуктом * Data Engineering * CRM-системы *

Кейс

Привет, Хабр! Меня зовут Денис, я один из лидеров направления ВкусВилл Бизнес. Вместе с командой продактов занимаюсь развитием клиентского пути бизнес-клиентов.

Эта статья о том, как мы нашли для себя ещё один способ услышать реальные голоса наших клиентов, чтобы понять, как работает наш продукт в реальной жизни, не опираясь исключительно на метрики. Расскажу, как ИИ помог нам самостоятельно, без разработки увидеть то, что скрывают дашборды.

kucev 5 июн в 11:00

MCP-серверы: зачем они нужны и почему о них скоро будут говорить все

12 мин

36K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Область искусственного интеллекта развивается, их работа теперь выходит за рамки простого ответа на вопросы и начинает напрямую взаимодействовать с нашими данными и инструментами. Если в последнее время вы слышали обсуждения MCP-серверов, вы не одиноки. MCP-серверы уже называют следующим крупным этапом в интеграции ИИ. Но что это такое, и почему вокруг них столько шума?

В этой статье мы разберемся в новом тренде, изложим суть простыми словами, рассмотрим примеры из практики, сравним с традиционными архитектурами ИИ и покажем, как начать работу с MCP. К концу материала вы будете понимать, что такое MCP-серверы, почему они важны и как они трансформируют текущий ландшафт AI.

-5

4etvegr 5 июн в 09:55

Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

Простой

13 мин

5.9K

Блог компании Конференции Олега Бунина (Онтико)КонференцииPython * Data Engineering * Big Data *

Интервью

За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад.

Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals, профессиональной конференции по инженерии, базам и системам хранения и обработки данных.

В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.

+37

vonirug 4 июн в 08:02

Data Mesh: ожидания vs реальность

Средний

10 мин

2.6K

Блог компании Лемана ТехData Mining * Big Data * Data Engineering * Хранение данных *

Представьте: ваш бизнес растет, а вместе с ним и количество данных. Но вместо ценной аналитики — хаос: отчеты готовятся месяцами, данные разбросаны по Excel-файлам, а команда DWH не успевает закрывать запросы. Знакомо? Мы прошли через это и решили внедрить Data Mesh. Ожидания были амбициозные, но что получилось на самом деле?

Vjatcheslav_S 2 июн в 13:09

Соединение SortMergeJoin в Apache Spark

Простой

6 мин

560

Блог компании АО «ГНИВЦ»Базы данных * Data Engineering * Big Data * Hadoop *

Обзор

Рассмотрим, как реализован SortMergeJoin в Apache Spark, и заодно заглянем в исходный код на GitHub. Spark написан на языке Scala, и вся логика работы оператора доступна в открытом репозитории проекта.

tretiakov_dm 2 июн в 11:40

Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow

Средний

7 мин

1.9K

Блог компании Lenta techBig Data * Data Engineering * Data Mining * Python *

Кейс

Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной работы с данными, но в какой-то момент мы столкнулись с тем, что стандартный подход через SparkKubernetesOperator стал сдерживать развитие: не хватало гибкости, возникали сложности в сопровождении и процесс настройки был излишне сложным для разработчиков.

kucev 2 июн в 11:00

Что скрывается за MCP-сервером и почему он может заменить RAG

4 мин

5.5K

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

Область искусственного интеллекта стремительно развивается, открывая новые способы повышения эффективности их работы и интеграции с данными в реальном времени. Одним из последних достижений стал Model Context Protocol (MCP) — открытый стандарт, позволяющий AI-моделям напрямую обращаться к файлам, API и инструментам без необходимости в промежуточных этапах, таких как создание эмбеддингов или векторный поиск. В этой статье мы рассмотрим, что такое MCP-сервер, как он работает и почему он может изменить будущее AI.

-5

skillfactory_school 2 июн в 08:39

Apache Flink для начинающих: архитектура, библиотеки и применение

Простой

12 мин

3.1K

Машинное обучение * Data Engineering * Big Data * Apache *

Обзор

Apache Flink — это фреймворк и распределенный движок обработки данных, поддерживающий какпакетную (ограниченную), так и потоковую (неограниченную)обработку данных. Это значит, что с его помощью можно обрабатывать как статичные (неизменяемые) данные, так и данные, поступающие в реальном времени.

Arenadata 29 мая в 10:13

От точечных решений к экосистеме: как «Национальная Лотерея» улучшает качество данных

Простой

17 мин

856

Блог компании ArenadataPostgreSQL * Data Engineering * Big Data * DevOps *

Кейс

Привет, Хабр! Сегодня мы расскажем, как «Национальная Лотерея» — компания, обрабатывающая сотни миллионов транзакций ежегодно, полностью перестроила свою работу с данными. Изначально инфраструктура данных опиралась на Excel-отчёты, ручные выгрузки и разнородные базы — подход, типичный для старта аналитических процессов. Однако со временем такие методы стали сдерживать скорость и масштабируемость аналитики.

Читать кейс

NeTRuS-Dev 29 мая в 09:12

Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице

Средний

22 мин

11K

Блог компании AvitoTechБазы данных * DIY или Сделай самData Engineering * Big Data *

Обзор

Привет! Меня зовут Влад Божьев, я старший разработчик юнита АБ-тестирования Авито. Один из наших ключевых инструментов – M42, сервис для визуализации метрик. Он позволяет быстро проверять гипотезы, анализировать отклонения и оценивать инициативы.

В этой статье мы с вами погружаемся в самое сердце M42 и разбираем, как же там хранятся отчеты по метрикам. Это не просто рассказ, это почти детективная история о том, как мы искали оптимальное решение.

В нашем семантическом слое данных больше 20 000 метрик, и есть десятки разрезов для каждой из них. Под катом рассказываю, как мы храним терабайты данных и автоматизируем добавление новых разрезов в отчёт M42.

+40

RenegadeMS 28 мая в 14:50

PondPilot: как мы сделали локальный SQL-редактор в браузере на DuckDB и WASM

Простой

3 мин

1.6K

SQL * Data Engineering * Open source * Базы данных *

Кейс

Любой, кто хоть раз пытался «по-быстрому» проанализировать CSV-файл или прототип БД, сталкивался с выбором из неудобств: открывать в Excel, запускать Jupyter, возиться с pandas, или поднимать Postgres/ClickHouse ради пары запросов. Мне показалось странным, что в 2025 году до сих пор нет удобной zero-setup SQL-песочницы для локальных данных.

Так родился PondPilot - open-source инструмент для анализа данных, работающий прямо в браузере, без серверов и настройки.

+15

Kaboupi 28 мая в 07:09

Долгожданный релиз Airflow 3

Средний

11 мин

7.2K

Блог компании КОРУС КонсалтингData Engineering * Apache * Python * Big Data *

Обзор

Из песочницы

Привет, Хабр! Я Георгий Новожилов, инженер данных в «ДАР» (ГК «КОРУС Консалтинг»).

В моём стеке и стеке моих коллег Airflow, можно сказать, незаменим. Он помогает нам планировать, запускать и отслеживать сотни задач обработки данных, которые крутятся в кластере каждый день.

22 апреля 2025 года компания Apache выпустила новую версию своего оркестратора, которая была в разработке последние 4 года. Среди ключевых изменений — новый интерфейс, обновлённая и защищённая архитектура, а также стабильный интерфейс разработки.

В этой статье предлагаю рассмотреть, какие ещё нововведения нам привезли в масштабном обновлении Apache Airflow 3.0.0.

+22

kucev 27 мая в 13:10

AI-агент говорит, что всё сделал. А ты уверен? Что нужно знать про оценку

6 мин

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Оценка AI-агентов — это процесс анализа и понимания того, насколько эффективно AI-агент выполняет задачи, принимает решения и взаимодействует с пользователями. В силу их автономной природы, качественная оценка агентов необходима для обеспечения их корректного функционирования. AI-агенты должны действовать в соответствии с замыслом разработчиков, быть эффективными и соответствовать определенным этическим принципам AI, чтобы удовлетворять потребности организации. Процесс оценки помогает удостовериться, что агенты соответствуют указанным требованиям.

1 2 ...

13 14

16 17 ...

79 80

Data Engineering *

Хочешь своего AI-бота? Пошаговый план для новичков и не только

Валерий Бабушкин & MLinside, часть 1 | Автократия. System Design. Lego & Sport. Срезание углов

Влияние маленьких файлов на Big Data: HDFS vs S3

Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS

MCP — новая эра в AI или просто модное слово?

Кригинг F-фактора или кормить, любить и никогда не покидать — «достаточно, но не чрезмерно»

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

Там, где метрики молчат: как расшифровка звонков помогла лучше понимать бизнес-клиентов

MCP-серверы: зачем они нужны и почему о них скоро будут говорить все

Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

Data Mesh: ожидания vs реальность

Соединение SortMergeJoin в Apache Spark

Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow

Ближайшие события

Что скрывается за MCP-сервером и почему он может заменить RAG

Apache Flink для начинающих: архитектура, библиотеки и применение

От точечных решений к экосистеме: как «Национальная Лотерея» улучшает качество данных

Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице

PondPilot: как мы сделали локальный SQL-редактор в браузере на DuckDB и WASM

Долгожданный релиз Airflow 3

AI-агент говорит, что всё сделал. А ты уверен? Что нужно знать про оценку

Вклад авторов