Apache Airflow давно стал стандартом в мире Data Engineering благодаря своей гибкости, масштабируемости и богатой экосистеме. В этой статье мы подробно разберём, что такое Airflow, почему он так популярен, как эффективно использовать его в аналитической архитектуре, а также предоставим максимально подробную инструкцию по развертыванию Airflow.

Data Engineering *
Обсуждаем вопросы сбора и подготовки данных
Как мы обучали ML-модель для выявления подозрительных ставок в системе DoseSports
Привет, Хабр. Меня зовут Виктор, я Big Data Engineer в antifraud-направлении. В этом посте хочу рассказать о том, как мы выстраивали процесс обнаружения подозрительных паттернов поведения в ставках на зарубежной БК-платформе DoseSports — без воды и маркетинга. Только архитектура, фичи, модели и выводы.
Как мы решили проблему батчевых загрузок в реляционные СУБД, или Немного хорошего о «худших практиках» в Spark

Всем привет! Меня зовут Алексей Николаев, я работаю дата-инженером в команде ETL-платформы MWS Data (ex DataOps). Часто сталкиваюсь с тем, что в сложной инфраструктуре и больших проектах простые, на первый взгляд, задачи по работе с данными очень сильно усложняются. В результате возникают ситуации, когда хорошие практики превращаются в плохие решения, а плохие практики как раз могут дать хороший результат.
Мои коллеги уже рассказывали про нашу платформу, ее внедрение внутри экосистемы и наши инструменты для работы с данными. В процессе развития продукта перед нами встала проблема массовых регламентных загрузок данных из реляционных источников. Для этого мы создали внутренний инструмент — библиотеку d-van. В качестве движка в ней используется Apache Spark, с которым она взаимодействует через библиотеку onETL. На примере d-van я покажу нестандартный подход к использованию возможностей Apache Spark. Расскажу, какие задачи можно решить с помощью режима master=local и как свой инструмент может стать альтернативой Apache Nifi или Debezium.
Коротко о ETL: как эффективно управлять потоками данных в бизнесе
Сегодня данные являются ключевым ресурсом для любого бизнеса. Но прежде чем они превратятся в полезную информацию, пригодную для принятия решений, данные проходят длительный и многоступенчатый путь — от извлечения до представления конечному пользователю. Именно этот процесс получил название ETL (Extract, Transform, Load).
Процесс ETL включает:
Как обучают ИИ: без формул, но с котами

В этой статье — без воды, трюизмов, академизмов и формул — разберёмся, в чём принципиальное отличие машинного обучения (ML) от до-ИИ программирования, а затем генеративного ИИ от классических моделей машинного обучения (ML). Поговорим о типах генеративных моделей, их архитектуре и областях применения.
Заодно затронем важный вопрос: где проходит граница между классическим программированием и вероятностным творчеством, на котором построены современные нейросети.
Статья ориентирована прежде всего на тех, кто делает первые шаги в ИИ, но если ты начинающий ML-инженер, архитектор ИИ-приложений, основатель стартапа или просто хочешь разобраться, что на самом деле происходит под капотом у ChatGPT и Midjourney — ты, скорее всего, найдёшь здесь для себя что-то полезное.
Агенты. Деньги. Бизнес и Работа

По материалам Fast Company, Venture Beat, CIO, NY Times, New Scientist, Wired, McKinsey и других ресурсов. Минимум булшита, максимум инсайтов.
Решается судьба будущего интернета: станет ли он открытым пространством для всех или превратится в сеть закрытых экосистем, контролируемых Big Tech...
ChatGPT на пике растет со скоростью 1 000 000 пользователей за пару часов...
Оптический бюджет в ВОЛС. Как не оступиться в эпоху 100G+ и плотных ЦОД?

Оптический бюджет в ВОЛС: Невидимая грань между работоспособностью и отказом. Как не оступиться в эпоху 100G+ и плотных ЦОД?
Представьте: вы спроектировали идеальную магистраль, выбрали "качественные" компоненты, смонтировали... И линк не поднимается. Или работает, но с ошибками. Или стабилен сегодня, но "падает" при нагреве летом. Часто корень зла кроется в нарушении оптического бюджета мощности (Optical Power Budget - OPB). Это не абстрактная цифра из даташита – это фундаментальный закон сохранения энергии в мире оптики. Игнорируете его – гарантируете себе головную боль. Сегодня, с ростом скоростей (100G, 400G, 800G) и плотности в ЦОД, понимание и точный расчет OPB критичны как никогда. Давайте разберемся, что это, из чего складывается, где поджидают ловушки и как избежать фатальных ошибок.
1. Суть Оптического Бюджета: Проще, Чем Кажется (На Словах)
По сути, OPB – это разница между мощностью, которую передатчик (Tx) излучает в волокно, и минимальной мощностью, необходимой приемнику (Rx) для корректной работы (чувствительностью) с учетом требуемого запаса (System Margin).
Упрощенная формула:OPB = P_Tx_min - P_Rx_min - System_Margin
Где:
Большой тест 12 LLM моделей на арифметику (~100 тыс запросов)

Ловушка для бизнеса: почему LLM иногда 'угадывает' математику, а потом подводит? Часто вижу, как на моих ИИ-интенсивах пытаются автоматизировать нейросетями то, что легко делается без них – например, финансовый анализ из PDF. И поначалу LLM даже выдает верные цифры! Это создает опасную иллюзию, что им можно доверять расчеты.
Поэтому решил получить конкретные значения: когда именно LLM начинает ошибаться в элементарных операциях – сложении, вычитании, умножении?
Протестировал 12 моделей на числах разной длины. Результаты – внутри и почему калькулятор все еще ваш лучший друг, когда речь идет о числах больше 4 знаков.
Хочешь своего AI-бота? Пошаговый план для новичков и не только

AI-чатботы стремительно трансформируют способы взаимодействия бизнеса и пользователей с технологиями. Эти интеллектуальные виртуальные ассистенты способны обрабатывать клиентские обращения, давать рекомендации и даже автоматизировать сложные бизнес-процессы.
В результате, около 65% организаций заявляют об использовании генеративного ИИ как минимум в одной бизнес-функции на регулярной основе — почти в два раза больше, чем десять месяцев назад.
Валерий Бабушкин & MLinside, часть 1 | Автократия. System Design. Lego & Sport. Срезание углов

На днях посмотрел подкаст с Валерием Бабушкиным. Как всегда, было очень приятно слушать, и я хочу поделиться с вами основными тезисами, которые я для себя вынес.
Узнаем как быстро вникнуть в ML System Design, чем лего и спорт помогают, и почему важно уметь срезать углы на работе!
Влияние маленьких файлов на Big Data: HDFS vs S3

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество мелких файлов влияет на производительность различных систем хранения, таких как HDFS и объектные хранилища с S3 API.
Разберём, какие технологии хранения лучше всего подходят для работы с мелкими файлами в архитектурах Data Lake и Lakehouse. Сравним производительность HDFS и объектных хранилищ с S3 API. На конкретных тестах покажем, почему именно HDFS эффективнее справляется с большим количеством небольших файлов. Обсудим также случаи, когда мелкие файлы становятся не просто нежелательной ситуацией, а неизбежной необходимостью, например в подходах типа Change Data Capture (CDC).
Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS

Как связаны скидки, пользовательские пути и огромные массивы данных в Яндекс Рекламе?
Привет, Хабр! Меня зовут Максим Стаценко, я работаю с базами данных и яростно в них копаюсь с 2010 года, а в Big Data — с 2016. Сейчас работаю в Яндексе в DWH поиска и рекламы.
Мы работаем с ОЧЕНЬ большими данными. Каждый день миллионы пользователей видят рекламу Яндекса, а наши системы обрабатывают огромные объёмы данных. Чтобы реклама работала эффективно, нам нужно в каждый момент времени иметь максимально полную информацию об истории жизни рекламного объявления, а значит нужно каким-то образом передавать данные от одного события к другому внутри рекламной воронки. Расскажу, как мы решали эту проблему.
MCP — новая эра в AI или просто модное слово?

TL;DR: MCP стремительно набирает обороты. Сейчас уже существуют тысячи MCP-"серверов", и хотя эту концепцию изначально предложила Anthropic, всего несколько дней назад к ней присоединилась и OpenAI. Серверы — это что-то вроде "приложений" для ИИ, но, что важно, они гораздо более гибко сочетаются между собой. Мы наблюдаем зарождение полноценной AI-экосистемы — аналогично тому, как это происходило с мобильными платформами десять лет назад.
Подробности:
MCP (Model Context Protocol) был представлен Anthropic в ноябре 2024 года как открытый стандарт. Хотя поначалу реакция сообщества была сдержанной, за последние месяцы протокол стал развиваться. В конце марта даже OpenAI — главный конкурент Anthropic — официально внедрила его.
Но что это такое и почему это важно?
Ближайшие события
Кригинг F-фактора или кормить, любить и никогда не покидать — «достаточно, но не чрезмерно»

Девочка и мальчик — метисы хаски (да, да, природа прекрасна и удивительна) жили на стройке в трубах, в феврале 2025 года спасены волонтерами, откормлены, отмыты и подлечены. Сейчас у них появились хозяева и теперь, очень надеемся, их будут навсегда "Кормить, любить и никогда не покидать!". Про любовь как-нибудь в другой раз, а сегодня - про "кормить".
На профессиональном языке наших домашних любимцев называют непродуктивными животными. Это название нам кажется неправильным. Они очень даже продуктивные. Их продукция - это любовь и преданность, наши позитивные эмоции, прогулки в любую погоду и многие другие радости жизни.
Для непродуктивных животных в России сформирована новая отрасль - Петфуд (в СССР ее не было) с полными сырьевым, производственным и сбытовым циклами. Объем по итогам 2024 года - более 400 млрд рублей. Видов кормов много, но чаще всего домашних собак и кошек мы кормим влажными консервированными кормами. Поговорим об их производстве, узнаем почему F-фактор критически важен, зачем ему самому нужен кригинг и про баланс "достаточно, но не чрезмерно".
Статья адресована двум категориям читателей.
- Покупателям, тем кто сформировал спрос, заплатив 400 миллиардов. Всегда интересно знать, за что платишь.
- Специалистам отрасли, тем кто ответил 400 миллиардным предложением на спрос, разместив свой продукт на полке. Возможно, у них возникнет инновационная мотивированность увеличения доли в этом предложении.
Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статье, а здесь сосредоточимся на результатах тестирования. Мы оцениваем ряд ведущих открытых LLM, предоставляя подробный количественный и качественный анализ, а также рассматриваем, как качество бенчмарка влияет на достоверность и объективность оценки моделей.
Содержание
• Общая информация о датасете
• Стенд для тестирования
• Результаты
• Заключение
Там, где метрики молчат: как расшифровка звонков помогла лучше понимать бизнес-клиентов

Привет, Хабр! Меня зовут Денис, я один из лидеров направления ВкусВилл Бизнес. Вместе с командой продактов занимаюсь развитием клиентского пути бизнес-клиентов.
Эта статья о том, как мы нашли для себя ещё один способ услышать реальные голоса наших клиентов, чтобы понять, как работает наш продукт в реальной жизни, не опираясь исключительно на метрики. Расскажу, как ИИ помог нам самостоятельно, без разработки увидеть то, что скрывают дашборды.
MCP-серверы: зачем они нужны и почему о них скоро будут говорить все

Область искусственного интеллекта развивается, их работа теперь выходит за рамки простого ответа на вопросы и начинает напрямую взаимодействовать с нашими данными и инструментами. Если в последнее время вы слышали обсуждения MCP-серверов, вы не одиноки. MCP-серверы уже называют следующим крупным этапом в интеграции ИИ. Но что это такое, и почему вокруг них столько шума?
В этой статье мы разберемся в новом тренде, изложим суть простыми словами, рассмотрим примеры из практики, сравним с традиционными архитектурами ИИ и покажем, как начать работу с MCP. К концу материала вы будете понимать, что такое MCP-серверы, почему они важны и как они трансформируют текущий ландшафт AI.
Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов

За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос, а тысячу или даже миллион. Это становится краеугольным камнем, потому что объёмы данных растут с такой скоростью, которую мы даже представить себе не могли ещё пять лет назад.
Привет, Хабр! Именно так считает наш сегодняшний гость – Дмитрий Немчин, руководитель направления эксплуатации инфраструктуры данных в Т-банке и по совместительству член программного комитета Data Internals, профессиональной конференции по инженерии, базам и системам хранения и обработки данных.
В беседе Дмитрий рассказал о своём пути в данные и программный комитет конференции, поделился интересными кейсами и проблемами, связанными с ростом объёмов данных и необходимостью управления ресурсами. А также объяснил, как дата-инженеру остаться востребованным в будущем, где ИИ может проникнуть абсолютно во все сферы жизни.
Data Mesh: ожидания vs реальность

Представьте: ваш бизнес растет, а вместе с ним и количество данных. Но вместо ценной аналитики — хаос: отчеты готовятся месяцами, данные разбросаны по Excel-файлам, а команда DWH не успевает закрывать запросы. Знакомо? Мы прошли через это и решили внедрить Data Mesh. Ожидания были амбициозные, но что получилось на самом деле?
Соединение SortMergeJoin в Apache Spark

Рассмотрим, как реализован SortMergeJoin в Apache Spark, и заодно заглянем в исходный код на GitHub. Spark написан на языке Scala, и вся логика работы оператора доступна в открытом репозитории проекта.
Вклад авторов
Aleron75 266.3s_valuev 234.0paramonov_ruvds 206.0kzzzr 176.3Doctor_IT 166.0castos 163.0IlyaRice 162.0skillfactory_school 153.8appp_master 130.0editor_ruvds 127.0