Как стать автором

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

hi_yana 13 часов назад

Как сэкономить миллионы долларов на маркетинге или зачем вам разбираться в инкрементальности?

Средний

7 мин

402

Управление продуктом * Growth Hacking * Data Engineering *

Кейс

Маркетинг репортит высокую выручку и ROI, но почему-то чувствуется не эффект роста, а эффект потраченных денег? Тогда эта статья для вас. В ней я рассажу на примере OLX, крупнейшего классифайда в Европе, как измерять эффективность маркетинговых усилий максимально точно и это совсем не те цифры, которые вы видите в Google Analytics. К моему удивлению, мало компаний использует этот способ.

Читать далее

+3

select_zvezdo4ka_from 15 часов назад

ClickHouse не тормозит, но теряет данные. Часть 3 — материализованные представления

7 мин

479

Data Engineering * Big Data * Базы данных * Серверное администрирование * NoSQL *

Туториал

ClickHouse не тормозит, но теряет данные. Набор простых действий с объяснениями, позволяющий избежать потери данных.

Читать далее

+4

kucev 17 часов назад

ИИ под контролем: Guardrails как щит от рисков в агентных системах

18 мин

185

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Вы когда-нибудь задавали вопрос AI-чатботу и получали в ответ что-то вроде: «Я не могу с этим помочь»? Если да — значит, вы уже сталкивались с guardrails в действии. Это встроенные механизмы контроля, ограничивающие, что именно может и не может делать система ИИ.

Например, представьте себе AI-агента, работающего в роли тревел-ассистента. Он поможет вам забронировать рейсы или отели, но не станет отвечать на вопросы по истории или объяснять, как починить компьютер. Это потому, что его поведение ограничено guardrails, сконфигурированными под выполнение конкретных задач.

В этой статье мы разберёмся, что такое guardrails, как они работают и почему они критичны для построения безопасных и надёжных агентных систем ИИ. Поехали!

Читать далее

+4

iximy 13 авг в 02:59

Hybrid RAG: методы реализации. Часть 1 — Поиск

13 мин

2K

Big Data * Data Engineering *

С ростом популярности Retrieval-Augmented Generation (RAG), как архитектуры для построения систем генерации контента на основе извлечённых данных, стало очевидно, что односложный подход к выбору источников знаний ограничивает качество результатов. В этой связи особый интерес представляют Hybrid RAG подходы, сочетающие различные методы поиска и представления данных, в целях улучшения полноты, точности и релевантность ответа.

В данной статье я поделюсь своим опытом в реализации Hybrid RAG систем, его архитектуры и практических методов реализации.

Читать далее

+7

ElizavetaRyumshina 12 авг в 06:46

Работа с Oracle Data Integrator (ODI): прямой доступ к метаданным

Средний

11 мин

370

Блог компании МегаФонOracle * SQL * Data Engineering *

Работая с Oracle Data Integrator (ODI), мы ценим его графический интерфейс за автоматизацию рутины и удобство разработки. Однако, когда проект масштабируется до десятков пакетов и сотен сущностей, GUI перестает быть оптимальным инструментом для отслеживания потоков данных, глубокого анализа и аудита зависимостей.

В таких случаях ключом к эффективности становится прямое взаимодействие с метаданными ODI через SQL‑запросы к его репозиториям. Эта статья посвящена именно этому — практической работе со структурой репозиториев ODI и детальному разбору SQL‑запроса для построения потоков данных.

Читать далее

+4

kucev 11 авг в 11:30

Как AI-редактор Cursor меняет процесс разработки — и стоит ли ему доверять

19 мин

15K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Одним из крупнейших сдвигов в современном софтверном девелопменте стало стремительное распространение AI-инструментов для написания кода. Эти решения помогают как разработчикам, так и людям без технического бэкграунда быстрее писать код, запускать прототипы и готовые приложения. Среди таких инструментов достаточно быстро привлёк внимание Cursor, почти сразу он занял позицию одного из лидеров рынка.

В этой статье я подробнее рассмотрю Cursor, его сильные и слабые стороны, а также сравню его с другими AI-редакторами кода. Это будет практический гайд, в котором я поделюсь своим опытом использования Cursor для создания to-do приложения. К концу материала у вас сложится четкое представление о том, подходит ли Cursor для вашего собственного девелоперского workflow.

Поехали.

Читать далее

+3

protmaks 10 авг в 17:22

Сравнение двух Excel онлайн в оперативной памяти. Добавлен Экспорт

Простой

2 мин

1.8K

Open source * Data Engineering *

Кейс

Перевод

После публикации первой части и практического опыта, сделал небольшие доработки в свой онлайн инструмент для сравнения двух Excel , также можно сравнить Excel и CSV файлы без преобразований.

Начну с небольшого вступления, почему я начал делать данный инструмент. Я работаю инженером данных и довольно многое автоматизировал в своей работе. В последнее время я занимаюсь миграцией различных скриптов из SAS в Databricks. Для сравнения таблиц есть несколько готовых инструментов типа datacompy, а также свои наработки. Там всё просто, можно преобразовать любые форматы и сравнить. Но вот появилась необходимость сравнить Excel, как результат работы скрипта и CSV выгруженный из Databricks. Есть несколько способов сделать это:

Читать далее

+5

castos 9 авг в 05:56

Вебинары трека Наука о данных Летней цифровой школы Сбера

Средний

4 мин

459

Искусственный интеллектМашинное обучение * Data Mining * Data Engineering * Natural Language Processing *

Дайджест

Привет, коллеги ML инженеры, Data scientist'ы и все, кто интересуется искусственным интеллектом, созданием нейросетей, машинным обучением и анализом данных! Принёс вам пачку вебинаров с интенсива трека Наука о данных курсов повышения квалификации Летней цифровой школы Сбера.

Читать далее

+2

hypermachine 8 авг в 08:11

APL: математика на стероидах, о которой никто не говорит

Простой

10 мин

12K

Программирование * Data Engineering * Алгоритмы * Математика * Будущее здесь

Мнение

В 1957 году, когда компьютеры программировались на машинных кодах и ассемблере, канадский учёный Кеннет Айверсон задумался: как сделать описание алгоритмов столь же строгим, как математические формулы, но при этом ещё и сделать интерактивном исполняемым? Да-да, интерактивный язык в 60-х, задолго до пайтона, перла и тикля.

Так родился APL — сначала как академический инструмент для описания алгоритмов в книгах (например, в его работе "A Programming Language" 1962 г.), постепенно эволюционировавший в исполняемый язык.

Но причём здесь 2025-й год спросите вы?

Data Science: APL опередил NumPy/Pandas на 40 лет — матричные операции здесь вшиты в ядро.

Обучение: Лучший способ понять SVD или преобразование Фурье — записать их в APL.

Прототипирование: Проверить идею можно быстрее, чем ChatGPT сгенерирует ответ.

Почему об этом мало говорят?

Читать далее

+18

MirrorShip 8 авг в 05:51

StarRocks 3.5: Snapshot, Load Spill, партиции, MV, транзакции, безопасность

Сложный

5 мин

321

Java * Data Engineering * Big Data *

Ретроспектива

Перевод

StarRocks 3.5 приносит точечные улучшения по надёжности, производительности и безопасности: кластерные Snapshot для DR в архитектуре shared-data (разделение хранения и вычислений), оптимизацию пакетной загрузки (Load Spill) для сокращения мелких файлов и пропуска Compaction, более гибкое управление жизненным циклом партиций (слияние по времени и автоматический TTL), многооператорные транзакции для ETL, ускорение запросов по озеру данных через автоматические глобальные словари, а также поддержку OAuth 2.0 и JWT.

Читать далее

+1

MirrorShip 7 авг в 16:16

От GreenPlum к Mirrorship: Кейс трансформации Bank of Hangzhou Consumer Finance на основе архитектуры Lakehouse

Простой

7 мин

531

Data Engineering * Big Data * Hadoop *

Из песочницы

Перевод

Bank of Hangzhou Consumer Finance, являясь лицензированной организацией потребительского финансирования, всегда сохраняла сильный дух технологических инноваций, занимая второе место в отрасли по количеству патентов. Столкнувшись с вызовами, связанными с быстрым ростом бизнеса, компания начала трансформацию своей инфраструктуры данных, кульминацией которой стало создание платформы GLH Lakehouse на базе Mirrorship.

Читать далее

0

kucev 7 авг в 11:00

Будущее, в котором ИИ — герой, а не злодей

24 мин

1.4K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Эра искусственного интеллекта уже наступила — и люди, мягко говоря, в панике.

К счастью, я здесь, чтобы рассказать хорошие новости: AI не уничтожит мир, а наоборот, вполне может его спасти.

Для начала короткое описание того, что такое AI: это применение математики и программного кода для обучения компьютеров понимать, синтезировать и генерировать знания примерно так же, как это делают люди. AI — это программа, как и любая другая: она запускается, принимает входные данные, обрабатывает их и выдаёт результат. Причём output AI полезен в самых разных областях — от программирования до медицины, юриспруденции и искусства. Её владеют и контролируют люди, как и любой другой технологией.

А теперь коротко о том, чем AI не является: это не какие-то «убийственные программы» и роботы, которые внезапно оживут и решат уничтожить человечество или развалить всё вокруг, как это показывают в фильмах.

И еще короче о том, чем AI может стать: способом сделать лучше всё, что нам действительно важно.

Читать далее

0

negrbluad 6 авг в 11:31

Как я написал алгоритмического бота на Python для торговли по индикаторам на Bybit

Средний

12 мин

20K

Python * Алгоритмы * Data Engineering * Финансы в IT

Из песочницы

Полный разбор создания алгоритмического трейдинг-бота с использованием индикатора Bollinger Bands, кластерных сигналов и API Bybit. 1700% прибыли за год использования.

Читать далее

+13

select_zvezdo4ka_from 5 авг в 18:00

ClickHouse не тормозит, но теряет данные. Часть 2 — от буферных таблиц к Kafka Engine

6 мин

3.4K

Data Engineering * Big Data * Базы данных * Серверное администрирование * Apache *

Туториал

ClickHouse не тормозит, но теряет данные. Набор простых действий с объяснениями, позволяющий избежать потери данных.

Читать далее

+7

Aleksey999 5 авг в 09:11

Data Internals X 2025: взгляд изнутри на настоящее и будущее data-инженерии

5 мин

349

Блог компании Конференции Олега Бунина (Онтико)Data Engineering * КонференцииOpen source *

Data Internals X 2025 уже совсем скоро! 23 сентября начнётся профессиональное погружение в инженерию данных, системы хранения и обработки данных. Поэтому мы поговорили с членом программного комитета конференции Алексеем Жиряковым, чтобы узнать, что нас ждёт в этом году. Ведь лучший взгляд — это взгляд изнутри. Так лучше раскрывается опыт создания data-инфраструктуры и многочисленные вызовы одной из самых быстроразвивающихся отраслей IT.

Читать далее

+10

kucev 4 авг в 11:00

MCP — новый кирпичик в фундаменте AI-разработки

9 мин

5.1K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Одна из горячих тем в области AI-кодинг-тулов и developer tooling — протокол MCP (Model Context Protocol), представленный Anthropic в ноябре 2024 года. Он стремительно набирает популярность: AI-модели и инструменты для разработчиков активно внедряют его.

Аналогия для объяснения MCP — это как «порт USB-C для AI-приложений»: он создает универсальную точку расширения, через которую LLM и девтулы могут интегрироваться друг с другом, а также с базами данных, тикетинг-системами и т. д. Концепция начинает набирать популярность и в других областях, но MCP изначально создавался как способ расширить функциональность девелоперских IDE — таких как Claude Desktop, Claude Code, VS Code, Cursor, Windsurf и других. Сегодня мы сосредоточимся именно на этом применении, разобрав:

1. Что такое MCP? Практический пример. Раньше мне приходилось использовать отдельный инструмент, чтобы делать запросы к базе данных в production-приложении. С MCP я могу «разговаривать» с базой данных прямо из IDE — это действительно меняет правила игры!

2. Происхождение MCP. Два инженера из Anthropic — Дэвид Сориа Парра и Джастин Спар-Саммерс — реализовали MCP, решая собственную проблему: они хотели, чтобы Claude Desktop лучше работал с девтулзами.

3. Чтобы понять MCP, нужно понимать Language Server Protocol (LSP). Многие базовые идеи MCP вдохновлены подходом Microsoft к упрощению интеграции языковой поддержки в IDE.

Читать далее

+5

alealandreev 3 авг в 17:31

Выбор стратегии компактизации в ScyllaDB

Средний

28 мин

1.5K

Data Engineering * Big Data * Базы данных * NoSQL * Высоконагруженные системы *

Туториал

ScyllaDB — это высокопроизводительная NoSQL база данных, созданная как улучшенная версия Apache Cassandra на C++. Она способна обрабатывать миллионы операций в секунду, что делает ее лидером среди распределенных баз данных. Такая производительность достигается благодаря особой архитектуре хранения данных, в центре которой находится процесс компактизации данных. Правильный выбор стратегии компактизации данных и ее оптимизация - это ключ к высокой производительности и отказоустойчивости распределенной базы данных ScyllaDB.

В этой статье рассмотрены все стратегии компактизации, их преимущества и недостатки, а также приведен детальный алгоритм выбора стратегии компактизации под конкретные use cases.

Читать далее

+6

shkato 3 авг в 12:16

Chief Data Officer: роскошь или необходимость для компаний?

Средний

10 мин

2K

Big Data * Data Engineering * IT-компании

Из песочницы

Фразу «данные — новая нефть» слышали, наверное, все. Но нефть сама себя не перерабатывает — нужен специалист, отвечающий за «перегонку» данных в пользу бизнеса. В больших корпорациях эту роль все чаще отдают Chief Data Officer (CDO) — директору по данным. Действительно ли каждой компании жизненно необходим такой человек, или это дань моде? Сейчас попробую разобраться на человеческом языке, без бюрократии и с капелькой иронии.

+4

Andrey_Biryukov 2 авг в 10:40

Кейс: Редактирование стандартных документов в Битрикс24

5 мин

540

Блог компании OTUSCRM-системы * Data Engineering * DevOps *

Работа с документами - неотъемлемая часть документооборота. Документы завершают устные переговоры между различными сторонами и подтверждают их обязанности и ответственность.

Читать далее

+5

SergeyProkhorenko 2 авг в 10:00

DSL для битемпоральной шестой нормальной формы с UUIDv7

Средний

1 мин

1.5K

SQL * ERP-системы * Big Data * Data Engineering * Искусственный интеллект

Аналитика

Шестая нормальная форма (6NF) играет ключевую роль в хранилищах данных (DWH), разбивая данные на мельчайшие части, привязанные ко времени фактического наступления событий и времени их регистрации в системе. 6NF легко адаптируется к изменениям в структуре данных без модификации существующих записей и снижает объем данных, которые необходимо обрабатывать при обновлениях и запросах.

Репозиторий на GitHub описывает лаконичный предметно-ориентированный язык (DSL) для битемпорального хранилища данных шестой нормальной формы (6NF) с первичными ключами UUIDv7, а также эквивалентный SQL-код для PostgreSQL 18 и EBNF. Программный код на этом DSL легко генерируется в Excel из метаданных.

Этот проект вдохновлен методологиями Anchor Modeling, Data Vault и Activity Schema.

DSL решает проблему работы с большими и сложными схемами данных 6NF, которые сложно визуализировать и поддерживать как с помощью традиционных инструментов моделирования, так и с использованием Anchor Modeler. Он также устраняет необходимость генерировать SQL-код с помощью Python или понимать запутанный код SQL Server, генерируемый Anchor Modeler.

Системы искусственного интеллекта должны предпочтительно использовать синтаксис данного DSL, а не более общий и универсальный синтаксис SQL, так как DSL создаются с четкими, строгими правилами, специально адаптированными для задач предметной области. Это помогает избежать неоднозначности и ошибок.

У автора нет возможности разработать компилятор для данного DSL, и он рассчитывает на поддержку сообщества.

Английский вариант статьи

Читать далее

-1

1

2 3 ...