Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

77,93

Рейтинг

СтатьиПостыНовостиАвторыКомпании

Frimen 2 часа назад

Как Anthropic меняет подходы к разработке в софтверных компаниях

Простой

3 мин

3.8K

Big Data * Data Engineering *

Обзор

На заметку всем, кто интересуется, как меняется современная разработка ПО.

Недавно Anthropic выпустил отличную статью о том, как меняется современная разработка ПО на примере трансформации подходов внутри собственной компании.

Читать далее

0

nikulec 3 июн в 10:27

Почему Word Error Rate (WER) недостаточно: Семантическая декомпозиция ошибок ASR

Средний

11 мин

6.4K

Data Engineering * Natural Language Processing * Искусственный интеллектМашинное обучение * Управление продуктом *

Кейс

Из песочницы

В продуктах, построенных поверх моделей распознавания речи (Automatic Speech Recognition models, ASR), качество распознавания речи напрямую влияет на пользовательский опыт.

О том, какие есть методы оценки качества таких моделей, какие у них ограничения и как мы измеряем качество их работы — и пойдет речь.

Читать далее

+2

DarkQuark 3 июн в 08:45

DQ-шаблон через MCP: что получилось и где агенту нельзя верить

Средний

12 мин

7.3K

Блог компании Modus BIВизуализация данных * Data Engineering * Open source * Искусственный интеллект

Кейс

Привет, Хабр! Я Дмитрий Клепиков из команды Modus.

После прошлой статьи захотелось взять тот же стек — ИИ-агента и пару MCP-серверов — и собрать через него в нашем BI-портале DQ-шаблон. DQ здесь — это Data Quality, то есть проверка качества данных: полнота, корректность, уникальность, согласованность, актуальность и всё то, из чего потом складывается доверие к данным.

Шаблон получился не универсальным в духе «подставь любую таблицу, и всё само поймётся». Скорее универсальным оказался каркас: одни и те же этапы, одна таблица результатов, один набор отчётов, история запусков и каталог правил. А вот сами правила остаются доменными. В адресном реестре это КЛАДР, ФИАС, ГКН, кадастровые номера и нюансы вроде «ё» в названиях улиц. Для контрагентов будут ИНН, КПП и ОГРН, для продаж — совсем другой набор проверок.

В качестве тестового датасета я взял открытый Реестр адресов Москвы. Задача была такая: агент через postgres-mcp смотрит схему, выбирает проверки из каталога правил, запускает SQL, пишет результаты в dq_snapshots, а потом через modusbi-mcp собирает отчёты в портале. Ниже расскажу, как именно он шёл, что получилось на выходе и почему после такого эксперимента агенту всё равно нельзя просто верить на слово.

Читать далее

+3

Andrey_Biryukov 2 июн в 20:31

Превращаем бухгалтера группы компаний в data-инженера

Простой

8 мин

11K

Блог компании OTUSФинансы в ITData Engineering * IT-инфраструктура *

Туториал

Сбор первичных документов из 1С, SAP и ERP из разных юридических лиц традиционно является серьезной головной болью бухгалтерии. В этой статье мы поговорим о том, как с помощью low-code платформ можно автоматизировать данный процесс и сформируем гайд по построению такого пайплайна.

Читать далее

+4

badcasedaily1 2 июн в 17:50

Контракты данных между командами: гайд по data contracts в дата‑пайплайнах

Средний

9 мин

10K

Блог компании OTUSПрограммирование * Big Data * Data Engineering *

Туториал

Когда пайплайн отработал без ошибок, тесты зелёные, а в дашборде внезапно нули, проблема может быть не в инфраструктуре, а в отсутствии договорённостей между командами.

В статье разбираем, как data contracts помогают фиксировать структуру, правила и ответственность за данные — и почему это спасает витрины, отчёты и нервы дата-инженеров.

Читать далее

+4

Gi_gi_gi_gi_gi 2 июн в 13:22

Fine Day Online 2026: пять докладов про то, почему BI не работает и что с этим делать

Средний

7 мин

8.1K

Блог компании GlowByteВизуализация данных * Data Engineering * Big Data * Конференции

Репортаж

Привет, Хабр! Пишет команда Business Intelligence GlowByte. Каждый год мы проводим Fine Day Online – конференцию про бизнес-аналитику, где практики из разных компаний делятся честным опытом. 22 апреля собрались спикеры из сети “Галамарт”, банков Уралсиб и ОТП, а также FanRuan, и все пять докладов оказались про одно и то же: данные есть, деньги в инструменты вложены, а бизнес по-прежнему принимает решения на ощущениях.

В этом материале хотим поделиться: что обсуждали спикеры, какие цифры называли, что пошло не так и чем закончилось.

Читать далее

+10

ryzhikad 2 июн в 08:25

rapeed: in-memory OLAP-движок с собственной алгеброй связей

10 мин

5K

Блог компании ИТ-интегратор Белый кодХранение данных * Data Engineering * Анализ и проектирование систем *

Обзор

Меня зовут Андрей Рыжик, я Product Owner BI-направления в компании «Белый код». Эта статья – обзор платформы rapeed: in-memory OLAP-движка с собственным форматом хранения, нестандартной алгеброй связей между источниками и несколькими клиентами поверх единого ядра.

Читать далее

+3

yrgreen 2 июн в 06:10

Автоматический отбор few_shot примеров для обучения модели

Средний

9 мин

5K

Data Engineering * IT-компанииPython * Алгоритмы *

Кейс

Из песочницы

Справочники МТР на крупных предприятиях ‒ это десятки тысяч строк вида «Кабель ВВГнг 3х2.5 кв.мм, серая изоляция, 100м», которые нужно разложить по атрибутам (тип, сечение, длина, цвет изоляции). Дубли, ошибки, разнородные форматы от разных поставщиков, почему это больная тема, а также подходы и методы решения, подробно разобраны в этой статье.

Читать далее

0

slwr66 1 июн в 13:46

Масштабируемость ML-алгоритмов при увеличении вычислительных ресурсов

Простой

5 мин

6.5K

Data Engineering * Python * Алгоритмы * Машинное обучение *

Из песочницы

В данной статье рассмотрено 5 разных алгоритмов машинного обучения, с наглядным сравнением их скорости работы на разном количестве аппаратных ресурсов.

Читать далее

+4

it-calm 1 июн в 12:21

Единая база данных гостей для ресторанной сети: интеграция Telegram, Remarked, IIKO, RocketData и платёжных систем

7 мин

5.8K

Big Data * Клиентская оптимизация * Базы данных * Data Engineering * Искусственный интеллект

В ресторанных сетях данные о гостях часто распределены между несколькими системами. Бронирования хранятся в одном сервисе, чеки — в ресторанной учётной системе, переписки — в мессенджерах, отзывы — в агрегаторах, данные приложения — в отдельной базе, платежи — у эквайринга.

Такая архитектура усложняет работу с клиентским профилем. У бизнеса нет единой истории взаимодействия с гостем, менеджеры работают с фрагментами данных, а сервис, маркетинг и аналитика опираются на неполную картину. Для ресторанной сети это напрямую влияет на персонализацию, качество обслуживания, LTV и повторные визиты.

В проекте для сети из 10 ресторанов была реализована единая база данных гостей. Задача системы — собрать в одном профиле все взаимодействия клиента с бизнесом: от первого контакта и переписки до бронирований, чеков, отзывов, оплат, технических инцидентов и повторных визитов.

Читать далее

+1

ArgusXII 31 мая в 17:39

ЕСППД-ИИ. Как описывать бизнес-процессы для работы с искусственным интеллектом

Средний

24 мин

9.2K

Data Engineering * IT-стандарты * Алгоритмы * Бизнес-модели * Искусственный интеллект

Мнение

Я руковожу компанией, которая с 2012 года занимается описанием бизнес-процессов и внедрением систем класса ERP. За это время мы не раз сталкивались с одной и той же проблемой: бизнес-процесс вроде бы можно описать словами, можно нарисовать схему, можно составить таблицу операций, но в момент проверки выясняется, что документ не держит реальное исполнение. В нём не хватает предметов, состояний, источников, ролей, переходов, прикладных носителей, исключений и проверок. Такой документ выглядит убедительно, но не позволяет понять, как именно процесс должен работать в системе и как его проверить.

Когда появились LLM, эта проблема стала заметнее. Большая языковая модель умеет быстро собрать красивый текст, но если ей не дать структуру, она начинает достраивать недостающие связи сама. Она может придумать роли, маршруты, статусы и действия, которые выглядят правдоподобно, но не подтверждены предметной областью. Поэтому в какой-то момент стало ясно: для работы с ИИ недостаточно хорошего промпта. Нужна система документации, в которой предметная область описана так, чтобы человек мог её проверить, а ИИ мог на неё опираться.

Так возникла ЕСППД-ИИ — Единая система процессно-предметной документации для искусственного интеллекта. Это наш внутренний стандарт работы с документацией, а не государственный ГОСТ, не рекламный продукт и не название компании. В этой методичке я объясняю не все технические детали стандарта, а человеческий маршрут: как начать описывать бизнес-процессы так, чтобы с ними мог работать искусственный интеллект и чтобы результат не превращался в имитацию.

Читать далее

+2

AkaMikhelson 31 мая в 14:01

Data-функция не работает вместо вас

Простой

10 мин

7.9K

Big Data * Data Engineering * IT-компанииАнализ и проектирование систем *

Мнение

-Gartner прогнозирует, что 80% инициатив в управлении данными провалятся к 2027г.

-MIT подводит статистику - 95% AI-проектов не срабатывают и основная причина - незрелость компаний в работе с данными.

-Chief Data Officer, высший руководитель функции управления данными, живёт в компании в среднем 30 мес.(2.5 года) Логично, что руководитель функции, инициативы которой проваливаются достаточно быстро выгорает.

Поговорим о причинах.

Думаю, причина этой статистики одна - заблуждение в сути работы с данными и AI.

Соблазнительно считать, что данные будут работать вместо вас, AI агент заменит сотрудников. Но они работают только вместе с вами.

Читать далее

+3

ArgusXII 29 мая в 21:49

Вайбаналитика: как я учил LLM описывать бизнес-процессы, а не имитировать их

11 мин

17K

1С * Data Engineering * Microsoft ExcelАнализ и проектирование систем * Искусственный интеллект

Мнение

Опыт ERP-архитектора: почему ChatGPT сначала выдавал красивые, но непроверяемые процессы — и почему решение оказалось не в промптах, а в предметной модели, технологической последовательности и проверяемых артефактах.

Читать далее

+16

OpenClaw_Lab 29 мая в 11:06

Как оценивать ИИ‑агентов в проде: нижняя планка, трассы и кодовые проверки

Средний

11 мин

6.3K

Тестирование IT-систем * Open source * Data Engineering * Базы данных *

Туториал

Если агент уже ходит в инструменты, читает документы, меняет состояние системы и принимает часть решений сам, проверка одного промпта почти ничего не говорит о надежности. Нужно смотреть на весь путь: вход, найденный контекст, вызовы инструментов, промежуточные состояния, итоговый ответ и побочные эффекты. Ниже - рабочая схема, как строить такие проверки до релиза и после выхода в прод.

Читать далее

+9

Zazha 29 мая в 08:35

Медленные запросы в Impala: как анализировать profile и не выносить SQL наружу

Средний

7 мин

4.7K

Hadoop * Big Data * Data Engineering *

Обзор

Из песочницы

Когда Impala-запрос начинает выполняться заметно дольше обычного, первое место, куда обычно идут смотреть - query profile, то есть профиль запроса. Там есть план выполнения, счетчики, оценки кардинальности, память, scan-часть, exchange, admission, хвосты по backend-ам и другая полезная информация.

Проблема в том, что текстовый profile не слишком удобный для анализа. Он большой, в нем много повторяющихся секций, часть сигналов видна только в связке с другими счетчиками. При этом почти всегда внутри есть чувствительная информация: SQL-текст, имена таблиц и колонок, пользователи, resource pools, хосты, фрагменты топологии выполнения.

Поэтому на практике появляются два привычных варианта:

Разбирать profile руками.

Скопировать SQL и profile в LLM и попросить объяснить, что не так.

Первый вариант надежнее, но требует времени и опыта. Второй удобнее, но плохо контролирует границу: какие данные ушли наружу, какие факты модель взяла за основу и где заканчивается диагностика, а где начинается ~~галлюцинация~~ догадка.

Читать далее

+1

Anton_Trofimov 29 мая в 06:10

Почему RAG — это не просто «добавить поиск»: latency, качество и выбор стратегии retrieval

Средний

9 мин

7.5K

Искусственный интеллектМашинное обучение * Data Engineering * Поисковые технологии *

Из песочницы

Когда говорят про RAG, его часто описывают как простой способ улучшить LLM‑систему: добавить поиск по внешним данным, найти релевантный контекст, передать его модели и получить более точный ответ.

На уровне идеи это действительно выглядит логично.

Но в реальной системе RAG — это не только способ обогатить ответ. Это отдельный операционный слой, который влияет на задержку, размер prompt, количество input tokens, стоимость запроса, качество ответа, SLA и требования к наблюдаемости системы.

Я хотел посмотреть на это не в формате общих рассуждений, а на небольшом локальном стенде: где именно появляется дополнительная нагрузка, какие параметры сильнее всего влияют на latency, почему больше контекста не всегда означает лучшее качество и почему стратегия retrieval должна зависеть от типа вопроса и структуры данных.

Это не промышленный benchmark и не попытка получить универсальные цифры. Скорее серия контролируемых экспериментов: посмотреть на механику RAG pipeline и компромиссы, которые часто остаются за кадром, когда RAG описывают просто как «поиск + LLM».

Читать далее

+5

nlaik 27 мая в 07:31

Как за один вечер я написал сервис инвентаризации оргтехники для филиальной сети из 16 локаций

Средний

11 мин

7.7K

Искусственный интеллектData Engineering * Python * Проектирование API *

Кейс

Знакомая работает в IT-департаменте организации с 16 филиалами и ~5000 единиц оргтехники на балансе. Попросила: “Сделай сервис, чтобы загрузить фотку шильдика, и он сказал, у кого эта железка стоит”. Звучит просто. На практике это вылилось в production-сервис с распознаванием по фото через Claude vision, ETL из бухгалтерских .xls (привет, xlrd 1.2), нормализацией грязных инвентарных номеров и автопушем в Google Sheets. Рассказываю про все грабли — от deadlock pandas vs xlrd до бага, который считал две разные железки одной

Читать далее

+4

O-Rogova 26 мая в 13:08

Архитектурный тупик корпоративного хранения: почему смена модели не снимает ограничений и что с этим делать

8 мин

8.1K

Блог компании MIND SoftwareData Engineering * IT-инфраструктура * Базы данных *

Аналитика

История корпоративных систем хранения данных – это путь от жестко специализированных «черных ящиков» к гибким программным платформам. Каждый шаг этой эволюции решал проблемы прошлого, но неизбежно порождал новые противоречия. Сегодня, столкнувшись с радикальным усложнением инфраструктур (от классических ЦОД до частных облаков и объектов КИИ), – отрасль оказалась в точке, где наследие прошлых архитектурных решений стало главным ограничением для будущего. Современная корпоративная инфраструктура перестала быть монолитом. Сегодня это спектр архитектур и моделей потребления, каждая из которых предъявляет уникальные требования к системе хранения данных. С одной стороны - классические ЦОД с четким разделением ролей, ручным управлением и наследием в виде дорогих специализированных массивов. С другой - динамичные частные облака и гибридные среды, где инфраструктура должна предоставляться как сервис, масштабируясь по требованию и работая в условиях множества платформ. Между ними - гиперконвергентные кластеры, среды для критичных приложений (СУБД, VDI) и инфраструктура объектов КИИ, где на первый план выходят экстремальная производительность, отказоустойчивость и соответствие регуляторным требованиям. Все это многообразие объединяет одно требование: система хранения сегодня должна одинаково хорошо работать везде, будь то классический ЦОД или частное облако.

Читать далее

-1

AivanF 26 мая в 09:00

Как и зачем мы писали семантический слой для ИИ аналитики – SLayer

Средний

13 мин

6.7K

Python * Data Engineering * Big Data * Базы данных * Open source *

Обзор

Казалось бы, что может быть проще: даёшь LLM доступ к БД и просишь написать тебе нужный SQL! Но на практике и ИИ, и человек быстро сталкиваются с одинаковыми проблемами – взрывом кардинальности при JOIN’ах, ошибками в гранулярности, сложными подзапросами и отсутствием понятного бизнес-контекста.

Рассказываем, зачем и как мы проектировали семантический слой для детерминированной аналитики и адекватной работы ИИ-агентов с данными.

Давайте разбираться!

0

Moxovich 26 мая в 08:30

Как мы анализировали поведение пользователей Яндекс Музыки на 50 млн событий

Средний

12 мин

7.9K

Big Data * Python * Data Engineering * Data Mining * Звук

Аналитика

Из песочницы

Музыкальные стриминговые сервисы давно перестали быть просто каталогами треков. Сегодня значительная часть пользовательского опыта формируется рекомендательными системами: персональными подборками, автоматическими плейлистами, «волнами» и похожими механизмами. Пользователь может сам искать музыку, добавлять треки в библиотеку и слушать знакомых артистов, а может переходить по рекомендациям алгоритма. Возникает естественный исследовательский вопрос: рекомендации действительно расширяют музыкальный кругозор или, наоборот, закрепляют уже существующие предпочтения пользователя?

Читать далее

+3

1

2 3 ...