Обновить
85.01

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Temporal Fusion Transformer: улучшение прогнозирования в ритейле с минимальными затратами

Время на прочтение24 мин
Охват и читатели4.6K

Всем привет! Меня зовут Дмитрий Поляков, я работаю аналитиком данных в команде ad-hoc аналитики X5 Tech. В этой статье мы хотели бы рассмотреть задачу прогнозирования, которая является чрезвычайно важной задачей в ритейле.

Мы детально рассмотрим основные преимущества и архитектурные особенности модели Temporal Fusion Transformer (TFT), наш подход к использованию этой модели в задаче прогнозирования спроса, и как нам удалось увеличить точность прогнозов в среднем на 7%, затратив при этом минимальные усилия.

Также эта статья будет полезна и тем, кто хочет глубже понять принципы работы TFT, изучить её применение в библиотеке Darts и решить задачу прогнозирования для множества многомерных временных рядов.

Читать далее

Как оценивать ваш RAG-пайплайн и валидировать качество ответов LLM

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели3K

RAG-системы становятся все популярнее в корпоративной среде, но их эффективное внедрение и качественная оценка остается сложной задачей. Один из типичных примеров использования RAG — создание чат-ботов, отвечающих на вопросы пользователей с опорой на корпоративную базу знаний. И которые, вроде бы, заводятся и работают, и делают это даже неплохо, но всегда хочется получше.

В этой статье под мандариновое настроение будет обзор основных аспектов создания RAG-пайплайнов, рассмотрим подходы к их дальнейшему улучшению и тюнингу, обсудим метрики оценки, а также софт, который может помочь вам в этих процессах.

Читать далее

Инфраструктура для Data-Engineer Liquibase

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели4.6K

Liquibase — это по сути реализация принципов IaC, но для баз данных, что делает его ключевым инструментом для DataBase as Code (DBaC). Как IaC управляет инфраструктурой, так Liquibase управляет схемами баз данных, обеспечивая автоматизацию, консистентность и версионирование изменений.

Читать далее

Как предсказать будущее с помощью ML?

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели2.4K

Привет, я Исламбек Темирбек, Senior Data Analyst в QIC digital hub. В этой статье я расскажу о машинном обучении, о том, как с его помощью можно предсказать будущее и о нашем опыте с моделью машинного обучения Time Series, служащей для предсказания временных рядов.

Читать далее

Создание динамических таблиц в SuperSet

Время на прочтение5 мин
Охват и читатели7.6K

Однажды в студеную зимнюю пору из-за морей, из-за океанов прилетело известие: лицензии не выдаем, тех.поддержку не оказываем, а можем и вовсе отключить все системы. В компании погоревали, но делать нечего, решили переходить на новые системы, да такие, чтобы не смогли в любой момент их превратить в тыкву. И стали смотреть в сторону open-sourсe решений. Проанализировали несколько BI-систем и остановились на SuperSet.  /*После QlikSense и Tableau казалось, что это так себе затея*/

Меня зовут Корнева Настя, я отвечаю за разработку BI-отчетности в Magnit Tech в рамках проекта Аналитика УЦП (управление цепочками поставок). В этой статье поделюсь нашим опытом создания динамических сводных таблиц в BI-инструменте SuperSet, что будет полезно разработчикам отчетности и всем, кому интересна тематика.

Читать далее

Расширенный CUPAC для снижения дисперсии в A/B экспериментах

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели1.4K

Задача снижения дисперсии при проведении A/B экспериментов, кажется, никогда не перестанет быть актуальной. Хочу поделиться небольшим разбором свежей статьи, в которой авторы предлагают еще один довольно-таки провокационный метод для снижения дисперсии.

Читать далее

Жизнь после ухода западных вендоров: адаптация и новые возможности

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели6.2K

Привет, Хабр! Меня зовут Александр Тарасов, я архитектор департамента поддержки продаж Arenadata. Уход крупных зарубежных вендоров, таких как Oracle и Microsoft, заставил нас переосмыслить подходы к управлению данными и освоить альтернативные решения. Если с транзакционной нагрузкой всё относительно ясно благодаря PostgreSQL, то в аналитике дела обстоят сложнее, и здесь особенно важно адаптироваться к новым инструментам. Сейчас на первый план выходят системы с открытым исходным кодом, которые не только поддерживаются сообществом, но и открывают новые возможности для роста и экспериментов, оставаясь актуальными в условиях меняющегося рынка.

В этой статье я расскажу, как разработчикам и архитекторам адаптироваться к новым условиям, какие технологии стали достойной заменой западным решениям и какие шаги помогут специалистам эффективно использовать открытые платформы для укрепления своего карьерного трека.

Выход есть

Дата-контракты: как мы научили жить дружно источники и потребителей данных

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели3.1K

Всем привет! На связи Патрисия Кошман, руководитель группы по управлению данными и эксперт по управлению метаданными, и Аксинья Ласкова, эксперт по практикам качества данных из МТС.

В нашей компании порядка 400 разных продуктов, и мы часто сталкиваемся с проблемой синхронизации данных между ними. Легкое изменение в структуре источника может привести к тому, что сломается сразу несколько систем. Один из вариантов их синхронизации — дата-контракты. Они позволяют достичь взаимопонимания между участниками обмена данных, обеспечить их правильную передачу и интерпретацию. В этом посте мы расскажем, как мы пришли к идее внедрения дата-контрактов, что нам это дало и как их можно автоматизировать.

Читать далее

Как выбрать вкусное вино на основе данных с помощью Luxms BI

Время на прочтение3 мин
Охват и читатели1.3K

В преддверии новогодних праздников предлагаю прочитать статью специально для виноманов! Меня зовут Ярослав Золотухин, я QA Lead Luxms.  И сегодня хочу поговорить о том, как с помощью данных и платформы бизнес-аналитики Luxms BI сделать выбор вина более осознанным и приятным.

Читать далее

Как мы проверяли качество данных после завершения миграции с Teradata на Greenplum

Уровень сложностиСложный
Время на прочтение11 мин
Охват и читатели1.6K

Привет, Хабр! Мы завершаем серию статей о миграции аналитического хранилища данных с платформы Teradata на GreenPlum. В предыдущих статьях мы рассказали о нашем опыте и результатах автоматизированного переписывания SQL‑скриптов с помощью реализованных сервисов миграции кода и переноса архива данных. В этот раз мы расскажем вам о нашем опыте и результатах кросс‑платформенной проверки качества данных во время и после миграции, а также о трудностях и решениях, связанных с этим процессом.

Завершая нашу серию, мы подходим к ключевому аспекту миграции данных — проверке и обеспечению качества данных после переноса. Теперь, когда перед нами стоят два параллельно функционирующих хранилища, возникает вопрос о точности и согласованности данных между ними.

Читать далее

Разбор и стандартизация имен, адресов и других типов пользовательских данных в миллионных базах

Время на прочтение14 мин
Охват и читатели1.4K

Во всевозможных заявлениях, анкетах и обращениях пользователи вводят свои ФИО, адреса и прочие персональные данные в настолько разном формате, что даже человеку бывает сложно понять, где ошибки, а где правильное написание. Например, «Саша Петрович» — это имя с отчеством или фамилия с именем? А, может, это сокращённая форма имени? И кто перед нами — мужчина или женщина?

Такие же сложности возникают и с другими данными: адресами, телефонами, названиями компаний. В этом посте расскажем о наших методах разбора и стандартизации клиентских данных, разговор про которые начали в статье про поиск дубликатов при объединении огромных клиентских баз.

Читать далее

Как не нужно визуализировать данные: антипаттерны в примерах

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели4.8K

Как делать графики понятными и наглядными? Да ещё и избежать неверных трактовок? Когда использовать круговую диаграмму, а когда нужны линейные графики или столбчатая шкала? Для этого достаточно учесть антипаттерны, которые вредят и запутывают. Разберём на «хороших» и «плохих» примерах.

Привет, Хабр! Меня зовут Андрей Машковцев, я — BI-аналитик в «Т-банке», эксперт Skillbox, веду телеграмм–канал «Лайфхаки в аналитике» и увлекаюсь бегом. Для закрытого комьюнити Skillbox Code Experts рассказал об основных ошибках при визуализации данных. Основные мысли переложил в статью.

Читать далее

MLOps: как не потеряться в 10 тысячах фич, часть 2

Время на прочтение6 мин
Охват и читатели4.7K

Первая часть — здесь.

Data lineage

Этот подход обеспечивает прослеживание связей в данных и клиентов, которые используют данные, от источника, включая промежуточные стадии, до момента потребления этих данных. Данные может потреблять сервисы, какие-то BI-системы, на которых построены дашборды, эксплуатировать данные могут люди, дата аналитики, которым это необходимо в рабочих процессах. Data lineage позволяет прозрачно взглянуть на эти вещи и отследить момент получения предагрегатов до момента эксплуатации этих данных клиентами.

Нам важен разрез, когда клиентами или целевыми заказчиками данных являются ML-модели. 

Читать далее

Ближайшие события

Как LLM меняют архитектуру систем: от простых дата-пайплайнов к интеллектуальным автономным агентам

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели3.6K

На каждой технической конференции в последнее время обязательно звучит слово «агенты». Они преподносятся по разному: и как следующая ступенька после RAG, и как серебряная пуля для решения всех проблем, и как абсолютная замена всех классических пайплайнов. А кто еще не использует агентов — безнадежно отстал от прогресса.

Но так ли это на самом деле? Данная статья вдохновлена видением компании Anthropic на применение LLM в процессах и на построение автономных агентов, поэтому давайте попробуем во всем разобраться.

Поговорим про Data Pipelines, LLM Workflows и LLM Agents, а так же сравним их между собой.

Читать далее

Матрица ошибок confusion_matrix() в scikit-learn

Время на прочтение8 мин
Охват и читатели5.6K

Одним из самых наиболее развёрнутых способов оценки качества классификации является применение матрицы ошибок. Матрица ошибок представляет собой квадратную таблицу, в которой отображается количество предсказанных и фактических классов для классификационной модели. В этой матрице строки представляют истинные классы (реальные метки), а столбцы представляют предсказанные классы (метки, которые предсказала модель). Размер матрицы соответствует количеству классов.

Обычно для бинарной классификации она выглядит так:

Читать далее

MLOps: как не потеряться в 10 тысячах фич, часть 1

Время на прочтение4 мин
Охват и читатели16K

Всем привет! Меня зовут Дмитрий Ермилов, и сегодня я хочу рассказать про то, как мы в билайне использовали один data catalog-инструмент для того, чтобы построить прозрачные связи между моделями машинного обучения и признаками, от которых эти модели зависят, то есть от фич. Из доклада вы узнаете, зачем и кому это бывает нужно, а также один из способов решения этой задачи.

Для начала немного о себе. Я более десяти лет в разработке и анализе данных, имею научный бэкграунд, принимал участие в различных проектах от построения высоконагруженных сервисов с использованием моделей машинного обучения и глубоких нейронных сетей до построения корпоративных хранилищ данных и ETL-процессов. В настоящий момент работают в билайн, в дирекции билайн бизнес (Big Data&AI). 

Департамент DS состоит из двадцати специалистов. Билайн сегодня в первую очередь — технологичная компания, мы любим говорить, что мы технологичны снаружи и технологичны внутри. У нас трудится более 3500 IT-специалистов, более 200 продуктовых команд, которые разбиты на различные сегменты (внутренние продукты, продукты B2C, B2G и B2B). Дирекция Big Data&AI сфокусирована на B2B-сегменте, у нас 13 продуктовых команд, 200 IT-специалистов, это ML, DS, дата аналитики, фронт, бек, DevOps и другие функции.

Спектр продуктов широкий - от платформы видеоаналитики и системы транскрибации и анализа речи до классических продуктов в области банковского скоринга. Мы любим машинное обучение, и это взаимно. 

Читать далее

Как мультифакторные релейшеншипы упростили нашу модель данных в Tableau

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели638

Сегодня BI-аналитика немыслима без ETL-процессов. Просто физических джоинов уже не хватает — чаще нужны логические модели данных. С ними можно создавать сложные структуры без запросов вручную. Как self-service инструмент, Tableau дал такую возможность в 2020 году, представив релейшены (relationships).

Читать далее

Какой тип разметки данных требуется для вашего проекта? Полный гид по аннотированию изображений

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели802

Ограничивающие рамки, полигоны, ключевые точки или 3D-кубоиды? Каждый из этих методов разметки подходит для совершенно разных задач машинного обучения.

Хотите узнать, как правильно выбрать инструмент для своего проекта? Мы сравним преимущества и недостатки каждого инструмента и покажем, как аннотирование помогает создать передовые технологии — от беспилотных авто до диагностики в медицине.

Читать далее

Переход на новую архитектуру проекта: как это влияет на надежность стриминга web-данных

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели514

Предположим, что перед вашей командой стоит задача по поиску надежного стриминга web и app данных, который бы соответствовал требованиям службы безопасности, ожиданиям отделов маркетинга и аналитики, а также был бы полезен для управляющей команды. Не менее важно удобство и прозрачность работы стриминга, а внесение изменений в ожидаемый результат, желательно, без привлечения дополнительного ресурса аналитиков и разработчиков. 

Читать далее

Что такое метаданные в BI и как ими управлять? Обзор инструмента OpenMetadata

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели3.8K

Метаданные или метаинформация – это данные, которые предоставляют информацию о других данных.

Подробнее о том, с какими метаданными сталкиваются в BI, чем полезны системы управления метаданными и с какими важными функциями инструмента OpenMetadata знакома на практике, рассказываю в этой статье.

Читать далее

Вклад авторов