Обновить

Системный и бизнес-анализ

Сначала показывать
Порог рейтинга
Уровень сложности

Dagster или Airflow: что выбрать для оркестрации в DWH-проектах?

Время на прочтение14 мин
Охват и читатели15K

Рассказываем, какие задачи решают оркестраторы в проектах внедрения корпоративных хранилищ данных. Выясняем, в чем разница между инструментами, и почему Dagster становится все популярнее в DWH-проектах, чем Airflow.

Читать далее

Отчет Авторы в Метрике. Учет авторов на Дзен канале

Уровень сложностиСредний
Время на прочтение2 мин
Охват и читатели4.6K

На днях при настройке аналитики для клиентского новостного ресурса наша столкнулись с задачей сбора показателей по публикациям отдельных журналистов как с основной площадки, так и с дублирующего канала в системе Дзен.

Требовалось создать общий, удобный отчет, для расчета премий журналистов. Сбор данных на WordPress мы уже давно реализуем посредством встроенных решений, а также через через Яндекс.Метрику, казалось бы все просто.

Однако в данном случае возникли сложности с получением информации об авторах именно с канала Дзена. Анализ отчетности в метрике показал, что система уже собирает информацию по данному ресурсу, но в графе авторов фигурируют другие СМИ. Например АиФ или Комсомолка, а не фамилии отдельных журналистов.

Консультация со службой поддержки Яндекс.Метрики выявила следующее:

В настоящий момент контентная аналитика с сайта не осуществляется, а все показатели в разделе «Контент» формируются исключительно на основе материалов платформы Дзен. Подтверждение этому можно найти в адресах группировки «URL материала» через отчет «Источники переходов на материалы».

В структуре публикаций Дзена отсутствует информация об авторах, поэтому в отчетности такие данные не отражаются. Рекомендуется обращение в их поддержку для корректировки разметки. Относительно материалов сайта - разметку можно настроить самостоятельно. Важно учесть, что в параметрах счетчика выбрана разметка Microdata (применяемая Дзеном), а на сайте такой тип разметки используется только для блока организации, но не для контентных материалов. Для начала сбора данных по сайту необходимо настроить разметку и для его материалов.

Читать далее

События, которым можно доверять: выстраивание процесса работы с разметкой приложения с точки зрения аналитика

Время на прочтение16 мин
Охват и читатели8.6K

Привет! Меня зовут Николай Олигеров. Сейчас я работаю аналитиком данных в Яндекс Путешествиях, а до этого я был продуктовым аналитиком в Лавке — мой рассказ будет именно про неё.

В какой‑то момент мы поняли, что больше не можем доверять своей событийной аналитике: события дублировались, параметры терялись, триггеры срабатывали не тогда, когда нужно. В статье расскажу, как мы полностью пересобрали систему разметки приложения Лавки: с автотестами, документацией, мониторингами и прозрачным процессом, где аналитики и разработка работают вместе.

Читать далее

Три уровня отслеживания в Яндекс Метрике: Level 3 — Measurement Protocol и виртуальные визиты

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели4.2K

Приветствую, Хабр! В прошлых двух статьях я рассмотрел варианты кастомизации Целей Яндекс Метрики, когда мы начинаем собирать не просто факт отправки, например, формы, но и смысл а еще и возможность досылать срабатывания целей произошедшие уже офлайн. В сумме это уже поможет улучшить точность вашей рекламы в том же Директе на +60-65%. А что нам дате точность? Чаще всего снижение CPC и CPA/ Сегодня же расскажу о, так называемом GOD Mode Метрики, когда любой чих можно превратить в нужное нам событие и отправить его в Метрику, к тому же оно еще и не потеряется, как офлайн-конверсия.

Читать далее

Generative Business Intelligence. BI без дашбордов и аналитиков

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели11K

В классическом BI мы вручную пишем SQL, строим отчёты и визуализации. Но сегодня нейросети делают всё больше работы: сами пишут запросы, формируют дашборды и даже выдают инсайты. У этого направления уже есть название - Generative BI (GenBI). Адептов GenBI становится всё больше.

Примеры компаний, предлагающих или реализующих подобные решения

1.Snowflake предлагает Enterprise AI - безопасный доступ к топовым LLM внутри корпоративного контура.

Кроме них, в гонке уже:

Читать далее

FIDE Grand Swiss 2025: Прогнозы, котировки и психология игроков

Уровень сложностиСредний
Время на прочтение2 мин
Охват и читатели5.8K

Привет, шахматные фанаты!

В этом посте разберём, кто реально имеет шансы на успех в Grand Swiss 2025 в Самарканде. Всё по делу: рейтинг FIDE, результаты топ-турниров 2024 года, котировки букмекеров и аналитика с использованием bStresScore — показателя стрессоустойчивости игроков в критические моменты.

Читать далее

Как аналитики Авито с помощью ML помогают людям выбирать хорошие авто с пробегом

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели26K

Привет! Меня зовут Илья Комутков, я старший аналитик в Автотеке Авито — сервисе по проверке истории автомобилей с пробегом. В статье расскажу, как мы улучшаем проверку машин и создаём алгоритм рекомендаций по дальнейшим действиям для покупателей. Текст будет интересен начинающим или middle-аналитикам, которые уже умеют работать с SQL, python, ML, но ещё не решали многоэтапные задачи, влияющие на бизнес, и ищут способы применить свои навыки в работе.

Читать далее

Реализация А/Б-тестов

Время на прочтение22 мин
Охват и читатели5.5K

Для А/Б-тестов в вебе показаны случайный выбор групп, хэширование, логика на бэкэнде и фронтэнде, логирование событий, одновременные эксперименты и админка. Примеры демонстрируют реализацию А/Б-тестов и устройство платформ экспериментов.

Читать

Алиса хамит товарищу майору из ФСБ, а OpenAI пообещал стучать на юзеров

Время на прочтение8 мин
Охват и читатели28K

Самые интересные новости финансов и технологий в России и мире за неделю: нейросеть Сбера GigaChat оказалась либералом, международный бакалавриат IB признали в РФ «нежелательной организацией», массовые сокращения айтишников в Rutube, торговые пошлины Трампа признали незаконными, Гугл выпустил нано-банану для нейроправки картинок, а также первый в мире зловредный вирус на базе LLM-промптов.

Читать далее

Чистим строку от лишних/повторяющихся пробелов (и пробельных символов) в строковых значениях компактно. RegExp

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели13K

Хочу поделиться компактной функцией для очищения лишних, повторяющихся пробелов и пробельных символов в строках. Не считайте это призывом, но если можно привести строковые данные в красивый вид без лишних хлопот, то почему бы и не воспользоваться. Те, кто не знаком с регулярными выражениями (regular expressions, RegExp, regex), может приоткроет форточку в этот славный и замороченный мир (Регулярные выражения (regexp) — основы)

Читать далее

Комиссии криптобирж в алготрейдинге: подводные камни, сравнение и практические выводы

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели10K

Алготрейдинг в криптовалютах уже давно перестал быть уделом крупных фондов — сегодня любой разработчик может написать торгового бота и запустить его через публичное API биржи. Но при этом большинство новичков совершают одну и ту же ошибку — они проектируют стратегию на «чистых» ценах, полностью игнорируя торговые комиссии.

Комиссия — это невидимый враг трейдера. Она напрямую влияет на результативность любой стратегии:

Читать далее

Athenix — мониторинг котировок с глубоким анализом объёмов и прогнозами от ИИ

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели11K

Проект Athenix — это уникальная система мониторинга котировок с глубоким анализом объёмов торгов и прогнозами на основе искусственного интеллекта. Если вы интересуетесь финансовыми рынками, трейдингом и современными технологиями, эта статья для вас.

Созданная на Python, платформа Athenix сочетает мощь вычислений, анализ временных рядов и нейросетевые модели для прогнозирования динамики цен на бирже MOEX и потенциалом подключения к другим биржам. В статье вы узнаете, как автор с опытом работы на биржах и в программировании реализовал систему, которая собирает данные, анализирует их с помощью инновационных алгоритмов и визуализирует результаты в удобном для анализа виде.

Проект предлагает практичный подход к сложностям анализа рынка — концентрируется на главном, снимая с трейдера необходимость обрабатывать сотни показателей вручную. Будут подробно рассмотрены методы обработки объёмных данных, шумоподавление с вейвлет-преобразованиями, бинарное прогнозирование и использование LSTM-нейросетей.

Эта статья будет полезна тем, кто хочет понять, как современные технологии и алгоритмы могут помочь в эффективной среднесрочной и долгосрочной торговле. Погрузитесь в мир финансового анализа будущего с Athenix!

Читать далее

Статистика футбольных матчей

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели8.8K

Недавно рассказывал о многомерном анализе данных временных рядов с помощью Dimension-UI, упоминая простой и удобный интерфейс для доступа к данным, гибкость, интерактивность и другие преимущества. Пришло время проверить, как это работает на практике. В качестве полигона для анализа мы используем статистику футбольных матчей: посмотрим данные по голам, детализированные по командам, статистику по счёту, а также сравним результативность в домашних и гостевых матчах.

Читать далее

Ближайшие события

Критерий Кендалла W: Почему рейтинги BI друг другу противоречат, и что с этим делать?

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели6.8K

Привет, Хабр! Сегодня я хочу рассказать о применении одного из интересных методов работы со статистическими данными — расчета коэффициента конкордации, который также называют коэффициентом Кендалла W. Он помог нам упростить выбор BI-платформы на замену многострадальному Qlik, который сегодня вообще непонятно как продлевать. Под катом — куча BI-систем, наши попытки усреднить результаты рейтингов…и г-н Кендалл с его методом 100-летней давности.

Читать далее

Тренды архитектуры ПО — взгляд InfoQ 2025

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели11K

Каждый год архитектура ПО меняется под давлением новых идей и технологий, и далеко не все из них доживают до зрелости. Чтобы навести порядок в хаосе, редакторы InfoQ разбирают тренды через модель «Crossing the Chasm» и показывают, что уже стало частью мейнстрима, а что остаётся в зоне экспериментов.

В этом обзоре — самые заметные направления последних лет: от стремительного взросления LLM и повального интереса к RAG до агентного ИИ, малых языковых моделей, «зелёного» софта и социотехнической архитектуры. Текст будет особенно интересен архитекторам и аналитикам, которые хотят понимать не только технологии, но и то, как они вписываются в реальные системы и команды.

Читать далее

Ищем замену SAP, Oracle, IBM Cognos: сравнили российские BI-платформы корпоративного уровня

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели6.1K

В BI нынче неспокойно: ушли импортные системы, на которых выросло, выучилось и местами громко ругалось целое поколение аналитиков (а то и не одно). Казалось, что SAP, Oracle, IBM Cognos — столпы, на которых основано все и без которых аналитика невозможна. И вот их не стало. Однако ничто не терпит пустоты и на их место стали претендовать российские системы: без проблем с локализацией интерфейса, с нормальными функциональными возможностями и с особым подходом к рынку. Или…? В общем, давайте разберемся в том, какие BI-платформы представлены на российском рынке, что они умеют и чему им ещё предстоит научиться.

В этом обзоре сравнили несколько отечественных BI-платформ корпоративного уровня. Рассмотрели их функциональность, технические особенности, способы работы с данными, а также оценили подход к клиентам, цены и условия лицензирования. Для аналитиков и СТО — must read.

Читать далее

Процессная аналитика — «рентген» для цифровых процессов в компании

Время на прочтение8 мин
Охват и читатели4.3K

В одном из американских сериалов про полицию я услышал фразу, которую старший следователь говорит новичку в отделе: «Послушай, самое страшное в том, что ты даже не знаешь, чего не знаешь». Кажется, что эта фраза идеально подходит для описания современного бизнеса.

Читать далее

A/B-тестирование и эксперименты: что посмотреть и почитать начинающему дата-аналитику

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели12K

Привет! Это команда курса «Аналитик данных» в Практикуме. Мы подготовили подборку статей и видео, которые помогут сделать первые шаги в аналитике и поучиться у экспертов рынка. Здесь вы найдёте объяснения базовых принципов A/B-тестирования, узнаете о типичных ошибках, способах ускорения экспериментов и проверке гипотез. А ещё сможете познакомиться с опытом экспертов и крупных корпораций, которые делятся своими практиками и лайфхаками.

Читать далее

Семь смертных грехов в работе аналитика данных

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели11K

Поговорим о «грехах», которые часто совершают начинающие аналитики данных. Эта информация будет полезна и другим специалистам, работающим с аналитиками — например, ML и дата-инженерам, а также руководителям и менеджерам, которые хотят знать, где могут возникнуть ошибки и как их предотвратить. Просто показывать пальцем и цокать языком не будем: в статье будут полезные инсайты, которые помогут улучшить качество вашей работы.

Грешим

Кофе — мой type, музыка — мой out: строим NERвный-пайплайн на продуктовых запросах

Время на прочтение11 мин
Охват и читатели8.2K

Привет, Хабр! На связи команда Ad-Hoc аналитики X5 Tech. В этой статье расскажем, как мы научили поиск извлекать важные сущности из запросов пользователей. Полный разбор реализации NER (Named Entity Recognition) для продуктового ритейла, шаг за шагом: как мы размечали данные, считали метрики на уровне токенов и сущностей — и почему для коротких и длинных запросов потребовались разные архитектурные решения.

Читать далее