Big Data *

Анализ и проектирование систем * Big Data * Визуализация данных * Читальный зал

27 дек 2023 в 13:418.2K

Свежие рейтинги платформ BI или это что-то новое?

Несколько дней назад наша команда увидела интересный, назовем это словом «слив», в одном из профильных телеграмм каналов. Речь идет о круге Громова и о ее части, связанной с выполнением вендорами конкретного технического задания. Судя по картинке, есть те кто справился с задачей на 5+, а есть те, кто вроде бы входит в топ 5 платформ, но при этом задачу решил на троечку. Как такое возможно? Науке пока неизвестно, пока есть только цифры!

Круг Громова - выполнение ТЗ (пилота) разработчиками BI платформ

Попробуем в этом позже разобраться. А пока очень интересная расстановка сил. Не увидели ребят из Яндекс и огорчились сильно низкой позицией Визиолоджи, неужели рисковали и делали пилот на сыроватой третьей версии? С другой стороны радует готовность платформ и уровень команд от PIX, Альфа и Cubisio.

Попробуем позже получить доступ к полному отчету и посмотрим, какова расстановка в самом круге! Всех с наступающими длинными праздниками!

Big Data * Визуализация данных * Читальный зал

22 дек 2023 в 12:176.5K

Нешуточный шум сегодня поднялся в телеграмм каналах, связанных с аналитикой. Причиной стало продолжение серии PIX Красивое от PIX BI. На этот раз рассматривалась тема темных дашбордов, которая потом переросла в большую дискуссию в канале Russian BI Chat.

Хотим поделиться своим мнением про светлое и темное:

Тренд в сторону темных тем в дашбордах не новый, но актуальный. По статистке 3/4 респондентов выбирают темную тему, об этом действительно много писалось и есть исследования. Тренд этот никуда не ушел, а в ковидные времена кстати, число темных дашбордов сильно увеличилось. И это реальный факт!
Темная тема на дашборде это не просто кнопка вкл/выкл темный фон. Речь все-таки идет о полноценном дизайне внутри каждого объекта. Необходимо соблюдать корпоративный стиль компании и проще всего часть этой темы запаковать в шаблон. Далее в любом случае потребуется доработка визуализаций до некой идеальной картины. И в организации часто у топов живут два (!) дашборда в светлой и темной форме, которые хитро запакованы в незаметное для глаза переключение между листами.
Кнопка включения «темного» фона дашборда нужная и интересная фича, но она больше про комфорт обычного пользователя. Здесь же речь больше шла, на наш взгляд, о «богатых» дашбордах в темных тонах. То есть некорректно показывать светлые тона на диаграмме из светлого дашборда на темном фоне. Будет очень рябить. Нужно все таки допилить руками объекты.
Спасибо всем экспертам, которые несут знания в массы и делятся ими бесплатно!

@kzzzr

7 дек 2023 в 15:257.3K

Big Data * Data Engineering *

Переварил и делюсь ключевыми идеями Tristan Handy (CEO dbtLabs) о новом опыте работы с dbt

(выпуск My first week with the new dbt, рассылка Analytics Engineering Roundup)

Старт разработки без головной боли

Это замечательно и то, что нужно. Фокус аналитика - на создании аналитических приложений, а не на борьбу с зависимостями, version upgrades и поиск error codes на stackoverflow. Чем больше чистого времени у аналитика, тем больше результатов можно получить.

Я уже давно использую devcontainers и даже писал об этом для тех же целей - это бесплатно и не требует иметь лицензию dbtCloud.

Auto-deferral

Я давно использую defer в рамках CI tests (= прогон и тесты только изменяемых graph nodes). Теперь, в рамках dev это ускоряет процессы разрабтки на порядок.

Жаль, что удобно использовать это можно пока только в dbtCloud.

Из связанного, на ум сразу приходит фича Snowflake zero-copy clone.

Data Mesh

Коротко, это про то, чтобы DWH разделить на зоны ответственности и дать командам развивать интересующие их области самостоятельно, по их правилам.

Называйте это Microservices в Data.

Задействованы и технические аспекты (как это реализовать) и организационные (кто владеет ownership).

Это скорее релевантно крупным компаниям, в которых как минимум несколько отделов-ветвей заинтересованы в data services, у них есть свои ресурсы на разработку и устоявшиеся правила. По моим оценкам, доля таких компаний среди пользователей dbt пока не очень велика. Но это тренд!

Анализ и проектирование систем * Big Data * Визуализация данных *

29 ноя 2023 в 09:182.3K

ДатаБэнкси посетили TAdviser Summit 2023!

Мы еще поделимся своими наблюдениями и комментариями, если будет что-то стоящее. А пока случай, который не вписывается в рамки бытия. На рынке разгораются нешуточные события, российские разработчики вдруг осознали, что они не одни здесь живут и есть реальная угроза из Поднебесной!

Главу Минцифры Максута Шадаева спросили прямо и в лоб, текста было много сделаем далее краткий пересказ.

Как нам российским разработчикам софта быть и будете ли Вы нас оберегать и защищать? На рынок идет орда во главе с князем, говорят, что они тоже русский софт, но это не так, они маскируются!

Ответ министра был кстати четким. Не пропустим таких, назовите конкретные фамилии, возьмем на карандаш. Мы за отечественное на 100%

Не трудно догадаться, что речь идет о китайской Fine Bi. А что, кто-то из госов или окологосов всерьез надеется, что китайцы войдут в реестр и их можно будет по 44 фз или 223 фз купить после 2024 года? Хотя кто знает, машины же под Тулой собирают…

@CrXf_17

26 ноя 2023 в 17:053.7K

Анализ и проектирование систем * Алгоритмы * Big Data * Математика * Машинное обучение *

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_12

?Вопрос_12: Expectation-Maximization (EM) ?

Expectation-Maximization (EM) - это итерационный алгоритм, который используется для оценки параметров вероятностных моделей, когда некоторые данные являются наблюдаемыми, а другие данные являются скрытыми или неполными. EM-алгоритм часто применяется в статистике и машинном обучении для обучения моделей с неизвестными параметрами.

EM-алгоритм состоит из двух основных шагов: шага ожидания (Expectation) и шага максимизации (Maximization).

Шаг ожидания (Expectation step, E-шаг): На этом шаге вычисляются ожидаемые значения скрытых переменных (или "ответственностей") в соответствии с текущими значениями параметров модели. Это делается путем вычисления условного математического ожидания скрытых переменных при условии наблюдаемых данных и текущих параметров модели.
Шаг максимизации (Maximization step, M-шаг): На этом шаге обновляются параметры модели, чтобы максимизировать ожидаемое правдоподобие, полученное на E-шаге. Обновление параметров происходит путем решения оптимизационной задачи, которая может включать максимизацию правдоподобия или минимизацию ошибки между наблюдаемыми данными и ожидаемыми значениями.
t.me/DenoiseLAB (Еесли вы хотите быть в курсе всех последних новостей и знаний в области анализа данных);
https://boosty.to/denoise_lab (Если вы хотите поддержать проект, или получить более модные фишки по коду и продвижению подписывайтесь).

@XNadoricheva

14 ноя 2023 в 11:532.7K

Блог компании РСХБ.цифра (Россельхозбанк)Big Data * Развитие стартапаЧитальный залIT-компании

AgroCode Talks от Россельхозбанка: все о технологиях в сельском хозяйстве.

Митап «Big Data. Как анализ больших данных меняет сельское хозяйство» – место встречи людей, которые создают инновационные технологические решения в АПК.

Кого ждем?

Стартапы, представителей малого и крупного бизнеса, специалистов DS, CV и ML, также всех неравнодушных к будущему сельского хозяйства.

О чем поговорим?

– отраслевые проблемы, которые можно решить Big Data – от Digital Agro;

– развитие рынка трансфера технологий и аналитики больших данных – от Inventorus;

– применение подходов Big Data: контроль активности и подсчет животных, классификация зерновых культур — от Napoleon IT;

– современные научные методы моделирования для АПК – от Tensor Fields;

– промышленная робототехника будущего – от Maslov. ai.

Когда?

Ждем вас 15 ноября в 18.00. Участие бесплатное, по предварительной регистрации и модерации на сайте РСХБ в цифре.

@CrXf_17

5 ноя 2023 в 14:573.8K

Data Mining * Big Data * Математика * Машинное обучение * Data Engineering *

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_2

?Вопрос_2: Объясните, что такое One-hot encoding и Label Encoding. Как они влияют на размерность заданного набора данных ?

✔️Ответ:

One-hot encoding - это представление категориальных переменных в виде двоичных векторов, при котором каждая уникальная категория переменной преобразуется в новый бинарный столбец, называемый "фиктивной переменной". В этом новом столбце значение 1 указывает на принадлежность к соответствующей категории, а значение 0 - на принадлежность к другим категориям. Таким образом, каждая уникальная категория представлена отдельным столбцом. Это позволяет алгоритмам машинного обучения интерпретировать категориальные значения и использовать их в расчетах. Не создает ложного упорядочения или отношения между значениями категориальных переменных и помогает избежать проблемы ложной корреляции между категориями переменных. Однако, использование one-hot encoding увеличивает размерность набора данных ("проклятие размерности").

Label Encoding - это процесс преобразования каждого значения категориальной переменной в целочисленный код. Каждой уникальной категории присваивается уникальное число. Label Encoding не добавляет новые столбцы к набору данных и не увеличивает размерность. Однако, важно понимать, что числовые значения, присвоенные категориям, могут создать ложное упорядочение или отношение между ними.

#work #coding #testing #optimization #ml #learning

Телеграмм: https://t.me/DenoiseLAB

@CrXf_17

5 ноя 2023 в 14:386.7K

Data Mining * Big Data * Машинное обучение * Искусственный интеллектData Engineering *

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_1

?Вопрос_1: Чем ковариация и корреляция отличаются друг от друга?

✔️Ответ:

Ковариация и корреляция - это два статистических показателя, которые используются для определения связи между двумя случайными величинами.

Ковариация измеряет степень, в которой две переменные меняются вместе, тогда как корреляция измеряет не только степень, но и направление отношения между двумя переменными.

Ковариация подразумевает, что две величины меняются в одном направлении: если одна увеличивается, то вторая тоже увеличивается, или если одна уменьшается, то другая тоже уменьшается. Однако, ковариация не учитывает, насколько сильно или слабо эти переменные меняются.

Корреляция, с другой стороны, учитывает не только направление, но и силу отношения между двумя переменными. Коэффициент корреляции может принимать значения от -1 до 1. Значение +1 для корреляции означает, что две переменные имеют прямую связь и полностью коррелируют. Значение -1 для корреляции означает, что две переменные находятся в обратной пропорциональной связи. Значение 0 для корреляции означает, что между двумя переменными нет связи.

#work #coding #testing #optimization #ml #learning

Телеграмм: https://t.me/DenoiseLAB

Анализ и проектирование систем * Big Data * Визуализация данных *

17 окт 2023 в 16:572.2K

Мой проект DataBanksy стартовал довольно быстро и самое интересное, что я нашел единомышленников, которые готовы делиться с Вами своим опытом и знаниями в области аналитических систем. У нас теперь небольшая команда, но суммарная база знаний в области BI выросла кратно. По понятным причинам свои имена мы раскрывать не будем, поскольку рынок этот очень тесный, и наша правда может не нравится некоторым. Но! Нет задачи принижать качества той или иной платформы или восхвалять другую. Относитесь к нам, как просто к мнению группы людей, которые живут в мире BI уже очень давно. Будем и дальше писать для Вас, кому то уже начинает не нравиться наш текст и сразу после публикации мы получаем понижение в карме, но это нас только мотивирует продолжать говорить то, что мы думаем и нести знания в общество. Команда будет расти и будут новые DataBanksy в наших рядах.

Анализ и проектирование систем * Big Data * Визуализация данных * Читальный залСофт

10 окт 2023 в 09:342.5K

Коллеги, сейчас раскрываю тему РФ рынка аналитических платформ. Есть несколько тем на будущие статьи. Хотел обратиться к Вам, что было бы интересно? Может быть будут интересные острые темы от Вас?

@Oksenija

10 авг 2023 в 09:243.4K

Data Mining * Big Data * Математика * Визуализация данных * Машинное обучение *

Сколько раз звонить, чтобы дозвониться. Наша странная реальность и теория вероятности. Является ли попытка дозвониться аналогом подбрасывания монеты

Бывают ситуации когда надо дозвониться до какой-то организации или человека, но телефон адресата то занят, то не отвечает, то вне зоны доступа и т.д. Мне попались любопытные данные внутренней статистики от одного из провинциальных операторов связи. Получается оптимальное количество попыток 4..7, а больше 15 раз делать попыток дозвониться теряет смысл, вероятность дозвона сильно уменьшается. И всё-таки это не подбрасывание монетки.

8 июн 2023 в 07:553.4K

? Масштабируемая Big-Data-система в Kubernetes со Spark и Cassandra

А пока встречайте последних участников со статьями о распределенной обработке данных, вариации архитектур для задач детекции, аналитике данных и антифроде в логистике:

⚓ Все DETRы мира: denoising queries и positive anchors. Часть 2

??‍? Что такое Self-Service BI и зачем он нужен?

?️ Расчет скидки за первый и последний этаж в Excel (Часть 2)

? Как «Почта» моделирует риски потери отправлений

Сезон Big Data мы провели с Газпромбанком. Новые статьи больше не принимаются. Ваши голоса могут повлиять на итоговый рейтинг — голосуем и выбираем победителя сезона по ссылке ?

2 июн 2023 в 14:533.8K

На наш бигдата-торт упали ещё три больших вишни: рейтинговые хабрааавторы рассказали про оптимизацию расходов на железо, кластеризацию sms‑сообщений с pyspark.ml и проверку госзакупок с помощью СУБД BaseX:
? Сassandra для бедных — пускаем в ход HDD
? Кластеризация текста в PySpark
? Извлечение открытых данных сайта zakupki.gov.ru с помощью СУБД BaseX

Другие интересные кейсы:
? Бигдата, ты ли это?
? Как дать крылья своей сводной таблице в Apache Superset
? Все DETR’ы мира
? Байесовский подход к A/B-тестированию
? Геопространственные технологии для управления паспортом медицинского участка

Посмотреть всех участников и правила сезона можно по ссылке. Если вы тоже хотите поделиться опытом, ждём ваших статей на Хабре. Только поторопитесь, сезон Big Data мы проводим вместе с Газпромбанком до 7 июня.

+12

26 мая 2023 в 13:373K

? Структурирование кредитного портфеля методами машинного обучения

В бигдате два вида спорта. Первый — организация загрузки, мониторинга и бэкапирования, второй — применение имеющихся данных для бизнес-задач. Участники сезона Big Data уверенно идут в обоих дисциплинах.

Читайте невыдуманные истории о том, как ошибки в мониторинге привели к 30 Tb лишних данных, а также о структурирования кредитного портфеля и неклассической детекции.

? Бигдата, ты ли это?

? Все DETR’ы мира

Какие ещё были интересные кейсы в сезоне:

? Байесовский подход к A/B-тестированию

? Как дать крылья своей сводной таблице в Apache Superset

? Как мы делали скоринг на микросервисной архитектуре руками не-программистов

? Геопространственные технологии для управления паспортом медицинского участка

⚖️ Тварь дрожащая или право имею: как мы лепили виртуального юриста из русскоязычных нейросетей

Если вы тоже хотите поделиться опытом, ждём ваших статей на Хабре. Только поторопитесь, сезон Big Data мы проводим вместе с Газпромбанком до 7 июня.

+10

22 мая 2023 в 12:273K

⚖️ Тварь дрожащая или право имею: как мы лепили виртуального юриста из русскоязычных нейросетей

До конца сезона Big Data осталась всего пара недель! Решится ли кто-то ворваться под конец с хардкорной статьей — и победить?

А пока — встречайте новых участников, которые ещё раз напомнили нам золотое правило: именно сбор, обработка и классификация больших данных позволяют получить качественные ИИ-модели и аналитику:

? Её величество Иерархия. Классификация и способы хранение в MS Excel

? Анализ таблиц сопряженности средствами Python

Топ самых популярных статей сезона Big Data:

? Байесовский подход к A/B-тестированию

? Сравнение технологии JuniStat и лазерных систем для беговых тестов

? Как дать крылья своей сводной таблице в Apache Superset

☁️ Big Data в облаках

? Как мы делали скоринг на микросервисной архитектуре руками не-программистов

? Как рассчитать скидку за первый и последний этаж почти без формул в Excel

Сезон Big Data мы проводим вместе с Газпромбанком до 7 июня (по ссылке полный список статей сезона).

12 мая 2023 в 12:342.9K

? Байесовский подход к A/B-тестированию

Если ко всему подходить осознанно, то с Big-Data-аналитикой можно решать любые задачи. Участники сезона Big Data на Хабре точно оценивают недвижимость, измеряют время рывка в забегах, создают мастер-базу для управления территорией, находят новые алгоритмы А/Б-тестов и оптимизируют бизнес-процессы (в хорошем смысле этого слова).

? Сравнение технологии JuniStat и лазерных систем для беговых тестов

? Применение методов CRISP-DM для анализа Big Sales Data

? Data-driven-рост с помощью науки о данных и машинного обучения

? Как рассчитать скидку за первый и последний этаж почти без формул в Excel

? Геопространственные технологии для управления паспортом медицинского участка

Если вы тоже хотите поделиться опытом, ждём ваших статей на Хабре. Сезон Big Data мы проводим вместе с Газпромбанком до 7 июня → Достучаться до ИИ: сезон больших данных на Хабре (по ссылке полный список статей сезона — посмотрите, там ещё много интересного).

+10

5 мая 2023 в 14:122.9K