Обновить
74.98

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга

Нешуточный шум сегодня поднялся в телеграмм каналах, связанных с аналитикой. Причиной стало продолжение серии PIX Красивое от PIX BI. На этот раз рассматривалась тема темных дашбордов, которая потом переросла в большую дискуссию в канале Russian BI Chat.

Хотим поделиться своим мнением про светлое и темное:

  1. Тренд в сторону темных тем в дашбордах не новый, но актуальный. По статистке 3/4 респондентов выбирают темную тему, об этом действительно много писалось и есть исследования. Тренд этот никуда не ушел, а в ковидные времена кстати, число темных дашбордов сильно увеличилось. И это реальный факт!

  2. Темная тема на дашборде это не просто кнопка вкл/выкл темный фон. Речь все-таки идет о полноценном дизайне внутри каждого объекта. Необходимо соблюдать корпоративный стиль компании и проще всего часть этой темы запаковать в шаблон. Далее в любом случае потребуется доработка визуализаций до некой идеальной картины. И в организации часто у топов живут два (!) дашборда в светлой и темной форме, которые хитро запакованы в незаметное для глаза переключение между листами.

  3. Кнопка включения «темного» фона дашборда нужная и интересная фича, но она больше про комфорт обычного пользователя. Здесь же речь больше шла, на наш взгляд, о «богатых» дашбордах в темных тонах. То есть некорректно показывать светлые тона на диаграмме из светлого дашборда на темном фоне. Будет очень рябить. Нужно все таки допилить руками объекты.

    Спасибо всем экспертам, которые несут знания в массы и делятся ими бесплатно!

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии0

Переварил и делюсь ключевыми идеями Tristan Handy (CEO dbtLabs) о новом опыте работы с dbt

(выпуск My first week with the new dbt, рассылка Analytics Engineering Roundup)

Старт разработки без головной боли

Это замечательно и то, что нужно. Фокус аналитика - на создании аналитических приложений, а не на борьбу с зависимостями, version upgrades и поиск error codes на stackoverflow. Чем больше чистого времени у аналитика, тем больше результатов можно получить.

Я уже давно использую devcontainers и даже писал об этом для тех же целей - это бесплатно и не требует иметь лицензию dbtCloud.

Auto-deferral

Я давно использую defer в рамках CI tests (= прогон и тесты только изменяемых graph nodes). Теперь, в рамках dev это ускоряет процессы разрабтки на порядок.

Жаль, что удобно использовать это можно пока только в dbtCloud.

Из связанного, на ум сразу приходит фича Snowflake zero-copy clone.

Data Mesh

Коротко, это про то, чтобы DWH разделить на зоны ответственности и дать командам развивать интересующие их области самостоятельно, по их правилам.

Называйте это Microservices в Data.

Задействованы и технические аспекты (как это реализовать) и организационные (кто владеет ownership).

Это скорее релевантно крупным компаниям, в которых как минимум несколько отделов-ветвей заинтересованы в data services, у них есть свои ресурсы на разработку и устоявшиеся правила. По моим оценкам, доля таких компаний среди пользователей dbt пока не очень велика. Но это тренд!

Теги:
Рейтинг0
Комментарии0

ДатаБэнкси посетили TAdviser Summit 2023!

Мы еще поделимся своими наблюдениями и комментариями, если будет что-то стоящее. А пока случай, который не вписывается в рамки бытия. На рынке разгораются нешуточные события, российские разработчики вдруг осознали, что они не одни здесь живут и есть реальная угроза из Поднебесной!

Главу Минцифры Максута Шадаева спросили прямо и в лоб, текста было много сделаем далее краткий пересказ.

Как нам российским разработчикам софта быть и будете ли Вы нас оберегать и защищать? На рынок идет орда во главе с князем, говорят, что они тоже русский софт, но это не так, они маскируются!

Ответ министра был кстати четким. Не пропустим таких, назовите конкретные фамилии, возьмем на карандаш. Мы за отечественное на 100%

Не трудно догадаться, что речь идет о китайской Fine Bi. А что, кто-то из госов или окологосов всерьез надеется, что китайцы войдут в реестр и их можно будет по 44 фз или 223 фз купить после 2024 года? Хотя кто знает, машины же под Тулой собирают…

Теги:
Рейтинг0
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_12

?Вопрос_12: Expectation-Maximization (EM) ?

Expectation-Maximization (EM) - это итерационный алгоритм, который используется для оценки параметров вероятностных моделей, когда некоторые данные являются наблюдаемыми, а другие данные являются скрытыми или неполными. EM-алгоритм часто применяется в статистике и машинном обучении для обучения моделей с неизвестными параметрами.

EM-алгоритм состоит из двух основных шагов: шага ожидания (Expectation) и шага максимизации (Maximization).

  1. Шаг ожидания (Expectation step, E-шаг): На этом шаге вычисляются ожидаемые значения скрытых переменных (или "ответственностей") в соответствии с текущими значениями параметров модели. Это делается путем вычисления условного математического ожидания скрытых переменных при условии наблюдаемых данных и текущих параметров модели.

  2. Шаг максимизации (Maximization step, M-шаг): На этом шаге обновляются параметры модели, чтобы максимизировать ожидаемое правдоподобие, полученное на E-шаге. Обновление параметров происходит путем решения оптимизационной задачи, которая может включать максимизацию правдоподобия или минимизацию ошибки между наблюдаемыми данными и ожидаемыми значениями.

    t.me/DenoiseLAB (Еесли вы хотите быть в курсе всех последних новостей и знаний в области анализа данных);

    https://boosty.to/denoise_lab (Если вы хотите поддержать проект, или получить более модные фишки по коду и продвижению подписывайтесь).

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

AgroCode Talks от Россельхозбанка: все о технологиях в сельском хозяйстве.

Митап «Big Data. Как анализ больших данных меняет сельское хозяйство» – место встречи людей, которые создают инновационные технологические решения в АПК.

Кого ждем?

Стартапы, представителей малого и крупного бизнеса, специалистов DS, CV и ML, также всех неравнодушных к будущему сельского хозяйства.

О чем поговорим?

– отраслевые проблемы, которые можно решить Big Data – от Digital Agro;

– развитие рынка трансфера технологий и аналитики больших данных – от Inventorus;

– применение подходов Big Data: контроль активности и подсчет животных, классификация зерновых культур — от Napoleon IT;

– современные научные методы моделирования для АПК – от Tensor Fields;

– промышленная робототехника будущего – от Maslov. ai.

Когда?

Ждем вас 15 ноября в 18.00. Участие бесплатное, по предварительной регистрации и модерации на сайте РСХБ в цифре.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_2

?Вопрос_2: Объясните, что такое One-hot encoding и Label Encoding. Как они влияют на размерность заданного набора данных ?

✔️Ответ:

One-hot encoding - это представление категориальных переменных в виде двоичных векторов, при котором каждая уникальная категория переменной преобразуется в новый бинарный столбец, называемый "фиктивной переменной". В этом новом столбце значение 1 указывает на принадлежность к соответствующей категории, а значение 0 - на принадлежность к другим категориям. Таким образом, каждая уникальная категория представлена отдельным столбцом. Это позволяет алгоритмам машинного обучения интерпретировать категориальные значения и использовать их в расчетах. Не создает ложного упорядочения или отношения между значениями категориальных переменных и помогает избежать проблемы ложной корреляции между категориями переменных. Однако, использование one-hot encoding увеличивает размерность набора данных ("проклятие размерности").

Label Encoding - это процесс преобразования каждого значения категориальной переменной в целочисленный код. Каждой уникальной категории присваивается уникальное число. Label Encoding не добавляет новые столбцы к набору данных и не увеличивает размерность. Однако, важно понимать, что числовые значения, присвоенные категориям, могут создать ложное упорядочение или отношение между ними. 

#work #coding #testing #optimization #ml #learning

Телеграмм: https://t.me/DenoiseLAB

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_1

?Вопрос_1: Чем ковариация и корреляция отличаются друг от друга?

✔️Ответ:

Ковариация и корреляция - это два статистических показателя, которые используются для определения связи между двумя случайными величинами.

Ковариация измеряет степень, в которой две переменные меняются вместе, тогда как корреляция измеряет не только степень, но и направление отношения между двумя переменными.

Ковариация подразумевает, что две величины меняются в одном направлении: если одна увеличивается, то вторая тоже увеличивается, или если одна уменьшается, то другая тоже уменьшается. Однако, ковариация не учитывает, насколько сильно или слабо эти переменные меняются.

Корреляция, с другой стороны, учитывает не только направление, но и силу отношения между двумя переменными. Коэффициент корреляции может принимать значения от -1 до 1. Значение +1 для корреляции означает, что две переменные имеют прямую связь и полностью коррелируют. Значение -1 для корреляции означает, что две переменные находятся в обратной пропорциональной связи. Значение 0 для корреляции означает, что между двумя переменными нет связи.

#work #coding #testing #optimization #ml #learning

Телеграмм: https://t.me/DenoiseLAB

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии0

Мой проект DataBanksy стартовал довольно быстро и самое интересное, что я нашел единомышленников, которые готовы делиться с Вами своим опытом и знаниями в области аналитических систем. У нас теперь небольшая команда, но суммарная база знаний в области BI выросла кратно. По понятным причинам свои имена мы раскрывать не будем, поскольку рынок этот очень тесный, и наша правда может не нравится некоторым. Но! Нет задачи принижать качества той или иной платформы или восхвалять другую. Относитесь к нам, как просто к мнению группы людей, которые живут в мире BI уже очень давно. Будем и дальше писать для Вас, кому то уже начинает не нравиться наш текст и сразу после публикации мы получаем понижение в карме, но это нас только мотивирует продолжать говорить то, что мы думаем и нести знания в общество. Команда будет расти и будут новые DataBanksy в наших рядах.

Теги:
Рейтинг0
Комментарии0

Коллеги, сейчас раскрываю тему РФ рынка аналитических платформ. Есть несколько тем на будущие статьи. Хотел обратиться к Вам, что было бы интересно? Может быть будут интересные острые темы от Вас?

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Сколько раз звонить, чтобы дозвониться. Наша странная реальность и теория вероятности. Является ли попытка дозвониться аналогом подбрасывания монеты

Бывают ситуации когда надо дозвониться до какой-то организации или человека, но телефон адресата то занят, то не отвечает, то вне зоны доступа и т.д. Мне попались любопытные данные внутренней статистики от одного из провинциальных операторов связи. Получается оптимальное количество попыток 4..7, а больше 15 раз делать попыток дозвониться теряет смысл, вероятность дозвона сильно уменьшается. И всё-таки это не подбрасывание монетки.

Теги:
Всего голосов 6: ↑4 и ↓2+2
Комментарии1
That's all, folks! Вчера был последний день приёма заявок для участия в сезоне Big Data, и 13 июня мы узнаем победителя. 
That's all, folks! Вчера был последний день приёма заявок для участия в сезоне Big Data, и 13 июня мы узнаем победителя. 

А пока встречайте последних участников со статьями о распределенной обработке данных, вариации архитектур для задач детекции, аналитике данных и антифроде в логистике:

? Масштабируемая Big-Data-система в Kubernetes со Spark и Cassandra

Все DETRы мира: denoising queries и positive anchors. Часть 2

??‍? Что такое Self-Service BI и зачем он нужен?

?️ Расчет скидки за первый и последний этаж в Excel (Часть 2)

? Как «Почта» моделирует риски потери отправлений

Сезон Big Data мы провели с Газпромбанком. Новые статьи больше не принимаются. Ваши голоса могут повлиять на итоговый рейтинг — голосуем и выбираем победителя сезона по ссылке ?

Всего голосов 7: ↑7 и ↓0+7
Комментарии0

На наш бигдата-торт упали ещё три больших вишни: рейтинговые хабрааавторы рассказали про оптимизацию расходов на железо, кластеризацию sms‑сообщений с pyspark.ml и проверку госзакупок с помощью СУБД BaseX:
? Сassandra для бедных — пускаем в ход HDD
? Кластеризация текста в PySpark
? Извлечение открытых данных сайта zakupki.gov.ru с помощью СУБД BaseX

Другие интересные кейсы:
? Бигдата, ты ли это?  
? Как дать крылья своей сводной таблице в Apache Superset
? Все DETR’ы мира
? Байесовский подход к A/B-тестированию
? Геопространственные технологии для управления паспортом медицинского участка

Посмотреть всех участников и правила сезона можно по ссылке. Если вы тоже хотите поделиться опытом, ждём ваших статей на Хабре. Только поторопитесь, сезон Big Data мы проводим вместе с Газпромбанком до 7 июня.

Всего голосов 12: ↑12 и ↓0+12
Комментарии0

В бигдате два вида спорта. Первый — организация загрузки, мониторинга и бэкапирования, второй — применение имеющихся данных для бизнес-задач. Участники сезона Big Data уверенно идут в обоих дисциплинах.

Читайте невыдуманные истории о том, как ошибки в мониторинге привели к 30 Tb лишних данных, а также о структурирования кредитного портфеля и неклассической детекции.

? Бигдата, ты ли это?

? Структурирование кредитного портфеля методами машинного обучения

? Все DETR’ы мира

Какие ещё были интересные кейсы в сезоне:

? Байесовский подход к A/B-тестированию

? Как дать крылья своей сводной таблице в Apache Superset

? Как мы делали скоринг на микросервисной архитектуре руками не-программистов

? Геопространственные технологии для управления паспортом медицинского участка

⚖️ Тварь дрожащая или право имею: как мы лепили виртуального юриста из русскоязычных нейросетей

Если вы тоже хотите поделиться опытом, ждём ваших статей на Хабре. Только поторопитесь, сезон Big Data мы проводим вместе с Газпромбанком до 7 июня.

Всего голосов 10: ↑10 и ↓0+10
Комментарии0

Ближайшие события

До конца сезона Big Data осталась всего пара недель! Решится ли кто-то ворваться под конец с хардкорной статьей — и победить?

А пока — встречайте новых участников, которые ещё раз напомнили нам золотое правило: именно сбор, обработка и классификация больших данных позволяют получить качественные ИИ-модели и аналитику:

⚖️ Тварь дрожащая или право имею: как мы лепили виртуального юриста из русскоязычных нейросетей

? Её величество Иерархия. Классификация и способы хранение в MS Excel

? Анализ таблиц сопряженности средствами Python

Топ самых популярных статей сезона Big Data:

? Байесовский подход к A/B-тестированию

? Сравнение технологии JuniStat и лазерных систем для беговых тестов

? Как дать крылья своей сводной таблице в Apache Superset

☁️ Big Data в облаках

? Как мы делали скоринг на микросервисной архитектуре руками не-программистов

? Как рассчитать скидку за первый и последний этаж почти без формул в Excel

Сезон Big Data мы проводим вместе с Газпромбанком до 7 июня (по ссылке полный список статей сезона).

Всего голосов 7: ↑7 и ↓0+7
Комментарии0

Если ко всему подходить осознанно, то с Big-Data-аналитикой можно решать любые задачи. Участники сезона Big Data на Хабре точно оценивают недвижимость, измеряют время рывка в забегах, создают мастер-базу для управления территорией, находят новые алгоритмы А/Б-тестов и оптимизируют бизнес-процессы (в хорошем смысле этого слова).

? Байесовский подход к A/B-тестированию

? Сравнение технологии JuniStat и лазерных систем для беговых тестов

? Применение методов CRISP-DM для анализа Big Sales Data

? Data-driven-рост с помощью науки о данных и машинного обучения  

? Как рассчитать скидку за первый и последний этаж почти без формул в Excel

? Геопространственные технологии для управления паспортом медицинского участка

Если вы тоже хотите поделиться опытом, ждём ваших статей на Хабре. Сезон Big Data мы проводим вместе с Газпромбанком до 7 июня → Достучаться до ИИ: сезон больших данных на Хабре (по ссылке полный список статей сезона — посмотрите, там ещё много интересного).

Всего голосов 10: ↑10 и ↓0+10
Комментарии0

При слаженном DataOps данные — как вода из крана: всегда есть, поэтому можно и забыть, откуда она берётся. Большие данные не сами собой собираются из разных источников, попадают в высокоэффективные ETL/ELT-конвейеры, очищаются и загружаются в корпоративные хранилища. Участники сезона Big Data напоминают, что с DataOps всё не так-то просто:

?️ Как мы организовали Data Warehouse в MANGO OFFICE

? Мигрируем с Qlik: как создать надёжное хранилище для ваших данных

?️ MapReduce: как и зачем?

? Как дать крылья своей сводной таблице в Apache Superset

☁️ Big Data в облаках

?️ MLOps-платформа Dognauts для разработки и эксплуатации ML-моделей

Сезон Big Data мы проводим вместе с Газпромбанком до 7 июня. Если у вас есть опыт в этой сфере, которым вы хотите поделиться, ждём ваших статей.

Всего голосов 10: ↑10 и ↓0+10
Комментарии0

Сезон Big Data на Хабре длится всего неделю, а мы в своём познании уже настолько преисполнились, что готовы внедрять методы аналитики без привычных инструментов. В чат врываются low-code скоринговая модель и пайплайн для анализа цен на городскую недвижимость средствами Excel.

Итак, мечтают ли большие данные о low-code методах обработки:

? Как мы делали скоринг на микросервисной архитектуре руками не-программистов

? Как рассчитать скидку за первый и последний этаж почти без формул в Excel

Если вы соскучились по технохардкору:

☁️ Big Data в облаках

?️ MLOps-платформа Dognauts для разработки и эксплуатации ML-моделей 

? FineBI 6.0: 9 полезных обновлений, о которых вы не знали

? Геопространственные технологии для управления паспортом медицинского участка → https://u.habr.com/cjUf2

Сезон Big Data мы проводим вместе с Газпромбанком до 7 июня. Если у вас есть интересный опыт в этой сфере, которым вы хотите поделиться, ждём ваших статей на Хабре → посмотреть всех участников и правила.

Всего голосов 6: ↑6 и ↓0+6
Комментарии0

Объемы данных растут, работа с данными усложняется и ускоряется. Какой должна быть современная BigData архитектура – определяем в новом сезоне на Хабре, который мы проводим вместе с Газпромбанком.

Сезон Big Data аккумулирует хардкорные материалы и вы сможете увидеть практический опыт других компаний. Наши первые участники сезона уже рассказали, как покоряют аналитику больших данных:

☁️ Big Data в облаках

?️ MLOps-платформа Dognauts для разработки и эксплуатации ML-моделей

? FineBI 6.0: 9 полезных обновлений, о которых вы не знали

? Геопространственные технологии для управления паспортом медицинского участка

В финтехе особенно важно уйти от субъективного принятия решения и автоматизировать рутинные операции с данными. Сейчас Газпромбанк реализует сразу несколько крупных проектов в области computer vision, NLP, графовой аналитики, геомоделирования. А как автоматизировать проверку данных и оценить индекс зрелости ИИ уже рассказали в статьях:

? Страдающее ML: как мы автоматизировали проверку данных

? Как и зачем оценивают индекс зрелости ИИ


Всего голосов 13: ↑13 и ↓0+15
Комментарии0

Вклад авторов