Обновить
56.97

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

RLS в действии: как решить вопросы доступа в BI за 5 минут

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.1K

Когда бизнес-аналитика внедряется как корпоративный инструмент, ее пользователями становятся сотни или даже тысячи людей из разных подразделений. Кроме этого нередко результаты прогнозов, расчетов и визуализаций все чаще выкладывают прямо на порталы или открывают к ним доступ без авторизации, чтобы сторонние наблюдатели могли получить важную для себя информацию. Все это порождает проблемы конфиденциальности, которые раньше решались с помощью дублирования данных и создания нескольких контуров BI. Но, как говорится, «есть способ лучше»! Сегодня мы поговорим про механизм Row Level Security (RLS), который позволяет и BI предложить сразу всем, и доступ разграничить, и не плодить личные сущности. Ну а подопытным, которому мы будем ограничивать доступ в наших примерах, как вы уже догадались, будет Александр Сергеевич.

Читать далее

Жизнь после SAP: импортозамещение платформы данных

Время на прочтение7 мин
Количество просмотров7.7K

Последние пару лет не перестает сходить с первого плана вопрос импортозамещения софта ушедших вендоров. Мы занимаемся данными, поэтому и делимся опытом импортозамещения платформ данных у наших enterprise заказчиков.

Если попробовать классифицировать причины импортозамещения, то это могут быть снижение вендорских рисков, требования Минцифры, сложность и стоимость закупки сертифицированного «железа» под импортные платформы и так далее.

Кстати, далеко не на последнем месте запрос команд разработки и поддержки на реализацию проектов на российском и open source технологическом стеке. Российский рынок вакансий на западном проприетарном вендорском ПО постепенно сужается, так как сейчас спрос российских компаний на такой софт стремится к нулю и такие системы постепенно превращаются в Legacy.

Так или иначе, российский крупный бизнес постепенно приходит к задаче импортозамещения и вместе с этим к целому спектру сложных задач, начиная от выбора подходящих целевых систем и технологий и их «допиливания», разработки,внедрения, до удовлетворения ожиданий не всегда простых бизнес-пользователей.

Разделим проблему на две части – подходящий апробированный технологический стек с формированием команды и сатисфакция бизнес-пользователей.

Читать далее

Вычисляем Вес в приросте в Superset

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров5.8K

Сегодня я продолжу знакомить вас с нестандартными задачами, которые появляются в моей работе, и способами их решения.

За информацию из этой статьи, я был готов заплатить деньги, убить или сходить на концерт Шамана.

Уверен, что мой рассказ будет полезен не только пользователям Superset, но и всем аналитикам, которые используют SQL в своей работе и учёбе.

Не буду рассказывать про базовое построение таблиц на BI системе Superset, с этим прекрасно справятся тонны видео на ютубе и бесполезные курсы (про которые я писал ранее). Но сразу скажу, что суперсет в отличие от некоторых других BI систем начинает раскрываться только если ты знаешь SQL, так что хотим мы этого или нет – погружаться в тонкости языка придётся.

Больше двух недель на поиск оптимального решения, ошибки, костыли и элегантный финал.

Итак, Что такое «Вес в приросте» и чем он отличается от обычного «Прироста», и в чем собственно говоря — сложность?

Разберёмся на примере:

Читать далее

Цифровое моделирование

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров5K

Все три российских углеводорода – нефть, газ и уголь – будут востребованы на мировых рынках на десятки лет вперед. Такой вывод напрашивается исходя из энергетической стратегии России, которая сейчас разрабатывается вплоть до 2050 года.
не только Китай, но и Европа в этом году покупает больше российского газа. 
Задача совершенствования разведки месторождений, разработки его инфраструктуры, добычи, переработки, транспортировки, поставки заказчикам договорных объемов требует от специалистов внедрения самых современных технологий на всех этапах проектирования и сопровождения существующих добывающих комплексов. Там, где таких технологий нет, их приходится создавать практически с нуля самостоятельно. Очень важно при этом использовать наработки в области цифрового моделирования объектов, всех процессов, включая управление месторождением в целом.

Цель публикации в первую очередь образовательная, познавательная, популяризация науки, а также стремление привлечь в ряды исследователей, в науку приток новых молодых (и не очень) умов, вызвать в таких умах стремление к поиску ответов на возникающие вопросы.  Масштабность темы требует ввести разумные ограничения на излагаемый материал после краткого панорамного её рассмотрения.

Читать далее

Читать далее

Эмпатичные аватары: измеряем эмпатию в диалогах людей и воплощенных чат-ботов

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.1K

Если в автомобильной пробке голосовой помощник пожалуется, что он эти пробки тоже терпеть не может, то водителю и пассажирам станет легче, что не они одни мучаются. В психологии это называется раппортом и обычно ведет к доверительным отношениям между людьми. Если представить, что чат-боты тоже способны сопереживать, а главное, что люди это ценят, то чем это не сильный эмоциональный ИИ? На примере диалогов между людьми и чат-ботами попробуем разобраться, насколько эмпатичны аватары сегодня и какие фичи им можно еще добавить.

Читать далее

Как аналитикам создавать продающие истории с помощью BI

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров4.4K

Ситуация: на вашем столе лежит отчет, состоящий из множества таблиц и диаграмм. Вам нужно на его основе принять важное решение, но времени катастрофически не хватает. Или другой сценарий: вы провели масштабное исследование, собрали данные, проанализировали их, и теперь нужно эффективно донести результаты до заказчика или лица, принимающего решения. Как это сделать, не превратив презентацию в унылый набор цифр и графиков?

И как это сделать?

Как DWH и BI-аналитика может помочь устранить до 80% ошибок при планировании отгрузок на маркетплейсы

Время на прочтение8 мин
Количество просмотров3.9K

Для проведения многомерного анализа продаж и разработки дальнейшей стратегии, необходимо учитывать не только розничные и онлайн-продажи, но и проводить анализ результатов торговли и результатов конкурентов на маркетплейсах: объем заказов, выкупа и возвратов, остатки на складах, затраты на логистику, сравнение с конкурентами и т. д.

Получить единый доступ к данным из Wildberries, Ozon, Яндекс Маркет и платформ аналитики маркетплейсов (Маяк, SellerFox, Moneyplace, MPStats) помогут корпоративное хранилище данных и аналитические приложения на базе современной BI-платформы.

В статье на примере дашбордов, разработанных для крупного производителя детской одежды с более 70 магазинами в России и странах СНГ, рассказываем, как DWH и BI могут помочь:

• Разрабатывать новые стратегии маркетинга и продаж на маркетплейсах
• Проводить ABC-XYZ анализ товаров
• Планировать отгрузки продукции на склады

Читать далее

Как искусственный интеллект  помогает лечить рак почек. Патология, диагностика, прогноз (часть 2)

Уровень сложностиСложный
Время на прочтение23 мин
Количество просмотров43K

Привет, это команда МедТех ИИ и дирекции по искусственному интеллекту и цифровым продуктам билайна и врачи-учёные из Сеченовского университета. И это вторая часть нашей статьи из журнала  Biomedicines про применение искусственного интеллекта в диагностике рака почки. Первую часть можно прочитать тут.

Дифференциальный диагноз почечно-клеточной карциномы

Для достоверной диагностики и наблюдения за пациентами с различными типами почечно-клеточной карциномы (ПКК) необходимо точно определить гистологический вариант опухоли. Задача представляет собой дифференцирование между основными типами рака почки. Эту проблему тоже можно решить с помощью цифровой патологии. Внедрение искусственного интеллекта в рутинную гистопатологию позволит использовать дополнительные методы анализа для определения гистологического типа рака еще до того, как патологоанатом поставит точный диагноз, что значительно ускорит диагностический процесс. 

Читать далее

Анализ информации битового блока по количеству нулей и единиц в блоке

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1.2K

Среди методов анализа информации, в данной статье представлен анализ распределения плотности информации в битовом блоке данных. Данный метод может быть ориентиром при разработке методов сжатия информации, так как дает оценки как распределена плотность информации в зависимости от состава блока, который определяется количеством нулей и единиц, формирующих битовый блок данных.

Читать далее

Spider — всё! Новый движок Polars: прорыв в скорости работы FineBI 6.1

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.7K

Всем привет! На связи Business Intelligence GlowByte. Сегодня хотим поговорить о производительности системы бизнес-аналитики FineBI. Пару месяцев назад в нашем регулярном мероприятии FineTalks участвовали коллеги из ID360 и смотрели “под капот” FineBI 6.1. Хотим поделиться их инсайтами. Возможно, после сегодняшнего небольшого  “разбора” движка платформы вам тоже она понадобится. 🙂 Обращайтесь!

Читать далее

Укрощение ClickHouse: почему ДанКо делает Visiology намного быстрее

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров5.4K

Привет, Хабр! Сегодня мы поговорим о том, почему BI-платформам нужен движок, какие сложности создает ClickHouse для аналитиков, когда речь действительно заходит о больших данных, зачем нужно оптимизировать SQL и о многих других вещах, которые часто остаются «за горизонтом» в дискуссиях о BI и хранении данных. Говоря другими словами, я хочу рассказать о том, как мы разрабатывали ДанКо — новый движок, который лежит сегодня в основе Visiology 3, а главное — каким образом ДанКо позволяет достичь высокой производительности в аналитических задачах (в некоторых случаях показывая ускорение вплоть до х100)! Эта статья будет полезна тем, кто еще не сталкивался с задачей организации хранения аналитических данных компании, а также интересна тем, кто как раз, наоборот, уже делал это.

Читать далее

Симметрии СМ-модели, идемпотенты. Часть V

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров566

Продолжаем знакомство с моделью числа и ее свойствами, а конкретно, с симметриями, которое этой публикацией завершается. Симметрии излагались на разном уровне представления модели: областей строк, отдельных строк, элементов одной строки и элементов разных строк. Для читателей, ознакомившимися с моими предыдущими статьей 1(О разложении модели числа), статьей 2 (О симметриях...) и др. предлагается продолжить знакомство с проблемой моделирования и исследования чисел. Объект натуральный ряд чисел (НРЧ) настолько богат известными и совершенно новыми свойствами, что само их перечисление потребовало бы много места и времени.
В этой публикации рассматриваются симметрии, связанные с идемпотентами кольца. Их роль в отображении строк-дублей совершенно не похожа ни на что из рассмотренного ранее, как, впрочем, и для других «осей симметрии». Если, например, центральная строка СММ раздвигала\ сдвигала строки-дубли на постоянный интервал, то линия раздела строк идемпотентов, наоборот, как бы «склеивает» (делает смежными) удаленные строки.

Разговор о симметриях подходит к концу, возможно, мне не все удалось увидеть и рассмотреть, изложить текстом, но я старался исследованное мной явление описать в подробностях и деталях. Я представляю, что для проведения успешной атаки на шифр ключевую роль может сыграть «малозначащая» деталь, которую старался не упустить из внимания.   

Цель публикации в первую очередь образовательная, познавательная, популяризация науки, а также стремление привлечь в ряды исследователей, в науку приток новых молодых (и не очень) умов, вызвать в таких умах стремление к поиску ответов на возникающие вопросы.  Масштабность темы требует ввести разумные ограничения на излагаемый материал после краткого панорамного её рассмотрения.

Читать далее

Как искусственный интеллект  помогает лечить рак почек. Патология, диагностика, прогноз

Уровень сложностиСложный
Время на прочтение19 мин
Количество просмотров19K

Когда ИИ и нейросети только начинали своё шествие, то не раз и не два говорилось, что было бы здорово с их помощью синтезировать новые лекарства, находить лекарства от болезней, лечить людей.

Об одном таком направлении мы (команда ИИ и BigData в билайне) и расскажем в этом посте, а именно о том, как при помощи ИИ и цифровой патологии можно значительно расширить классические возможности лечения рака почки.

Под катом будет много врачебных терминов, но без этого никак.

Этот текст мы написали с врачами из Сеченовского университета и чуть ранее опубликовали в научном журнале Biomedicines, а сейчас перевели специально для Хабра.

Мы - это команда билайна: Александр Арутюнян и Виктор Гринин.

И наши коллеги-ученые из Сеченовки: Елена Иванова, Алексей Файзуллин, Пётр Тимашов и Анатолий Шехтер. 

Начнем.

Читать далее

Ближайшие события

Темная магия CALCULATE

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2.5K

Сегодня я раскрою вам мистические свойства функции CALCULATE.
Эта функция обладает удивительной силой и позволяет изменять контекст фильтрации, превращая простые заклинания в мощные артефакты анализа данных.
Позвольте мне, через древние примеры, показать вам, как и когда использовать это могущественное заклинание.

CALCULATE — это могущественное заклинание, которое принимает выражение и набор модификаторов фильтров в качестве аргументов, изменяя контекст фильтрации и возвращая результат выражения в новом контексте.

Простой пример с CALCULATE
Представьте себе таблицу Sales с колонной SalesAmount. Допустим, вы хотите вычислить сумму продаж только для определенной компании.

Произнесите заклинание:
SalesAmount_company = CALCULATE(
SUM('Sales'[SalesAmount]),
'Sales'[company] = "Magic")

Эти слова сосредоточат вашу магию на сумме продаж для компании "Magic ". Но это только начало, ведь CALCULATE может творить чудеса и более сложные.

Что, если вы хотите получить сумму продаж для компании "Magic " и только для отдела "gryffindor"?
Используйте следующее заклинание:
SalesAmount_company_gryffindor = CALCULATE(
SUM('Sales'[SalesAmount]),
'Sales'[company] = "Magic",
'Sales'[department] = "gryffindor")

Теперь ваше заклинание учитывает несколько условий, и магия происходит одновременно для нескольких фильтров, создавая точные и мощные результаты.

CALCULATE также прекрасно работает в сочетании с другими функциями DAX. Например, если вы хотите узнать количество уникальных проектов для компании "Magic ", произнесите заклинание:
UniqueProject_Magic = CALCULATE(
DISTINCTCOUNT('Sales'[ProjectID]),
'Sales'[company] = " Magic")

Это заклинание сочетает мощь CALCULATE и DISTINCTCOUNT, чтобы дать вам уникальные результаты в измененном контексте фильтрации.
Как видите, функция CALCULATE — это мощное заклинание, способное изменять контекст фильтрации и давать точные результаты.
Используйте CALCULATE, когда вам нужно модифицировать контекст фильтрации и применять сложные вычисления, которые невозможно достичь простыми функциями. Это заклинание должно занять достойное место в вашем арсенале Power BI.

Развернуть свиток

Симметрии модели числа. ЧКСС. Часть IV

Время на прочтение15 мин
Количество просмотров594

Продолжаем знакомство с моделью числа и ее свойствами, а конкретно, с симметриями на разном уровне представления модели: областей строк, отдельных строк, элементов одной строки и элементов разных строк. Для читателей, ознакомившимися с моими предыдущими статьей 1(О разложении модели числа), статьей 2 (О симметриях...) и др. предлагается продолжить знакомство с проблемой моделирования и исследования чисел. Объект - натуральный ряд чисел (НРЧ) настолько богат известными и совершенно новыми свойствами, что само их перечисление потребовало бы много места и времени.

Рассмотрение же конкретного свойства в деталях ограничивает автора с одной стороны располагаемыми знаниями, а с другой - ограниченным объемом публикации. Тем не менее, есть желание показать читателям развернутую картину проявлений такого свойства НРЧ, как симметрия в поведении элементов этого замечательного объекта.

Например, обращал ли кто-нибудь внимание на последовательности квадратичных вычетов (КВВ) элементов НРЧ по разным модулям, когда модель рассматриваем как фрагмент НРЧ или конечное числовое кольцо вычетов по модулю N. Эти квадраты следуют парами Rо, R1 и получают вид (21 пара) для N = 1961. Пары КВК 484 = 222;
529 =232
и 625 = 252; 676 =262 образованы смежными числами, для N = 1961 они окаймляют в 4-м слое средний вычет rcсс = 0; и для N = 2501 в 5-м слое средний вычет rcсс = 0.

Почему во втором случае N = 2501 квадраты следуют вначале с флексиями 0, затем с 12,
4= 22, 32, 42 ? Эти квадраты лежат в строках за пределами тривиальной области ТКВК и среди них нет кратных dб.

В табличках приведен порядок следования КВВ = КВК полных квадратов, объединенных в пары (верх\низ), всего 42 квадрата (для N = 1961) и 48 квадратов (для N = 2501). Каждый квадрат получен в некоторой точке хо и реализует решающий интервал (РИ), обеспечивающий получение решения задачи факторизации большого числа (ЗФБЧ) N, т.е. для вычисления делителей N. На основании закона распределения делителей можно записать соотношение di = хо ±√КВК и при необходимости воспользоваться алгоритмом Евклида НОД.

Читать далее

Рекурсивный отбор признаков. Динамический шаг в танце feature selection

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров1.7K

В статье рассматривается выбор оптимального шага при рекурсивном отборе признаков (RFE). Предлагаются три подхода: фиксированный шаг, динамический шаг, зависящий от количества признаков, и динамический шаг, основанный на значимости признаков. На основе как искусственно сгенерированных, так и реальных наборов данных проводится анализ эффективности каждого метода, выявляются их преимущества и недостатки. Также внимание уделяется недостаткам текущей реализации RFE в библиотеке Scikit-learn, и предлагаются пути их улучшения, а также креативные подходы к решению задач feature selection.

Читать далее

История визуализации данных: краткий исторический очерк

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров3.3K

В новом материале я хочу поговорить об истории визуализации данных. Речь не только о всяческих диаграммах (о чем недавно в нашем блоге была отдельная большая статья), но в принципе — как вообще появилась идея, что данные можно как-то кодировать и визуализировать? Как давно это началось? Через какие этапы развития прошла сама идея представления данных в наглядном виде? Есть ли еще куда развиваться, или мы уперлись в некий технический потолок? Обо всем этом — и не только.

Читать далее (очень много картинок!)

OSINT: инструментарий по анализу профилей VK

Время на прочтение2 мин
Количество просмотров196K

Подавляющее большинство OSINT-тусовки интересует анализ физ. лиц, что-ж, да будет так, подготовил вам подборку различных ботов и сервисов(ГБ и др. в список не включены, о них и ленивый знает, да и не OSINT это вовсе).

В РУ-сегменте основоположником анализа по соц. сетям является VK, телега хоть и стала отдаляться от понятия мессенджера трансформируясь в соц. сеть и набирать всё бОльшую популярность, но пока и рядом не стояла по объёму потенциально важной информации о цели.

Стоит отметить, что ВКонтакте уже начал умирать, и по моим предположениям, уже через два-три года былой актуальности от анализа ждать не стоит, народ заметно реже стал им пользоваться. Всё же, VK остаётся ключевым инструментом при анализе биографии человека, его интересов, окружения, происхождения и др.

1. 220vk Старый, добрый и весьма потрёпанный сервис, позволяющий определить скрытых друзей, узнать на кого подписалась/отписалась цель и её интересы исходя из подписок на сообщества и людей (с временным таймлайном), а также какие были изменения в профиле и др.

2. VKHistoryRobot Бот в тг, даст вам представление о том, как профиль выглядел в прошлом(очень полезен в случае, если профиль закрытый) предоставляет информацию в виде краткого дампа: Ф.И.; URL; фотография.

3. FindClone, search4faces сервисы обратного поиска изображения  по VK, позволяют произвести поиск профиля по загруженной фотографии, search4faces из этих двух - бесплатен.

4. Social Graph Bot бот в телеге, позволяющий выстроить графы взаимосвязей среди списка друзей , с этим инструментом вы поймёте: насколько разноплановое окружение, кто из списка друзей является родственником и т.д; легитимен ли аккаунт и имеет ли он связь с какой либо группой лиц. (применений масса, вот вам гайд с хабра

Ещё больше интересного и познавательного контента у меня в Telegram-канале — @secur_researcher

Читать далее

Темная магия SUM и SUMX

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров3K

Сквозь тьму и мистику я призываю вас к изучению и овладению искусством Power BI, чтобы возводить величественные визуализации и творить таинственную аналитику данных.

В этом чертоге знаний я буду делиться оккультными советами, таинственными руководствами и практическими ритуалами по темам, которые могут включать моделирование данных, заклинания DAX, проектирование отчетов и многое другое.
Мои заметки вы сможете искать по тегу #PBI_M1o

Сегодня я раскрою тайну различия между двумя древними функциями DAX: SUM и SUMX.

Вы могли бы ошибочно полагать, что они взаимозаменяемы, но на самом деле их сила различна. Позвольте мне, через древние примеры, показать вам, почему и как правильно использовать каждую из них.

Функция SUM

SUM — это простое заклинание, принимающее имя столбца в качестве аргумента и возвращающее сумму всех значений в этом столбце.

Представьте себе таблицу Sales с колонной SalesAmount.

Произнесите заклинание:
SalesAmount = SUM('Sales'[SalesAmount])
И получите общую сумму продаж в ваших данных. Легко, не так ли? Но что, если вы хотите наложить свою магию или вычисления на каждую строку перед их суммированием?

Что, если столбец SalesAmount отсутствует, и вам нужно его создать? У вас есть столбцы OrderQuantity и UnitPrice. Мы не можем просто сложить их и умножить результат, чтобы получить SalesAmount, ибо нам необходимо умножить каждый столбец в каждой строке и затем сложить результаты.

Вы могли бы создать вычисляемый столбец и использовать его в функции SUM, но я предложу более изощренное заклинание.

Развернуть свиток

Симметрии модели числа. Часть III

Время на прочтение13 мин
Количество просмотров1.3K

Продолжаем знакомство с моделью числа и ее свойствами, а конкретно, с симметриями на разном уровне представления модели: областей строк, отдельных строк, элементов одной строки и элементов разных строк. Для читателей, ознакомившимися с моими предыдущими статьей 1(О разложении модели числа), статьей 2 (О симметриях...) и др. предлагается продолжить знакомство с проблемой моделирования и исследования чисел. Прошелся по результатам анализа своих публикаций и очень благодарен разработчику этого объективного механизма оценивания чужого внимания к авторским работам. Как же порой мы ошибаемся!

Те статьи, которые мне казались замечательными и необходимыми, читатели таковыми не считают. А где-то даже наоборот. Я допускаю, что аудитория очень разноплановая и уровень подготовки от школьного до настоящего доктора наук (есть наверное популяризаторы, которым нравится такая аудитория), но все мы в оковах собственного сознания и самосознания.

В моей памяти образ физика Ампера, который поставил перед собой задачу раскрыть связь явлений магнитных и электрических, чтобы не забывать о задаче, в карман пиджака положил магнит (он ему о ней напоминал). Порвал несколько пиджаков, но результата не было.

Экспериментальная установка катушка провода, железный стержень, батарея в цепи с катушкой вольтметр\амперметр, ключ.

Для уменьшения влияний прибор вынесли в другую комнату.

Замыкали цепь, в катушку вставляли стержень и оба с помощником шли к прибору смотреть показания. Прибор не показывал ничего. Так шло время, пока однажды помощник не застрял около прибора, и не увидел как его стрелка качнулась! Крикнул: что вы сделали, прибор ожил!.

Рано или поздно это должно было случиться и оно случилось!

Изучая свойства, мы обогащаем наши знания об объекте. В какой-то момент (случайный или нет). Знаний станет столько, что они свяжутся воедино и приведут к искомому решению. Отсюда терпение, тщательность, аккуратность регистрируемость, поиск новых гипотез их проверка и т.п. вещи.

Цель публикации в первую очередь образовательная, познавательная, популяризация науки, а также стремление привлечь в ряды исследователей, в науку приток новых молодых (и не очень) умов, вызвать в таких умах стремление к поиску ответов на возникающие вопросы.  Масштабность темы требует ввести разумные ограничения на излагаемый материал после краткого панорамного её рассмотрения

Читать далее