Обновить
83.84

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Если бы Гартнер стал русским…февраль 2024
Если бы Гартнер стал русским…февраль 2024

Мы уже писали большой текст про рейтинги и наше отношение к ним, но начало года стало очень горячим, начали обсуждать свежие рейтинги от интернет изданий и частных экспертов, выпускать подкасты и зазывать на круглые столы ( «везде инфа сотка конечно же»). И мы решили дать рынку свою картину на сегодня, ответив на вопрос - как выглядел бы Гартнер в России в 2024 году.

Естественно мы понижаем планку для всех участников, чтобы соблюсти масштаб. Пока никто даже близко не приблизился к лидерам по Гартнеру, но работы проделали действительно много. По лидерам в нашей версии можем точно сказать, что у них иксы в скорости разработки продукта. У них отличный агрессивный маркетинг! Главное, чтобы вся эта гонка не превратилась в грязную игру, когда клиентам начинают лить дезу про конкурента.

Мы выделяем 4 платформы лидера на сегодня: Модус, Визиолоджи ( извините ребята, но пока только 2 версия!), PIX BI и дедушку Форсайт. Считаем, что к ним может ворваться AW в обозримой перспективе, Барс со своими историческими заходами в рынок точно найдет пару знатных клиентов и ребята раскроют свой потенциал.

Догоняет лидеров Яндекс DL, но пока там свой сегмент рынка с моделью аля Гугл. Люкс мс и Альфу относим в сектор Визионеров. Первые идут больше путем замены оракла. Вторые работаю с крупным бизнесом, кстати в годовом отчете от люксов ни одного нового имени не прозвучало. Жаль.

Остальные платформы пока в нишевых. Надо больше витаминов кушать в этом году им.

Осенью посмотрим, что изменится в рынке!

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Хабр, привет!

Хотим напомнить, что сегодня в 11:00 МСК у нас пройдет вебинар «Управление базами данных в Greenplum: мониторинг и удаление мусора». Расскажем, как правильно собирать и удалять мусор в реляционных СУБД вообще и в Greenplum в частности.

?‍? Спикеры:

Алексей Пономаревский, ведущий администратор БД ITSumma
Иван Хозяинов, руководитель направления больших данных ITSumma

? О чём:

Вакуумирование данных и для чего оно нужно
Инструменты и специфика вакуумирования в Greenplum
Мониторинг раздутых таблиц и стратегии вакуумирования
Решения и практики, которые минимизируют возможные проблемы

Регистрация: https://clck.ru/38NWH7

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Доброго времени суток, сообщество Хабра!

На днях вышла статья, где мной проводился анализ задач через API Codewars. Для тех, кто не успел ознакомиться, можно пройти по ссылке: https://habr.com/ru/articles/783326/

В данной статье был проведён опрос, результаты которого определили, что сообщество желает посмотреть решение задачи в GitHub.

Поэтому сюда прикрепляю ссылку GitHub репозитория с анализом статистических данных CodeWars: https://github.com/Dess1996/CodeWarsStat/blob/main/Katas.ipynb

Благодарю всех, кто принял участие в опросе.

До новых встреч!

Теги:
Рейтинг0
Комментарии0

Свежие рейтинги платформ BI или это что-то новое?

Несколько дней назад наша команда увидела интересный, назовем это словом «слив», в одном из профильных телеграмм каналов. Речь идет о круге Громова и о ее части, связанной с выполнением вендорами конкретного технического задания. Судя по картинке, есть те кто справился с задачей на 5+, а есть те, кто вроде бы входит в топ 5 платформ, но при этом задачу решил на троечку. Как такое возможно? Науке пока неизвестно, пока есть только цифры!

Круг Громова - выполнение ТЗ (пилота) разработчиками BI платформ
Круг Громова - выполнение ТЗ (пилота) разработчиками BI платформ

Попробуем в этом позже разобраться. А пока очень интересная расстановка сил. Не увидели ребят из Яндекс и огорчились сильно низкой позицией Визиолоджи, неужели рисковали и делали пилот на сыроватой третьей версии? С другой стороны радует готовность платформ и уровень команд от PIX, Альфа и Cubisio.

Попробуем позже получить доступ к полному отчету и посмотрим, какова расстановка в самом круге! Всех с наступающими длинными праздниками!

Теги:
Рейтинг0
Комментарии0

Нешуточный шум сегодня поднялся в телеграмм каналах, связанных с аналитикой. Причиной стало продолжение серии PIX Красивое от PIX BI. На этот раз рассматривалась тема темных дашбордов, которая потом переросла в большую дискуссию в канале Russian BI Chat.

Хотим поделиться своим мнением про светлое и темное:

  1. Тренд в сторону темных тем в дашбордах не новый, но актуальный. По статистке 3/4 респондентов выбирают темную тему, об этом действительно много писалось и есть исследования. Тренд этот никуда не ушел, а в ковидные времена кстати, число темных дашбордов сильно увеличилось. И это реальный факт!

  2. Темная тема на дашборде это не просто кнопка вкл/выкл темный фон. Речь все-таки идет о полноценном дизайне внутри каждого объекта. Необходимо соблюдать корпоративный стиль компании и проще всего часть этой темы запаковать в шаблон. Далее в любом случае потребуется доработка визуализаций до некой идеальной картины. И в организации часто у топов живут два (!) дашборда в светлой и темной форме, которые хитро запакованы в незаметное для глаза переключение между листами.

  3. Кнопка включения «темного» фона дашборда нужная и интересная фича, но она больше про комфорт обычного пользователя. Здесь же речь больше шла, на наш взгляд, о «богатых» дашбордах в темных тонах. То есть некорректно показывать светлые тона на диаграмме из светлого дашборда на темном фоне. Будет очень рябить. Нужно все таки допилить руками объекты.

    Спасибо всем экспертам, которые несут знания в массы и делятся ими бесплатно!

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии0

Переварил и делюсь ключевыми идеями Tristan Handy (CEO dbtLabs) о новом опыте работы с dbt

(выпуск My first week with the new dbt, рассылка Analytics Engineering Roundup)

Старт разработки без головной боли

Это замечательно и то, что нужно. Фокус аналитика - на создании аналитических приложений, а не на борьбу с зависимостями, version upgrades и поиск error codes на stackoverflow. Чем больше чистого времени у аналитика, тем больше результатов можно получить.

Я уже давно использую devcontainers и даже писал об этом для тех же целей - это бесплатно и не требует иметь лицензию dbtCloud.

Auto-deferral

Я давно использую defer в рамках CI tests (= прогон и тесты только изменяемых graph nodes). Теперь, в рамках dev это ускоряет процессы разрабтки на порядок.

Жаль, что удобно использовать это можно пока только в dbtCloud.

Из связанного, на ум сразу приходит фича Snowflake zero-copy clone.

Data Mesh

Коротко, это про то, чтобы DWH разделить на зоны ответственности и дать командам развивать интересующие их области самостоятельно, по их правилам.

Называйте это Microservices в Data.

Задействованы и технические аспекты (как это реализовать) и организационные (кто владеет ownership).

Это скорее релевантно крупным компаниям, в которых как минимум несколько отделов-ветвей заинтересованы в data services, у них есть свои ресурсы на разработку и устоявшиеся правила. По моим оценкам, доля таких компаний среди пользователей dbt пока не очень велика. Но это тренд!

Теги:
Рейтинг0
Комментарии0

ДатаБэнкси посетили TAdviser Summit 2023!

Мы еще поделимся своими наблюдениями и комментариями, если будет что-то стоящее. А пока случай, который не вписывается в рамки бытия. На рынке разгораются нешуточные события, российские разработчики вдруг осознали, что они не одни здесь живут и есть реальная угроза из Поднебесной!

Главу Минцифры Максута Шадаева спросили прямо и в лоб, текста было много сделаем далее краткий пересказ.

Как нам российским разработчикам софта быть и будете ли Вы нас оберегать и защищать? На рынок идет орда во главе с князем, говорят, что они тоже русский софт, но это не так, они маскируются!

Ответ министра был кстати четким. Не пропустим таких, назовите конкретные фамилии, возьмем на карандаш. Мы за отечественное на 100%

Не трудно догадаться, что речь идет о китайской Fine Bi. А что, кто-то из госов или окологосов всерьез надеется, что китайцы войдут в реестр и их можно будет по 44 фз или 223 фз купить после 2024 года? Хотя кто знает, машины же под Тулой собирают…

Теги:
Рейтинг0
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_12

?Вопрос_12: Expectation-Maximization (EM) ?

Expectation-Maximization (EM) - это итерационный алгоритм, который используется для оценки параметров вероятностных моделей, когда некоторые данные являются наблюдаемыми, а другие данные являются скрытыми или неполными. EM-алгоритм часто применяется в статистике и машинном обучении для обучения моделей с неизвестными параметрами.

EM-алгоритм состоит из двух основных шагов: шага ожидания (Expectation) и шага максимизации (Maximization).

  1. Шаг ожидания (Expectation step, E-шаг): На этом шаге вычисляются ожидаемые значения скрытых переменных (или "ответственностей") в соответствии с текущими значениями параметров модели. Это делается путем вычисления условного математического ожидания скрытых переменных при условии наблюдаемых данных и текущих параметров модели.

  2. Шаг максимизации (Maximization step, M-шаг): На этом шаге обновляются параметры модели, чтобы максимизировать ожидаемое правдоподобие, полученное на E-шаге. Обновление параметров происходит путем решения оптимизационной задачи, которая может включать максимизацию правдоподобия или минимизацию ошибки между наблюдаемыми данными и ожидаемыми значениями.

    t.me/DenoiseLAB (Еесли вы хотите быть в курсе всех последних новостей и знаний в области анализа данных);

    https://boosty.to/denoise_lab (Если вы хотите поддержать проект, или получить более модные фишки по коду и продвижению подписывайтесь).

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

AgroCode Talks от Россельхозбанка: все о технологиях в сельском хозяйстве.

Митап «Big Data. Как анализ больших данных меняет сельское хозяйство» – место встречи людей, которые создают инновационные технологические решения в АПК.

Кого ждем?

Стартапы, представителей малого и крупного бизнеса, специалистов DS, CV и ML, также всех неравнодушных к будущему сельского хозяйства.

О чем поговорим?

– отраслевые проблемы, которые можно решить Big Data – от Digital Agro;

– развитие рынка трансфера технологий и аналитики больших данных – от Inventorus;

– применение подходов Big Data: контроль активности и подсчет животных, классификация зерновых культур — от Napoleon IT;

– современные научные методы моделирования для АПК – от Tensor Fields;

– промышленная робототехника будущего – от Maslov. ai.

Когда?

Ждем вас 15 ноября в 18.00. Участие бесплатное, по предварительной регистрации и модерации на сайте РСХБ в цифре.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_2

?Вопрос_2: Объясните, что такое One-hot encoding и Label Encoding. Как они влияют на размерность заданного набора данных ?

✔️Ответ:

One-hot encoding - это представление категориальных переменных в виде двоичных векторов, при котором каждая уникальная категория переменной преобразуется в новый бинарный столбец, называемый "фиктивной переменной". В этом новом столбце значение 1 указывает на принадлежность к соответствующей категории, а значение 0 - на принадлежность к другим категориям. Таким образом, каждая уникальная категория представлена отдельным столбцом. Это позволяет алгоритмам машинного обучения интерпретировать категориальные значения и использовать их в расчетах. Не создает ложного упорядочения или отношения между значениями категориальных переменных и помогает избежать проблемы ложной корреляции между категориями переменных. Однако, использование one-hot encoding увеличивает размерность набора данных ("проклятие размерности").

Label Encoding - это процесс преобразования каждого значения категориальной переменной в целочисленный код. Каждой уникальной категории присваивается уникальное число. Label Encoding не добавляет новые столбцы к набору данных и не увеличивает размерность. Однако, важно понимать, что числовые значения, присвоенные категориям, могут создать ложное упорядочение или отношение между ними. 

#work #coding #testing #optimization #ml #learning

Телеграмм: https://t.me/DenoiseLAB

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_1

?Вопрос_1: Чем ковариация и корреляция отличаются друг от друга?

✔️Ответ:

Ковариация и корреляция - это два статистических показателя, которые используются для определения связи между двумя случайными величинами.

Ковариация измеряет степень, в которой две переменные меняются вместе, тогда как корреляция измеряет не только степень, но и направление отношения между двумя переменными.

Ковариация подразумевает, что две величины меняются в одном направлении: если одна увеличивается, то вторая тоже увеличивается, или если одна уменьшается, то другая тоже уменьшается. Однако, ковариация не учитывает, насколько сильно или слабо эти переменные меняются.

Корреляция, с другой стороны, учитывает не только направление, но и силу отношения между двумя переменными. Коэффициент корреляции может принимать значения от -1 до 1. Значение +1 для корреляции означает, что две переменные имеют прямую связь и полностью коррелируют. Значение -1 для корреляции означает, что две переменные находятся в обратной пропорциональной связи. Значение 0 для корреляции означает, что между двумя переменными нет связи.

#work #coding #testing #optimization #ml #learning

Телеграмм: https://t.me/DenoiseLAB

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии0

Мой проект DataBanksy стартовал довольно быстро и самое интересное, что я нашел единомышленников, которые готовы делиться с Вами своим опытом и знаниями в области аналитических систем. У нас теперь небольшая команда, но суммарная база знаний в области BI выросла кратно. По понятным причинам свои имена мы раскрывать не будем, поскольку рынок этот очень тесный, и наша правда может не нравится некоторым. Но! Нет задачи принижать качества той или иной платформы или восхвалять другую. Относитесь к нам, как просто к мнению группы людей, которые живут в мире BI уже очень давно. Будем и дальше писать для Вас, кому то уже начинает не нравиться наш текст и сразу после публикации мы получаем понижение в карме, но это нас только мотивирует продолжать говорить то, что мы думаем и нести знания в общество. Команда будет расти и будут новые DataBanksy в наших рядах.

Теги:
Рейтинг0
Комментарии0

Коллеги, сейчас раскрываю тему РФ рынка аналитических платформ. Есть несколько тем на будущие статьи. Хотел обратиться к Вам, что было бы интересно? Может быть будут интересные острые темы от Вас?

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Ближайшие события

Сколько раз звонить, чтобы дозвониться. Наша странная реальность и теория вероятности. Является ли попытка дозвониться аналогом подбрасывания монеты

Бывают ситуации когда надо дозвониться до какой-то организации или человека, но телефон адресата то занят, то не отвечает, то вне зоны доступа и т.д. Мне попались любопытные данные внутренней статистики от одного из провинциальных операторов связи. Получается оптимальное количество попыток 4..7, а больше 15 раз делать попыток дозвониться теряет смысл, вероятность дозвона сильно уменьшается. И всё-таки это не подбрасывание монетки.

Теги:
Всего голосов 6: ↑4 и ↓2+2
Комментарии1
That's all, folks! Вчера был последний день приёма заявок для участия в сезоне Big Data, и 13 июня мы узнаем победителя. 
That's all, folks! Вчера был последний день приёма заявок для участия в сезоне Big Data, и 13 июня мы узнаем победителя. 

А пока встречайте последних участников со статьями о распределенной обработке данных, вариации архитектур для задач детекции, аналитике данных и антифроде в логистике:

? Масштабируемая Big-Data-система в Kubernetes со Spark и Cassandra

Все DETRы мира: denoising queries и positive anchors. Часть 2

??‍? Что такое Self-Service BI и зачем он нужен?

?️ Расчет скидки за первый и последний этаж в Excel (Часть 2)

? Как «Почта» моделирует риски потери отправлений

Сезон Big Data мы провели с Газпромбанком. Новые статьи больше не принимаются. Ваши голоса могут повлиять на итоговый рейтинг — голосуем и выбираем победителя сезона по ссылке ?

Всего голосов 7: ↑7 и ↓0+7
Комментарии0

На наш бигдата-торт упали ещё три больших вишни: рейтинговые хабрааавторы рассказали про оптимизацию расходов на железо, кластеризацию sms‑сообщений с pyspark.ml и проверку госзакупок с помощью СУБД BaseX:
? Сassandra для бедных — пускаем в ход HDD
? Кластеризация текста в PySpark
? Извлечение открытых данных сайта zakupki.gov.ru с помощью СУБД BaseX

Другие интересные кейсы:
? Бигдата, ты ли это?  
? Как дать крылья своей сводной таблице в Apache Superset
? Все DETR’ы мира
? Байесовский подход к A/B-тестированию
? Геопространственные технологии для управления паспортом медицинского участка

Посмотреть всех участников и правила сезона можно по ссылке. Если вы тоже хотите поделиться опытом, ждём ваших статей на Хабре. Только поторопитесь, сезон Big Data мы проводим вместе с Газпромбанком до 7 июня.

Всего голосов 12: ↑12 и ↓0+12
Комментарии0

В бигдате два вида спорта. Первый — организация загрузки, мониторинга и бэкапирования, второй — применение имеющихся данных для бизнес-задач. Участники сезона Big Data уверенно идут в обоих дисциплинах.

Читайте невыдуманные истории о том, как ошибки в мониторинге привели к 30 Tb лишних данных, а также о структурирования кредитного портфеля и неклассической детекции.

? Бигдата, ты ли это?

? Структурирование кредитного портфеля методами машинного обучения

? Все DETR’ы мира

Какие ещё были интересные кейсы в сезоне:

? Байесовский подход к A/B-тестированию

? Как дать крылья своей сводной таблице в Apache Superset

? Как мы делали скоринг на микросервисной архитектуре руками не-программистов

? Геопространственные технологии для управления паспортом медицинского участка

⚖️ Тварь дрожащая или право имею: как мы лепили виртуального юриста из русскоязычных нейросетей

Если вы тоже хотите поделиться опытом, ждём ваших статей на Хабре. Только поторопитесь, сезон Big Data мы проводим вместе с Газпромбанком до 7 июня.

Всего голосов 10: ↑10 и ↓0+10
Комментарии0

До конца сезона Big Data осталась всего пара недель! Решится ли кто-то ворваться под конец с хардкорной статьей — и победить?

А пока — встречайте новых участников, которые ещё раз напомнили нам золотое правило: именно сбор, обработка и классификация больших данных позволяют получить качественные ИИ-модели и аналитику:

⚖️ Тварь дрожащая или право имею: как мы лепили виртуального юриста из русскоязычных нейросетей

? Её величество Иерархия. Классификация и способы хранение в MS Excel

? Анализ таблиц сопряженности средствами Python

Топ самых популярных статей сезона Big Data:

? Байесовский подход к A/B-тестированию

? Сравнение технологии JuniStat и лазерных систем для беговых тестов

? Как дать крылья своей сводной таблице в Apache Superset

☁️ Big Data в облаках

? Как мы делали скоринг на микросервисной архитектуре руками не-программистов

? Как рассчитать скидку за первый и последний этаж почти без формул в Excel

Сезон Big Data мы проводим вместе с Газпромбанком до 7 июня (по ссылке полный список статей сезона).

Всего голосов 7: ↑7 и ↓0+7
Комментарии0

Если ко всему подходить осознанно, то с Big-Data-аналитикой можно решать любые задачи. Участники сезона Big Data на Хабре точно оценивают недвижимость, измеряют время рывка в забегах, создают мастер-базу для управления территорией, находят новые алгоритмы А/Б-тестов и оптимизируют бизнес-процессы (в хорошем смысле этого слова).

? Байесовский подход к A/B-тестированию

? Сравнение технологии JuniStat и лазерных систем для беговых тестов

? Применение методов CRISP-DM для анализа Big Sales Data

? Data-driven-рост с помощью науки о данных и машинного обучения  

? Как рассчитать скидку за первый и последний этаж почти без формул в Excel

? Геопространственные технологии для управления паспортом медицинского участка

Если вы тоже хотите поделиться опытом, ждём ваших статей на Хабре. Сезон Big Data мы проводим вместе с Газпромбанком до 7 июня → Достучаться до ИИ: сезон больших данных на Хабре (по ссылке полный список статей сезона — посмотрите, там ещё много интересного).

Всего голосов 10: ↑10 и ↓0+10
Комментарии0

При слаженном DataOps данные — как вода из крана: всегда есть, поэтому можно и забыть, откуда она берётся. Большие данные не сами собой собираются из разных источников, попадают в высокоэффективные ETL/ELT-конвейеры, очищаются и загружаются в корпоративные хранилища. Участники сезона Big Data напоминают, что с DataOps всё не так-то просто:

?️ Как мы организовали Data Warehouse в MANGO OFFICE

? Мигрируем с Qlik: как создать надёжное хранилище для ваших данных

?️ MapReduce: как и зачем?

? Как дать крылья своей сводной таблице в Apache Superset

☁️ Big Data в облаках

?️ MLOps-платформа Dognauts для разработки и эксплуатации ML-моделей

Сезон Big Data мы проводим вместе с Газпромбанком до 7 июня. Если у вас есть опыт в этой сфере, которым вы хотите поделиться, ждём ваших статей.

Всего голосов 10: ↑10 и ↓0+10
Комментарии0

Вклад авторов