Как стать автором
Обновить
60.16

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Два подхода моделирования исторических данных

Уровень сложности Средний
Время на прочтение 2 мин
Количество просмотров 915

Перевод статьи с Medium

В статье обсуждаются моделирование данных для хранения исторических данных, включая использование временных таблиц и исторических таблиц.

Временные таблицы добавляют две даты к каждой записи для определения периода актуальности данных, в то время как исторические таблицы сохраняют только последние записи в основной таблице, перемещая старые записи в отдельную историческую таблицу.

Это обеспечивает более четкий аудит изменений и улучшает производительность запросов к историческим данным, но требует дополнительного хранения и обслуживания.

Читать далее
Всего голосов 8: ↑5 и ↓3 +2
Комментарии 2

Новости

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 2: Классическое машинное обучение

Уровень сложности Средний
Время на прочтение 13 мин
Количество просмотров 2.5K

Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).

В предыдущей статье я поделился материалами для подготовки к одному из самых волнительных (для многих) этапов - Live Coding.

В этой статье рассмотрим материалы, которые можно использовать для подготовки к секции по классическому машинному обучению.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 0

Как делить пользователей на группы в АБ-тестах: ошибки и рекомендации

Уровень сложности Средний
Время на прочтение 10 мин
Количество просмотров 1.1K

В предыдущих статьях статья 1, статья 2, статья 3 мы рассмотрели основные подводные камни автоматизации и анализу АБ тестов, привели подробный обзор статей по этой теме, а так же рассмотрели типичные задачи аналитика данных. В контексте АБ-тестов одним из ключевых аспектов является механизм разделения на группы, который в терминологии специалистов часто называется сплитовалкой.

Может показаться, что задача элементарная - сгенерировать случайное целое число каждому пользователю с вероятностью 1/n, где n - число групп в АБ тесте. Но на практике, особенно для высоконагруженных сервисов, таких как Ozon, возникает множество архитектурных и платформенных сложностей. В данной статье мы сконцентрируемся на основных принципах деления на группы, принятых в индустрии.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 1

Элегантный стек данных для встроенной аналитики

Время на прочтение 8 мин
Количество просмотров 1.4K

Контекст


По работе мне доводилось иметь дело с аналитическими стеками любых конфигураций и размеров. Мы на собственном опыте изучили, что цена стека для встроенной аналитики данных, расположенного за фронтендом, может моментально вырасти настолько, что об окупаемости инвестиций и речи не будет. Такой риск существует, если тщательно не просчитать 1) модели ценообразования для разных технологий и затраты на единицу продукции, 2) реализованную стоимость 3) производительность труда разработчика.

Сейчас появилась целая волна инструментов, созданных специально для решений из области встраиваемой аналитики, поэтому я решил набросать этот пост, в котором покажу, как некоторые из этих инструментов сочетаются друг с другом, и почему они так хороши.

В этой статье будут исследованы соотношения затрат/ценности и преимущества нескольких стеков, ориентированных на работу с данными, а именно MotherDuck / Cube / React (MDCuRe)
Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 0

Истории

Проверь себя: Ты — знаток мира BI?

Уровень сложности Сложный
Время на прочтение 2 мин
Количество просмотров 1.5K

Привет, Хабр! А сейчас у нас на кону интересное развлечение. Мы предлагаем вам угадать двух тайных экспертов марафона по визуализции “Ничего Лишнего”, которые будут принимать участие в двух днях работы с участниками. Под катом — краткие характеристики наших героев, а также варианты ответов. Проверьте себя, насколько вы знаете мир BI (или проверьте свою интуицию, что тоже забавно).

Читать далее
Всего голосов 9: ↑6 и ↓3 +3
Комментарии 0

Пользовательские карты в Дельта BI

Уровень сложности Средний
Время на прочтение 3 мин
Количество просмотров 212

В функционале Дельты есть возможность импорта пользовательских карт, которые можно в дальнейшем использовать вместо стандартных форм, входящих  в геопространственную базу данных Дельты. Такая возможность может быть полезна, например, если требуется создать карту, отображающую крупные регионы, объединяющие несколько стран (Евросоюз, СНГ, страны Азиатско-Тихоокеанского региона и т.п.)

Или, как будет рассмотрено в данном примере, будет загружена карта административных округов Москвы.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 0

«Иногда твоя работа выглядит магией»: что делают дата-сайентисты в промышленности и почему так востребованы

Время на прочтение 10 мин
Количество просмотров 8.5K

Привет, Хабр! Меня зовут Светлана Потапова, я руковожу «Северсталь Диджитал» — подразделением ИТ-функции Северстали, которое занимается разработкой и внедрением решений на основе машинного обучения.

Data Science уже давно вышла за пределы ИТ-компаний, шагнула дальше банков и телекома и пришла в промышленность, в том числе тяжёлую. Все обратили внимание на работу с данными, ведь они справедливо считаются новой нефтью, а их правильное использование даёт компаниям существенные преимущества. Обилие разнообразных задач со своей спецификой привело к появлению отдельного направления — Data Science (DS) в промышленности. 

В этой статье расскажу, зачем становиться дата-сайентистом в промышленности, кто это такой и чем занимается и почему повышать цифровизацию производства непросто, но того стоит. 

Читать дальше →
Всего голосов 14: ↑12 и ↓2 +10
Комментарии 4

G2 Market Research vs Gartner: слон или тигр?

Время на прочтение 7 мин
Количество просмотров 183

Мы в Кругах Громова любим исследования. Можно было бы даже сказать «собаку на них съели», но собакенов мы любим не меньше, чем исследования, и, конечно, есть никого не собираемся. Как бы там ни было, нам интересно – и, конечно, познавательно – наблюдать и изучать работу крупных мировых игроков. Сегодня решили поделиться с вами результатами сравнения двух «рапторов» – Gartner и G2 Market Research.

Читать далее
Всего голосов 7: ↑4 и ↓3 +1
Комментарии 0

Оживляем SVG в POWER BI часть 1

Время на прочтение 3 мин
Количество просмотров 2K


Создание дашбордов на основе SVG макетов частая задача в PBI. На примере, дерева и столбчатой диаграммы, я покажу как это сделать, используя язык DAX и макеты в figma.


Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 1

Как AI помогает побороть монополию в спортивной рекламе и при чем тут GPU и выделенные серверы

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 586

Спортивные соревнования сегодня переполнены рекламой — от роликов на экранах до статичных логотипов компаний на рекламных щитах стадионов. Эфир охватывает множество стран, в которых представлены различные бренды и действуют разные законы о рекламе. Благодаря прорыву в развитии ИИ и AR-технологий появляется возможность замены информации на поле под каждую аудиторию, причем непосредственно во время трансляции матча.

Читать далее
Всего голосов 6: ↑5 и ↓1 +4
Комментарии 0

Apache Flink: динамическое определение выходного топика в Kafka

Время на прочтение 7 мин
Количество просмотров 2.3K

Всем привет, меня зовут Александр Бобряков. Я техлид в команде МТС Аналитики, занимаюсь Real-Time обработкой данных. Мы начали использовать фреймворк Apache Flink, и я решил поделиться на Хабре своим опытом внедрения этой технологии в цикле статей.

В предыдущей статье — «Apache Flink. Как работает дедупликация данных в потоке Kafka-to-Kafka?» — я рассказывал про построение пайплайна Kafka-to-Kafka с промежуточным разделением потока и дедупликацией событий. Также разобрались, что такое состояние оператора и зачем оно нужно.

В этой статье добавим возможность динамического определения топика в Kafka для каждого события, куда его нужно записать.

Читать далее
Всего голосов 9: ↑9 и ↓0 +9
Комментарии 0

Модель глубокого обучения, использующая данные ЭКГ для прогнозирования риска внезапной сердечной смерти

Уровень сложности Средний
Время на прочтение 23 мин
Количество просмотров 1.4K

Внезапная сердечная смерть (ВСС) происходит, когда возникают проблемы с электрической активностью в сердце. Это распространенная причина смерти по всему миру, поэтому было бы полезно легко выявлять людей с высоким риском ВСС. Электрокардиограммы - это доступный и широко используемый способ измерения электрической активности сердца. Мы разработали вычислительный метод, который может использовать электрокардиограммы для определения, находится ли человек в повышенном риске ВСС. Наш метод может позволить врачам скрининг больших групп людей и выявление тех, кто находится в повышенном риске ВСС. Это может позволить регулярное наблюдение за этими людьми и, возможно, предотвращение ВСС у некоторых из них.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 2

Подробный гайд: Как собрать дашборд в FineBI за 30 минут

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 3.6K

Хабр, привет! 

Меня зовут Александр Ларин, я руководитель центра технической поддержки и обучения в GlowByte и лидер самого большого в России сообщества FineBI.

В данной статье я хотел бы показать новичкам основы работы в FineBI: как подключиться к источнику данных, создать на его основе датасет, провести обработку данных, собрать свой первый дашборд – и всё это сделать буквально за 30 минут.  А тех, кому этого будет недостаточно, приглашаю на наши курсы

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 4

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн

Ликбез по Data Governance, защита LLM, рейтинг BI-инструментов и другие новинки в мире ML и DA

Уровень сложности Средний
Время на прочтение 7 мин
Количество просмотров 2.4K

Привет, Хабр! После перерыва возвращаюсь с новым выпуском полезных материалов, которые помогут лучше разобраться в ML, AI и дата-аналитике. Сегодня в программе — эволюция СУБД, миграция с Apache Druid на ClickHouse и подходы к экономии ресурсов для инфраструктуры. Еще больше полезных материалов — в Telegram-сообществе «MLечный путь».
Читать дальше →
Всего голосов 29: ↑26 и ↓3 +23
Комментарии 0

Системы автоматизации, SGRC

Время на прочтение 6 мин
Количество просмотров 1.2K

Современная кибербезопасность включает в себя множество различных аспектов, объектов и субъектов защиты: информационные активы компании (ИТ-системы, бизнес-приложения, серверы, рабочие станции, сетевое оборудование), файлы и данные в самых разных форматах (от структурированных в базах данных до "озер данных" и накапливаемых огромных объемов Big Data), процессы компании (основные бизнес-процессы, вспомогательные, ИТ-процессы, процессы кибербезопасности), персонал (от уборщиц до топ-менеджеров), различные используемые технологии (разнообразное программное и аппаратное обеспечение). Все данные сущности подлежат анализу с точки зрения кибербезопасности, которая в современной компании сфокусирована на защите процессов, персонала, технологий, данных. Основными процессами кибербезопасности являются:

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 0

Что такое СУБД Greenplum? Зачем она нужна в больших проектах DWH? Чем отличается от ClickHouse?

Время на прочтение 9 мин
Количество просмотров 10K

Ошибки в построении DWH возникают не только в результате того, что первоначально не были учтены возможные изменения в бизнес-процессах, потребностях и целях компании, но и из-за некорректного выбора стека технологий и СУБД. 

Порядок хранения данных выбирается в соответствии с разными сценариями работы - запросами, разным объемом данных, количеством транзакций, необходимостью обновлений данных.

В статье читайте о СУБД Greenplum и о том, в каких случаях строить хранилища на ее основе.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 5

Куда и как съехать с Qlik Sense

Уровень сложности Средний
Время на прочтение 4 мин
Количество просмотров 2.5K

Куда и как съехать с Qlik Sense

Привет, Хабр! Сегодня я расскажу о том, как выбрать российскую BI, чтобы не потерять привычный уровень работы с данными в компании — и с чем придется столкнуться в процессе миграции.

Читать далее
Всего голосов 2: ↑1 и ↓1 0
Комментарии 9

Кейс: разметка приложения с нуля на конкретном примере

Время на прочтение 14 мин
Количество просмотров 800

Привет! На связи Сергей Матросов и команда X5 Tech, ответственная за аналитику в “Пятёрочке”. Хотим поделиться с вами тем, как мы внедрили трекер AppMetrica от Яндекса и сделали с помощью него разметку для приложения “Пятёрочки”. Почему мы остановились именно на этом фреймворке, какую мы выбрали архитектуру разметки, как писали правила и словари, а также разберём процесс разметки на живом примере разметки экрана приложения. Очень надеемся, что эта статья поможет вам сэкономить много времени, если перед вами будет стоять аналогичная задача.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 1

Табуляционные машины Германа Холлерита — вольная реконструкция

Уровень сложности Средний
Время на прочтение 13 мин
Количество просмотров 1.6K

Перфокартные табуляционные автоматы Германа Холлерита решали задачи обработки больших объемов данных (десятки миллионов записей) в 19-м веке, сэкономили несколько лет труда при подсчете результатов переписи США 1890-го года, быстро проникли во всевозможные организации от стальных фабрик до страховых контор, обеспечили их автору (Герману Холлериту) инженерное признание и коммерческий успех, послужили фундаментом для появления и развития компании IBM.


Здесь остановимся подробнее на технической стороне вопроса. Каким образом устройство в конце 19-го века могло решать задачи, которые принято ассоциировать с 21-м веком. Ведь в те времена люди не имели в распоряжении библиотеки Pandas и платформы Python, не было реляционных субд с языком SQL, и даже электронных компьютеров, которые могли запускать такое программное обеспечение, еще не придумали (не то, что транзисторы, электронные лампы еще не изобрели, а реле хотя уже были в ходу, никто еще не говорил о том, чтобы строить из них универсальные вычислители).


Отдельный повод сделать это именно сегодня: Герман Холлерит родился в 1860-м году 29 февраля.

Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 13

UUIDv7

Уровень сложности Средний
Время на прочтение 3 мин
Количество просмотров 11K

Седьмая версия UUID (Universally Unique Identifier Version 7, UUID Version 7, UUIDv7) является модифицированной и стандартизованной версией ULID. Проект стандарта (далее стандарт) находится в ожидании окончательной проверки редактором. Но уже имеется большое количество реализаций UUIDv7, применяемых в действующих информационных системах. В интернете доступно большое количество информации по ключевому слову UUIDv7.

Читать далее
Всего голосов 19: ↑16 и ↓3 +13
Комментарии 28

Вклад авторов

Работа

Data Scientist
58 вакансий