Как стать автором
Обновить
52.13

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Где аналитику данных искать стажировки в России и зарубежом? + более 40 горящих стажировок

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 4.1K

Стажировка, на мой взгляд, один из самых удачных способов запрыгнуть в аналитику данных.

👉 3 месяца стажировки в самом неприглядном месте лучше, чем то же время в поисках “идеальной” вакансии

👉 Стажировка в резюме выглядит привлекательнее учебных проектов

👉 После стажировки есть возможность трудоустройства в компанию

Читать больше и найти стажировку
Всего голосов 6: ↑4 и ↓2 +2
Комментарии 0

Новости

Манифест Киберправды

Уровень сложности Простой
Время на прочтение 12 мин
Количество просмотров 3.1K

Данный текст является ответом на опубликованную накануне «Оду бесполезности споров» с целью рассказать о проекте, который намерен принципиально решить проблему анализа достоверности информации в Интернете и оценки репутации ее авторов. Я считаю, что новые никогда ранее не существовавшие децентрализованные технологии дают нам возможность наконец найти ответ на извечный вопрос «Что есть истина?», которым уже почти две тысячи лет задается человечество.

Читать далее
Всего голосов 31: ↑20 и ↓11 +9
Комментарии 75

Сотни миллионов рублей: посчитали, сколько тратит бизнес на российские BI-решения

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 1.4K

Из чего складывается стоимость BI-решения? Сколько стоят отечественные BI-системы? Достоверные ответы на эти вопросы вы не нагуглите просто так. Да и для заказчиков ценник часто становится сюрпризом, уже не говоря о полной стоимости владения BI-системами.

Мы решили подсчитать, во сколько же на самом деле обходится BI для российских компаний, и провели небольшое исследование. О результатах которого я и рассказываю в этой статье (плюс провожу небольшой опрос).

Читать статью и пройти опрос
Всего голосов 5: ↑3 и ↓2 +1
Комментарии 4

Что такое MLOps и как мы внедряли каскады моделей

Уровень сложности Средний
Время на прочтение 7 мин
Количество просмотров 2.7K

Привет, меня зовут Александр Егоров, я MLOps инженер. В статье расскажу о том, как мы в банке выкатываем огромное количество моделей. Разберём не только пайплайн по выкладке отдельных моделей, но и целые каскады.

Читать далее
Всего голосов 15: ↑14 и ↓1 +13
Комментарии 5

Истории

Кто такой Data Engineer

Уровень сложности Простой
Время на прочтение 4 мин
Количество просмотров 3.2K

Да, в этих ваших интернетах есть много материалов о том кто такой Data Engineer (DE), в том числе и на самом хабре. Но мне самому захотелось об этом рассказать. Опыт, хоть и небольшой, в этой сфере у меня есть (Сейчас Data Engineer в Сбер Образовании). 

ЭТА СТАТЬЯ НЕ ЯВЛЯЕТСЯ СУПЕР ТЕХНИЧЕСКОЙ, В КОТОРОЙ СТРОГО ВСЕ ПО НАУЧНОМУ. ТУТ Я ОБЪЯСНЯЮ ТЕМУ ПРОСТЫМ ЯЗЫКОМ (по другому не сумею)

Читать далее
Всего голосов 15: ↑10 и ↓5 +5
Комментарии 7

Калькуляция затрат для сбора факта Бюджета доходов и расходов (БДР) с помощью Power Query

Уровень сложности Простой
Время на прочтение 9 мин
Количество просмотров 3.1K

Если в компании не внедрена автоматизация управленческого учета (ERP, 1С УП, БИТ ФИНАНС и т.д.), то единственным источником для калькуляции затрат остается бухгалтерский учет (далее – БУ), и, в подавляющем большинстве случаев, это 1С БУХ. Для целей калькуляции доходов и расходов в рамках управленческого учета (далее – УУ) полный перенос информации из БУ не всегда корректен. Так, есть ряд расходов и доходов, которые необходимо исключить или наоборот добавить (технические операции) в УУ; иногда бывает необходимо добавить дополнительную аналитику и доп. реквизиты.

В любом случае процесс переноса данных из БУ в УУ всегда трудоемок, а в классическом случае, — когда экономист формирует бюджеты из оборотно-сальдовых ведомостей — еще и крайне негибок, так как любое изменение данных в БУ влечет за собой  повторный сбор данных.

В данной статья мы предлагаем применить инструмент Power Query (далее – PQ) для сбора фактических данных и для его частичной автоматизации. Конечно, роль экономиста, пресловутый человеческий фактор, останется превалирующей, но сам процесс будет занимать гораздо меньше времени. Точность учета при этом вырастет.

Т.к. в большинстве случаев экономисты далеки от программирования, и написание любого кода для них становится проблемой, предлагается использование только стандартных функций интерфейса PQ.

Задача

Упростить процесс калькуляции затрат и учета доходов для целей управленческого учета из 1С БУХ

Источник данных

Минимальной единицей информации в БУ является бухгалтерская проводка, ее предлагается взять за основу для формирования УУ, т.к. чем больше информации, тем более качественную аналитику мы сможем предоставить.

Читать далее
Всего голосов 3: ↑2 и ↓1 +1
Комментарии 4

Как провести unit-тестирование Flink-операторов: TestHarness

Время на прочтение 11 мин
Количество просмотров 400

Привет всем, на связи снова Александр Бобряков, техлид в команде МТС Аналитики. Продолжаем цикл статей про фреймворк Apache Flink.

Напомню, в предыдущих частях я рассказывал про построение пайплайна Kafka-to-Kafka с промежуточным разделением потока и дедупликацией событий. Также в предыдущей статье я рассказал, как можно динамически определить выходной Kafka-топик для каждого отправляемого события.

Начиная с этой статьи начнём разбирать, как тестировать всё наше приложение Flink + Spring. Многие описанные подходы вполне применимы и в любом другом обычном Spring-приложении, поэтому, надеюсь, вы найдёте для себя что-то новое.

В данной статье мы рассмотрим, как протестировать stateless- и stateful-операторы Flink с помощью абстракций TestHarness.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 0

Современные тенденции и проблемы управления данными на рынке РФ: вызовы 2024 года

Уровень сложности Средний
Время на прочтение 8 мин
Количество просмотров 1.1K

В эпоху данных и активной цифровизации вопросы эффективного управления данными становятся все более актуальными. От того, насколько эффективно компания управляет своими данными, зависит эффективность принятия управленческих решений, что влияет на выручку компании и чистую прибыль.

Вопросы управления данными включают задачи эффективного хранения и обработки данных (КХД, озера данных, ETL & ELT) в облаках и On-Premise, настройки интеграционных потоков (транспорт) для анализа в режиме реального времени и не только, вопросы предоставления данных во внешние системы и BI, процессы качества данных и каталогизации, безопасность данных, решения на базе расширенной аналитики и ИИ. 

Александр Сулейкин, кандидат технических наук, генеральный директор и архитектор Big Data систем компании “ДЮК Технологии” дает прогноз на предстоящий год: какие технологии управления данными будут развиваться, с какими проблемами сталкивается бизнес и каких технологий не хватает для полноценного импортозамещения.

Читать далее
Всего голосов 7: ↑5 и ↓2 +3
Комментарии 0

Два подхода моделирования исторических данных

Уровень сложности Средний
Время на прочтение 2 мин
Количество просмотров 1.7K

Перевод статьи с Medium

В статье обсуждаются моделирование данных для хранения исторических данных, включая использование временных таблиц и исторических таблиц.

Временные таблицы добавляют две даты к каждой записи для определения периода актуальности данных, в то время как исторические таблицы сохраняют только последние записи в основной таблице, перемещая старые записи в отдельную историческую таблицу.

Это обеспечивает более четкий аудит изменений и улучшает производительность запросов к историческим данным, но требует дополнительного хранения и обслуживания.

Читать далее
Всего голосов 9: ↑5 и ↓4 +1
Комментарии 2

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 2: Классическое машинное обучение

Уровень сложности Средний
Время на прочтение 13 мин
Количество просмотров 6.2K

Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor).

В предыдущей статье я поделился материалами для подготовки к одному из самых волнительных (для многих) этапов - Live Coding.

В этой статье рассмотрим материалы, которые можно использовать для подготовки к секции по классическому машинному обучению.

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Комментарии 0

Как делить пользователей на группы в АБ-тестах: ошибки и рекомендации

Уровень сложности Средний
Время на прочтение 10 мин
Количество просмотров 1.8K

В предыдущих статьях статья 1, статья 2, статья 3 мы рассмотрели основные подводные камни автоматизации и анализу АБ тестов, привели подробный обзор статей по этой теме, а так же рассмотрели типичные задачи аналитика данных. В контексте АБ-тестов одним из ключевых аспектов является механизм разделения на группы, который в терминологии специалистов часто называется сплитовалкой.

Может показаться, что задача элементарная - сгенерировать случайное целое число каждому пользователю с вероятностью 1/n, где n - число групп в АБ тесте. Но на практике, особенно для высоконагруженных сервисов, таких как Ozon, возникает множество архитектурных и платформенных сложностей. В данной статье мы сконцентрируемся на основных принципах деления на группы, принятых в индустрии.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 1

Элегантный стек данных для встроенной аналитики

Время на прочтение 8 мин
Количество просмотров 1.7K

Контекст


По работе мне доводилось иметь дело с аналитическими стеками любых конфигураций и размеров. Мы на собственном опыте изучили, что цена стека для встроенной аналитики данных, расположенного за фронтендом, может моментально вырасти настолько, что об окупаемости инвестиций и речи не будет. Такой риск существует, если тщательно не просчитать 1) модели ценообразования для разных технологий и затраты на единицу продукции, 2) реализованную стоимость 3) производительность труда разработчика.

Сейчас появилась целая волна инструментов, созданных специально для решений из области встраиваемой аналитики, поэтому я решил набросать этот пост, в котором покажу, как некоторые из этих инструментов сочетаются друг с другом, и почему они так хороши.

В этой статье будут исследованы соотношения затрат/ценности и преимущества нескольких стеков, ориентированных на работу с данными, а именно MotherDuck / Cube / React (MDCuRe)
Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 0

Проверь себя: Ты — знаток мира BI?

Уровень сложности Сложный
Время на прочтение 2 мин
Количество просмотров 1.6K

Привет, Хабр! А сейчас у нас на кону интересное развлечение. Мы предлагаем вам угадать двух тайных экспертов марафона по визуализции “Ничего Лишнего”, которые будут принимать участие в двух днях работы с участниками. Под катом — краткие характеристики наших героев, а также варианты ответов. Проверьте себя, насколько вы знаете мир BI (или проверьте свою интуицию, что тоже забавно).

Читать далее
Всего голосов 9: ↑6 и ↓3 +3
Комментарии 0

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн

Пользовательские карты в Дельта BI

Уровень сложности Средний
Время на прочтение 3 мин
Количество просмотров 267

В функционале Дельты есть возможность импорта пользовательских карт, которые можно в дальнейшем использовать вместо стандартных форм, входящих  в геопространственную базу данных Дельты. Такая возможность может быть полезна, например, если требуется создать карту, отображающую крупные регионы, объединяющие несколько стран (Евросоюз, СНГ, страны Азиатско-Тихоокеанского региона и т.п.)

Или, как будет рассмотрено в данном примере, будет загружена карта административных округов Москвы.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 0

«Иногда твоя работа выглядит магией»: что делают дата-сайентисты в промышленности и почему так востребованы

Время на прочтение 10 мин
Количество просмотров 10K

Привет, Хабр! Меня зовут Светлана Потапова, я руковожу «Северсталь Диджитал» — подразделением ИТ-функции Северстали, которое занимается разработкой и внедрением решений на основе машинного обучения.

Data Science уже давно вышла за пределы ИТ-компаний, шагнула дальше банков и телекома и пришла в промышленность, в том числе тяжёлую. Все обратили внимание на работу с данными, ведь они справедливо считаются новой нефтью, а их правильное использование даёт компаниям существенные преимущества. Обилие разнообразных задач со своей спецификой привело к появлению отдельного направления — Data Science (DS) в промышленности. 

В этой статье расскажу, зачем становиться дата-сайентистом в промышленности, кто это такой и чем занимается и почему повышать цифровизацию производства непросто, но того стоит. 

Читать дальше →
Всего голосов 16: ↑14 и ↓2 +12
Комментарии 6

G2 Market Research vs Gartner: слон или тигр?

Время на прочтение 7 мин
Количество просмотров 233

Мы в Кругах Громова любим исследования. Можно было бы даже сказать «собаку на них съели», но собакенов мы любим не меньше, чем исследования, и, конечно, есть никого не собираемся. Как бы там ни было, нам интересно – и, конечно, познавательно – наблюдать и изучать работу крупных мировых игроков. Сегодня решили поделиться с вами результатами сравнения двух «рапторов» – Gartner и G2 Market Research.

Читать далее
Всего голосов 7: ↑4 и ↓3 +1
Комментарии 0

Оживляем SVG в POWER BI часть 1

Время на прочтение 3 мин
Количество просмотров 2.2K


Создание дашбордов на основе SVG макетов частая задача в PBI. На примере, дерева и столбчатой диаграммы, я покажу как это сделать, используя язык DAX и макеты в figma.


Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 1

Как AI помогает побороть монополию в спортивной рекламе и при чем тут GPU и выделенные серверы

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 645

Спортивные соревнования сегодня переполнены рекламой — от роликов на экранах до статичных логотипов компаний на рекламных щитах стадионов. Эфир охватывает множество стран, в которых представлены различные бренды и действуют разные законы о рекламе. Благодаря прорыву в развитии ИИ и AR-технологий появляется возможность замены информации на поле под каждую аудиторию, причем непосредственно во время трансляции матча.

Читать далее
Всего голосов 6: ↑5 и ↓1 +4
Комментарии 0

Apache Flink: динамическое определение выходного топика в Kafka

Время на прочтение 7 мин
Количество просмотров 2.4K

Всем привет, меня зовут Александр Бобряков. Я техлид в команде МТС Аналитики, занимаюсь Real-Time обработкой данных. Мы начали использовать фреймворк Apache Flink, и я решил поделиться на Хабре своим опытом внедрения этой технологии в цикле статей.

В предыдущей статье — «Apache Flink. Как работает дедупликация данных в потоке Kafka-to-Kafka?» — я рассказывал про построение пайплайна Kafka-to-Kafka с промежуточным разделением потока и дедупликацией событий. Также разобрались, что такое состояние оператора и зачем оно нужно.

В этой статье добавим возможность динамического определения топика в Kafka для каждого события, куда его нужно записать.

Читать далее
Всего голосов 9: ↑9 и ↓0 +9
Комментарии 0

Модель глубокого обучения, использующая данные ЭКГ для прогнозирования риска внезапной сердечной смерти

Уровень сложности Средний
Время на прочтение 23 мин
Количество просмотров 1.5K

Внезапная сердечная смерть (ВСС) происходит, когда возникают проблемы с электрической активностью в сердце. Это распространенная причина смерти по всему миру, поэтому было бы полезно легко выявлять людей с высоким риском ВСС. Электрокардиограммы - это доступный и широко используемый способ измерения электрической активности сердца. Мы разработали вычислительный метод, который может использовать электрокардиограммы для определения, находится ли человек в повышенном риске ВСС. Наш метод может позволить врачам скрининг больших групп людей и выявление тех, кто находится в повышенном риске ВСС. Это может позволить регулярное наблюдение за этими людьми и, возможно, предотвращение ВСС у некоторых из них.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 2

Вклад авторов

Работа

Data Scientist
66 вакансий