Big Data *

Большие данные и всё о них

@Zoran-1975

Блог компании VK TechCRM-системы * Big Data *

Бизнесу все труднее систематизировать данные. Источников много, хранение — часто локальное, собрать все данные в одно место и подготовить актуальный датасет большая задача.

На вебинаре с экспертами Loginom и VK Cloud расскажем, как связать разрозненные источники в работающую аналитическую систему всего за один день. 15 декабря в 17:00 покажем, как быстро развернуть облачную СУБД и подключить к ней low-code платформу Loginom.

В программе:

🔹 Собираем пазл: архитектура решения на основе облачных баз данных VK Cloud и платформы Loginom.
🔹 Избавляемся от рутины: автоматизируем очистку и подготовку данных (ETL) с помощью low-code инструментов.
🔹 Практические кейсы: внедрение аналитических решений для ритейла, телекома и фарминдустрии.
🔹 Технический воркшоп.
🔹 Ответы на вопросы о внедрении и интеграции.

➜ Зарегистрируйтесь на вебинар

@SnezhSh

1 дек в 15:486.7K

Блог компании GlowByteBig Data * Визуализация данных * КонференцииИскусственный интеллект

Официальный глобальный релиз FineBI 7.0 в прямом эфире!

GlowByte приглашает на вебинар FanRuan, на котором будет представлена новая версия платформы FineBI 7.0.

В новом релизе разработчики усилили три основных направления: управление данными, работу с инсайтами через ИИ и гибкость self-service аналитики. FineBI 7.0 помогает бизнес-подразделениям двигаться быстрее, а ИТ – сохранять прозрачность и контроль.

📈 FineBI 7.0 – это:

Быстрая сборка дашбордов – пользователи могут самостоятельно создавать и обновлять аналитические витрины без долгих циклов согласования.
AI-интерфейс на естественном языке – задавайте вопросы обычными словами и находите инсайты, которые раньше были скрыты за сложными выборками.
Единые правила данных и доступов – вся аналитическая среда остается согласованной: структуры данных, права, политики и процессы управления.

Подробнее о возможностях FineBI 7.0 – по ссылке.

Прямой эфир состоится 11 декабря 2025 в 10:00 (МСК).

Команда продукта покажет ключевые обновления, новые сценарии и проведет живую демонстрацию интерфейса.

Забронируйте место заранее!

@andrew_brdk

27 ноя в 08:454.5K

Open source * Программирование * Big Data * Машинное обучение * Data Engineering *

Outliers - детектор аномалий временных рядов

Демо: https://outliers.up.railway.app/
Код: https://github.com/andrewbrdk/Outliers

Сервис детектирует аномалии временных метрик и отправляет уведомления о выбросах. Поддерживает:
- PostgreSQL
- Емэил и Слак уведомления.
- Методы детектирования: пороговое значение, отклонение от среднего, межквартильное расстояние.

Попробуйте!

@andrew_brdk

20 ноя в 08:404.5K

Open source * Big Data * Хранение данных * Машинное обучение * Data Engineering *

Repeater - легкий оркестратор для аналитики

Repeater запускает задачи по расписанию. Задачи описываются в toml-файлах и отображаются в веб-интерфейсе.

title = "wiki"
cron = "55 * * * *"

[[tasks]]
name = "wiki_pageviews"
cmd = "python3 ./examples/wiki_pageviews.py --end_date={{.scheduled_dt}}"   

[[tasks]]
name = "trigger_outliers_update"
cmd = "python3 ./examples/trigger_outliers_update.py"

Возможен запуск при завершении другой задачи, уведомления о падениях, параллельные этапы. Repeater подойдёт для импорта данных и обновления витрин в хранилище.

Попробуйте!

Демо: https://repeater.up.railway.app/
Репозиторий: https://github.com/andrewbrdk/Repeater

@SnezhSh

12 ноя в 11:255.4K

Блог компании GlowByteBig Data * Искусственный интеллект

Новая услуга GlowByte: внедряем GenBI-решения на ваших данных

Команда Business Intelligence GlowByte расширяет возможности для бизнеса в различных индустриях и объявляет о запуске новой опции – выборе, пилотировании и внедрении GenBI-решений.

Эксперты GlowByte помогут определить потенциал генеративной аналитики под конкретные задачи, разработают критерии оценки решений, выберут оптимальную платформу и LLM-модель. Это позволит бизнесу сократить время на тестирование и минимизировать риски внедрения.

Процесс может занять от одного до трех месяцев. Реализация происходит поэтапно:

анализируются бизнес-процессы и инфраструктура, изучается специфика отрасли, текущие BI-решения, источники данных, архитектура систем и требования безопасности;
адаптируется методология тестирования;
настраиваются критерии оценки под данные и бизнес-задачи, формируются релевантные сценарии использования;
формируется шорт-лист GenBI-решений;
подбираются платформы и LLM-модели;
проводится комплексное пилотирование;
тестируются решения на реальных данных, измеряются производительность и точность результатов;
предоставляются обоснованные рекомендации с детализацией данных по внедрению выбранного решения.

Узнать больше, как это работает, можно тут.

@SnezhSh

7 ноя в 11:345.7K

Блог компании GlowByteВысоконагруженные системы * Базы данных * Big Data * Data Engineering *

Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

В блоге Data Sapience, технологического партнера GlowByte, вышла крутая статья технического идеолога Lakehouse-платформы данных Data Ocean Nova Евгения Вилкова.

Недавно на Хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из Кверифай Лабс выбрали методику TPC-DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.
В качестве отступления замечу, что данный эксперимент не имеет ничего общего с массивно-параллельными вычислениями и Lakehouse. Архитектура раздельных вычислений предполагает интенсивный сетевой обмен не только между storage и compute, но и между узлами compute-движка. Как заметили в комментариях к оригинальной статье, с тем же успехом можно было включить в тест и MySQL. Складывается впечатление, что методика тестирования была выбрана исключительно из-за заявленных компетенций в области оптимизатора движка, а запрос – исходя из наличия собственных доработок для обработки схожего случая. Главной же целью было на частном выводе убедить аудиторию в общем выводе. Отдадим должное коллегам – они не скрывают субъективность своего отношения к упражнению.

Заинтригованы? Добро пожаловать в статью Евгения! Комментарии приветствуются.

@AlfaTeam

5 ноя в 13:234.5K

Блог компании Альфа-БанкBig Data * Natural Language Processing *

Всероссийский хакатон для умных и свободных: призовой фонд один миллион рублей

Альфа-Банк приглашает всех, кто умеет не просто писать код, а готов поучаствовать в решении амбициозных бизнес-кейсов: настроить систему RAG для интеллектуальных вопросов и ответов на базе знаний Альфа-Банка или разработать copilot-приложение для клиентов микробизнеса. Хакатон предоставляет молодым специалистам возможность получить практический опыт в современных IT- и аналитических технологиях, поучаствовать в командных соревнованиях, а также построить карьеру в крупной компании.

Что вас ждет?

Борьба за призовой фонд в 1 000 000 рублей и шанс получить фаст-трек в команду Альфа-Банка.
Нетворкингом, где вы сможете поработать с экспертами Альфа‑Банка и получить ценные советы.
Возможность участвовать из любой точки России, а потом приехать на финал в Москву.
Прокачка навыков, погружение в актуальные задачи бизнеса и усиление технических скиллов

Собирай команду и участвуй по одному из двух треков: настройка RAG для вопросов и ответов или разработка copilot-приложения для клиентов микробизнеса. Это уникальный молодёжный хакатон, созданный специально для тех, кто хочет попробовать себя в решении реальных задач бизнеса с помощью передовых технологий.

Записывайся на Альфа-Будущее Хакатон — прокачай свои технические навыки и поработай над созданием реального ИИ-решения для бизнеса. Регистрируйтесь до 6 ноября и стартуйте!

-3

@SnezhSh

1 ноя в 09:566.5K

Блог компании GlowByteIT-инфраструктура * Big Data * Хранение данных * Конференции

GlowByte приглашает на первый Data Sapience Data Day: дата, программа, регистрация

Data Sapience объявляет о проведении первой конференции, посвященной работе с большими данными, Data Sapience Data Day, которая состоится 18 ноября 2025 года. Мероприятие объединит ведущих экспертов IT-отрасли и руководителей крупнейших компаний.

В программе конференции:

Панельная дискуссия с участием CDO лидирующих организаций будет посвящена ключевым темам современного дата-рынка:
▫️ перспективам развития дата-ландшафта;
▫️ влиянию искусственного интеллекта на управление данными;
▫️ оценке готовности рынка (технологии/решения/компетенции);
▫️ вопросам миграции в публичные облака.

Клиенты выступят с докладами и расскажут о кейсах внедрения и эксплуатации решений Data Sapience. Среди спикеров — представители Альфа-Банка, ОТП Банка, Россельхозбанка и других крупных организаций.

Технологические презентации познакомят участников с возможностями Lakehouse-платформы данных Data Ocean и платформы управления данными Data Ocean Governance.

В мероприятии примут участие специалисты Т-Банка, Газпромбанка, Сбербанк Страхования, Адастры и других ведущих игроков рынка.

▶️ ПОДРОБНАЯ ПРОГРАММА И РЕГИСТРАЦИЯ ◀️
Участие в конференции бесплатное. Регистрация обязательна и проходит модерацию в соответствии с закрытым форматом мероприятия.

@elizaveta_roschina

31 окт в 14:275.8K

Блог компании Data SapienceIT-инфраструктура * Big Data * Хранение данных * Конференции

Первый Data Sapience Data Day: дата, программа, регистрация

В программе конференции:

Панельная дискуссия с участием CDO лидирующих организаций будет посвящена ключевым темам современного дата-рынка:
▫️перспективам развития дата-ландшафта;
▫️влиянию искусственного интеллекта на управление данными;
▫️оценке готовности рынка (технологии/решения/компетенции);
▫️вопросам миграции в публичные облака.

@Luxms

31 окт в 10:104.9K

Блог компании Luxms BIАнализ и проектирование систем * Базы данных * Big Data * Визуализация данных *

Новое видео с нашей Конференции Luxms, в котором Вадим Кананыхин, Руководитель отдела управления и аналитики данных ГК «Синтека», рассказал про свои наработки и интересные проекты, а также поделился собственными приемами и «лайфхаками» работы с Luxms BI.

Luxms BI — классный продукт, который нам развязал руки и кардинально увеличил наши возможности в аналитике, построении отчётности, управлении хранилищами данных.

В выступлении:

BI-дэшборд для поставщиков: управленческие данные в одном окне, фильтры и гибкая визуализация под роль пользователя;
Оптимизация процессов: ускорение расчётов за счёт предобработки JSON и автоматического обновления только новых данных;
Рост эффективности: перераспределение ресурсов и фокус на наиболее прибыльных товарных категориях;
Отказоустойчивость и автономность: автоматический контроль сборов данных и уведомления о сбоях в Telegram;
Luxms BI + Luxms Data Boring = инфраструктура доверия: свежие данные, надёжная архитектура и единый источник аналитической правды.

Видео выступления и материалы — на нашем сайте.

@SnezhSh

30 окт в 14:165.2K

Блог компании GlowByteБазы данных * Big Data * Хранение данных * Data Engineering *

Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark — с DataFusion Comet и Impala

Друзья, в блоге компании Data Sapience, партнера GlowByte, вышла новая статья, третья в цикле материалов про нагрузочные испытания вычислительных технологий массивных параллельных вычислений.

Ранее техническим руководителем решений Data Ocean Nova и Data Ocean Flex Loader Евгением Вилковым были опубликованы статьи, посвященные сравнению Impala, Trino и Greenplum, в том числе по методике TPC-DS.

В этот раз в список решений добавляется Spark, включая работающий с технологией нативных вычислений DataFusion Comet, и набирающий популярность StarRocks.

@Luxms

28 окт в 10:304.4K

Блог компании Luxms BIАнализ и проектирование систем * Big Data * Визуализация данных *

Новое видео с нашей Конференции Luxms, в котором Андрей Савичев, директор по данным Fork-Tech, рассказал, как команда провела масштабную миграцию данных при слиянии «Открытие брокер» и «ВТБ» с помощью Luxms BI.

На платформе был построен надежный «ИТ-мост», позволивший в рекордные сроки – всего за два месяца – перенести данные из двадцати различных источников: более двух миллионов счетов и свыше четырехсот тысяч клиентских записей.

В выступлении:

Как BI превратился в платформу миграции: единый контур загрузки, проверки и выгрузки данных;
400 000 клиентских записей и миллионы счетов — как обеспечить качество и синхронность данных в режиме онлайн;
Визуальный контроль через дэшборды: операционные команды наблюдали процесс миграции в реальном времени;
Интеграции BI с внешними сервисами — SMS, почта, биржи — для уведомлений клиентов и непрерывности торгов;
Что позволило провести полную миграцию за 6 месяцев и остановить обслуживание клиентов всего на один день.

Видео выступления и материалы — на нашем сайте.

@SnezhSh

24 окт в 08:304.1K

Блог компании GlowByteBig Data * Конференции

GlowByte приглашает на PIX DAY – 2025

GlowByte примет участие в PIX Day – ежегодной конференции лидеров цифровой трансформации, экспертов по умной автоматизации и практиков внедрения инноваций.

Конференция PIX Robotics PIX DAY – 2025 пройдет в Москве 29 октября. Это ежегодное мероприятие для тех, кто строит цифровое будущее бизнеса и промышленности.

На конференции соберутся руководители крупнейших компаний, ИТ-специалисты, аналитики и интеграторы, которые обсудят, как цифровые технологии помогают компаниям быть конкурентоспособными и устойчивыми и как новые продукты PIX открывают возможности для роста. Все об умной автоматизации и ИИ – на одной площадке.

GlowByte выступит спонсором мероприятия и представит свой демонстрационный стенд.

В программе конференции ожидаются:

Реальные кейсы крупнейших компаний;
Выступления топовых экспертов;
Технологическая выставка партнеров;
Живые мастер-классы от экспертов;
Новое в продуктах PIX, roadmap 2026;
Церемония награждения клиентов и партнеров PIX Awards.

📍Москва | 29 октября 2025 | 10:00-18:00

Участие бесплатное для представителей бизнеса, необходимо подтверждение организаторов. Регистрация по ссылке.

Приходите к нашему стенду, будем рады пообщаться! Посетителей стенда также ждет розыгрыш памятных призов от GlowByte.

@andrew_brdk

23 окт в 13:305.9K

Big Data * Машинное обучение * Веб-аналитика * Аналитика мобильных приложений * Статистика в IT

Байесовские А/Б-тесты: средние

-Блокнот: https://github.com/andrewbrdk/Bayesian-AB-Testing/blob/main/Байесовская_оценка_АБ-тестов.ipynb
-Все видео: https://www.youtube.com/playlist?list=PLqgtGAeapsOPpV0FqeXEpWosHBW8ZebYl

@SnezhSh

15 окт в 11:414.6K

Блог компании GlowByteBig Data * Конференции

Приходите на конференцию GlowByte FineDay–2025 – участвуйте в "битве" за будущее данных!

Друзья, компания GlowByte, единственный партнер FanRuan уровня Diamond в России, приглашает на ежегодную конференцию по бизнес-аналитике и большим данным FineDay — 2025: Self-Service BI vs AI — битва за будущее данных!

Мероприятие соберет профессионалов в области Business Intelligence и AI, чтобы обсудить революционные изменения в мире данных и вектор развития BI-индустрии. Вас ждут интересные доклады и горячая дискуссия о том, как self-service аналитика и искусственный интеллект формируют будущее работы с данными.

Ключевыми темами мероприятия станут:

Эволюция Self-Service BI: как демократизация данных меняет корпоративную аналитику.
AI-революция в аналитике: возможности и вызовы интеграции ИИ в BI-системы.
Гибридные подходы: синергия человеческой экспертизы и машинного интеллекта.

В программе конференции будут звучать доклады:

Миграция с Qlik Sense на FineBI: практический опыт смены BI-платформы.
От SAP BW и MS PowerBI к ClickHouse и Sigla Vision: эволюция корпоративной аналитики в Полюсе.
Цифровая трансформация данных в группе Московская Биржа: от централизованной отчетности к культуре Data Driven и стратегической цели AI-Native

Эксперты и компании-участники

На FineDay — 2025 выступят и примут участие представители ведущих организаций: Газпромбанк, Полюс, Московская Биржа, СК «Сбербанк страхование», СИБУР Диджитал, Viz Standart, FanRuan, GlowByte.

Время проведения конференции: 14:00 — 21:00.

Участие бесплатное, но необходима регистрация.

Адрес будет в письме после регистрации.

@Luxms

15 окт в 08:435.1K

Блог компании Luxms BIАнализ и проектирование систем * Big Data * Визуализация данных * Конференции

Делимся видеозаписями выступлений с нашей Конференции Luxms.

Начнем с выступления Ирины Долженко, Главного эксперта департамента информатизации ОАО “РЖД”:

"Визуализация данных как стратегический актив: опыт построения единой BI-системы в крупнейшем транспортном холдинге".

Сегодня в крупнейшем железнодорожном холдинге страны работает десяток проектов на базе Luxms BI – от аналитики для начальников дорог и топ-менеджмента до HR-решений для холдинга численностью более 700 тысяч сотрудников и мониторинга центральной станции связи.

Масштаб задач впечатляет: каждый год РЖД прибавляет +5 петабайт данных! И к системе предъявляются предельно жесткие требования по производительности. Luxms BI справляется с этим масштабом, обеспечивая надежность и скорость работы на уровне национальной инфраструктуры.

Смотрите на:

@tochka_team

13 окт в 11:214.5K

Блог компании Точка БанкBig Data * Машинное обучение * Искусственный интеллект

Многие, кто обучал большие модели искусственного интеллекта, сталкивались с ситуацией, когда необходимы данные из множества источников. Но если источники совсем не из одной корпорации, то из-за GDPR или законах о защите персональных данных нет возможности обмениваться данными напрямую.

Как быть, если нужно обучать большие модели, но нельзя собирать всю информацию в одном месте?

Решение — федеративное обучение. Это система, в которой центральное устройство (сервер) объединяет усилия множества участников (устройства): каждый совершает операции на своих данных, а сервер собирает только результаты, не забирая саму информацию.

В зависимости от специфики задачи, данные на устройствах могут храниться по-разному. На основе того, как делится матрица признаков между участниками, можно выделить два подвида федеративного обучения:

📌 Горизонтальное федеративное обучение (HFL)

Суть: у разных участников данные имеют одинаковые фичи (одинаковые столбцы), но разные строки (разные пользователи/наблюдения).

Пример: несколько банков обучают модель для предсказания мошеннических транзакций. У всех есть одинаковые признаки по транзакциям (сумма, время, место, категория операции и т.п.), но набор клиентов у каждого банка свой. Объединяя данные через HFL, они получают более устойчивую модель, не раскрывая данные клиентов напрямую.

📌 Вертикальное федеративное обучение (VFL)

Суть: у разных участников есть одни и те же сэмплы (одни и те же строки), но разные признаки (разные столбцы).

Пример: банк и страховая компания имеют одних и тех же клиентов. У банка есть финансовые характеристики (история транзакций, кредитный рейтинг), у страховой — медицинская история и страховые выплаты. Объединив признаки в VFL, они могут построить более точную модель для оценки рисков по клиенту.

При этом нельзя сказать, что примеры выше оторваны от реальности. Например, Google применяет федеративное обучение для улучшения работы клавиатуры Gboard. Вместо сбора всех данных о нажатиях на своих серверах, центральное устройство получает только агрегированные обновления модели. То есть, обучение происходит прямо на устройствах пользователей, но без нарушения приватности.

@Arenadata

9 окт в 09:243.8K

Блог компании ArenadataBig Data *

Вебинар «ADQM Control глазами DBA»

14 октября присоединяйтесь к нашему вебинару, где мы на примере практических кейсов покажем, как ADQM Control помогает упростить эксплуатацию и повысить производительность кластеров ClickHouse.

В программе

Краткий обзор ADQM Control и новых возможностей, появившихся после майского вебинара.
Разбор типовых проблемных кейсов эксплуатации кластеров ClickHouse.
Live-demo практических примеров их решения.
Тизер релиза начала 2026 г.
Q&A.

Эксперты Группы Arenadata:

Дмитрий Безруков, руководитель отдела технических менеджеров — основной докладчик, Q&A
Антон Коваленко, руководитель департамента продуктового маркетинга — модератор дискуссии, Q&A

Зарегистрироваться на вебинар можно тут.

@andrew_brdk

7 окт в 08:305.7K

Big Data * Машинное обучение * Веб-аналитика * Аналитика мобильных приложений * Статистика в IT

Байесовские А/Б-тесты: конверсии

Блокнот: https://github.com/andrewbrdk/Bayesian-AB-Testing
Все видео: https://www.youtube.com/playlist?list=PLqgtGAeapsOPpV0FqeXEpWosHBW8ZebYl

@AlfaTeam

3 окт в 07:224.9K

Блог компании Альфа-БанкBig Data * Машинное обучение * Data Engineering *

Как мы ушли с Airflow и упростили MLOps

Привет! Меня зовут Александр Егоров, я MLOps-инженер в Альфа-Банке, куда попал через проект компании KTS. За свою карьеру я построил четыре ML-платформы (одна из которых сейчас в Росреестре) и развиваю с командой пятую. Недавно мы полностью пересобрали пайплайны и мигрировали c Airflow на Argo Workflows + Argo CD. Делимся подробностями!

GitOps для Airflow: как мы перешли на лёгкий K8s-native Argo Workflows

Привет! Меня зовут Александр Егоров, я MLOps-инженер в Альфа-Банке, куда попал через проект компании...

habr.com

Почему Airflow стал мешать?

Airflow отлично подходит для десятков DAG’ов, но на масштабе сотен моделей появляются проблемы: всё усложняется, теряется Kubernetes-нативность, GitOps работает через костыли, а обновления DAG’ов становятся ручным трудом. Версионирование ломается, пайплайны идут десятками минут, и отлаживать их настоящая боль.

Почему Argo Workflows?

Argo — это K8s-native решение, декларативный подход, совместимость с GitOps, простейшее развертывание и минимум лишних компонентов. Для нас это был буквально глоток свежего воздуха. Вместо монолитного Kubeflow — один контроллер, никаких лишних слоёв и масштабируемость из коробки

Подробнее читайте в статье «GitOps для Airflow: как мы перешли на лёгкий K8s-native Argo Workflows»

2 3 ...

6 7

Big Data *

Ближайшие события

Вклад авторов