Обновить
135.29

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга

Call for Pioneers: Launching the StarRocks Russian Community

Hello, Russian Developers!

We are the team behind StarRocks, a next-generation, high-performance analytical database (OLAP) widely adopted by leading tech companies globally for its blazing-fast query speeds and unified architecture.

We have always admired the Russian tech community. From ClickHouse to Nginx, Russia has a legendary reputation for engineering excellence and database innovation. We believe StarRocks has a lot to offer to this vibrant ecosystem, but we face a challenge: Language.

To bridge this gap, we are launching the StarRocks Russia Localization Program. We are looking for 3-5 technical experts to become the founding contributors of our Russian community.

The Mission

We don't just need translators; we need technical evangelists. Your goal is to help us localize high-quality technical content (Architecture deep dives, Benchmarks, User Cases) from English/Chinese into native, professional Russian, ensuring the local community can access the best resources.

Who We Are Looking For

- Native Russian Speaker: You have a high command of technical writing.

- Tech Savvy: You have mastered SQL, OLAP, and Data Warehousing, and your current job involves working with OLAP databases.(Experience with ClickHouse or PostgreSQL is a huge plus).

- Language Skills: You have a good understanding of English (or Chinese).

- Passion: You are active on Habr, Reddit or Telegram tech groups, or GitHub.

What You Will Get

- Competitive Bounties: We pay for every high-quality article translated or proofread.

- Official Recognition: We will be launching an official website in Russia, where you will be certified and listed as a Community Evangelist (subject to your consent for public disclosure).

- Inner Circle Access: Direct communication with our core R&D team and early access to new features.

- Exclusive Swag: Limited edition StarRocks geek gear.

Теги:
0
Комментарии7

5 случаев, когда Fine-tuning лучше RAG

Все говорят "RAG для всего". Но есть кейсы, где fine-tuning выигрывает — и это не только про статичные данные.
Все говорят "RAG для всего". Но есть кейсы, где fine-tuning выигрывает — и это не только про статичные данные.

Все говорят "RAG для всего". Но есть кейсы, где fine-tuning выигрывает — и это не только про статичные данные.

1. Жёсткий формат вывода

Бот для CRM должен всегда возвращать:

{"name": "...", "phone": "...", "intent": "..."}

RAG не гарантирует формат. Fine-tuning — да. Модель "запоминает" структуру на уровне весов.

2. Доменный жаргон

Врач пишет: "в/в капельно NaCl 0.9% 400мл". Юрист: "п.1 ч.2 ст.158 УК".

RAG найдёт документ, но не научит модель "говорить на языке". Fine-tuning встраивает терминологию в модель.

3. Логика без документов

Расчёт стоимости доставки: вес, габариты, зоны, сезонность, тип клиента — 20 переменных.

Это не в документе, это в голове логиста. Fine-tuning переносит экспертизу в модель.

4. Стиль эскалации

Банковский бот не должен говорить "не знаю". Только: "Уточню у специалиста, ожидайте".

RAG учит контенту, fine-tuning — поведению и тону.

5. Скорость

RAG: эмбеддинг → поиск → генерация = 3 вызова, ~2 сек.

Fine-tuned модель: 1 вызов, ~0.5 сек.

Для голосового бота или real-time чата — критично.

Когда всё же RAG: данные часто меняются, нужны ссылки на источник, конфиденциальность.

Гибрид работает: fine-tuning для формата и стиля + RAG для актуальных данных.

А вы где использовали fine-tuning?

Теги:
+1
Комментарии2

Рассматриваем генетический код через призму машинного в новом выпуске ПВЗ

ПВЗ — подкаст команды Ozon Tech, в котором мы говорим о технологиях. На этот раз — о генной инженерии.

У микрофона ведущие Марина Самойлова, руководитель направления платформы данных, и Виктор Корейша, руководитель направления Managed Services. Гость выпуска: учёный-нейробиолог Владимир Алипов.

Разобрали, действительно ли у человека и бактерии один и тот же генетический код, возможности и этичность его редактирования. Узнали, с какой биг датой работают учёные и смогут ли они сделать человека умнее.

🎞️ Смотрите выпуск на YouTube или в VK Видео
🎧 Слушайте в аудиоформате

Теги:
0
Комментарии0

GlowByte на Хабре: подводим итоги 2025 года

Пробежимся по основным статьям, которые наши авторы написали в этом году.

Год начался с "ПИКантной миграции" – активный участник сообщества FineBI GlowByte от первого лица рассказал о том, как компания ПИК мигрировала c Tableau на FineBI. 

Команда Financial Intelligence GlowByte разобрала ситуации для импортозамещения CPM, а бизнес-архитектор практики Retail Solution GlowByte Алексей Чванов рассказал, как ритейл в России слезает с промозависимости. Команда IIOT описала цифровую трансформацию как основу непрерывного улучшения производства.

Мы также рассказали, почему книгу Брюса Сильвера «BPMN. Метод и стиль» называют фундаментальной. А эксперт GlowByte Юлий Гольдберг, основываясь на своем 20-летнем опыте работы с платформами данных, BI, аналитическими решениями, поделился: что нужно помнить, чтобы Self‑Service BI стал реальным драйвером развития корпоративной культуры работы с данными, а не остался благим пожеланием. 

В дополнение темы о Self-Service аналитике – познакомили вас с новой BI-платформой Sigla Vision.

Команда Business Intelligence GlowByte рассказала о скрытой стоимости BI и вместе с партнером FanRuan посмотрела на китайскую ИИ-революцию и экосистему ИИ-продуктов FanRuan.   

Ведущий аналитик GlowByte Артем Матяш описал свой личный опыт прохождения сертификации процессных аналитиков в Ассоциации профессионалов процессного управления.  

Ведущий архитектор GlowByte Марк Лебедев поделился результатами нагрузочного тестирования, которое он с коллегами провел для сравнения Greenplum 6 с Greenplum 7 и Cloudberry, а спустя время дополнил картину, рассказав о тестировании YMatrix

Следующий год планируем открыть статьей о выборе BI-системы на основе разработанной в GlowByte методики.

Всех с наступающим Новым годом!

Теги:
+1
Комментарии0

Нагрузочное тестирование YMatrix

В партнерском материале расширяются результаты нагрузочного тестирования из статьи «Нагрузочное тестирование GP6 vs GP7 vs Cloudberry» и презентуются результаты тестирования YMatrix. Это дополнение к предыдущей статье, призванное сформировать понимание сравнимости результатов различных форков GreenPlum.

Теги:
0
Комментарии0

Оптимизации функционала Apache Iceberg в задачах real-time загрузки и обработки данных

В блоге Data Sapience, технологического партнера GlowByte, вышла новая статья.

Технические лидеры направления разработки Apache Spark в составе платформы Data Ocean рассказывают:

  • С какими проблемами можно столкнуться при реализации Upsert Streaming в Iceberg;

  • Что такое equality delete;

  • Почему они создают нагрузку при чтении таблиц в Apache Iceberg;

  • Как оптимизировали Apache Spark, чтобы снизить потребление памяти и ускорить чтение данных.

Теги:
0
Комментарии0

Вселенная данных: Владимир Сурдин о том, когда цифровой мир встречается с космосом

В новом эпизоде подкаста «Почти всё знают» в гостях у Марины Самойловой и Виктора Корейши астроном Владимир Сурдин.

Поговорили с Владимиром Георгиевичем о том, как учёные собирают, хранят и анализируют космические данные. Спойлер: телескопы видят только часть неба, а Вселенная вовсе не такая, какой мы её представляем.

Какая она на самом деле — узнаете из этого выпуска. А ещё:
– какие компьютеры используют астрономы,
– что сегодня — самая большая проблема для астрономии,
– как учёные спасают Землю от астероидов и какой робот сможет отправиться на поиски жизни на других планетах.

Приятного просмотра!

🎧 Аудио
🎧 YouTube
🎧 VK

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Нагрузочное тестирование YMatrix

Привет, друзья! Мой коллега Марк, ведущий архитектор GlowByte, поделился в новой статье результатами тестирования YMatrix.

Сразу оговорюсь, что это дополнение к предыдущей статье, для того, чтобы сформировать понимание сравнимости результатов различных форков GreenPlum, поэтому акцентировать внимание будем только на YMatrix. Детали по методике тестирования и как были получены результаты для GP6, GP7 и Cloudberry 1.6, можно прочитать в предыдущей статье по ссылке выше. 

Добро пожаловать в статью! Комментарии приветствуются.

Теги:
Всего голосов 3: ↑2 и ↓1+1
Комментарии2

Эта работа описывает методику отслеживания непреднамеренного наследования паттернов между последовательными версиями языковых моделей.

Проверяем гипотезу, что при обучении новых моделей на предыдущих версиях (распространённая практика ради эффективности) они наследуют не только явные знания, но и «способы мышления», которые ускользают от привычных фильтров и процедур оценки.

Основные элементы:

Двухконтурный анализ

• Внутренний: сравнение геометрии представлений по cosine similarity и Centered Kernel Alignment (CKA) в выровненных пространствах признаков.

• Внешний: оценка переноса фиксированной классификационной «головы» (логистическая регрессия), обученной на одной версии и применённой к другой без дообучения.

Обнаружение событий

• O-TRACE: многомасштабное EMA + ζ-ядро для фиксации согласованных колебаний метрик.

• Импульсы: пороговая детекция резких падений в Δcos и ΔCKA.

Эксперименты на реальных моделях

• Эволюция семейства GPT-2: distilgpt2 → gpt2 → gpt2-medium.

• Переход между архитектурами: GPT-2 → DeepSeek-Coder-1.3B.

• Датасет: SST-2 (анализ тональности).

Ключевые выводы

• Геометрические сдвиги (падения CKA) могут быть значительными, даже когда cosine similarity остаётся высокой.

• Перенос фиксированных «голов» часто сохраняется при смене архитектуры.

• Самые сильные импульсы наблюдаются на межархитектурных переходах.

• «Стиль» и «смысл» могут расходиться независимо в процессе эволюции.

Эволюция моделей включает не только плановые улучшения, но и неконтролируемый перенос паттернов. Это важно для безопасности ИИ: модели могут наследовать и усиливать нежелательные предвзятости и формы поведения, обходящие стандартные фильтры.

Структура (3 папки):

• docs/ — два PDF с полным текстом на русском и английском.

• code/ — code_real_GPT2family.txt: одна ячейка для Colab. Загружает SST-2, извлекает признаки (mean-pool last_hidden_state), выравнивает размерности методом Procrustes, считает cosine/CKA и перенос логистической «головы», сохраняет отчёты (CSV, JSON, TXT).

Код и полный файл с объяснением методологии (на русском) доступны по

ссылке: https://zenodo.org/records/17926666

Теги:
Всего голосов 4: ↑3 и ↓1+2
Комментарии0

Премьера года: знакомьтесь с DataForge!

Вебинар — 16 декабря, 12:00

Друзья, делюсь новостью, которой горжусь: коллеги запускают премьерный вебинар и впервые подробно покажут DataForge — новую российскую self-service платформу для централизованного управления аналитическими данными.

Я внимательно следила за развитием этого продукта и на некоторых этапах принимала участие в обсуждениях — особенно за те функции, которые лично для меня, как аналитика, принципиально важны:
— быстрый сбор и систематизация витрин
— возможность видеть и настраивать бизнес-логику
— единый подход к расчётам для всех систем без бесконечного ручного труда в Excel

DataForge — это инструмент, который сам собирает и поддерживает Data Mart слой для любых связанных систем. Особенно актуален для тех, кто строит витрины на ClickHouse: автоматическая генерация витрин, согласованность расчётов для всех потребителей данных — и всё это без лишних доработок со стороны разработчиков.

О чём расскажут на вебинаре:

  • Какие задачи решает DataForge и как ускоряет работу всех подключённых систем, включая BI

  • Как устроена структура продукта: его место в архитектуре и ключевые компоненты

  • Подробно покажем семантический слой: реестры показателей, измерений, единая бизнес-логика

  • Как работает автоматическая генерация SQL и публикация витрин в базе

  • Как DataForge обеспечивает согласованность метрик и прозрачность данных в любых BI-инструментах

  • Как платформа автоматически транслирует изменения в бизнес-логике во все связанные системы

Спикеры:
Технический директор и владелец продукта DataForge

Формат:
Онлайн, 1 час живого диалога с экспертами, включая демонстрацию интерфейса и ключевых возможностей платформы

Участие бесплатное!

Регистрация по ссылке

Теги:
Рейтинг0
Комментарии0

Демонстрационный атлас Luxms BI: лучшие практики в одном месте

Демонстрационный атлас – удобный набор готовых примеров, который позволяет увидеть и изучить возможности платформы на практике.

Атлас содержит более 40 демонстрационных дэшбордов, каждый из которых показывает конкретную функцию Luxms BI: от стилизации таблиц и условий форматирования до использования write-back, LPE-выражений, расширенного расчетного функционала и многого другого.

Каждый дэшборд – это компактный «мини-кейc». Справа – готовая визуализация, слева – объяснение, из чего она состоит и как настроена. Вы сразу понимаете механику, видите конечный результат и можете повторить его у себя в проекте.

Демоатлас Luxms BI
Демоатлас Luxms BI

Все примеры построены на локальных кубах, которые устанавливаются вместе с пакетом. Это значит, что можно изучить структуру данных и свободно экспериментировать с собственными сценариями.

Атлас объясняет, как решить большое количество прикладных задач: как покрасить строки в таблице, как настроить write-back, как выполнить расчет, как скрыть столбец, как настроить действие по клику, как внедрить интерактивные элементы и многое другое.

Готовые решения, собранные в одном месте, делают работу с платформой намного проще, атлас выполняет роль и некого справочника лучших практик, и источника быстрых находок для разработчиков, аналитиков, или тех, кто только начинает знакомство с Luxms BI.

Посмотреть видеообзор и узнать, как получить доступ к демоатласу, можно на нашем сайте.

Теги:
Рейтинг0
Комментарии0

Делимся записью прошедшего вебинара "Самые необычные применения BI. Решения, которые уже работают".

BI уже давно не только про графики, на его основе создают приложения, интеграционные решения и рабочие инструменты для бизнеса.

Эксперты поделились практическими кейсами использования BI в нестандартных сценариях, а на круглом столе поговорили о тенденциях, качестве данных и о том, почему необычные BI-сценарии становятся новым трендом.

Получился насыщенный вебинар, который вдохновляет искать новые точки применения аналитики!

Смотрите вебинар на нашем сайте

Теги:
Рейтинг0
Комментарии0

Байесовские А/Б-тесты - курс на Stepik.

Курс https://stepik.org/course/249642/promo .

Показана реализация А/Б-тестов. Рассмотрено использование байесовского моделирования для сравнения конверсий и средних. Дополнительно обсуждаются множественные сравнения и транзакционная выручка на пользователя.

Репозитории
- https://github.com/andrewbrdk/Bayesian-AB-Testing
- https://github.com/andrewbrdk/AB-Testing-Implementation
Видео на ЮТубе. По сравнению с ЮТубом в курсе есть задачи.

Это первая версия курса. Интересны комментарии. Попробуйте!

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Ближайшие события

Бизнесу все труднее систематизировать данные. Источников много, хранение — часто локальное, собрать все данные в одно место и подготовить актуальный датасет большая задача.

На вебинаре с экспертами Loginom и VK Cloud расскажем, как связать разрозненные источники в работающую аналитическую систему всего за один день. 15 декабря в 17:00 покажем, как быстро развернуть облачную СУБД и подключить к ней low-code платформу Loginom.

В программе:

🔹 Собираем пазл: архитектура решения на основе облачных баз данных VK Cloud и платформы Loginom.
🔹 Избавляемся от рутины: автоматизируем очистку и подготовку данных (ETL) с помощью low-code инструментов.
🔹 Практические кейсы: внедрение аналитических решений для ритейла, телекома и фарминдустрии.
🔹 Технический воркшоп.
🔹 Ответы на вопросы о внедрении и интеграции.

➜ Зарегистрируйтесь на вебинар

Теги:
Рейтинг0
Комментарии0

Официальный глобальный релиз FineBI 7.0 в прямом эфире!

GlowByte приглашает на вебинар FanRuan, на котором будет представлена новая версия платформы FineBI 7.0.

В новом релизе разработчики усилили три основных направления: управление данными, работу с инсайтами через ИИ и гибкость self-service аналитики. FineBI 7.0 помогает бизнес-подразделениям двигаться быстрее, а ИТ – сохранять прозрачность и контроль.

📈 FineBI 7.0 – это:

  • Быстрая сборка дашбордов – пользователи могут самостоятельно создавать и обновлять аналитические витрины без долгих циклов согласования.

  • AI-интерфейс на естественном языке – задавайте вопросы обычными словами и находите инсайты, которые раньше были скрыты за сложными выборками.

  • Единые правила данных и доступов – вся аналитическая среда остается согласованной: структуры данных, права, политики и процессы управления.

Подробнее о возможностях FineBI 7.0 – по ссылке.

Прямой эфир состоится 11 декабря 2025 в 10:00 (МСК).

Команда продукта покажет ключевые обновления, новые сценарии и проведет живую демонстрацию интерфейса.

Забронируйте место заранее!

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Outliers - детектор аномалий временных рядов

Демо: https://outliers.up.railway.app/
Код: https://github.com/andrewbrdk/Outliers

Сервис детектирует аномалии временных метрик и отправляет уведомления о выбросах. Поддерживает:
- PostgreSQL
- Емэил и Слак уведомления.
- Методы детектирования: пороговое значение, отклонение от среднего, межквартильное расстояние.

Попробуйте!

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Repeater - легкий оркестратор для аналитики

Repeater запускает задачи по расписанию. Задачи описываются в toml-файлах и отображаются в веб-интерфейсе.

title = "wiki"
cron = "55 * * * *"

[[tasks]]
name = "wiki_pageviews"
cmd = "python3 ./examples/wiki_pageviews.py --end_date={{.scheduled_dt}}"   

[[tasks]]
name = "trigger_outliers_update"
cmd = "python3 ./examples/trigger_outliers_update.py"

Возможен запуск при завершении другой задачи, уведомления о падениях, параллельные этапы. Repeater подойдёт для импорта данных и обновления витрин в хранилище.

Попробуйте!

Демо: https://repeater.up.railway.app/
Репозиторий: https://github.com/andrewbrdk/Repeater

Теги:
Рейтинг0
Комментарии0

Новая услуга GlowByte: внедряем GenBI-решения на ваших данных

Команда Business Intelligence GlowByte расширяет возможности для бизнеса в различных индустриях и объявляет о запуске новой опции – выборе, пилотировании и внедрении GenBI-решений.

Эксперты GlowByte помогут определить потенциал генеративной аналитики под конкретные задачи, разработают критерии оценки решений, выберут оптимальную платформу и LLM-модель. Это позволит бизнесу сократить время на тестирование и минимизировать риски внедрения.

Процесс может занять от одного до трех месяцев. Реализация происходит поэтапно: 

  • анализируются бизнес-процессы и инфраструктура, изучается специфика отрасли, текущие BI-решения, источники данных, архитектура систем и требования безопасности; 

  • адаптируется методология тестирования;

  • настраиваются критерии оценки под данные и бизнес-задачи, формируются релевантные сценарии использования;

  • формируется шорт-лист GenBI-решений;

  • подбираются платформы и LLM-модели;

  • проводится комплексное пилотирование;

  • тестируются решения на реальных данных, измеряются производительность и точность результатов;

  • предоставляются обоснованные рекомендации с детализацией данных по внедрению выбранного решения. 

Узнать больше, как это работает, можно тут.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

В блоге Data Sapience, технологического партнера GlowByte, вышла крутая статья технического идеолога Lakehouse-платформы данных Data Ocean Nova Евгения Вилкова.

Недавно на Хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из Кверифай Лабс выбрали методику TPC-DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.

В качестве отступления замечу, что данный эксперимент не имеет ничего общего с массивно-параллельными вычислениями и Lakehouse. Архитектура раздельных вычислений предполагает интенсивный сетевой обмен не только между storage и compute, но и между узлами compute-движка. Как заметили в комментариях к оригинальной статье, с тем же успехом можно было включить в тест и MySQL. Складывается впечатление, что методика тестирования была выбрана исключительно из-за заявленных компетенций в области оптимизатора движка, а запрос – исходя из наличия собственных доработок для обработки схожего случая. Главной же целью было на частном выводе убедить аудиторию в общем выводе. Отдадим должное коллегам – они не скрывают субъективность своего отношения к упражнению.

Заинтригованы? Добро пожаловать в статью Евгения! Комментарии приветствуются.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Всероссийский хакатон для умных и свободных: призовой фонд один миллион рублей

Альфа-Банк приглашает всех, кто умеет не просто писать код, а готов поучаствовать в решении амбициозных бизнес-кейсов: настроить систему RAG для интеллектуальных вопросов и ответов на базе знаний Альфа-Банка или разработать copilot-приложение для клиентов микробизнеса. Хакатон предоставляет молодым специалистам возможность получить практический опыт в современных IT- и аналитических технологиях, поучаствовать в командных соревнованиях, а также построить карьеру в крупной компании.

Что вас ждет?

  • Борьба за призовой фонд в 1 000 000 рублей и шанс получить фаст-трек в команду Альфа-Банка.

  • Нетворкингом, где вы сможете поработать с экспертами Альфа‑Банка и получить ценные советы.

  • Возможность участвовать из любой точки России, а потом приехать на финал в Москву.

  • Прокачка навыков, погружение в актуальные задачи бизнеса и усиление технических скиллов

Собирай команду и участвуй по одному из двух треков: настройка RAG для вопросов и ответов или разработка copilot-приложения для клиентов микробизнеса. Это уникальный молодёжный хакатон, созданный специально для тех, кто хочет попробовать себя в решении реальных задач бизнеса с помощью передовых технологий. 

Записывайся на Альфа-Будущее Хакатон — прокачай свои технические навыки и поработай над созданием реального ИИ-решения для бизнеса. Регистрируйтесь до 6 ноября и стартуйте!

Теги:
Всего голосов 3: ↑0 и ↓3-3
Комментарии0

GlowByte приглашает на первый Data Sapience Data Day: дата, программа, регистрация

Data Sapience объявляет о проведении первой конференции, посвященной работе с большими данными, Data Sapience Data Day, которая состоится 18 ноября 2025 года. Мероприятие объединит ведущих экспертов IT-отрасли и руководителей крупнейших компаний.

Data Sapience Data Day 2025
Data Sapience Data Day 2025

В программе конференции:

Панельная дискуссия с участием CDO лидирующих организаций будет посвящена ключевым темам современного дата-рынка:
▫️ перспективам развития дата-ландшафта;
▫️ влиянию искусственного интеллекта на управление данными;
▫️ оценке готовности рынка (технологии/решения/компетенции);
▫️ вопросам миграции в публичные облака.

Клиенты выступят с докладами и расскажут о кейсах внедрения и эксплуатации решений Data Sapience. Среди спикеров — представители Альфа-Банка, ОТП Банка, Россельхозбанка и других крупных организаций.

Технологические презентации познакомят участников с возможностями Lakehouse-платформы данных Data Ocean и платформы управления данными Data Ocean Governance.

В мероприятии примут участие специалисты Т-Банка, Газпромбанка, Сбербанк Страхования, Адастры и других ведущих игроков рынка.

▶️ ПОДРОБНАЯ ПРОГРАММА И РЕГИСТРАЦИЯ ◀️
Участие в конференции бесплатное. Регистрация обязательна и проходит модерацию в соответствии с закрытым форматом мероприятия.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Первый Data Sapience Data Day: дата, программа, регистрация

Data Sapience объявляет о проведении первой конференции, посвященной работе с большими данными, Data Sapience Data Day, которая состоится 18 ноября 2025 года. Мероприятие объединит ведущих экспертов IT-отрасли и руководителей крупнейших компаний.

Data Sapience Data Day 2025
Data Sapience Data Day 2025

В программе конференции:

Панельная дискуссия с участием CDO лидирующих организаций будет посвящена ключевым темам современного дата-рынка:
▫️перспективам развития дата-ландшафта;
▫️влиянию искусственного интеллекта на управление данными;
▫️оценке готовности рынка (технологии/решения/компетенции);
▫️вопросам миграции в публичные облака.

Клиенты выступят с докладами и расскажут о кейсах внедрения и эксплуатации решений Data Sapience. Среди спикеров — представители Альфа-Банка, ОТП Банка, Россельхозбанка и других крупных организаций.

Технологические презентации познакомят участников с возможностями Lakehouse-платформы данных Data Ocean и платформы управления данными Data Ocean Governance.

В мероприятии примут участие специалисты Т-Банка, Газпромбанка, Сбербанк Страхования, Адастры и других ведущих игроков рынка.

▶️ ПОДРОБНАЯ ПРОГРАММА И РЕГИСТРАЦИЯ ◀️
Участие в конференции бесплатное. Регистрация обязательна и проходит модерацию в соответствии с закрытым форматом мероприятия.

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Новое видео с нашей Конференции Luxms, в котором Вадим Кананыхин, Руководитель отдела управления и аналитики данных ГК «Синтека», рассказал про свои наработки и интересные проекты, а также поделился собственными приемами и «лайфхаками» работы с Luxms BI.

Luxms BI — классный продукт, который нам развязал руки и кардинально увеличил наши возможности в аналитике, построении отчётности, управлении хранилищами данных.

В выступлении:

  • BI-дэшборд для поставщиков: управленческие данные в одном окне, фильтры и гибкая визуализация под роль пользователя;

  • Оптимизация процессов: ускорение расчётов за счёт предобработки JSON и автоматического обновления только новых данных;

  • Рост эффективности: перераспределение ресурсов и фокус на наиболее прибыльных товарных категориях;

  • Отказоустойчивость и автономность: автоматический контроль сборов данных и уведомления о сбоях в Telegram;

  • Luxms BI + Luxms Data Boring = инфраструктура доверия: свежие данные, надёжная архитектура и единый источник аналитической правды.

Видео выступления и материалы — на нашем сайте.

Теги:
Рейтинг0
Комментарии0

Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark — с DataFusion Comet и Impala

Друзья, в блоге компании Data Sapience, партнера GlowByte, вышла новая статья, третья в цикле материалов про нагрузочные испытания вычислительных технологий массивных параллельных вычислений.

Ранее техническим руководителем решений Data Ocean Nova и Data Ocean Flex Loader Евгением Вилковым были опубликованы статьи, посвященные сравнению Impala, Trino и Greenplum, в том числе по методике TPC-DS.

В этот раз в список решений добавляется Spark, включая работающий с технологией нативных вычислений DataFusion Comet, и набирающий популярность StarRocks.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Новое видео с нашей Конференции Luxms, в котором Андрей Савичев, директор по данным Fork-Tech, рассказал, как команда провела масштабную миграцию данных при слиянии «Открытие брокер» и «ВТБ» с помощью Luxms BI.

На платформе был построен надежный «ИТ-мост», позволивший в рекордные сроки – всего за два месяца – перенести данные из двадцати различных источников: более двух миллионов счетов и свыше четырехсот тысяч клиентских записей.

В выступлении:

  • Как BI превратился в платформу миграции: единый контур загрузки, проверки и выгрузки данных;

  • 400 000 клиентских записей и миллионы счетов — как обеспечить качество и синхронность данных в режиме онлайн;

  • Визуальный контроль через дэшборды: операционные команды наблюдали процесс миграции в реальном времени;

  • Интеграции BI с внешними сервисами — SMS, почта, биржи — для уведомлений клиентов и непрерывности торгов;

  • Что позволило провести полную миграцию за 6 месяцев и остановить обслуживание клиентов всего на один день.

Видео выступления и материалы — на нашем сайте.

Теги:
Рейтинг0
Комментарии0

GlowByte приглашает на PIX DAY – 2025

GlowByte примет участие в PIX Day – ежегодной конференции лидеров цифровой трансформации, экспертов по умной автоматизации и практиков внедрения инноваций.

Конференция PIX Robotics PIX DAY – 2025 пройдет в Москве 29 октября. Это ежегодное мероприятие для тех, кто строит цифровое будущее бизнеса и промышленности.

На конференции соберутся руководители крупнейших компаний, ИТ-специалисты, аналитики и интеграторы, которые обсудят, как цифровые технологии помогают компаниям быть конкурентоспособными и устойчивыми и как новые продукты PIX открывают возможности для роста. Все об умной автоматизации и ИИ – на одной площадке.

GlowByte выступит спонсором мероприятия и представит свой демонстрационный стенд. 

В программе конференции ожидаются:

  • Реальные кейсы крупнейших компаний;

  • Выступления топовых экспертов;

  • Технологическая выставка партнеров;

  • Живые мастер-классы от экспертов;

  • Новое в продуктах PIX, roadmap 2026;

  • Церемония награждения клиентов и партнеров PIX Awards.

📍Москва | 29 октября 2025 | 10:00-18:00

Участие бесплатное для представителей бизнеса, необходимо подтверждение организаторов. Регистрация по ссылке

Приходите к нашему стенду, будем рады пообщаться! Посетителей стенда также ждет розыгрыш памятных призов от GlowByte.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0
Теги:
Рейтинг0
Комментарии0

Приходите на конференцию GlowByte FineDay–2025 – участвуйте в "битве" за будущее данных!

Друзья, компания GlowByte, единственный партнер FanRuan уровня Diamond в России, приглашает на ежегодную конференцию по бизнес-аналитике и большим данным FineDay — 2025: Self-Service BI vs AI — битва за будущее данных!

Мероприятие соберет профессионалов в области Business Intelligence и AI, чтобы обсудить революционные изменения в мире данных и вектор развития BI-индустрии. Вас ждут интересные доклады и горячая дискуссия о том, как self-service аналитика и искусственный интеллект формируют будущее работы с данными.

Ключевыми темами мероприятия станут: 

  • Эволюция Self-Service BI: как демократизация данных меняет корпоративную аналитику.

  • AI-революция в аналитике: возможности и вызовы интеграции ИИ в BI-системы.

  • Гибридные подходы: синергия человеческой экспертизы и машинного интеллекта.

В программе конференции будут звучать доклады:

  • Миграция с Qlik Sense на FineBI: практический опыт смены BI-платформы.

  • От SAP BW и MS PowerBI к ClickHouse и Sigla Vision: эволюция корпоративной аналитики в Полюсе.

  • Цифровая трансформация данных в группе Московская Биржа: от централизованной отчетности к культуре Data Driven и стратегической цели AI-Native

Эксперты и компании-участники

На FineDay — 2025 выступят и примут участие представители ведущих организаций: Газпромбанк, Полюс, Московская Биржа, СК «Сбербанк страхование», СИБУР Диджитал, Viz Standart,  FanRuan, GlowByte. 

Время проведения конференции: 14:00 — 21:00.

Участие бесплатное, но необходима регистрация.

Адрес будет в письме после регистрации.

Теги:
Рейтинг0
Комментарии0

Делимся видеозаписями выступлений с нашей Конференции Luxms.

Начнем с выступления Ирины Долженко, Главного эксперта департамента информатизации ОАО “РЖД”:

"Визуализация данных как стратегический актив: опыт построения единой BI-системы в крупнейшем транспортном холдинге".

Сегодня в крупнейшем железнодорожном холдинге страны работает десяток проектов на базе Luxms BI – от аналитики для начальников дорог и топ-менеджмента до HR-решений для холдинга численностью более 700 тысяч сотрудников и мониторинга центральной станции связи.

Масштаб задач впечатляет: каждый год РЖД прибавляет +5 петабайт данных! И к системе предъявляются предельно жесткие требования по производительности. Luxms BI справляется с этим масштабом, обеспечивая надежность и скорость работы на уровне национальной инфраструктуры.

Смотрите на:

Теги:
Рейтинг0
Комментарии0

Многие, кто обучал большие модели искусственного интеллекта, сталкивались с ситуацией, когда необходимы данные из множества источников. Но если источники совсем не из одной корпорации, то из-за GDPR или законах о защите персональных данных нет возможности обмениваться данными напрямую. 

Как быть, если нужно обучать большие модели, но нельзя собирать всю информацию в одном месте?

Решение — федеративное обучение. Это система, в которой центральное устройство (сервер) объединяет усилия множества участников (устройства): каждый совершает операции на своих данных, а сервер собирает только результаты, не забирая саму информацию.

В зависимости от специфики задачи, данные на устройствах могут храниться по-разному. На основе того, как делится матрица признаков между участниками, можно выделить два подвида федеративного обучения:

📌 Горизонтальное федеративное обучение (HFL)

Суть: у разных участников данные имеют одинаковые фичи (одинаковые столбцы), но разные строки (разные пользователи/наблюдения).

Пример: несколько банков обучают модель для предсказания мошеннических транзакций. У всех есть одинаковые признаки по транзакциям (сумма, время, место, категория операции и т.п.), но набор клиентов у каждого банка свой. Объединяя данные через HFL, они получают более устойчивую модель, не раскрывая данные клиентов напрямую.

📌 Вертикальное федеративное обучение (VFL)

Суть: у разных участников есть одни и те же сэмплы (одни и те же строки), но разные признаки (разные столбцы).

Пример: банк и страховая компания имеют одних и тех же клиентов. У банка есть финансовые характеристики (история транзакций, кредитный рейтинг), у страховой — медицинская история и страховые выплаты. Объединив признаки в VFL, они могут построить более точную модель для оценки рисков по клиенту.

При этом нельзя сказать, что примеры выше оторваны от реальности. Например, Google применяет федеративное обучение для улучшения работы клавиатуры Gboard. Вместо сбора всех данных о нажатиях на своих серверах, центральное устройство получает только агрегированные обновления модели. То есть, обучение происходит прямо на устройствах пользователей, но без нарушения приватности.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Вебинар «ADQM Control глазами DBA»

14 октября присоединяйтесь к нашему вебинару, где мы на примере практических кейсов покажем, как ADQM Control помогает упростить эксплуатацию и повысить производительность кластеров ClickHouse.

В программе

  • Краткий обзор ADQM Control и новых возможностей, появившихся после майского вебинара.

  • Разбор типовых проблемных кейсов эксплуатации кластеров ClickHouse.

  • Live-demo практических примеров их решения.

  • Тизер релиза начала 2026 г.

  • Q&A.

Эксперты Группы Arenadata:

  • Дмитрий Безруков, руководитель отдела технических менеджеров — основной докладчик, Q&A

  • Антон Коваленко, руководитель департамента продуктового маркетинга — модератор дискуссии, Q&A

Зарегистрироваться на вебинар можно тут.

Теги:
Всего голосов 2: ↑1 и ↓1+2
Комментарии0

Байесовские А/Б-тесты: конверсии

Теги:
Рейтинг0
Комментарии0

Как мы ушли с Airflow и упростили MLOps

Привет! Меня зовут Александр Егоров, я MLOps-инженер в Альфа-Банке, куда попал через проект компании KTS. За свою карьеру я построил четыре ML-платформы (одна из которых сейчас в Росреестре) и развиваю с командой пятую. Недавно мы полностью пересобрали пайплайны и мигрировали c Airflow на Argo Workflows + Argo CD. Делимся подробностями!

GitOps для Airflow: как мы перешли на лёгкий K8s-native Argo Workflows
Привет! Меня зовут Александр Егоров, я MLOps-инженер в Альфа-Банке, куда попал через проект компании...
habr.com

Почему Airflow стал мешать?

Airflow отлично подходит для десятков DAG’ов, но на масштабе сотен моделей появляются проблемы: всё усложняется, теряется Kubernetes-нативность, GitOps работает через костыли, а обновления DAG’ов становятся ручным трудом. Версионирование ломается, пайплайны идут десятками минут, и отлаживать их настоящая боль.

Почему Argo Workflows?

Argo — это K8s-native решение, декларативный подход, совместимость с GitOps, простейшее развертывание и минимум лишних компонентов. Для нас это был буквально глоток свежего воздуха. Вместо монолитного Kubeflow — один контроллер, никаких лишних слоёв и масштабируемость из коробки

Подробнее читайте в статье «GitOps для Airflow: как мы перешли на лёгкий K8s-native Argo Workflows»

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

Управление качеством данных выводит бизнес-процессы на новый уровень

ОТП Банк представил инновационный подход к управлению качеством данных. Об этом 24 сентября 2025 года на 10-м форуме «Управление данными — 2025» в Москве рассказал Николай Шевцов, директор дирекции по управлению данными ОТП Банка. В ходе своего доклада он представил анализ практического опыта построения сквозной системы управления данными (Data Governance), которая успешно работает в ОТП Банке уже более 2-х лет. Особое внимание было уделено презентации инструмента, позволяющего в реальном времени отслеживать сотни критических показателей по всему массиву данных финансовой организации – автоматическим проверкам данных.

«Новый подход, основанный на принципе «Data Quality by Design», позволил не только значительно повысить надежность информации, но и добиться значительной экономии средств, превратив контроль качества данных из статьи расходов в мощный стратегический актив, улучшающий финансовый результат компании», - отмечает Николай Шевцов.

По словам эксперта, традиционные системы контроля «качества данных» часто ассоциируется с рутинными отчетами и бесконечными ручными проверками. Бизнес-пользователи сталкиваются с ошибками в отчетах, а аналитики тратят до 70% времени на исправление инцидентов, что приводит к замедлению процессов и выгоранию сотрудников. Решение ОТП Банка кардинально меняет эту парадигму.

Основной элемент новшества — централизованная Data Governance платформа, которая хранит все метаданные – бизнес-глоссарий, каталог данных, домены, владельцев, процессы. Ее ключевое отличие заключается в интеграции BRD (Business Requirements Document) и FSD (Functional Specifications Document) в платформу как структурированных объектов, а не разрозненных документов в Word или Confluence. Глубокая автоматизация и интеграция контроля на этапе разработки любых data-продуктов позволяет бизнесу и IT работать в едином контуре, обеспечивая прозрачность и скорость реагирования на инциденты.

Также платформа обеспечивает сквозной мониторинг сотен критических показателей в реальном времени, автозакрытие инцидентов и оперативные уведомления, что дает бизнес-пользователям полный контроль над операционными задачами, а специалистов почти полностью освобождает от рутинных процессов, оставляя больше времени для решения стратегических задач.

«Благодаря тому, что создание DQ-проверок мы встроили в Framework разработки Data – продукта, 75% проверок создаются теперь автоматически на основе бизнес-правил, без участия человека. Таким образом, мы смогли прийти к значительному ускорению процессов – меньше минуты на создание проверки качества данных против 10-15 минут режиме ручной поверки. И добились снижения операционной нагрузки на команды в сотни раз. При этом почти на треть вырос уровень качества данных, потому что мы успеваем проверять то, до чего раньше не доходили руки. Как результат – на 25% сокращены затраты на решение инцидентов качества данных за счет автоматизации рутинных операций», - пояснил Николай.

По словам Шевцова, команде ОТП Банка удалось встроить «ген качества» в ДНК бизнес-процессов, что открывает новые возможности для увеличения эффективности ML- моделей для работы искусственного интеллекта.

Теги:
Всего голосов 4: ↑2 и ↓20
Комментарии0

🚀 Объём корпоративных данных растёт на десятки процентов в год, а специалистов всё так же не хватает. В статье для VC.RU мы вместе с Екатериной Ризановой рассказали, как ИИ-агенты помогают решать эту проблему: берут на себя рутинные задачи в хранилищах данных и BI-системах, ускоряют работу команд и экономят компаниям миллионы рублей в год.

ИИ-агент — это не чат-бот. Он сам выполняет действия: анализирует код витрин, строит lineage, генерирует SQL, находит инсайты и помогает сотрудникам сосредоточиться на действительно важных задачах.

👉 Делюсь материалом: https://vc.ru/ai/2233616-ii-agent-dlya-rabotyi-s-bolshimi-dannymi

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Байесовские А/Б-тесты: примеры байесовского моделирования

-Блокнот: https://github.com/andrewbrdk/Bayesian-AB-Testing
-Все видео: https://www.youtube.com/playlist?list=PLqgtGAeapsOPpV0FqeXEpWosHBW8ZebYl

Теги:
Рейтинг0
Комментарии0

Яндекс снова на обложке, хотя теперь под именем Nebius. После сделки с Microsoft акции в США улетели на +71%. Формально — всё красиво: дата-центр в Нью-Джерси, контракт на $17+ млрд до 2031 года. Но за кулисами это выглядит чуть иначе.

Главная проблема индустрии — NVIDIA ограничивает квоты на свои чипы. Это значит, что даже гиганты вроде Microsoft не могут прийти и сказать: «Дайте нам вагон H100, мы оплатим картой». Карточек тупо нет столько, сколько всем нужно. Поэтому Microsoft вынужден искать партнёров, у которых есть доступ к чипам через свои каналы.

Появляется Nebius. У компании свой лимит на железо, свои отношения с NVIDIA — и теперь кусок этого лимита фактически «арендован» Microsoft. То есть вместо того, чтобы напрямую выбивать квоты, корпорация берёт вычислительные мощности у бывшей «Яндекс N.V.».

Теги:
Всего голосов 2: ↑1 и ↓1+1
Комментарии1

Строительные автопилоты: почему данные становятся главным активом строительства.

Автоматизация в строительной отрасли становится массовой и доступной, и её ценность всё меньше в самих технологиях, а всё больше — в данных, которыми они управляют.

За последние 30 лет CAD/BIM фактически превратились в инструмент ручной разметки строительной реальности: инженеры и архитекторы создавали базы элементов зданий и сооружений, превращая чертежи и 3D-модели в структурированные датасеты.

То, что Google, Tesla или Waymo делали силами миллионов студенто-часов, размечавших вручную изображения с людьми и объектами, в строительстве десятилетиями заполняли инженеры проектировщики в специальных базах слабоструктурированных данных AutoCAD или структурированной базы данных Revit или ArchiCAD.

Именно эти массивы станут сырьём для «строительных автопилотов» — систем, способных автоматически расставлять элементы в пространстве проекта и рассчитывать стоимость, сроки и ключевые параметры новых проектов. Как LLM обучаются на массиве текстов, чтобы генерировать новые знания и целые приложения, так и в строительстве мы сможем с помощью AI и workflow использовать опыт тысяч реализованных проектов, чтобы проектировать и планировать новые проекты быстрее и точнее.
У отрасли есть лишь десятилетие, чтобы превратить накопленный опыт в основу будущих систем. После этого рынок займут те, кто сумел первым построить собственные «автопилоты».

Но сами по себе автопилоты, AI-модели и процессы автоматизации ничего не стоят без качественных данных. Именно уникальные, хорошо структурированные наборы данных станут главным активом компаний. Их невозможно скопировать или купить, в отличие от софта или подрядчиков. Настоящее конкурентное преимущество даёт не программа, а налаженный конвейер по сбору, очистке и обогащению собственных данных.

Но сами по себе автопилоты, AI-модели и процессы автоматизации ничего не стоят без качественных данных. Именно уникальные, хорошо структурированные наборы данных станут главным активом компаний. Их невозможно скопировать или купить, в отличие от софта или подрядчиков. Настоящее конкурентное преимущество даёт не программа, а налаженный конвейер по сбору, очистке и обогащению собственных данных.

В ближайшие годы ключевой задачей строительных компаний станет не создание проектов как таковых, а системная подготовка и капитализация своих или приобретённых массивов данных. Те, кто начнёт этот процесс сейчас, получат собственных «автопилотов»-агентов. Остальным придётся довольствоваться чужими.

Хотите обсудить новые пайплайны автоматизации, поделиться своими кейсами или получить помощь? Больше примеров автоматизации вы можете найти в репозитарии на GitHub или в нашем телеграмм чате "n8n Development | Практика автоматизации и готовые решения" Присоединяйтесь к нашему Telegram-сообществу для живых обсуждений, советов и эксклюзивного контента.

Теги:
Всего голосов 1: ↑0 и ↓1-1
Комментарии1

Байесовские А/Б-тесты: общая картина

-Блокнот: https://github.com/andrewbrdk/Bayesian-AB-Testing
-Все видео: https://www.youtube.com/playlist?list=PLqgtGAeapsOPpV0FqeXEpWosHBW8ZebYl

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Новая версия продукта «Форсайт. Умные таблицы»

Друзья, это того стоило! 3 месяца работы – и перед вами новая версия «Форсайт. Умные таблицы» 10.9!
Новая версия кардинально улучшит ваш опыт работы с продуктом.

Вот над чем команда усердно работала в последнее время:

Возможность сохранить персональные отчеты в репозиторий «Форсайт. Аналитическая платформа»
Ура, теперь все ваши классные таблицы и расчеты вы можете сохранить в «Регламентный отчет» прямо в репозитории «Форсайт. Аналитическая платформа». Это значит, что подготовленные вами шаблоны форм и отчетов будут бережно храниться на сервере и могут быть вновь использованы как вами, так и вашими коллегами (при наличии доступа) во всех инструментах «Форсайт», включая их веб-версии.
Важно: отчеты стали мощнее и просто не откроются в предыдущих версиях.

Ваши отчеты теперь умеют работать сами
Мы подключили к «Форсайт. Умные таблицы» полноценный объектно-ориентированный язык программирования Fore. С его помощью вы можете превратить повторяющиеся задачи в магию автоматизации. Например, если нужно проверить, какие данные пользователь ввел, добавить новые элементы в справочник или реализовать нетиповую детализацию данных на отдельном листе с произвольным оформлением, Fore поможет решить эти задачи в режиме онлайн подключения к «Форсайт. Аналитическая платформа»

Отслеживание изменений в отчетах
Благодаря хранению информации обо всех изменениях данных в вашем отчете, вы не только сможете увидеть комментарии пользователя, который их сделал, но и увидеть – кто, когда и что именно поменял в каждой конкретной ячейке.

Индикация доступных ячеек для ввода данных
Помимо цветовой индикации ячеек, в которые пользователь не может вводить данные, мы добавили простые и понятные пиктограммы, отражающие ячейки с отсутствием прав доступа для ввода, а также ячейки с расчетными агрегированными данными.

Пользовательские кнопки на панели инструментов
Теперь вы можете закрепить самые нужные функции и убрать то, чем не пользуетесь на панели инструментов. Нужен уникальный воркфлоу? Создайте свою кнопку и назначьте ей свой макрос Fore, всё произойдет по нажатию.

Множество новых удобных функций
Мы реализовали защиту листа, расширили возможности печати и визуализации данных в диаграммах, добавили авторастягивание конструируемого среза при вставке данных из буфера.

Важно! Новая единица лицензирования
Ранее в целях апробации «Умных таблиц» сервер лицензий использовал единицу лицензирования пользователя «Форсайт. Аналитическая платформа». Начиная с версии 10.9 необходимо запрашивать и устанавливать отдельные лицензии для пользователей «Умных таблиц».

Более детальная информация здесь: https://announce.fsight.ru/fst/10-9/

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0
1
23 ...

Вклад авторов