Обновить
82.63

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга

Инсайты с конференции «Качество данных – 2026»

Привет, Хабр! У нас в ОТП Банке есть целое профессиональное сообщество про Data Governance. Мы генерим в нем много полезной информации, поэтому решили, что нашим читателям тоже можем быть интересно. Наш первый пост – про конференцию «Качество данных».

CDO – это не про технологии. Это про культуру.

Сегодня Chief Data Officer – это не просто руководитель данных. Это архитектор культурных изменений. Задача CDO: менять парадигму мышления организации: от работы «по ощущениям» к системной ответственности за данные и их качество.

Реальный срок построения Data Governance: 1–3 года.

Если на входе понятная структура данных: 1–2 года.

Если хаос, миграции и несистемность: 2–3 года.

Это подтверждает: построение экосистемы данных – не быстрый проект, а трансформация. И именно она позволяет перейти к проактивному качеству данных и Data-Driven управлению. Хайп вокруг AI показал главное - без качества данных ничего не работает. Многие компании попробовали внедрять AI и Data-Driven подходы, но столкнулись с реальностью: без управляемых, понятных и качественных данных результат не достигается.

Тренд 2026 года: фокус на качестве данных как фундаменте всех инициатив.

 Методология + технология + коллаборация. Только вместе.

Один из ключевых выводов: ни стандарты без инструментов, ни инструменты без вовлечённых людей не работают. Качество данных «by design» возможно только тогда, когда: есть понятная методология, есть поддерживающая технология, и есть встроенная коллаборация через процессы Data Governance. Именно экосистема делает качество устойчивым.

Институт Data Owner и Data Steward – критический фактор успеха.

Важно не просто внедрить инструмент, а:

🪐назначить владельцев,

🪐выстроить прозрачную ответственность,

🪐дать удобный процесс работы с инцидентами качества,

🪐встроить мониторинг в операционные процессы команд.

Успех приходит тогда, когда Data Governance не выглядит как «дополнительная нагрузка сверху», а становится частью ежедневной работы с понятной пользой и измеримым результатом. Формальное назначение владельцев – это только начало.

Многие компании сталкиваются с трудностями в прозрачности и реальной вовлечённости владельцев данных. Но даже базовое, формальное закрепление ответственности создаёт фундамент, на котором можно строить зрелую систему качества. Именно этот фундамент позволяет переходить от описаний в глоссарии к реальной ответственности за качество и его исправление.

Главный вывод конференции:

Качество данных - это не функция IT. Это организационная зрелость. И 2026 год - год, когда выигрывают те, кто построил экосистему, а не просто внедрил инструмент.

Теги:
0
Комментарии0

Новая страшилка от Citrini Research: Кризис Интеллекта

Глобальный кризис интеллекта 2028
Глобальный кризис интеллекта 2028

В этом посте я не буду пересказывать данную статью. Считаю, что важно обратить внимание на последствия ИИ автоматизации, о которой в последнее время так много говорят и проследить за мнением людей.

Мнения людей после прочтения статьи разделились на оптимистичные и пессимистичные:

  • Оптимисты апеллируют к закону Сэя, который в сущности своей говорит следующее: спрос может подстроиться под любое количество предложения. В таком случае сэкономленные бизнесом деньги перетекут в другие и/или новые сектора экономики.

  • Пессимисты утверждают, что в случае с ИИ базовый механизм закона Сэя ломается. Роботы и алгоритмы производят товары и услуги, но не формируют потребительский спрос. Разрывается цикл "произвёл получил деньги потратил", потому что из него исключается человек. И кризис, описанный в статье, очень близок.

Оба лагеря имеют право на существование, но, если верить оптимистам, с нами не случится ничего плохого, поэтому детальнее рассмотрим противоположный вариант развития событий.

Самое "важное", что пытаются нам сказать авторы статьи и другие медийные личности индустрии: произойдёт переоценка человеческого интеллекта и его влияния на формирование цены продукта или услуги. И далее эта мысль подкрепляется предсказаниями об увольнении офисных клерков, джунов и других начальных и средних позиций.

Однако именно такие люди формируют основу ипотечных займов (да-да, снова кризис вокруг ипотеки). Банки спокойно выдавали кредиты, т.к. стабильный доход и условия жизни гарантируют очень вероятное успешное погашение этого самого кредита.

ИИ меняет ситуацию. Резкие сокращения могут повлечь за собой снежный ком, на конце которого будут частные фонды и банки. Скорее всего они смогут отыграться, а в дураках останутся обычные люди (опять).

Остаётся ответить только на 1 вопрос: Куда человечество в целом хочет прийти
через N лет?

В теории, таким должна заниматься ОНН, но что-то в эффективности данной организации на фоне последних событий начинает сомневаться всё больше людей.

Случайно можно наткнуться на мысль, что никто никуда идти и не хочет. Только заработать побольше денег и надуть пузыри до предела. Грустная мысль и, можно сказать, "глупая".

Спасибо, что почитали. Надеюсь, смог натолкнуть вас на интересные мысли. Буду рад вашим вопросам / дополнениям / комментариям.

Теги:
0
Комментарии1

Какой номер на футболке у человека?

Задал я сегодня этот вопрос нейронкам и вот что получил.
ChatGpt, Qwen3.5-Plus, Алиса: 68
Gemini PRO: В текущем положении (вверх ногами) мы видим число 68. Однако, если перевернуть изображение так, чтобы человек стоял на ногах, настоящий номер на футболке будет читаться как 89.
Grok решил что изображение неприличное (видимо сказались скандалы с раздевающими функциями).
DeepSeek не нашёл текста на картинке, но видимо искал задачу с текстом.

Интересно было бы позадавать этот вопрос детям, но пока такой возможности нет.

P/s Где был режим размышления, там включал.

Теги:
+1
Комментарии5

Недавно вышла новая версия dplyr 1.2.0, и она принесла несколько важных обновлений, которые делают работу с данными в R ещё проще и удобнее. Опубликовал видео обзор в котором я рассказываю про самые интересные новинки: новые функции фильтрации filter_out(), when_any() и when_all(), обновлённую систему перекодировки с recode_values(), replace_values() и replace_when(), а также о важных оптимизациях старых функций.

Если вы активно используете dplyr в своих проектах, этот обзор поможет вам быстро понять, как ускорить работу с данными и писать более читаемый код. В видео я показываю реальные примеры и сценарии использования новых функций, чтобы вы могли сразу применять их в своих проектах.

Видео снято по статье "dplyr 1.2.0".

Теги:
0
Комментарии0
Теги:
0
Комментарии0

Цифровые двойники и 3D-визуализация: опыт GlowByte и FanRuan

GlowByte и FanRuan провели бизнес-завтрак с промышленными компаниями. Мероприятие было посвящено новым возможностям бизнес-аналитики, которые открывают инструменты FineVis и FineReport.

Эксперты продемонстрировали, как компании переходят от статичных дашбордов к интерактивным цифровым двойникам, которые обновляются в реальном времени и помогают принимать решения быстрее: от таблиц и графиков – к живым цифровым моделям.

Чжан Цзэфэн, Product & R&D Lead FineVis, FanRuan, рассказал:

  • как развивалась визуализация данных – от первых таблиц до VR/AR и 3D-моделирования, 

  • что такое цифровой двойник и какие уровни зрелости существуют – от L0 до автономных систем L5, 

  • почему 3D-визуализация имеет критичное значение для аналитики,

  • как применяют компании 3D-моделирование в логистике, производстве, энергетике, умных городах, медицине,

  • как FineVis и FineReport объединяют визуализацию и аналитику, интегрируя данные из ERP-, MES- и IoT-систем.

Смотреть видео выступления Чжана.

Алексей Коломенцов, старший консультант практики Business Intelligence, GlowByte, провел демо, в котором пошагово показал, как с помощью FineVis создать полноценного цифрового двойника – от пустой сцены до живой 3D-модели с данными. 

В демо вы увидите:

  1. Интерфейс системы и ключевые инструменты для работы.

  2. Как строить сценарии взаимодействия с моделью.

  3. Создание с нуля примера 3D-анимации.

  4. Подключение реальных данных к объектам и их отображение в режиме реального времени.

  5. Как сделать визуализацию интерактивной и полезной для аналитики.

Смотреть видео выступления Алексея.

Теги:
+5
Комментарии0

Друзья, 12 февраля проведём открытый вебинар по следам нашего ESB-исследования в «Кругах Громова».

Если коротко — за последний год мы оценили 18 российских интеграционных платформ по единой методологии: 12 категорий, 1 000 баллов. Такого раньше на рынке не было. Результаты местами предсказуемые, местами — неожиданные.

На вебинаре поговорим:

— Почему компании до сих пор путают Kafka, ESB и data pipeline — и платят за это дважды
— 5 классов интеграционных решений: когда какой работает, а когда — категорически нет
— Как мы строили матрицу зрелости и кто в итоге получил номинацию
— Что планируем исследовать дальше — и как повлиять на приоритеты

Будет живой эфир с интерактивом, не просто «говорящая голова».

Кто работает с интеграциями, выбирает платформу или просто в теме — приходите, будет интересно.

📅 12 февраля 2026, 11:00 МСК
📍 Онлайн, бесплатно

👉 Нужна регистрация: тут

Теги:
0
Комментарии0

GlowByte разработала методику выбора BI на основе сценарного анализа

Источник: Freepik.com
Источник: Freepik.com

Практика Business Intelligence GlowByte разработала подробное руководство по сценарному выбору BI с готовой Excel-матрицей для сравнения платформ.

GlowByte выделяет 4 ключевых сценария с разными потребностями и акцентами:

  • отчеты для руководителя,

  • self-service,

  • регламентная отчетность,

  • исследование данных.

Сценарии в матрице сопровождаются своим набором релевантных критериев, каждый из которых имеет оценку критичности, что позволяет адаптировать расчет под конкретный проект: при изменении критичности пересчитываются все баллы, и BI-платформа получает новую оценку.

ℹ️ Методика учитывает изменения в BI-ландшафте, запрос на адаптивность и гибкость, а также необходимость подстраивать инструмент под задачу, а не наоборот. Исследование содержит детальные чек-листы по каждому сценарию, критерии оценки и примеры расчетов.

Впервые GlowByte выпустила сравнительную таблицу инструментов для анализа данных в 2022 году (рассказывали о подходе в статье “Как выбрать BI-платформу”). Подробнее о том, как GlowByte пересмотрела методику и почему старый подход не работает, - в новой статье "От универсальных критериев к сценарному подходу".  

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Open Table Formats — Iceberg vs Paimon — практика использования

В блоге партнеров GlowByte вышла новая статья.

Автор рассказывает об опыте работы с новым открытым табличным форматом (OTF) Paimon от разработчиков Apache Flink, представляет практические выводы, которые были сделаны на промышленных средах; а также проводит репрезентативное тестирование, где иллюстрирует ключевые практические сценарии.

Появление open table formats исполнило вековую мечту data-инженеров: совместило эффективность хранения и чтения Apache Parquet с возможностью обновления данных без полной их перезаписи. Достигается это за счет парадигмы Merge-On-Read и «отложенного удаления», когда информация об удалении старых версий записи пишется в deletion-файлы. Для фреймворков потоковой обработки, например Flink, это открывает возможности по обновлению данных прямо в Data Lake в режиме, близком к реальному времени, а для движков пакетной обработки — Spark, Impala, Trino, StarRocks — сокращает расход ресурсов на MERGE новых порций данных в витрины.

Читать статью полностью по ссылке.

Теги:
Всего голосов 4: ↑3 и ↓1+4
Комментарии0

Всё зелёное — значит, всё ок?

В новом выпуске подкаста «В SREду на кухне» обсуждаем суть мониторинга и причины его хронических сбоев. В фокусе — метрики и алерты: как не утонуть в потоке предупреждений, отсеять ложные сигналы и выстроить эффективную систему. Говорим о том, как SRE анализируют графики, какие показатели бизнес считает ключевыми, и развенчиваем миф о том, что «зелёный» статус всегда означает успех.

Ведущие:

  • Михаил Савин, SRE Community Lead в Авито;

  • Андрей Волхонский, руководитель юнита System в Центре разработки инфраструктуры Авито;

  • Евгений Харченко, руководитель отдела по развитию практик в разработке и эксплуатации в Райффайзен Банк.

Смотреть VK
Смотреть YouTube

Подписывайтесь на канал AvitoTech в Telegram, там мы рассказываем больше о профессиональном опыте наших инженеров, проектах и работе в Авито, а также анонсируем митапы и статьи.

Теги:
Всего голосов 25: ↑25 и ↓0+25
Комментарии0

Процедурное SQL-расширение в Lakehouse-платформе — новые возможности для работы с данными

В блоге технологического партнера GlowByte вышла новая статья. Команда Data Sapience рассказала о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей.

Ребята рассказывают о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и делятся планами по развитию Data Ocean Nova.

Теги:
Всего голосов 4: ↑3 и ↓1+4
Комментарии0

Привет!

В рамках «Кругов Громова» сейчас запускаем новое исследование — по российским платформам роботизации бизнес‑процессов (RPA). Хотим собрать честный опыт внедрения: что реально автоматизировали, где программные роботы помогают, а где мешают жить.

Если вы участвовали во внедрении RPA, запускаете и поддерживаете программных роботов (RPA‑ботов) в проде или, наоборот, уже обожглись и отказались от платформы — очень нужны ваши ответы. Опрос занимает 5–10 минут, он про практику, а не про маркетинг.

👉 Опрос RPA-круга Громова: https://forms.yandex.ru/cloud/6937ddf7068ff0b2dab7e0ee/

Результаты войдут в открытое исследование по российским RPA‑платформам на russianbi.ru — в духе прошлых исследовательских кругов: с разбором сильных и слабых сторон и типичных граблей.

Если есть история «как у нас роботы пошли не по плану» или, наоборот, показательный успешный кейс — кратко накидайте в комментарии к этому посту, это тоже поможет исследованию.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии2

Call for Pioneers: Launching the StarRocks Russian Community

Hello, Russian Developers!

We are the team behind StarRocks, a next-generation, high-performance analytical database (OLAP) widely adopted by leading tech companies globally for its blazing-fast query speeds and unified architecture.

We have always admired the Russian tech community. From ClickHouse to Nginx, Russia has a legendary reputation for engineering excellence and database innovation. We believe StarRocks has a lot to offer to this vibrant ecosystem, but we face a challenge: Language.

To bridge this gap, we are launching the StarRocks Russia Localization Program. We are looking for 3-5 technical experts to become the founding contributors of our Russian community.

The Mission

We don't just need translators; we need technical evangelists. Your goal is to help us localize high-quality technical content (Architecture deep dives, Benchmarks, User Cases) from English/Chinese into native, professional Russian, ensuring the local community can access the best resources.

Who We Are Looking For

- Native Russian Speaker: You have a high command of technical writing.

- Tech Savvy: You have mastered SQL, OLAP, and Data Warehousing, and your current job involves working with OLAP databases.(Experience with ClickHouse or PostgreSQL is a huge plus).

- Language Skills: You have a good understanding of English (or Chinese).

- Passion: You are active on Habr, Reddit or Telegram tech groups, or GitHub.

What You Will Get

- Competitive Bounties: We pay for every high-quality article translated or proofread.

- Official Recognition: We will be launching an official website in Russia, where you will be certified and listed as a Community Evangelist (subject to your consent for public disclosure).

- Inner Circle Access: Direct communication with our core R&D team and early access to new features.

- Exclusive Swag: Limited edition StarRocks geek gear.

Теги:
Всего голосов 3: ↑2 и ↓1+1
Комментарии7

Ближайшие события

5 случаев, когда Fine-tuning лучше RAG

Все говорят "RAG для всего". Но есть кейсы, где fine-tuning выигрывает — и это не только про статичные данные.
Все говорят "RAG для всего". Но есть кейсы, где fine-tuning выигрывает — и это не только про статичные данные.

Все говорят "RAG для всего". Но есть кейсы, где fine-tuning выигрывает — и это не только про статичные данные.

1. Жёсткий формат вывода

Бот для CRM должен всегда возвращать:

{"name": "...", "phone": "...", "intent": "..."}

RAG не гарантирует формат. Fine-tuning — да. Модель "запоминает" структуру на уровне весов.

2. Доменный жаргон

Врач пишет: "в/в капельно NaCl 0.9% 400мл". Юрист: "п.1 ч.2 ст.158 УК".

RAG найдёт документ, но не научит модель "говорить на языке". Fine-tuning встраивает терминологию в модель.

3. Логика без документов

Расчёт стоимости доставки: вес, габариты, зоны, сезонность, тип клиента — 20 переменных.

Это не в документе, это в голове логиста. Fine-tuning переносит экспертизу в модель.

4. Стиль эскалации

Банковский бот не должен говорить "не знаю". Только: "Уточню у специалиста, ожидайте".

RAG учит контенту, fine-tuning — поведению и тону.

5. Скорость

RAG: эмбеддинг → поиск → генерация = 3 вызова, ~2 сек.

Fine-tuned модель: 1 вызов, ~0.5 сек.

Для голосового бота или real-time чата — критично.

Когда всё же RAG: данные часто меняются, нужны ссылки на источник, конфиденциальность.

Гибрид работает: fine-tuning для формата и стиля + RAG для актуальных данных.

А вы где использовали fine-tuning?

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии2

Рассматриваем генетический код через призму машинного в новом выпуске ПВЗ

ПВЗ — подкаст команды Ozon Tech, в котором мы говорим о технологиях. На этот раз — о генной инженерии.

У микрофона ведущие Марина Самойлова, руководитель направления платформы данных, и Виктор Корейша, руководитель направления Managed Services. Гость выпуска: учёный-нейробиолог Владимир Алипов.

Разобрали, действительно ли у человека и бактерии один и тот же генетический код, возможности и этичность его редактирования. Узнали, с какой биг датой работают учёные и смогут ли они сделать человека умнее.

🎞️ Смотрите выпуск на YouTube или в VK Видео
🎧 Слушайте в аудиоформате

Теги:
Рейтинг0
Комментарии0

GlowByte на Хабре: подводим итоги 2025 года

Пробежимся по основным статьям, которые наши авторы написали в этом году.

Год начался с "ПИКантной миграции" – активный участник сообщества FineBI GlowByte от первого лица рассказал о том, как компания ПИК мигрировала c Tableau на FineBI. 

Команда Financial Intelligence GlowByte разобрала ситуации для импортозамещения CPM, а бизнес-архитектор практики Retail Solution GlowByte Алексей Чванов рассказал, как ритейл в России слезает с промозависимости. Команда IIOT описала цифровую трансформацию как основу непрерывного улучшения производства.

Мы также рассказали, почему книгу Брюса Сильвера «BPMN. Метод и стиль» называют фундаментальной. А эксперт GlowByte Юлий Гольдберг, основываясь на своем 20-летнем опыте работы с платформами данных, BI, аналитическими решениями, поделился: что нужно помнить, чтобы Self‑Service BI стал реальным драйвером развития корпоративной культуры работы с данными, а не остался благим пожеланием. 

В дополнение темы о Self-Service аналитике – познакомили вас с новой BI-платформой Sigla Vision.

Команда Business Intelligence GlowByte рассказала о скрытой стоимости BI и вместе с партнером FanRuan посмотрела на китайскую ИИ-революцию и экосистему ИИ-продуктов FanRuan.   

Ведущий аналитик GlowByte Артем Матяш описал свой личный опыт прохождения сертификации процессных аналитиков в Ассоциации профессионалов процессного управления.  

Ведущий архитектор GlowByte Марк Лебедев поделился результатами нагрузочного тестирования, которое он с коллегами провел для сравнения Greenplum 6 с Greenplum 7 и Cloudberry, а спустя время дополнил картину, рассказав о тестировании YMatrix

Следующий год планируем открыть статьей о выборе BI-системы на основе разработанной в GlowByte методики.

Всех с наступающим Новым годом!

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Нагрузочное тестирование YMatrix

В партнерском материале расширяются результаты нагрузочного тестирования из статьи «Нагрузочное тестирование GP6 vs GP7 vs Cloudberry» и презентуются результаты тестирования YMatrix. Это дополнение к предыдущей статье, призванное сформировать понимание сравнимости результатов различных форков GreenPlum.

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии0

Оптимизации функционала Apache Iceberg в задачах real-time загрузки и обработки данных

В блоге Data Sapience, технологического партнера GlowByte, вышла новая статья.

Технические лидеры направления разработки Apache Spark в составе платформы Data Ocean рассказывают:

  • С какими проблемами можно столкнуться при реализации Upsert Streaming в Iceberg;

  • Что такое equality delete;

  • Почему они создают нагрузку при чтении таблиц в Apache Iceberg;

  • Как оптимизировали Apache Spark, чтобы снизить потребление памяти и ускорить чтение данных.

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии0

Вселенная данных: Владимир Сурдин о том, когда цифровой мир встречается с космосом

В новом эпизоде подкаста «Почти всё знают» в гостях у Марины Самойловой и Виктора Корейши астроном Владимир Сурдин.

Поговорили с Владимиром Георгиевичем о том, как учёные собирают, хранят и анализируют космические данные. Спойлер: телескопы видят только часть неба, а Вселенная вовсе не такая, какой мы её представляем.

Какая она на самом деле — узнаете из этого выпуска. А ещё:
– какие компьютеры используют астрономы,
– что сегодня — самая большая проблема для астрономии,
– как учёные спасают Землю от астероидов и какой робот сможет отправиться на поиски жизни на других планетах.

Приятного просмотра!

🎧 Аудио
🎧 YouTube
🎧 VK

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Нагрузочное тестирование YMatrix

Привет, друзья! Мой коллега Марк, ведущий архитектор GlowByte, поделился в новой статье результатами тестирования YMatrix.

Сразу оговорюсь, что это дополнение к предыдущей статье, для того, чтобы сформировать понимание сравнимости результатов различных форков GreenPlum, поэтому акцентировать внимание будем только на YMatrix. Детали по методике тестирования и как были получены результаты для GP6, GP7 и Cloudberry 1.6, можно прочитать в предыдущей статье по ссылке выше. 

Добро пожаловать в статью! Комментарии приветствуются.

Теги:
Всего голосов 3: ↑2 и ↓1+1
Комментарии2
1
23 ...