Обновить
74.65

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга

Всероссийский хакатон для умных и свободных: призовой фонд один миллион рублей

Альфа-Банк приглашает всех, кто умеет не просто писать код, а готов поучаствовать в решении амбициозных бизнес-кейсов: настроить систему RAG для интеллектуальных вопросов и ответов на базе знаний Альфа-Банка или разработать copilot-приложение для клиентов микробизнеса. Хакатон предоставляет молодым специалистам возможность получить практический опыт в современных IT- и аналитических технологиях, поучаствовать в командных соревнованиях, а также построить карьеру в крупной компании.

Что вас ждет?

  • Борьба за призовой фонд в 1 000 000 рублей и шанс получить фаст-трек в команду Альфа-Банка.

  • Нетворкингом, где вы сможете поработать с экспертами Альфа‑Банка и получить ценные советы.

  • Возможность участвовать из любой точки России, а потом приехать на финал в Москву.

  • Прокачка навыков, погружение в актуальные задачи бизнеса и усиление технических скиллов

Собирай команду и участвуй по одному из двух треков: настройка RAG для вопросов и ответов или разработка copilot-приложения для клиентов микробизнеса. Это уникальный молодёжный хакатон, созданный специально для тех, кто хочет попробовать себя в решении реальных задач бизнеса с помощью передовых технологий. 

Записывайся на Альфа-Будущее Хакатон — прокачай свои технические навыки и поработай над созданием реального ИИ-решения для бизнеса. Регистрируйтесь до 6 ноября и стартуйте!

Теги:
-2
Комментарии0

GlowByte приглашает на первый Data Sapience Data Day: дата, программа, регистрация

Data Sapience объявляет о проведении первой конференции, посвященной работе с большими данными, Data Sapience Data Day, которая состоится 18 ноября 2025 года. Мероприятие объединит ведущих экспертов IT-отрасли и руководителей крупнейших компаний.

Data Sapience Data Day 2025
Data Sapience Data Day 2025

В программе конференции:

Панельная дискуссия с участием CDO лидирующих организаций будет посвящена ключевым темам современного дата-рынка:
▫️ перспективам развития дата-ландшафта;
▫️ влиянию искусственного интеллекта на управление данными;
▫️ оценке готовности рынка (технологии/решения/компетенции);
▫️ вопросам миграции в публичные облака.

Клиенты выступят с докладами и расскажут о кейсах внедрения и эксплуатации решений Data Sapience. Среди спикеров — представители Альфа-Банка, ОТП Банка, Россельхозбанка и других крупных организаций.

Технологические презентации познакомят участников с возможностями Lakehouse-платформы данных Data Ocean и платформы управления данными Data Ocean Governance.

В мероприятии примут участие специалисты Т-Банка, Газпромбанка, Сбербанк Страхования, Адастры и других ведущих игроков рынка.

▶️ ПОДРОБНАЯ ПРОГРАММА И РЕГИСТРАЦИЯ ◀️
Участие в конференции бесплатное. Регистрация обязательна и проходит модерацию в соответствии с закрытым форматом мероприятия.

Теги:
+1
Комментарии0

Первый Data Sapience Data Day: дата, программа, регистрация

Data Sapience объявляет о проведении первой конференции, посвященной работе с большими данными, Data Sapience Data Day, которая состоится 18 ноября 2025 года. Мероприятие объединит ведущих экспертов IT-отрасли и руководителей крупнейших компаний.

Data Sapience Data Day 2025
Data Sapience Data Day 2025

В программе конференции:

Панельная дискуссия с участием CDO лидирующих организаций будет посвящена ключевым темам современного дата-рынка:
▫️перспективам развития дата-ландшафта;
▫️влиянию искусственного интеллекта на управление данными;
▫️оценке готовности рынка (технологии/решения/компетенции);
▫️вопросам миграции в публичные облака.

Клиенты выступят с докладами и расскажут о кейсах внедрения и эксплуатации решений Data Sapience. Среди спикеров — представители Альфа-Банка, ОТП Банка, Россельхозбанка и других крупных организаций.

Технологические презентации познакомят участников с возможностями Lakehouse-платформы данных Data Ocean и платформы управления данными Data Ocean Governance.

В мероприятии примут участие специалисты Т-Банка, Газпромбанка, Сбербанк Страхования, Адастры и других ведущих игроков рынка.

▶️ ПОДРОБНАЯ ПРОГРАММА И РЕГИСТРАЦИЯ ◀️
Участие в конференции бесплатное. Регистрация обязательна и проходит модерацию в соответствии с закрытым форматом мероприятия.

Теги:
+1
Комментарии0

Новое видео с нашей Конференции Luxms, в котором Вадим Кананыхин, Руководитель отдела управления и аналитики данных ГК «Синтека», рассказал про свои наработки и интересные проекты, а также поделился собственными приемами и «лайфхаками» работы с Luxms BI.

Luxms BI — классный продукт, который нам развязал руки и кардинально увеличил наши возможности в аналитике, построении отчётности, управлении хранилищами данных.

В выступлении:

  • BI-дэшборд для поставщиков: управленческие данные в одном окне, фильтры и гибкая визуализация под роль пользователя;

  • Оптимизация процессов: ускорение расчётов за счёт предобработки JSON и автоматического обновления только новых данных;

  • Рост эффективности: перераспределение ресурсов и фокус на наиболее прибыльных товарных категориях;

  • Отказоустойчивость и автономность: автоматический контроль сборов данных и уведомления о сбоях в Telegram;

  • Luxms BI + Luxms Data Boring = инфраструктура доверия: свежие данные, надёжная архитектура и единый источник аналитической правды.

Видео выступления и материалы — на нашем сайте.

Теги:
0
Комментарии0

Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark — с DataFusion Comet и Impala

Друзья, в блоге компании Data Sapience, партнера GlowByte, вышла новая статья, третья в цикле материалов про нагрузочные испытания вычислительных технологий массивных параллельных вычислений.

Ранее техническим руководителем решений Data Ocean Nova и Data Ocean Flex Loader Евгением Вилковым были опубликованы статьи, посвященные сравнению Impala, Trino и Greenplum, в том числе по методике TPC-DS.

В этот раз в список решений добавляется Spark, включая работающий с технологией нативных вычислений DataFusion Comet, и набирающий популярность StarRocks.

Теги:
+1
Комментарии0

Новое видео с нашей Конференции Luxms, в котором Андрей Савичев, директор по данным Fork-Tech, рассказал, как команда провела масштабную миграцию данных при слиянии «Открытие брокер» и «ВТБ» с помощью Luxms BI.

На платформе был построен надежный «ИТ-мост», позволивший в рекордные сроки – всего за два месяца – перенести данные из двадцати различных источников: более двух миллионов счетов и свыше четырехсот тысяч клиентских записей.

В выступлении:

  • Как BI превратился в платформу миграции: единый контур загрузки, проверки и выгрузки данных;

  • 400 000 клиентских записей и миллионы счетов — как обеспечить качество и синхронность данных в режиме онлайн;

  • Визуальный контроль через дэшборды: операционные команды наблюдали процесс миграции в реальном времени;

  • Интеграции BI с внешними сервисами — SMS, почта, биржи — для уведомлений клиентов и непрерывности торгов;

  • Что позволило провести полную миграцию за 6 месяцев и остановить обслуживание клиентов всего на один день.

Видео выступления и материалы — на нашем сайте.

Теги:
0
Комментарии0

GlowByte приглашает на PIX DAY – 2025

GlowByte примет участие в PIX Day – ежегодной конференции лидеров цифровой трансформации, экспертов по умной автоматизации и практиков внедрения инноваций.

Конференция PIX Robotics PIX DAY – 2025 пройдет в Москве 29 октября. Это ежегодное мероприятие для тех, кто строит цифровое будущее бизнеса и промышленности.

На конференции соберутся руководители крупнейших компаний, ИТ-специалисты, аналитики и интеграторы, которые обсудят, как цифровые технологии помогают компаниям быть конкурентоспособными и устойчивыми и как новые продукты PIX открывают возможности для роста. Все об умной автоматизации и ИИ – на одной площадке.

GlowByte выступит спонсором мероприятия и представит свой демонстрационный стенд. 

В программе конференции ожидаются:

  • Реальные кейсы крупнейших компаний;

  • Выступления топовых экспертов;

  • Технологическая выставка партнеров;

  • Живые мастер-классы от экспертов;

  • Новое в продуктах PIX, roadmap 2026;

  • Церемония награждения клиентов и партнеров PIX Awards.

📍Москва | 29 октября 2025 | 10:00-18:00

Участие бесплатное для представителей бизнеса, необходимо подтверждение организаторов. Регистрация по ссылке

Приходите к нашему стенду, будем рады пообщаться! Посетителей стенда также ждет розыгрыш памятных призов от GlowByte.

Теги:
+1
Комментарии0
Теги:
0
Комментарии0

Приходите на конференцию GlowByte FineDay–2025 – участвуйте в "битве" за будущее данных!

Друзья, компания GlowByte, единственный партнер FanRuan уровня Diamond в России, приглашает на ежегодную конференцию по бизнес-аналитике и большим данным FineDay — 2025: Self-Service BI vs AI — битва за будущее данных!

Мероприятие соберет профессионалов в области Business Intelligence и AI, чтобы обсудить революционные изменения в мире данных и вектор развития BI-индустрии. Вас ждут интересные доклады и горячая дискуссия о том, как self-service аналитика и искусственный интеллект формируют будущее работы с данными.

Ключевыми темами мероприятия станут: 

  • Эволюция Self-Service BI: как демократизация данных меняет корпоративную аналитику.

  • AI-революция в аналитике: возможности и вызовы интеграции ИИ в BI-системы.

  • Гибридные подходы: синергия человеческой экспертизы и машинного интеллекта.

В программе конференции будут звучать доклады:

  • Миграция с Qlik Sense на FineBI: практический опыт смены BI-платформы.

  • От SAP BW и MS PowerBI к ClickHouse и Sigla Vision: эволюция корпоративной аналитики в Полюсе.

  • Цифровая трансформация данных в группе Московская Биржа: от централизованной отчетности к культуре Data Driven и стратегической цели AI-Native

Эксперты и компании-участники

На FineDay — 2025 выступят и примут участие представители ведущих организаций: Газпромбанк, Полюс, Московская Биржа, СК «Сбербанк страхование», СИБУР Диджитал, Viz Standart,  FanRuan, GlowByte. 

Время проведения конференции: 14:00 — 21:00.

Участие бесплатное, но необходима регистрация.

Адрес будет в письме после регистрации.

Теги:
0
Комментарии0

Делимся видеозаписями выступлений с нашей Конференции Luxms.

Начнем с выступления Ирины Долженко, Главного эксперта департамента информатизации ОАО “РЖД”:

"Визуализация данных как стратегический актив: опыт построения единой BI-системы в крупнейшем транспортном холдинге".

Сегодня в крупнейшем железнодорожном холдинге страны работает десяток проектов на базе Luxms BI – от аналитики для начальников дорог и топ-менеджмента до HR-решений для холдинга численностью более 700 тысяч сотрудников и мониторинга центральной станции связи.

Масштаб задач впечатляет: каждый год РЖД прибавляет +5 петабайт данных! И к системе предъявляются предельно жесткие требования по производительности. Luxms BI справляется с этим масштабом, обеспечивая надежность и скорость работы на уровне национальной инфраструктуры.

Смотрите на:

Теги:
0
Комментарии0

Многие, кто обучал большие модели искусственного интеллекта, сталкивались с ситуацией, когда необходимы данные из множества источников. Но если источники совсем не из одной корпорации, то из-за GDPR или законах о защите персональных данных нет возможности обмениваться данными напрямую. 

Как быть, если нужно обучать большие модели, но нельзя собирать всю информацию в одном месте?

Решение — федеративное обучение. Это система, в которой центральное устройство (сервер) объединяет усилия множества участников (устройства): каждый совершает операции на своих данных, а сервер собирает только результаты, не забирая саму информацию.

В зависимости от специфики задачи, данные на устройствах могут храниться по-разному. На основе того, как делится матрица признаков между участниками, можно выделить два подвида федеративного обучения:

📌 Горизонтальное федеративное обучение (HFL)

Суть: у разных участников данные имеют одинаковые фичи (одинаковые столбцы), но разные строки (разные пользователи/наблюдения).

Пример: несколько банков обучают модель для предсказания мошеннических транзакций. У всех есть одинаковые признаки по транзакциям (сумма, время, место, категория операции и т.п.), но набор клиентов у каждого банка свой. Объединяя данные через HFL, они получают более устойчивую модель, не раскрывая данные клиентов напрямую.

📌 Вертикальное федеративное обучение (VFL)

Суть: у разных участников есть одни и те же сэмплы (одни и те же строки), но разные признаки (разные столбцы).

Пример: банк и страховая компания имеют одних и тех же клиентов. У банка есть финансовые характеристики (история транзакций, кредитный рейтинг), у страховой — медицинская история и страховые выплаты. Объединив признаки в VFL, они могут построить более точную модель для оценки рисков по клиенту.

При этом нельзя сказать, что примеры выше оторваны от реальности. Например, Google применяет федеративное обучение для улучшения работы клавиатуры Gboard. Вместо сбора всех данных о нажатиях на своих серверах, центральное устройство получает только агрегированные обновления модели. То есть, обучение происходит прямо на устройствах пользователей, но без нарушения приватности.

Теги:
+1
Комментарии0

Вебинар «ADQM Control глазами DBA»

14 октября присоединяйтесь к нашему вебинару, где мы на примере практических кейсов покажем, как ADQM Control помогает упростить эксплуатацию и повысить производительность кластеров ClickHouse.

В программе

  • Краткий обзор ADQM Control и новых возможностей, появившихся после майского вебинара.

  • Разбор типовых проблемных кейсов эксплуатации кластеров ClickHouse.

  • Live-demo практических примеров их решения.

  • Тизер релиза начала 2026 г.

  • Q&A.

Эксперты Группы Arenadata:

  • Дмитрий Безруков, руководитель отдела технических менеджеров — основной докладчик, Q&A

  • Антон Коваленко, руководитель департамента продуктового маркетинга — модератор дискуссии, Q&A

Зарегистрироваться на вебинар можно тут.

Теги:
+2
Комментарии0

Байесовские А/Б-тесты: конверсии

Теги:
Рейтинг0
Комментарии0

Ближайшие события

Как мы ушли с Airflow и упростили MLOps

Привет! Меня зовут Александр Егоров, я MLOps-инженер в Альфа-Банке, куда попал через проект компании KTS. За свою карьеру я построил четыре ML-платформы (одна из которых сейчас в Росреестре) и развиваю с командой пятую. Недавно мы полностью пересобрали пайплайны и мигрировали c Airflow на Argo Workflows + Argo CD. Делимся подробностями!

GitOps для Airflow: как мы перешли на лёгкий K8s-native Argo Workflows
Привет! Меня зовут Александр Егоров, я MLOps-инженер в Альфа-Банке, куда попал через проект компании...
habr.com

Почему Airflow стал мешать?

Airflow отлично подходит для десятков DAG’ов, но на масштабе сотен моделей появляются проблемы: всё усложняется, теряется Kubernetes-нативность, GitOps работает через костыли, а обновления DAG’ов становятся ручным трудом. Версионирование ломается, пайплайны идут десятками минут, и отлаживать их настоящая боль.

Почему Argo Workflows?

Argo — это K8s-native решение, декларативный подход, совместимость с GitOps, простейшее развертывание и минимум лишних компонентов. Для нас это был буквально глоток свежего воздуха. Вместо монолитного Kubeflow — один контроллер, никаких лишних слоёв и масштабируемость из коробки

Подробнее читайте в статье «GitOps для Airflow: как мы перешли на лёгкий K8s-native Argo Workflows»

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

Управление качеством данных выводит бизнес-процессы на новый уровень

ОТП Банк представил инновационный подход к управлению качеством данных. Об этом 24 сентября 2025 года на 10-м форуме «Управление данными — 2025» в Москве рассказал Николай Шевцов, директор дирекции по управлению данными ОТП Банка. В ходе своего доклада он представил анализ практического опыта построения сквозной системы управления данными (Data Governance), которая успешно работает в ОТП Банке уже более 2-х лет. Особое внимание было уделено презентации инструмента, позволяющего в реальном времени отслеживать сотни критических показателей по всему массиву данных финансовой организации – автоматическим проверкам данных.

«Новый подход, основанный на принципе «Data Quality by Design», позволил не только значительно повысить надежность информации, но и добиться значительной экономии средств, превратив контроль качества данных из статьи расходов в мощный стратегический актив, улучшающий финансовый результат компании», - отмечает Николай Шевцов.

По словам эксперта, традиционные системы контроля «качества данных» часто ассоциируется с рутинными отчетами и бесконечными ручными проверками. Бизнес-пользователи сталкиваются с ошибками в отчетах, а аналитики тратят до 70% времени на исправление инцидентов, что приводит к замедлению процессов и выгоранию сотрудников. Решение ОТП Банка кардинально меняет эту парадигму.

Основной элемент новшества — централизованная Data Governance платформа, которая хранит все метаданные – бизнес-глоссарий, каталог данных, домены, владельцев, процессы. Ее ключевое отличие заключается в интеграции BRD (Business Requirements Document) и FSD (Functional Specifications Document) в платформу как структурированных объектов, а не разрозненных документов в Word или Confluence. Глубокая автоматизация и интеграция контроля на этапе разработки любых data-продуктов позволяет бизнесу и IT работать в едином контуре, обеспечивая прозрачность и скорость реагирования на инциденты.

Также платформа обеспечивает сквозной мониторинг сотен критических показателей в реальном времени, автозакрытие инцидентов и оперативные уведомления, что дает бизнес-пользователям полный контроль над операционными задачами, а специалистов почти полностью освобождает от рутинных процессов, оставляя больше времени для решения стратегических задач.

«Благодаря тому, что создание DQ-проверок мы встроили в Framework разработки Data – продукта, 75% проверок создаются теперь автоматически на основе бизнес-правил, без участия человека. Таким образом, мы смогли прийти к значительному ускорению процессов – меньше минуты на создание проверки качества данных против 10-15 минут режиме ручной поверки. И добились снижения операционной нагрузки на команды в сотни раз. При этом почти на треть вырос уровень качества данных, потому что мы успеваем проверять то, до чего раньше не доходили руки. Как результат – на 25% сокращены затраты на решение инцидентов качества данных за счет автоматизации рутинных операций», - пояснил Николай.

По словам Шевцова, команде ОТП Банка удалось встроить «ген качества» в ДНК бизнес-процессов, что открывает новые возможности для увеличения эффективности ML- моделей для работы искусственного интеллекта.

Теги:
Всего голосов 4: ↑2 и ↓20
Комментарии0

🚀 Объём корпоративных данных растёт на десятки процентов в год, а специалистов всё так же не хватает. В статье для VC.RU мы вместе с Екатериной Ризановой рассказали, как ИИ-агенты помогают решать эту проблему: берут на себя рутинные задачи в хранилищах данных и BI-системах, ускоряют работу команд и экономят компаниям миллионы рублей в год.

ИИ-агент — это не чат-бот. Он сам выполняет действия: анализирует код витрин, строит lineage, генерирует SQL, находит инсайты и помогает сотрудникам сосредоточиться на действительно важных задачах.

👉 Делюсь материалом: https://vc.ru/ai/2233616-ii-agent-dlya-rabotyi-s-bolshimi-dannymi

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Байесовские А/Б-тесты: примеры байесовского моделирования

-Блокнот: https://github.com/andrewbrdk/Bayesian-AB-Testing
-Все видео: https://www.youtube.com/playlist?list=PLqgtGAeapsOPpV0FqeXEpWosHBW8ZebYl

Теги:
Рейтинг0
Комментарии0

Яндекс снова на обложке, хотя теперь под именем Nebius. После сделки с Microsoft акции в США улетели на +71%. Формально — всё красиво: дата-центр в Нью-Джерси, контракт на $17+ млрд до 2031 года. Но за кулисами это выглядит чуть иначе.

Главная проблема индустрии — NVIDIA ограничивает квоты на свои чипы. Это значит, что даже гиганты вроде Microsoft не могут прийти и сказать: «Дайте нам вагон H100, мы оплатим картой». Карточек тупо нет столько, сколько всем нужно. Поэтому Microsoft вынужден искать партнёров, у которых есть доступ к чипам через свои каналы.

Появляется Nebius. У компании свой лимит на железо, свои отношения с NVIDIA — и теперь кусок этого лимита фактически «арендован» Microsoft. То есть вместо того, чтобы напрямую выбивать квоты, корпорация берёт вычислительные мощности у бывшей «Яндекс N.V.».

Теги:
Всего голосов 2: ↑1 и ↓1+1
Комментарии1

Строительные автопилоты: почему данные становятся главным активом строительства.

Автоматизация в строительной отрасли становится массовой и доступной, и её ценность всё меньше в самих технологиях, а всё больше — в данных, которыми они управляют.

За последние 30 лет CAD/BIM фактически превратились в инструмент ручной разметки строительной реальности: инженеры и архитекторы создавали базы элементов зданий и сооружений, превращая чертежи и 3D-модели в структурированные датасеты.

То, что Google, Tesla или Waymo делали силами миллионов студенто-часов, размечавших вручную изображения с людьми и объектами, в строительстве десятилетиями заполняли инженеры проектировщики в специальных базах слабоструктурированных данных AutoCAD или структурированной базы данных Revit или ArchiCAD.

Именно эти массивы станут сырьём для «строительных автопилотов» — систем, способных автоматически расставлять элементы в пространстве проекта и рассчитывать стоимость, сроки и ключевые параметры новых проектов. Как LLM обучаются на массиве текстов, чтобы генерировать новые знания и целые приложения, так и в строительстве мы сможем с помощью AI и workflow использовать опыт тысяч реализованных проектов, чтобы проектировать и планировать новые проекты быстрее и точнее.
У отрасли есть лишь десятилетие, чтобы превратить накопленный опыт в основу будущих систем. После этого рынок займут те, кто сумел первым построить собственные «автопилоты».

Но сами по себе автопилоты, AI-модели и процессы автоматизации ничего не стоят без качественных данных. Именно уникальные, хорошо структурированные наборы данных станут главным активом компаний. Их невозможно скопировать или купить, в отличие от софта или подрядчиков. Настоящее конкурентное преимущество даёт не программа, а налаженный конвейер по сбору, очистке и обогащению собственных данных.

Но сами по себе автопилоты, AI-модели и процессы автоматизации ничего не стоят без качественных данных. Именно уникальные, хорошо структурированные наборы данных станут главным активом компаний. Их невозможно скопировать или купить, в отличие от софта или подрядчиков. Настоящее конкурентное преимущество даёт не программа, а налаженный конвейер по сбору, очистке и обогащению собственных данных.

В ближайшие годы ключевой задачей строительных компаний станет не создание проектов как таковых, а системная подготовка и капитализация своих или приобретённых массивов данных. Те, кто начнёт этот процесс сейчас, получат собственных «автопилотов»-агентов. Остальным придётся довольствоваться чужими.

Хотите обсудить новые пайплайны автоматизации, поделиться своими кейсами или получить помощь? Больше примеров автоматизации вы можете найти в репозитарии на GitHub или в нашем телеграмм чате "n8n Development | Практика автоматизации и готовые решения" Присоединяйтесь к нашему Telegram-сообществу для живых обсуждений, советов и эксклюзивного контента.

Теги:
Всего голосов 1: ↑0 и ↓1-1
Комментарии1

Байесовские А/Б-тесты: общая картина

-Блокнот: https://github.com/andrewbrdk/Bayesian-AB-Testing
-Все видео: https://www.youtube.com/playlist?list=PLqgtGAeapsOPpV0FqeXEpWosHBW8ZebYl

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Новая версия продукта «Форсайт. Умные таблицы»

Друзья, это того стоило! 3 месяца работы – и перед вами новая версия «Форсайт. Умные таблицы» 10.9!
Новая версия кардинально улучшит ваш опыт работы с продуктом.

Вот над чем команда усердно работала в последнее время:

Возможность сохранить персональные отчеты в репозиторий «Форсайт. Аналитическая платформа»
Ура, теперь все ваши классные таблицы и расчеты вы можете сохранить в «Регламентный отчет» прямо в репозитории «Форсайт. Аналитическая платформа». Это значит, что подготовленные вами шаблоны форм и отчетов будут бережно храниться на сервере и могут быть вновь использованы как вами, так и вашими коллегами (при наличии доступа) во всех инструментах «Форсайт», включая их веб-версии.
Важно: отчеты стали мощнее и просто не откроются в предыдущих версиях.

Ваши отчеты теперь умеют работать сами
Мы подключили к «Форсайт. Умные таблицы» полноценный объектно-ориентированный язык программирования Fore. С его помощью вы можете превратить повторяющиеся задачи в магию автоматизации. Например, если нужно проверить, какие данные пользователь ввел, добавить новые элементы в справочник или реализовать нетиповую детализацию данных на отдельном листе с произвольным оформлением, Fore поможет решить эти задачи в режиме онлайн подключения к «Форсайт. Аналитическая платформа»

Отслеживание изменений в отчетах
Благодаря хранению информации обо всех изменениях данных в вашем отчете, вы не только сможете увидеть комментарии пользователя, который их сделал, но и увидеть – кто, когда и что именно поменял в каждой конкретной ячейке.

Индикация доступных ячеек для ввода данных
Помимо цветовой индикации ячеек, в которые пользователь не может вводить данные, мы добавили простые и понятные пиктограммы, отражающие ячейки с отсутствием прав доступа для ввода, а также ячейки с расчетными агрегированными данными.

Пользовательские кнопки на панели инструментов
Теперь вы можете закрепить самые нужные функции и убрать то, чем не пользуетесь на панели инструментов. Нужен уникальный воркфлоу? Создайте свою кнопку и назначьте ей свой макрос Fore, всё произойдет по нажатию.

Множество новых удобных функций
Мы реализовали защиту листа, расширили возможности печати и визуализации данных в диаграммах, добавили авторастягивание конструируемого среза при вставке данных из буфера.

Важно! Новая единица лицензирования
Ранее в целях апробации «Умных таблиц» сервер лицензий использовал единицу лицензирования пользователя «Форсайт. Аналитическая платформа». Начиная с версии 10.9 необходимо запрашивать и устанавливать отдельные лицензии для пользователей «Умных таблиц».

Более детальная информация здесь: https://announce.fsight.ru/fst/10-9/

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

Компания «Форсайт» представляет новую версию своего флагманского продукта «Форсайт. Аналитическая платформа» 10.9!

В новой STS-версии расширены возможности для создания отчетности и визуализации данных в веб-приложении:
- пользователи смогут установить защиту листа,
- использовать упрощенную настройку параметров печати в регламентных отчетах,
- отменить изменение данных на активном листе или в отчете.

Теперь в веб-версии платформы доступен поиск по командам меню в регламентных отчётах, а также ввод и согласование данных в бизнес-процессах через регламентные отчёты.

Работа с алгоритмами расчета в вебе станет более удобной благодаря новым возможностям по выравниванию объектов и настройке смешанного форматирования текста при оформлении рабочей области.

Также в релизе 10.9:

  • расширены возможности менеджера безопасности и менеджера обновлений;

  • появился нативный драйвер к базе данных СУБД ClickHouse с возможностью write-back;

  • появилась возможность отладки веб-форм;

  • и многое другое!

Обратите внимание!
В «Форсайт. Аналитическая платформа» 10.9:

  • повышена версия репозитория метаданных: при обновлении платформы необходимо обновить версию репозитория;

  • повышена версия метаданных регламентных отчётов: отчёты, созданные в 10.9, будут недоступны для открытия в предыдущих версиях.

STS-релиз – это промежуточный выпуск, включающий новые функции перед их интеграцией в LTS (Long Term Support) – релиз с долгосрочной поддержкой.

Подробнее о новой версии читайте здесь.

График выпуска версий можно посмотреть здесь.

Подробнее с релизной стратегией можно ознакомиться здесь.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

ML Impact — рассказываем, как компании внедряют ML и что из этого получается

Мы запустили ресурс о том, как эффективно использовать искусственный интеллект в рабочих задачах. Уже доступны материалы про настоящую роль ИИ в автоматизации и работу EDGE AI. Скоро появятся новые статьи! 

Их можно использовать, чтобы обосновать коллегам или руководству целесообразность запуска ML-проекта. У вас под рукой будет готовый ресурс, которым можно просто поделиться — вместо тысячи слов и долгих объяснений.

Перейти в ML Impact

Теги:
Всего голосов 4: ↑4 и ↓0+8
Комментарии0

Влияют ли орфографические ошибки в запросе на ответ нейросети?

Лично я часто отправляю в нейросеть сырой текст с ошибками, но она всегда меня понимает и делает то, о чём я её прошу.

Получается, нейросетям не так важно, есть ли ошибки в тексте?

Не совсем.

Нейросети устроены так, что могут догадаться, какое слово вы имели в виду.
Как?
Ранее я писал про токены — именно на них и разбивается текст. Давайте для примера разобьём слово с ошибкой и без:
"Привет" → ["Пр", "ивет"]
"Пирвет" → ["П", "ир", "вет"]
Можно попробовать самим — ТУТ (нужен VPN).

Выходит, что слово с ошибкой разбилось аж на три токена, причём довольно далёких от исходного слова по смыслу.

Есть два варианта:
1️⃣ Нейросеть по контексту догадается, что это слово — "привет".
2️⃣ Такая ошибка (опечатка) не редкость, и в системе токенов (векторных представлений) токены "привет", "п", "ир", "вет" могут находиться рядом. А значит, для нейросети они будут иметь схожий смысл, и она поймёт, что вы имели в виду.
* Если непонятно, что значит "находятся рядом" — можно почитать статью ТУТ, там объясняется просто но подробно.

На практике могу сказать, что в обычных вопросах и просьбах орфографические ошибки не влияют на результат.
Но если ошибка полностью меняет слово или делает его непонятным, нейросеть, как и человек, постарается угадать смысл по контексту.

Идеально — писать без ошибок, чтобы получать максимально точные результаты. Но в повседневной жизни нейросеть способна сгладить ваши ошибки, как это делает человек.

Вывод:
Восприятие текста нейросетью очень похоже на человеческое. Небольшие ошибки, скорее всего, не повлияют на результат, а серьёзные будут компенсированы контекстом — нейросеть догадается. Проблема может возникнуть, если ошибка превращает слово в другое существующее слово, и контекст не позволяет понять, что вы имели в виду — как и человек, нейросеть может запутаться.

Лучше избегать ошибок, но их наличие — не критично!

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии4

Новая статья на Habr: Опыт t2 по масштабированию BI на 4500+ пользователей

Опубликовали большой кейс о том, как компания t2 (бывший Tele2) решила одну из главных проблем российского рынка аналитики — нехватку западных BI-решений.

Главные цифры кейса:
4500+ пользователей FineBI
400+ разработчиков отчетности
Кластерная архитектура с 6 нодами
3 года успешной эксплуатации

Ключевые инсайты:
✅ Как организовать автоматизированное обучение пользователей
✅ Почему безлимитные лицензии стали ключевым мотиватором миграции
✅ Как построить внутреннее сообщество поддержки в Telegram
✅ Зачем нужна поэтапная миграция с участием бизнес-пользователей

Для кого будет полезно
Руководителям аналитики — практический опыт масштабирования BI
IT-директорам — архитектурные решения и организация процессов
Аналитикам — понимание современных self-service подходов
Всем, кто планирует миграцию — реальные уроки и рекомендации

Бонус от GlowByte
В статье также рассказываем об образовательном ретрите по FineBI, который стартует 25 августа:
🔸 13-дневный марафон с обновленной программой
🔸 3 эксклюзивных вебинара: FineReport Pro, AI в аналитике, 3D-визуализация
🔸 Реальные кейсы от t2, Уралсиб, Циан и других компаний
🔸 Система призов за лучшие домашние задания

Читать статью полностью → https://habr.com/ru/companies/glowbyte/articles/939470/

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Уже через неделю, 28 августа, встречаемся на RecSys Meetup!

Когда? 28 августа, старт в 18:00
Где? Москва + онлайн-трансляция

Обсудим актуальное из мира рекомендаций: от передовых архитектур для построения Semantic IDs и их внедрения в продуктивные системы, до тонкостей балансировки интересов пользователей и продавцов маркетплейса с помощью онлайн-доранжирования и байесовской оптимизации.

В программе: 

  • «Semantic IDs: архитектура и наш опыт внедрения» | Александр Тришин, Data Scientist в команде персональных рекомендаций

  • «Счастье пользователя vs счастье продавца. Онлайн-доранжирование и байесовская оптимизация в товарных рекомендациях» | Андрей Ветров, Data Scientist в команде товарных рекомендаций

  • «Как мы обучаем CLIP-ы для текстовых тегов» | Михаил Киндулов, CV Engineer в команде Поиска по фото

  • «Трансформеры в персональных рекомендациях: от гипотез до AB-тестирования» | Иван Ващенко, DS Stream Lead в команде персональных рекомендаций

Регистрация уже открыта! PS: для участия в офлайне регистрация обязательна.

А больше о митапе и развитии ML/DS в Wildberries & Russ — ищите в WB Space.

Теги:
Рейтинг0
Комментарии0

Нагрузочное тестирование GP6 vs GP7 vs Cloudberry

Насколько лучше производительность в GP7 и Cloudberry относительно GP6? Насколько стабильно работают GP7 и Cloudberry? Стоит ли мигрировать с GP6 в 2025? И если да, то на что? Ответы на эти вопросы — в партнерском материале по нагрузочному тестированию GreenPlum 6.X, GreenPlum 7.X и Cloudberry ведущего архитектора группы компаний GlowByte Марка Лебедева.

Материал был анонсирован в статье «Тестирование систем и движков массивно-параллельных вычислений. Часть II. TPC-DS» и продолжает серию публикаций о нагрузочных тестированиях технического руководителя решений Data Ocean Nova и Data Ocean Flex Loader Евгения Вилкова.

Теги:
Рейтинг0
Комментарии0

Знакомьтесь с Академией «ГлоуБайт»!

Группа компаний GlowByte запустила сайт Академии «ГлоуБайт», где собраны 25 готовых курсов по бизнес-аналитике (Business Intelligence), управлению бизнес-процессами (BPMN), обработке данных и продвинутой аналитике (Advanced Analytics), работе с универсальной Lakehouse-платформой данных Data Ocean Nova и автоматизации CVM-маркетинга (CM Ocean).

Курсы основаны на опыте экспертов группы компаний GlowByte и включают в себя как теорию, так и практические задания. Среди наиболее популярных тем – «Практический MLOps», «Погружение в А/В-тестирование», «АА и машинное обучение в маркетинге», «Техника и методология кредитного скоринга», «Сертификация FineBI и FineReport», «Data Ocean Nova. Обучение пользователей», «Глубокое обучение в банковской сфере», «Greenplum для аналитиков и разработчиков» и другие. 

Обучение проводится только для корпоративных клиентов в группе до 10 человек, а также индивидуально для специалистов и руководителей. Кроме того, Академия «ГлоуБайт» адаптирует курсы и создает уникальные программы под приоритеты и текущие задачи бизнеса.

Познакомиться с Академией «ГлоуБайт», почитать отзывы и узнать больше о курсах можно на сайте Академии. Или напишите нам на почту: academy@glowbyteconsulting.com.

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Что будем обсуждать и про что рассказывать на GoCloud Tech ☁️

3 сентября, уже почти через месяц, состоится наша вторая технологическая IT-конференция про облака и AI — GoCloud Tech.

Мы запланировали для вас четыре трека:

🤖 AI&ML — про AI-продукты нашей разработки и работу с GenAI. Узнаете, как устроены RAG-системы и мультиагентные ассистенты, а также, как они уже применяются в работе и как начать их использовать

☁️ Cloud Infrastructure — про построение устойчивой, масштабируемой и безопасной облачной инфраструктуры: нюансы сетевой архитектуры, проектирование IaaS‑кластеров на K8s, возможности балансировщиков и производительность SDN.

📈 Data&Analytics — про современные подходы к Big Data и аналитике: тренды, возможности облачных сервисов, интеграцию с AI-агентами и инструменты для быстрого и эффективного решения задач хранения, обработки и анализа.

⚙️ Dev Platform Services — в рамках трека разберем детали и заглянем «под капот» решений, чтобы затем облегчить повседневную рутину разработки и настройки сервисов, а еще — оптимизировать процессы в инженерных командах.

А еще вас ждет:

  • демо и интерактивные зоны новых AI-сервисов и сервисов платформы Cloud․ru Evolution;

  • технические воркшопы;

  • нетворкинг, кастомный мерч и afterparty.

Как принять участие:

Подключайтесь к онлайн-трансляции в VK и на Twitch (ссылка придет зарегистрированным участникам в письме) или приходите в Лофт-пространство Goelro в Москве. Собираемся 3 сентября в 10:00, а основную программу начинаем в 11:00. Кстати, ей мы тоже совсем скоро с вами поделимся.

Зарегистрироваться 👈

А пока можно почитать, как прошли наши предыдущие конференции:

Теги:
Всего голосов 1: ↑0 и ↓1-1
Комментарии0

Как прокачать геймификацию в команде?

В учебнике по обществознанию за 9 класс есть определение экономики как науки: «Экономика — наука о том, как люди удовлетворяют свои постоянно растущие потребности в условиях ограниченности ресурсов». То же самое и в разметке — нам нужно удовлетворять постоянно растущие потребности в объёмах и качестве, а бюджет ограничен. Помочь в этом может система мотивации.

Как мотивировать команду не только премиями, но и азартом? В Альфа-Банке внедрили прозрачный рейтинг, ачивки и систему нематериальной мотивации — это не только повысило качество работы, но и вдохновило сотрудников активнее делиться опытом, писать статьи и достигать выдающихся результатов. Реальный кейс описали в статье: «Вот так подкрути геймификацию и мотивация болеть не будет». Несколько простых инструментов — и ваш коллектив начнёт расти и конкурировать с азартом.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии6

Выпущена новая версия СУБД Picodata — Picodata 25.3 

Компания Picodata (входит в Группу Arenadata) выпустила новую версию СУБД Picodata — Picodata 25.3. Обновление включает расширенные возможности SQL, механизм автоматического обновления схемы данных, а также повышение стабильности кластера.

Улучшение обратной совместимости

В Picodata 25.3 реализовано автоматическое обновление схемы данных при переходе инстансов на новый релиз Picodata. Этот механизм учитывает сделанные изменения в системных таблицах и сохраняет обратную совместимость при обновлении на следующий релиз СУБД: при переводе кластера на новую версию Picodata необходимые DDL/DML-команды выполнятся без вмешательства администратора, а требуемые в новой схеме внутренние функции также будут созданы автоматически.

Новые возможности SQL

В релиз добавлены новые возможности языка SQL в Picodata, в частности:

  • поддержка NULLS FIRST/LAST при сортировке результатов запроса (ORDER BY);

  • обработка конфликтов при вставке данных в глобальные таблицы (INSERT INTOON CONFLICT DO FAIL/REPLACE/NOTHING);

  • новая встроенная оконная функция LAST_VALUE();

  • оператор % для определения остатка деления по модулю для целых чисел;

  • возможность определения лидера raft-группы через функции pico_raft_leader_id() и pico_raft_leader_uuid();

  • возможность определения версии текущего инстанса с помощью функции version();

  • изменение, связанное с совместимостью: вместо скалярной функции instance_uuid (которая теперь объявлена устаревшей), рекомендуется использовать новую функцию pico_instance_uuid.

Улучшенная совместимость с PostgreSQL

Picodata теперь поддерживает безопасное соединение при обращении к внешнему LDAP-серверу. При подключении через протокол PostgreSQL (например, с помощью клиента psql) с методом аутентификации LDAP можно задействовать TLS-шифрование (при условии, что оно включено на LDAP-сервере). На стороне Picodata для этого потребуется установить значения у трёх переменных окружения. Например:

export TT_LDAP_URL="ldap://127.0.0.1:1389"
export TT_LDAP_DN_FMT='cn=$USER,ou=users,dc=example,dc=org'
export TT_LDAP_ENABLE_TLS=true

Изменение в конфигурации

Добавлен новый параметр instance.pg.advertise — публичный адрес сервера для подключения по протоколу PostgreSQL. По умолчанию, его значение соответствует значению instance.pg.listen. Этот параметр пригодится в ситуации, когда снаружи инстанс доступен по адресу, отличающемуся от адреса во внутренней сети.

Улучшенный веб-интерфейс

Команда Picodata продолжает развивать компонент webui для Picodata. В версии Picodata 25.3 веб-интерфейс не просто выглядит лучше, он также стал удобнее и информативнее:

  • на панели Cluster ID отображается больше полезной информации, включая список включённых плагинов;

  • в области просмотра сведений об инстансе теперь присутствует адрес подключения по протоколу PostgreSQL.

Механизм плагинов

При подключении плагина к кластеру Picodata теперь допускается расхождение минорных версий плагина и инстанса (например, плагин, собранный для версии 25.3.1, будет работать в Picodata 25.3.2).

Полный список нововведений и список исправленных ошибок доступны в документе CHANGELOG.

Роль Picodata для Ansible

Выпущена новая версия роли Picodata для Ansible, которая совместима с Picodata 25.3. Изменения в роли:

  • при сборке информации при сбое (тег crash_dump) можно исключить сборку snap- и xlog-файлов;

  • добавлена возможность выполнять lua-команды на инстансах кластера (тег command);

  • исправлена работа с несколькими плагинами в инвентаризационном файле и ряд прочих ошибок.

Для установки Picodata 25.3 следуйте инструкциям на сайте. Готовые пакеты доступны для следующих дистрибутивов Linux:

  • Astra 1.8

  • Debian 12 (bookworm)

  • RHEL/Rocky 9

  • Fedora 41–42

Инструкции и руководства по установке, использованию и администрированию Picodata размещены на портале документации Picodata.

Теги:
Всего голосов 4: ↑2 и ↓20
Комментарии0

Конец экспертизы и конкуренции?

В интересное время мы живём. Вернулся намедни с конференции, полностью посвящённой AI-инструментам для бизнеса и параллельно начал читать книгу весьма любопытного китайца с юморным именем Кай-Фу Ли. Настоящие кайфули, а не обрыдшее деловое чтиво, это видно уже по первым страницам.

Давненько не попадалось таких насыщенных смыслами бизнес-изданий. Чуть ли ни каждая глава содержит квинтэссенцию глубоких мыслей продвинутого практика и стратегическое видение «человека мира», именно на уровне мира. Спорить не с чем, всё чётко разложено по полочкам. Мало того, всё, что было автором предсказано, уже происходит и именно так, как было описано. Книга, на секундочку, издана в России в 2019-м году, т.е., написана была значительно раньше. С удивлением узнал, что развивается AI ещё с 80-х, а основные вехи в его развитии приходятся на середину нулевых и одно из самых значимых событий произошло в 2012-м. Ничего про это не знал тогда, да и сейчас это стало для меня большим сюрпризом.

И ещё мне очень понравилось сравнение автором эпохи AI с эпохой внедрения человечеством электричества. И то и другое уже изменило облик и всё, что происходит на планете Земля, только изменения, которые привносит прямо сейчас AI, могут оказаться даже более глобальными в итоге, чем это было в случае с электричеством.

Что же стало ясно как божий день, когда почти месяц сам начал интенсивно пользоваться нейросетями, да ещё послушал/почитал умных людей, которые «в теме», что называется?

Экспертиза доживает свои последние годы. Затрудняюсь определить направление, где её ожидает хоть что-то позитивное в будущем. Сам опробовал на себе такие далекие друг от друга направления и темы, как молекулярная биология, туризм, нумизматика, ботаника, философия и др. И везде результат превзошёл ожидания за считанные минуты и несколько итераций. А, если «эксперт с 20-летним опытом» вдруг допустил какую-то оплошность или что-то недоглядел (галлюцинациями, вроде, это зовётся?), призываешь на помощь «эксперта с 40-летним опытом», даёшь ему возможность покопаться в деталях, и он обязательно находит все ошибки, начинает говорить на совершенно другом, выраженно профессиональном языке и источники приводит самые, что ни на есть релевантные. И так по всем проверенным лично направлениям. Где сам знаю вопрос досконально и могу оценить качество ответов.

Конкуренция в бизнесе тоже меняется на глазах. Вместо маркетинга, барахтания в «красных океанах» и всей этой бла-бла-бла в товарах и услугах, всему этому приходит на смену скорость внедрения AI во все сферы бизнеса. Кто быстрее и эффективнее это реализует, тот и выиграл в долгосроке в своей нише. Неважно, какой бизнес. Важно, что удачливого игрока ожидает: 1) Снижение себестоимости, которое не сможет побить ни один конкурент; 2) Персонализация невиданных доселе масштабов; 3) И, разумеется, полное отсутствие конкуренции на самой вершине. Это иногда даже монополией зовут. А кто не успел, тот уже точно не успел. Пора ползти в другом направлении…

Что решил для себя? Экстренно необходимо становиться горячим амбассадором и внедрять AI в работу везде и во всём, где это только возможно и приносит пользу. Завтра будет поздно, потому что все туда ринутся, пихаясь локтями.

А на бытовом уровне меньше чем за месяц обращений к бесплатной версии, я уже понял, что границ по знаниям не существует. Границы, по сути, определяются только тарифом и его лимитами. То новое, что даёт тариф за 20$, мне ещё только предстоит узнать.

На простой вопрос «Есть ли то, чего ты не знаешь?» AI ответил тоже простыми 5-ю пунктами, среди которых были личные данные, мои мысли и будущее. Делаю вывод, что всё остальное не вызывает у него особых сложностей.

А в конце AI издевательски добавил: «Если хочешь, можешь попробовать найти мой предел — задай что-нибудь каверзное». На этом моменте я впал в ступор...

Теги:
Всего голосов 7: ↑3 и ↓4+1
Комментарии7

А что б не вспомнить такой носитель данных, как перфолента?

Вот смотрите: допустим, 5 мкм лавсан, потом 1 мкм алюминий и снова 5 мкм лавсан. УФ-лазер с механическим приводом перфорирует поперёк ленты дорожки с шагом, скажем, тот же 1 мкм (УФ может и лучше, но пока не будем пальцы гнуть). Поскольку механика позиционирует луч с точностью до «куда-то туда» — применяем старые добрые старт- и стоп-биты.

На ленте шириной в 5 мм мы легко пробьём 4096 бит, старты, стопы и ещё останется запас с краёв. А чтобы прочитать её значительно быстрее, чем мы это макраме вымучивали — берём линейную ПЗС-матрицу от сканера (разрешение 1×16384 или примерно того порядка), сканируем всю ширину ленты разом, ну и (ваш Кэп) просто её протягиваем. Перекосы головки чтения относительно головки записи решаются кольцевым буфером — там хранится несколько последних строчек и нет никаких проблем найти там реальное положение дорожек, я такие синхронизации за пучок пятачок делал, задача детская.

В результате наши 4 килобита на микрон дают 512 терабайт в габаритах кассеты C-90, минус Рид-Соломон. Если я, конечно, по причине крайней усталости в нулях не запутался. Вот такая вот перфоленточка…

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии21

Качество данных — фундамент бизнеса, а не абстракция

Качество данных (Data Quality) — не абстракция, а фундаментальная основа банковского бизнеса, напрямую влияющая на бизнес-процессы, корректность отчетности, аналитику и финансовые результаты. Об этом заявил Николай Шевцов, директор дирекции по управлению данными ОТП Банка, выступая на ключевой отраслевой конференции Fintech Data Day.

В своей презентации он представил квинтэссенцию более чем двухлетней работы ОТП Банка по построению системы управления данными, где автоматизированный контроль Data Quality стал ключевым драйвером эффективности и снижения рисков.

"Сбой в качестве данных = сбой в бизнесе", – подчеркнул Шевцов. Он детализировал, что ошибки в данных приводят к каскаду проблем, включая некорректный скоринг и ошибки в одобрении/отказе клиентских заявок, потерю клиентов, ухудшение качества их обслуживания, ошибки в критически важной регуляторной отчетности (включая требования ЦБ РФ), сбои в операционных процессах и прямые финансовые потери.

"Проблемы с клиентами и финансами – лишь вершина айсберга", – предупредил он, отметив, что ошибка на источнике данных множится и делает принятие решений невозможным.

Николай Шевцов представил уникальный подход ОТП Банка, базирующийся на трех ключевых принципах.

Первый – создание Единого источника истины: централизованная Data Governance платформа хранит все метаданные – бизнес-глоссарий, каталог данных, домены, владельцев, процессы. Ключевое отличие заключается в интеграции BRD (Business Requirements Document) и FSD (Functional Specifications Document) в платформу как структурированных объектов, а не разрозненных документов в Word или Confluence.

Второй принцип – сквозная автоматизация на основе структуры. На основе FSD платформа автоматически генерирует код для витрин, выгрузок данных и других объектов.

"Здесь уже не нужны ресурсы разработчиков – эту работу спокойно выполняют аналитики", – отметил Шевцов. Супер-структурированность BRD/FSD позволяет автоматически генерировать и запускать технические DQ-проверки (полнота, уникальность, консистентность) непосредственно на продакшене.

"Закат солнца вручную не вариант! – пояснил Николай Шевцов. - Создание одной такой проверки занимает всего 5-10 минут, против часов или дней ранее, и происходит абсолютно без участия людей (разработчиков или аналитиков). Платформа также автоматически строит сквозные цепочки данных (data lineage), выявляя и подсвечивая расхождения между логической моделью и физической реализацией в хранилищах."

Третий принцип – прозрачность и управляемость: система визуализирует качество данных (DQ-метрики) на всех уровнях – от итогового отчета через витрины и слои DDS/ODS вплоть до систем-источников данных. Это позволяет максимально оперативно выявлять корень проблемы при ошибках в отчетности, что критично в сложных банковских процессах.

"Оглядываясь на 2,5 года назад, мы сами не верили, что это получится. А результат – чистая магия автоматизации", – поделился эксперт. Благодаря этому подходу банк достиг значительного ускорения процессов (минуты вместо часов/дней на создание DQ-проверок и lineage), высвободил ценные ресурсы (разработчики переключены на сложные задачи, аналитики генерируют код) и снизил операционные риски за счет автоматического контроля на проде. Прозрачность данных и их качества стала реальностью.

Шевцов рассказал о том, что в планах ОТП Банка на 3-й квартал – запуск MVP по автоматической генерации бизнес-проверок DQ. Система, зная смысл данных (например, "паспорт", "дата рождения"), сама предложит релевантные правила. Аналитику останется лишь "прокликать" согласие, исключив ручную разработку проверок качества данных.

"Для банка, входящего в международную OTP Group и поднявшегося в ТОП-20 России, надежность данных – не просто KPI, это основа доверия клиентов и регулятора. Наш подход доказывает: тотальная автоматизация контроля DQ – не фантастика, а рабочая реальность, дающая конкретные бизнес-результаты уже сегодня", – резюмировал CDO ОТП Банка.

Теги:
Рейтинг0
Комментарии0

GlowByte приглашает на практический вебинар «Безграничный Excel: сводные таблицы над миллиардами строк за секунды!»

Друзья, если вы работаете с данными в Excel, то это точно будет вам интересно! Приходите на практический вебинар GlowByte и Rapeed "Безграничный Excel: сводные таблицы над миллиардами строк за секунды!".

Мы расскажем вам о российской платформе Rapeed и покажем, как с помощью этого инструмента можно анализировать гигантские массивы данных без сложных запросов. Живые демонстрации, реальные кейсы и ответы на ваши вопросы — всё в одном мероприятии!

Почему это интересно?

Если вы работаете с данными в Excel, то точно знаете его пределы:

  •  файл "весит" сотни мегабайт,

  •  отчёты строятся мучительно медленно,

  •  данные — в десятках разных источников.

Но вы можете:

  • Перестать зависеть от ограничений Excel по объему и сложности данных;

  • Научиться соединять данные из разных систем (1С, CRM, КХД, Hadoop, S3) прямо в интерфейсе (PivotTable) сводной таблицы Excel;

  • Дать своей команде инструмент для сверхбыстрого анализа без необходимости моделирования данных и написания SQL-запросов.

Что? Где? Когда?

Живая демонстрация нового российского продукта Rapeed (in memory OLAP):
эксперт подключит Excel к источникам с миллиардами строк, построит сводную таблицу и покажет, как работать с гигантскими массивами без зависаний и SQL-запросов.

В программе:

  • Как быстро и эффективно работать в PivotTable в Excel с источниками более 1 млрд строк. 

  • Объединение сложных источников за пару кликов. 

  • Демо реальной задачи из сферы розничного бизнеса.   

  • Сможете задать любой вопрос создателю аналитической платформы Rapeed.

Бонус: Все участники вебинара получат доступ к триальной лицензии rapeed.ai на специальных условиях.

Вебинар состоится 24 июля в 13:00 (МСК).

Участие бесплатное. Регистрация по ссылке.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Repeater - планировщик для анализа данных, упрощенный Apache Airflow.

Repeater запускает задачи по расписанию. Задачи - последовательности консольных программ - описываются в toml-файлах. Запуски отображаются в веб-интерфейсе.

Пример задачи - запуск скриптов wiki_stats.py и wiki_pageviews.py импорта верхнеуровневой статистики Википедии в локальную базу.

title = "wiki"
cron = "0 55 * * * *"

[[tasks]]
name = "wiki_stats"
cmd = "python3 ./examples/wiki_stats.py"   

[[tasks]]
name = "wiki_pageviews"
cmd = "python3 ./examples/wiki_pageviews.py --end_date={{.scheduled_dt}}"

Бэкэнд написан на Go. Команды ниже запустят Докер-контейнер с сервисом и окружение для примеров:
- Repeater http://localhost:8080 - планировщик
- ClickHouse http://localhost:8123 и http://localhost:9000 - база данных
- ch-ui http://localhost:8001 - веб-интерфейс к базе данных
- Streamlit http://localhost:8002 - дашборды

git clone https://github.com/andrewbrdk/Repeater
cd Repeater
docker compose up --build

В примерах импорт количества просмотров страниц Википедии, курса биткоина, статистики репозитория Линукса на Гитхабе. Графики в Streamlit http://localhost:8002 .

Интересны применения проекта. Попробуйте! Впечатления пишите в комментариях. Спасибо!

Репозиторий: https://github.com/andrewbrdk/Repeater

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Чем занимается команда Data Science в финтехе

Рассказывает Слава, инженер машинного обучения в ЮMoney.

У нас в компании много данных, которые можно обрабатывать, чтобы улучшать пользовательский опыт. Например, данные пользовательских обращений ЮKassa из разных каналов: чатов с техподдержкой, почты, звонков в колл-центр.

Мы передаём тексты из обращений модели, которую обучили относить их к определённому классу (подключение СБП, вопросы по возвратам, платёжным методам и т. д.). Постоянно появляются новые темы, поэтому приходится регулярно дополнительно обучать модель. Разбив все поступающие обращения по группам, можно оценить их количество и построить дашборд.  

Если по одной теме у нас пять тысяч обращений, по второй — десять тысяч, а по третьей — всего два, значит, нам нужно уделить особое внимание первым двум.

В классификаторе пользовательских обращений мы используем языковые модели типа BERT. Также развиваем использование больших языковых моделей (LLM). У них много знаний «из коробки», они не требуют дообучения и могут применяться для разных задач. Есть и недостатки (требовательность к вычислительным ресурсам или галлюцинации), но LLM способны выполнять задачи намного быстрее, чем человек.

Ещё одно интересное направление Data Science, которое мы тестируем, — распознавание изображений и классификация по категориям. Сейчас мы решаем эту задачу с помощью модели clip, но планируем проверить эффективность работы visual LLM, например Qwen-VL. Этот вид моделей анализирует изображение и даёт текстовое описание, которое можно использовать в продуктах, например при проверке сайтов, которые подключаются к ЮKassa.

Также LLM хорошо выполняет задачи написания саммари — например, по итогам проведённой встречи. Предварительно отдельная модель (у нас это Whisper) переводит аудио в текст, что сильно ускоряет работу коллег.

***

Делитесь в комментариях, есть ли команда Data Science в вашей компании и какие задачи она решает. 🙌 А также следите за нашими новыми материалами о том, как технологии меняют финтех изнутри. Впереди ещё много интересного!

Теги:
Рейтинг0
Комментарии0

Я Павел Денисенко, отвечаю за развитие дата-платформы в X5 Tech!

Редко публикую тут посты (никогда), но сейчас не могу не поделиться новость о том, что наша команда CDO X5 Tech впервые участвует в Data Fest — главном событии года для сообщества Open Data Science! 

В один из дней, 1 июня, мы принимаем фестиваль у нас в гостях, и это событие нельзя пропустить!

Наша программа будет насыщенной и интересной. Мы будем рады поделиться опытом X5 Tech с сообществом дата-экспертов. Наши эксперты поделятся докладами на самые актуальные темы в области инженерии данных и искусственного интеллекта. С участием признанных экспертов индустрии Data и ML в Retail мы поговорим о том, как данные меняют сферу ритейла и не только ее. 

Но это еще не всё! В нейтральных секциях мы также поговорим о таких темах, как Advanced LLM и ML in Music. Узнаем, как большие языковые модели находят применение в разных сферах и что происходит на стыке машинного обучения и творчества.

🌟 И, конечно, не обойдется без неформальной части: холиварные зоны для тех, кто точно знает, как правильно, и вечеринка после официальной части для самых стойких.

📍 Где и когда? 1 июня, Москва, Loft Hall. 

Data Fest 2025 — must visit для всех, кто интересуется работой с данными и хочет лучше понимать, как информационные технологии меняют бизнес и помогают в работе. Мест немного, так что успевайте зарегистрироваться по ссылке!

Не упустите шанс стать частью этого восхитительного события! Ждем вас!

Ссылка для регистрации

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Работайте с большими данными в Evolution Data Platform 📊

❓ Что за инструмент? Evolution Data Platform — платформа для обработки больших данных, которая включает в себя несколько PaaS-сервисов. Среди них:

  1. Evolution Managed Trino — массивно-параллельный аналитический SQL-движок Trino с использованием распределенных запросов.

  2. Evolution Managed Metastore — сервис для хранения метаданных таблиц из разных источников. Metastore сообщает клиентским приложениям, где хранятся данные, как к ним обращаться и как их интерпретировать.

  3. Evolution Managed Spark — сервис для развертывания кластерного вычислительного решения на основе Apache Spark для распределенной обработки данных.

  4. Evolution Managed ArenadataDB — аналитическая база данных для хранения большого объема структурированных и полуструктурированных данных.

🖥 Особенности и преимущества. Вы можете выбрать любой сервис, который подходит под определенные задачи, или же комбинировать их. Из плюсов конкретных сервисов:

  1. Evolution Managed Trino способен работать с разными источниками в одном SQL-запросе, есть несколько конфигураций Trino. А еще можно создать приватный инстанс, недоступный из интернета.

  2. Evolution Managed Metastore прямо из интерфейса можно подключить к другим сервисам платформы Cloud.ru Evolution. Создание и обновление инстансов происходит за минуты, а данные для подключения к S3 — в безопасности, так как хранятся в сервисе Secret Management.

  3. Evolution Managed Spark позволяет отслеживать статусы выполнения задач, обрабатывать данные из Object Storage, а также из большинства доступных БД.

  4. Evolution Managed ArenadataDB дает возможность развертывать инстансы без обслуживания инфраструктуры, а кластеры Greenplum разворачиваются автоматически. Доступны конфигурации от 3 до 50 ТБ, что позволяет адаптировать систему под разные задачи.

👨‍💻 Кому будет полезно. PaaS-сервисы платформы Evolution Data Platform найдут применение во всех областях, где работают с большими объемами данных: финансовых учреждениях, ретейле, логистике, крупном и среднем бизнесе — и не только. Также сервисы будут полезны в машинном обучении и разработке. 

✍️ Где, как и для чего использовать. Для обработки структурированных, слабоструктурированных и неструктурированных данных, SQL-аналитики, ML, хранения метаданных таблиц, отправки сложных запросов, проверки гипотез, A/B-тестирований, построения приложений данных, интерактивного специального анализа данных.

В июне Evolution Managed Trino и Evolution Managed Metastore выйдут в коммерческий доступ, а еще станут доступны для тестирования сервисы Evolution Managed Airflow и Evolution Managed BI. Смотрите доклад с конференции GoCloud 2025, чтобы больше узнать о PaaS-сервисах для работы с данными 🌐

Теги:
Рейтинг0
Комментарии0

Управляемые сервисы на базе YTsaurus и Apache Spark, новые возможности DataLens и Yandex Cloud AI Studio — о чём говорили на Data&ML2Business

Собрали самые интересные анонсы с Data&ML2Business, ежегодной конференции Yandex Cloud о практическом применении технологий. Вот что прозвучало на главном докладе 28 мая.

Трек Data

Ранний доступ к Yandex Managed Service for YTsaurus. Платформа Яндекса для хранения и обработки больших данных YTsaurus уже два года в опенсорсе, а с этого дня доступ к ней открывается ещё в двух форматах: в облаке и в инфраструктуре заказчика (on‑premise).

Создать базовый кластер YTsaurus теперь можно в привычной консоли
Создать базовый кластер YTsaurus теперь можно в привычной консоли

Для тестирования работы в этих форматах необходимо подать заявку.

Доступ к сервису Yandex Managed Service for Spark. Новый управляемый сервис на базе опенсорс-решения поможет с загрузкой и обработкой данных, а также задачами машинного обучения в облаке. Протестировать его в режиме Preview можно здесь.

Кроме этого, в публичный доступ вышел сервис управления распределённым аналитическим массивно‑параллельным движком обработки больших данных Trino в облачной инфраструктуре.

Обновления Yandex DataLens. Что появилось в сервисе BI‑аналитики:

  • DataLens Gallery — публичная витрина готовых примеров дашбордов. Теперь любой пользователь может открыть галерею, выбрать нужную отрасль или предметную область и изучить готовые дашборды и модели данных, а также стать автором галереи. При согласии автора дашборд из галереи можно развернуть у себя в качестве примера или стартового дашборда.

  • DataLens Editor — редактор для кастомизации графиков и таблиц с помощью JavaScript. Пользователи смогут создавать продвинутые визуализации и удобно интегрировать данные из нескольких источников (включая внешние API).

  • Собственная программа сертификации Yandex DataLens Certified Analyst. С её помощью специалисты могут официально подтвердить свои навыки работы с DataLens. На экзамене проверяются знания и навыки работы с чартами и датасетами, вычисляемыми полями и параметрами, внешними источниками данных, построения дашбордов и выдачи доступов.

Также на конференции рассказали про OLAP-движок для YDB. Теперь СУБД подходит для самых высоконагруженных сценариев. В последней версии YDB появился неточный векторный поиск, позволяющий использовать YDB для специализированных задач, связанных с ИИ.

Трек ML

Обновления RAG‑пайплайна в AI Assistant API. Доступный на платформе Yandex Cloud AI Studio инструмент для создания умных ассистентов дополнился новым графическим UI — теперь создать виртуального помощника можно не только через API или SDK. Возможности поиска данных по базам знаний также расширились: доступны поддержка новых типов данных (таблицы и pdf‑файлы), дообучение эмбедингов, обогащение чанков метаданными, получение метаданных ответа, а также использование дообученной модели. Также на платформе появился рефразер — отдельная модель, которая может перефразировать запросы пользователя.

Доступ к Yandex Cloud AI Studio on‑premise. AI‑платформа Yandex Cloud внесена в реестр отечественного ПО, что позволяет интегрировать решения как в облаке, так и в своей инфраструктуре.

Эксперты обсудили и уже состоявшиеся запуски: 

  • Инструменты работы с OpenAI Compatible API в облаке. API для языковых моделей в Yandex Cloud AI Studio совместим с OpenAI API. Благодаря этому модели YandexGPT проще интегрировать с популярными решениями для работы с ML, например, AutoGPT или LangChain. В совместимом с OpenAI API поддерживаются Function Calling, работа с эмбеддингами и Structured Output.

  • Смысловые теги Yandex SpeechSense — инструмент умного тегирования и поиска для анализа диалогов в колл‑центрах, доступный отдельно по клиенту и оператору.

  • Доступ к VLM и LLM в режиме Batch Processing и co‑pilot сервис для операторов Yandex Neurosupport — о которых мы рассказывали на Хабре.

На конференции более 20 спикеров представили 15 докладов по направлениям Data и ML. Подключайтесь к трансляции на странице мероприятия или смотрите в записи, чтобы познакомиться с опытом внедрения технологий.

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Вклад авторов