Обновить
74.98

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга

Новая версия продукта «Форсайт. Умные таблицы»

Друзья, это того стоило! 3 месяца работы – и перед вами новая версия «Форсайт. Умные таблицы» 10.9!
Новая версия кардинально улучшит ваш опыт работы с продуктом.

Вот над чем команда усердно работала в последнее время:

Возможность сохранить персональные отчеты в репозиторий «Форсайт. Аналитическая платформа»
Ура, теперь все ваши классные таблицы и расчеты вы можете сохранить в «Регламентный отчет» прямо в репозитории «Форсайт. Аналитическая платформа». Это значит, что подготовленные вами шаблоны форм и отчетов будут бережно храниться на сервере и могут быть вновь использованы как вами, так и вашими коллегами (при наличии доступа) во всех инструментах «Форсайт», включая их веб-версии.
Важно: отчеты стали мощнее и просто не откроются в предыдущих версиях.

Ваши отчеты теперь умеют работать сами
Мы подключили к «Форсайт. Умные таблицы» полноценный объектно-ориентированный язык программирования Fore. С его помощью вы можете превратить повторяющиеся задачи в магию автоматизации. Например, если нужно проверить, какие данные пользователь ввел, добавить новые элементы в справочник или реализовать нетиповую детализацию данных на отдельном листе с произвольным оформлением, Fore поможет решить эти задачи в режиме онлайн подключения к «Форсайт. Аналитическая платформа»

Отслеживание изменений в отчетах
Благодаря хранению информации обо всех изменениях данных в вашем отчете, вы не только сможете увидеть комментарии пользователя, который их сделал, но и увидеть – кто, когда и что именно поменял в каждой конкретной ячейке.

Индикация доступных ячеек для ввода данных
Помимо цветовой индикации ячеек, в которые пользователь не может вводить данные, мы добавили простые и понятные пиктограммы, отражающие ячейки с отсутствием прав доступа для ввода, а также ячейки с расчетными агрегированными данными.

Пользовательские кнопки на панели инструментов
Теперь вы можете закрепить самые нужные функции и убрать то, чем не пользуетесь на панели инструментов. Нужен уникальный воркфлоу? Создайте свою кнопку и назначьте ей свой макрос Fore, всё произойдет по нажатию.

Множество новых удобных функций
Мы реализовали защиту листа, расширили возможности печати и визуализации данных в диаграммах, добавили авторастягивание конструируемого среза при вставке данных из буфера.

Важно! Новая единица лицензирования
Ранее в целях апробации «Умных таблиц» сервер лицензий использовал единицу лицензирования пользователя «Форсайт. Аналитическая платформа». Начиная с версии 10.9 необходимо запрашивать и устанавливать отдельные лицензии для пользователей «Умных таблиц».

Более детальная информация здесь: https://announce.fsight.ru/fst/10-9/

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

Компания «Форсайт» представляет новую версию своего флагманского продукта «Форсайт. Аналитическая платформа» 10.9!

В новой STS-версии расширены возможности для создания отчетности и визуализации данных в веб-приложении:
- пользователи смогут установить защиту листа,
- использовать упрощенную настройку параметров печати в регламентных отчетах,
- отменить изменение данных на активном листе или в отчете.

Теперь в веб-версии платформы доступен поиск по командам меню в регламентных отчётах, а также ввод и согласование данных в бизнес-процессах через регламентные отчёты.

Работа с алгоритмами расчета в вебе станет более удобной благодаря новым возможностям по выравниванию объектов и настройке смешанного форматирования текста при оформлении рабочей области.

Также в релизе 10.9:

  • расширены возможности менеджера безопасности и менеджера обновлений;

  • появился нативный драйвер к базе данных СУБД ClickHouse с возможностью write-back;

  • появилась возможность отладки веб-форм;

  • и многое другое!

Обратите внимание!
В «Форсайт. Аналитическая платформа» 10.9:

  • повышена версия репозитория метаданных: при обновлении платформы необходимо обновить версию репозитория;

  • повышена версия метаданных регламентных отчётов: отчёты, созданные в 10.9, будут недоступны для открытия в предыдущих версиях.

STS-релиз – это промежуточный выпуск, включающий новые функции перед их интеграцией в LTS (Long Term Support) – релиз с долгосрочной поддержкой.

Подробнее о новой версии читайте здесь.

График выпуска версий можно посмотреть здесь.

Подробнее с релизной стратегией можно ознакомиться здесь.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

ML Impact — рассказываем, как компании внедряют ML и что из этого получается

Мы запустили ресурс о том, как эффективно использовать искусственный интеллект в рабочих задачах. Уже доступны материалы про настоящую роль ИИ в автоматизации и работу EDGE AI. Скоро появятся новые статьи! 

Их можно использовать, чтобы обосновать коллегам или руководству целесообразность запуска ML-проекта. У вас под рукой будет готовый ресурс, которым можно просто поделиться — вместо тысячи слов и долгих объяснений.

Перейти в ML Impact

Теги:
Всего голосов 4: ↑4 и ↓0+8
Комментарии0

Влияют ли орфографические ошибки в запросе на ответ нейросети?

Лично я часто отправляю в нейросеть сырой текст с ошибками, но она всегда меня понимает и делает то, о чём я её прошу.

Получается, нейросетям не так важно, есть ли ошибки в тексте?

Не совсем.

Нейросети устроены так, что могут догадаться, какое слово вы имели в виду.
Как?
Ранее я писал про токены — именно на них и разбивается текст. Давайте для примера разобьём слово с ошибкой и без:
"Привет" → ["Пр", "ивет"]
"Пирвет" → ["П", "ир", "вет"]
Можно попробовать самим — ТУТ (нужен VPN).

Выходит, что слово с ошибкой разбилось аж на три токена, причём довольно далёких от исходного слова по смыслу.

Есть два варианта:
1️⃣ Нейросеть по контексту догадается, что это слово — "привет".
2️⃣ Такая ошибка (опечатка) не редкость, и в системе токенов (векторных представлений) токены "привет", "п", "ир", "вет" могут находиться рядом. А значит, для нейросети они будут иметь схожий смысл, и она поймёт, что вы имели в виду.
* Если непонятно, что значит "находятся рядом" — можно почитать статью ТУТ, там объясняется просто но подробно.

На практике могу сказать, что в обычных вопросах и просьбах орфографические ошибки не влияют на результат.
Но если ошибка полностью меняет слово или делает его непонятным, нейросеть, как и человек, постарается угадать смысл по контексту.

Идеально — писать без ошибок, чтобы получать максимально точные результаты. Но в повседневной жизни нейросеть способна сгладить ваши ошибки, как это делает человек.

Вывод:
Восприятие текста нейросетью очень похоже на человеческое. Небольшие ошибки, скорее всего, не повлияют на результат, а серьёзные будут компенсированы контекстом — нейросеть догадается. Проблема может возникнуть, если ошибка превращает слово в другое существующее слово, и контекст не позволяет понять, что вы имели в виду — как и человек, нейросеть может запутаться.

Лучше избегать ошибок, но их наличие — не критично!

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии4

Новая статья на Habr: Опыт t2 по масштабированию BI на 4500+ пользователей

Опубликовали большой кейс о том, как компания t2 (бывший Tele2) решила одну из главных проблем российского рынка аналитики — нехватку западных BI-решений.

Главные цифры кейса:
4500+ пользователей FineBI
400+ разработчиков отчетности
Кластерная архитектура с 6 нодами
3 года успешной эксплуатации

Ключевые инсайты:
✅ Как организовать автоматизированное обучение пользователей
✅ Почему безлимитные лицензии стали ключевым мотиватором миграции
✅ Как построить внутреннее сообщество поддержки в Telegram
✅ Зачем нужна поэтапная миграция с участием бизнес-пользователей

Для кого будет полезно
Руководителям аналитики — практический опыт масштабирования BI
IT-директорам — архитектурные решения и организация процессов
Аналитикам — понимание современных self-service подходов
Всем, кто планирует миграцию — реальные уроки и рекомендации

Бонус от GlowByte
В статье также рассказываем об образовательном ретрите по FineBI, который стартует 25 августа:
🔸 13-дневный марафон с обновленной программой
🔸 3 эксклюзивных вебинара: FineReport Pro, AI в аналитике, 3D-визуализация
🔸 Реальные кейсы от t2, Уралсиб, Циан и других компаний
🔸 Система призов за лучшие домашние задания

Читать статью полностью → https://habr.com/ru/companies/glowbyte/articles/939470/

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Уже через неделю, 28 августа, встречаемся на RecSys Meetup!

Когда? 28 августа, старт в 18:00
Где? Москва + онлайн-трансляция

Обсудим актуальное из мира рекомендаций: от передовых архитектур для построения Semantic IDs и их внедрения в продуктивные системы, до тонкостей балансировки интересов пользователей и продавцов маркетплейса с помощью онлайн-доранжирования и байесовской оптимизации.

В программе: 

  • «Semantic IDs: архитектура и наш опыт внедрения» | Александр Тришин, Data Scientist в команде персональных рекомендаций

  • «Счастье пользователя vs счастье продавца. Онлайн-доранжирование и байесовская оптимизация в товарных рекомендациях» | Андрей Ветров, Data Scientist в команде товарных рекомендаций

  • «Как мы обучаем CLIP-ы для текстовых тегов» | Михаил Киндулов, CV Engineer в команде Поиска по фото

  • «Трансформеры в персональных рекомендациях: от гипотез до AB-тестирования» | Иван Ващенко, DS Stream Lead в команде персональных рекомендаций

Регистрация уже открыта! PS: для участия в офлайне регистрация обязательна.

А больше о митапе и развитии ML/DS в Wildberries & Russ — ищите в WB Space.

Теги:
Рейтинг0
Комментарии0

Нагрузочное тестирование GP6 vs GP7 vs Cloudberry

Насколько лучше производительность в GP7 и Cloudberry относительно GP6? Насколько стабильно работают GP7 и Cloudberry? Стоит ли мигрировать с GP6 в 2025? И если да, то на что? Ответы на эти вопросы — в партнерском материале по нагрузочному тестированию GreenPlum 6.X, GreenPlum 7.X и Cloudberry ведущего архитектора группы компаний GlowByte Марка Лебедева.

Материал был анонсирован в статье «Тестирование систем и движков массивно-параллельных вычислений. Часть II. TPC-DS» и продолжает серию публикаций о нагрузочных тестированиях технического руководителя решений Data Ocean Nova и Data Ocean Flex Loader Евгения Вилкова.

Теги:
Рейтинг0
Комментарии0

Знакомьтесь с Академией «ГлоуБайт»!

Группа компаний GlowByte запустила сайт Академии «ГлоуБайт», где собраны 25 готовых курсов по бизнес-аналитике (Business Intelligence), управлению бизнес-процессами (BPMN), обработке данных и продвинутой аналитике (Advanced Analytics), работе с универсальной Lakehouse-платформой данных Data Ocean Nova и автоматизации CVM-маркетинга (CM Ocean).

Курсы основаны на опыте экспертов группы компаний GlowByte и включают в себя как теорию, так и практические задания. Среди наиболее популярных тем – «Практический MLOps», «Погружение в А/В-тестирование», «АА и машинное обучение в маркетинге», «Техника и методология кредитного скоринга», «Сертификация FineBI и FineReport», «Data Ocean Nova. Обучение пользователей», «Глубокое обучение в банковской сфере», «Greenplum для аналитиков и разработчиков» и другие. 

Обучение проводится только для корпоративных клиентов в группе до 10 человек, а также индивидуально для специалистов и руководителей. Кроме того, Академия «ГлоуБайт» адаптирует курсы и создает уникальные программы под приоритеты и текущие задачи бизнеса.

Познакомиться с Академией «ГлоуБайт», почитать отзывы и узнать больше о курсах можно на сайте Академии. Или напишите нам на почту: academy@glowbyteconsulting.com.

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Что будем обсуждать и про что рассказывать на GoCloud Tech ☁️

3 сентября, уже почти через месяц, состоится наша вторая технологическая IT-конференция про облака и AI — GoCloud Tech.

Мы запланировали для вас четыре трека:

🤖 AI&ML — про AI-продукты нашей разработки и работу с GenAI. Узнаете, как устроены RAG-системы и мультиагентные ассистенты, а также, как они уже применяются в работе и как начать их использовать

☁️ Cloud Infrastructure — про построение устойчивой, масштабируемой и безопасной облачной инфраструктуры: нюансы сетевой архитектуры, проектирование IaaS‑кластеров на K8s, возможности балансировщиков и производительность SDN.

📈 Data&Analytics — про современные подходы к Big Data и аналитике: тренды, возможности облачных сервисов, интеграцию с AI-агентами и инструменты для быстрого и эффективного решения задач хранения, обработки и анализа.

⚙️ Dev Platform Services — в рамках трека разберем детали и заглянем «под капот» решений, чтобы затем облегчить повседневную рутину разработки и настройки сервисов, а еще — оптимизировать процессы в инженерных командах.

А еще вас ждет:

  • демо и интерактивные зоны новых AI-сервисов и сервисов платформы Cloud․ru Evolution;

  • технические воркшопы;

  • нетворкинг, кастомный мерч и afterparty.

Как принять участие:

Подключайтесь к онлайн-трансляции в VK и на Twitch (ссылка придет зарегистрированным участникам в письме) или приходите в Лофт-пространство Goelro в Москве. Собираемся 3 сентября в 10:00, а основную программу начинаем в 11:00. Кстати, ей мы тоже совсем скоро с вами поделимся.

Зарегистрироваться 👈

А пока можно почитать, как прошли наши предыдущие конференции:

Теги:
Всего голосов 1: ↑0 и ↓1-1
Комментарии0

Как прокачать геймификацию в команде?

В учебнике по обществознанию за 9 класс есть определение экономики как науки: «Экономика — наука о том, как люди удовлетворяют свои постоянно растущие потребности в условиях ограниченности ресурсов». То же самое и в разметке — нам нужно удовлетворять постоянно растущие потребности в объёмах и качестве, а бюджет ограничен. Помочь в этом может система мотивации.

Как мотивировать команду не только премиями, но и азартом? В Альфа-Банке внедрили прозрачный рейтинг, ачивки и систему нематериальной мотивации — это не только повысило качество работы, но и вдохновило сотрудников активнее делиться опытом, писать статьи и достигать выдающихся результатов. Реальный кейс описали в статье: «Вот так подкрути геймификацию и мотивация болеть не будет». Несколько простых инструментов — и ваш коллектив начнёт расти и конкурировать с азартом.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии6

Выпущена новая версия СУБД Picodata — Picodata 25.3 

Компания Picodata (входит в Группу Arenadata) выпустила новую версию СУБД Picodata — Picodata 25.3. Обновление включает расширенные возможности SQL, механизм автоматического обновления схемы данных, а также повышение стабильности кластера.

Улучшение обратной совместимости

В Picodata 25.3 реализовано автоматическое обновление схемы данных при переходе инстансов на новый релиз Picodata. Этот механизм учитывает сделанные изменения в системных таблицах и сохраняет обратную совместимость при обновлении на следующий релиз СУБД: при переводе кластера на новую версию Picodata необходимые DDL/DML-команды выполнятся без вмешательства администратора, а требуемые в новой схеме внутренние функции также будут созданы автоматически.

Новые возможности SQL

В релиз добавлены новые возможности языка SQL в Picodata, в частности:

  • поддержка NULLS FIRST/LAST при сортировке результатов запроса (ORDER BY);

  • обработка конфликтов при вставке данных в глобальные таблицы (INSERT INTOON CONFLICT DO FAIL/REPLACE/NOTHING);

  • новая встроенная оконная функция LAST_VALUE();

  • оператор % для определения остатка деления по модулю для целых чисел;

  • возможность определения лидера raft-группы через функции pico_raft_leader_id() и pico_raft_leader_uuid();

  • возможность определения версии текущего инстанса с помощью функции version();

  • изменение, связанное с совместимостью: вместо скалярной функции instance_uuid (которая теперь объявлена устаревшей), рекомендуется использовать новую функцию pico_instance_uuid.

Улучшенная совместимость с PostgreSQL

Picodata теперь поддерживает безопасное соединение при обращении к внешнему LDAP-серверу. При подключении через протокол PostgreSQL (например, с помощью клиента psql) с методом аутентификации LDAP можно задействовать TLS-шифрование (при условии, что оно включено на LDAP-сервере). На стороне Picodata для этого потребуется установить значения у трёх переменных окружения. Например:

export TT_LDAP_URL="ldap://127.0.0.1:1389"
export TT_LDAP_DN_FMT='cn=$USER,ou=users,dc=example,dc=org'
export TT_LDAP_ENABLE_TLS=true

Изменение в конфигурации

Добавлен новый параметр instance.pg.advertise — публичный адрес сервера для подключения по протоколу PostgreSQL. По умолчанию, его значение соответствует значению instance.pg.listen. Этот параметр пригодится в ситуации, когда снаружи инстанс доступен по адресу, отличающемуся от адреса во внутренней сети.

Улучшенный веб-интерфейс

Команда Picodata продолжает развивать компонент webui для Picodata. В версии Picodata 25.3 веб-интерфейс не просто выглядит лучше, он также стал удобнее и информативнее:

  • на панели Cluster ID отображается больше полезной информации, включая список включённых плагинов;

  • в области просмотра сведений об инстансе теперь присутствует адрес подключения по протоколу PostgreSQL.

Механизм плагинов

При подключении плагина к кластеру Picodata теперь допускается расхождение минорных версий плагина и инстанса (например, плагин, собранный для версии 25.3.1, будет работать в Picodata 25.3.2).

Полный список нововведений и список исправленных ошибок доступны в документе CHANGELOG.

Роль Picodata для Ansible

Выпущена новая версия роли Picodata для Ansible, которая совместима с Picodata 25.3. Изменения в роли:

  • при сборке информации при сбое (тег crash_dump) можно исключить сборку snap- и xlog-файлов;

  • добавлена возможность выполнять lua-команды на инстансах кластера (тег command);

  • исправлена работа с несколькими плагинами в инвентаризационном файле и ряд прочих ошибок.

Для установки Picodata 25.3 следуйте инструкциям на сайте. Готовые пакеты доступны для следующих дистрибутивов Linux:

  • Astra 1.8

  • Debian 12 (bookworm)

  • RHEL/Rocky 9

  • Fedora 41–42

Инструкции и руководства по установке, использованию и администрированию Picodata размещены на портале документации Picodata.

Теги:
Всего голосов 4: ↑2 и ↓20
Комментарии0

Конец экспертизы и конкуренции?

В интересное время мы живём. Вернулся намедни с конференции, полностью посвящённой AI-инструментам для бизнеса и параллельно начал читать книгу весьма любопытного китайца с юморным именем Кай-Фу Ли. Настоящие кайфули, а не обрыдшее деловое чтиво, это видно уже по первым страницам.

Давненько не попадалось таких насыщенных смыслами бизнес-изданий. Чуть ли ни каждая глава содержит квинтэссенцию глубоких мыслей продвинутого практика и стратегическое видение «человека мира», именно на уровне мира. Спорить не с чем, всё чётко разложено по полочкам. Мало того, всё, что было автором предсказано, уже происходит и именно так, как было описано. Книга, на секундочку, издана в России в 2019-м году, т.е., написана была значительно раньше. С удивлением узнал, что развивается AI ещё с 80-х, а основные вехи в его развитии приходятся на середину нулевых и одно из самых значимых событий произошло в 2012-м. Ничего про это не знал тогда, да и сейчас это стало для меня большим сюрпризом.

И ещё мне очень понравилось сравнение автором эпохи AI с эпохой внедрения человечеством электричества. И то и другое уже изменило облик и всё, что происходит на планете Земля, только изменения, которые привносит прямо сейчас AI, могут оказаться даже более глобальными в итоге, чем это было в случае с электричеством.

Что же стало ясно как божий день, когда почти месяц сам начал интенсивно пользоваться нейросетями, да ещё послушал/почитал умных людей, которые «в теме», что называется?

Экспертиза доживает свои последние годы. Затрудняюсь определить направление, где её ожидает хоть что-то позитивное в будущем. Сам опробовал на себе такие далекие друг от друга направления и темы, как молекулярная биология, туризм, нумизматика, ботаника, философия и др. И везде результат превзошёл ожидания за считанные минуты и несколько итераций. А, если «эксперт с 20-летним опытом» вдруг допустил какую-то оплошность или что-то недоглядел (галлюцинациями, вроде, это зовётся?), призываешь на помощь «эксперта с 40-летним опытом», даёшь ему возможность покопаться в деталях, и он обязательно находит все ошибки, начинает говорить на совершенно другом, выраженно профессиональном языке и источники приводит самые, что ни на есть релевантные. И так по всем проверенным лично направлениям. Где сам знаю вопрос досконально и могу оценить качество ответов.

Конкуренция в бизнесе тоже меняется на глазах. Вместо маркетинга, барахтания в «красных океанах» и всей этой бла-бла-бла в товарах и услугах, всему этому приходит на смену скорость внедрения AI во все сферы бизнеса. Кто быстрее и эффективнее это реализует, тот и выиграл в долгосроке в своей нише. Неважно, какой бизнес. Важно, что удачливого игрока ожидает: 1) Снижение себестоимости, которое не сможет побить ни один конкурент; 2) Персонализация невиданных доселе масштабов; 3) И, разумеется, полное отсутствие конкуренции на самой вершине. Это иногда даже монополией зовут. А кто не успел, тот уже точно не успел. Пора ползти в другом направлении…

Что решил для себя? Экстренно необходимо становиться горячим амбассадором и внедрять AI в работу везде и во всём, где это только возможно и приносит пользу. Завтра будет поздно, потому что все туда ринутся, пихаясь локтями.

А на бытовом уровне меньше чем за месяц обращений к бесплатной версии, я уже понял, что границ по знаниям не существует. Границы, по сути, определяются только тарифом и его лимитами. То новое, что даёт тариф за 20$, мне ещё только предстоит узнать.

На простой вопрос «Есть ли то, чего ты не знаешь?» AI ответил тоже простыми 5-ю пунктами, среди которых были личные данные, мои мысли и будущее. Делаю вывод, что всё остальное не вызывает у него особых сложностей.

А в конце AI издевательски добавил: «Если хочешь, можешь попробовать найти мой предел — задай что-нибудь каверзное». На этом моменте я впал в ступор...

Теги:
Всего голосов 7: ↑3 и ↓4+1
Комментарии7

А что б не вспомнить такой носитель данных, как перфолента?

Вот смотрите: допустим, 5 мкм лавсан, потом 1 мкм алюминий и снова 5 мкм лавсан. УФ-лазер с механическим приводом перфорирует поперёк ленты дорожки с шагом, скажем, тот же 1 мкм (УФ может и лучше, но пока не будем пальцы гнуть). Поскольку механика позиционирует луч с точностью до «куда-то туда» — применяем старые добрые старт- и стоп-биты.

На ленте шириной в 5 мм мы легко пробьём 4096 бит, старты, стопы и ещё останется запас с краёв. А чтобы прочитать её значительно быстрее, чем мы это макраме вымучивали — берём линейную ПЗС-матрицу от сканера (разрешение 1×16384 или примерно того порядка), сканируем всю ширину ленты разом, ну и (ваш Кэп) просто её протягиваем. Перекосы головки чтения относительно головки записи решаются кольцевым буфером — там хранится несколько последних строчек и нет никаких проблем найти там реальное положение дорожек, я такие синхронизации за пучок пятачок делал, задача детская.

В результате наши 4 килобита на микрон дают 512 терабайт в габаритах кассеты C-90, минус Рид-Соломон. Если я, конечно, по причине крайней усталости в нулях не запутался. Вот такая вот перфоленточка…

Теги:
Всего голосов 2: ↑2 и ↓0+3
Комментарии21

Ближайшие события

Качество данных — фундамент бизнеса, а не абстракция

Качество данных (Data Quality) — не абстракция, а фундаментальная основа банковского бизнеса, напрямую влияющая на бизнес-процессы, корректность отчетности, аналитику и финансовые результаты. Об этом заявил Николай Шевцов, директор дирекции по управлению данными ОТП Банка, выступая на ключевой отраслевой конференции Fintech Data Day.

В своей презентации он представил квинтэссенцию более чем двухлетней работы ОТП Банка по построению системы управления данными, где автоматизированный контроль Data Quality стал ключевым драйвером эффективности и снижения рисков.

"Сбой в качестве данных = сбой в бизнесе", – подчеркнул Шевцов. Он детализировал, что ошибки в данных приводят к каскаду проблем, включая некорректный скоринг и ошибки в одобрении/отказе клиентских заявок, потерю клиентов, ухудшение качества их обслуживания, ошибки в критически важной регуляторной отчетности (включая требования ЦБ РФ), сбои в операционных процессах и прямые финансовые потери.

"Проблемы с клиентами и финансами – лишь вершина айсберга", – предупредил он, отметив, что ошибка на источнике данных множится и делает принятие решений невозможным.

Николай Шевцов представил уникальный подход ОТП Банка, базирующийся на трех ключевых принципах.

Первый – создание Единого источника истины: централизованная Data Governance платформа хранит все метаданные – бизнес-глоссарий, каталог данных, домены, владельцев, процессы. Ключевое отличие заключается в интеграции BRD (Business Requirements Document) и FSD (Functional Specifications Document) в платформу как структурированных объектов, а не разрозненных документов в Word или Confluence.

Второй принцип – сквозная автоматизация на основе структуры. На основе FSD платформа автоматически генерирует код для витрин, выгрузок данных и других объектов.

"Здесь уже не нужны ресурсы разработчиков – эту работу спокойно выполняют аналитики", – отметил Шевцов. Супер-структурированность BRD/FSD позволяет автоматически генерировать и запускать технические DQ-проверки (полнота, уникальность, консистентность) непосредственно на продакшене.

"Закат солнца вручную не вариант! – пояснил Николай Шевцов. - Создание одной такой проверки занимает всего 5-10 минут, против часов или дней ранее, и происходит абсолютно без участия людей (разработчиков или аналитиков). Платформа также автоматически строит сквозные цепочки данных (data lineage), выявляя и подсвечивая расхождения между логической моделью и физической реализацией в хранилищах."

Третий принцип – прозрачность и управляемость: система визуализирует качество данных (DQ-метрики) на всех уровнях – от итогового отчета через витрины и слои DDS/ODS вплоть до систем-источников данных. Это позволяет максимально оперативно выявлять корень проблемы при ошибках в отчетности, что критично в сложных банковских процессах.

"Оглядываясь на 2,5 года назад, мы сами не верили, что это получится. А результат – чистая магия автоматизации", – поделился эксперт. Благодаря этому подходу банк достиг значительного ускорения процессов (минуты вместо часов/дней на создание DQ-проверок и lineage), высвободил ценные ресурсы (разработчики переключены на сложные задачи, аналитики генерируют код) и снизил операционные риски за счет автоматического контроля на проде. Прозрачность данных и их качества стала реальностью.

Шевцов рассказал о том, что в планах ОТП Банка на 3-й квартал – запуск MVP по автоматической генерации бизнес-проверок DQ. Система, зная смысл данных (например, "паспорт", "дата рождения"), сама предложит релевантные правила. Аналитику останется лишь "прокликать" согласие, исключив ручную разработку проверок качества данных.

"Для банка, входящего в международную OTP Group и поднявшегося в ТОП-20 России, надежность данных – не просто KPI, это основа доверия клиентов и регулятора. Наш подход доказывает: тотальная автоматизация контроля DQ – не фантастика, а рабочая реальность, дающая конкретные бизнес-результаты уже сегодня", – резюмировал CDO ОТП Банка.

Теги:
Рейтинг0
Комментарии0

GlowByte приглашает на практический вебинар «Безграничный Excel: сводные таблицы над миллиардами строк за секунды!»

Друзья, если вы работаете с данными в Excel, то это точно будет вам интересно! Приходите на практический вебинар GlowByte и Rapeed "Безграничный Excel: сводные таблицы над миллиардами строк за секунды!".

Мы расскажем вам о российской платформе Rapeed и покажем, как с помощью этого инструмента можно анализировать гигантские массивы данных без сложных запросов. Живые демонстрации, реальные кейсы и ответы на ваши вопросы — всё в одном мероприятии!

Почему это интересно?

Если вы работаете с данными в Excel, то точно знаете его пределы:

  •  файл "весит" сотни мегабайт,

  •  отчёты строятся мучительно медленно,

  •  данные — в десятках разных источников.

Но вы можете:

  • Перестать зависеть от ограничений Excel по объему и сложности данных;

  • Научиться соединять данные из разных систем (1С, CRM, КХД, Hadoop, S3) прямо в интерфейсе (PivotTable) сводной таблицы Excel;

  • Дать своей команде инструмент для сверхбыстрого анализа без необходимости моделирования данных и написания SQL-запросов.

Что? Где? Когда?

Живая демонстрация нового российского продукта Rapeed (in memory OLAP):
эксперт подключит Excel к источникам с миллиардами строк, построит сводную таблицу и покажет, как работать с гигантскими массивами без зависаний и SQL-запросов.

В программе:

  • Как быстро и эффективно работать в PivotTable в Excel с источниками более 1 млрд строк. 

  • Объединение сложных источников за пару кликов. 

  • Демо реальной задачи из сферы розничного бизнеса.   

  • Сможете задать любой вопрос создателю аналитической платформы Rapeed.

Бонус: Все участники вебинара получат доступ к триальной лицензии rapeed.ai на специальных условиях.

Вебинар состоится 24 июля в 13:00 (МСК).

Участие бесплатное. Регистрация по ссылке.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Repeater - планировщик для анализа данных, упрощенный Apache Airflow.

Repeater запускает задачи по расписанию. Задачи - последовательности консольных программ - описываются в toml-файлах. Запуски отображаются в веб-интерфейсе.

Пример задачи - запуск скриптов wiki_stats.py и wiki_pageviews.py импорта верхнеуровневой статистики Википедии в локальную базу.

title = "wiki"
cron = "0 55 * * * *"

[[tasks]]
name = "wiki_stats"
cmd = "python3 ./examples/wiki_stats.py"   

[[tasks]]
name = "wiki_pageviews"
cmd = "python3 ./examples/wiki_pageviews.py --end_date={{.scheduled_dt}}"

Бэкэнд написан на Go. Команды ниже запустят Докер-контейнер с сервисом и окружение для примеров:
- Repeater http://localhost:8080 - планировщик
- ClickHouse http://localhost:8123 и http://localhost:9000 - база данных
- ch-ui http://localhost:8001 - веб-интерфейс к базе данных
- Streamlit http://localhost:8002 - дашборды

git clone https://github.com/andrewbrdk/Repeater
cd Repeater
docker compose up --build

В примерах импорт количества просмотров страниц Википедии, курса биткоина, статистики репозитория Линукса на Гитхабе. Графики в Streamlit http://localhost:8002 .

Интересны применения проекта. Попробуйте! Впечатления пишите в комментариях. Спасибо!

Репозиторий: https://github.com/andrewbrdk/Repeater

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Чем занимается команда Data Science в финтехе

Рассказывает Слава, инженер машинного обучения в ЮMoney.

У нас в компании много данных, которые можно обрабатывать, чтобы улучшать пользовательский опыт. Например, данные пользовательских обращений ЮKassa из разных каналов: чатов с техподдержкой, почты, звонков в колл-центр.

Мы передаём тексты из обращений модели, которую обучили относить их к определённому классу (подключение СБП, вопросы по возвратам, платёжным методам и т. д.). Постоянно появляются новые темы, поэтому приходится регулярно дополнительно обучать модель. Разбив все поступающие обращения по группам, можно оценить их количество и построить дашборд.  

Если по одной теме у нас пять тысяч обращений, по второй — десять тысяч, а по третьей — всего два, значит, нам нужно уделить особое внимание первым двум.

В классификаторе пользовательских обращений мы используем языковые модели типа BERT. Также развиваем использование больших языковых моделей (LLM). У них много знаний «из коробки», они не требуют дообучения и могут применяться для разных задач. Есть и недостатки (требовательность к вычислительным ресурсам или галлюцинации), но LLM способны выполнять задачи намного быстрее, чем человек.

Ещё одно интересное направление Data Science, которое мы тестируем, — распознавание изображений и классификация по категориям. Сейчас мы решаем эту задачу с помощью модели clip, но планируем проверить эффективность работы visual LLM, например Qwen-VL. Этот вид моделей анализирует изображение и даёт текстовое описание, которое можно использовать в продуктах, например при проверке сайтов, которые подключаются к ЮKassa.

Также LLM хорошо выполняет задачи написания саммари — например, по итогам проведённой встречи. Предварительно отдельная модель (у нас это Whisper) переводит аудио в текст, что сильно ускоряет работу коллег.

***

Делитесь в комментариях, есть ли команда Data Science в вашей компании и какие задачи она решает. 🙌 А также следите за нашими новыми материалами о том, как технологии меняют финтех изнутри. Впереди ещё много интересного!

Теги:
Рейтинг0
Комментарии0

Я Павел Денисенко, отвечаю за развитие дата-платформы в X5 Tech!

Редко публикую тут посты (никогда), но сейчас не могу не поделиться новость о том, что наша команда CDO X5 Tech впервые участвует в Data Fest — главном событии года для сообщества Open Data Science! 

В один из дней, 1 июня, мы принимаем фестиваль у нас в гостях, и это событие нельзя пропустить!

Наша программа будет насыщенной и интересной. Мы будем рады поделиться опытом X5 Tech с сообществом дата-экспертов. Наши эксперты поделятся докладами на самые актуальные темы в области инженерии данных и искусственного интеллекта. С участием признанных экспертов индустрии Data и ML в Retail мы поговорим о том, как данные меняют сферу ритейла и не только ее. 

Но это еще не всё! В нейтральных секциях мы также поговорим о таких темах, как Advanced LLM и ML in Music. Узнаем, как большие языковые модели находят применение в разных сферах и что происходит на стыке машинного обучения и творчества.

🌟 И, конечно, не обойдется без неформальной части: холиварные зоны для тех, кто точно знает, как правильно, и вечеринка после официальной части для самых стойких.

📍 Где и когда? 1 июня, Москва, Loft Hall. 

Data Fest 2025 — must visit для всех, кто интересуется работой с данными и хочет лучше понимать, как информационные технологии меняют бизнес и помогают в работе. Мест немного, так что успевайте зарегистрироваться по ссылке!

Не упустите шанс стать частью этого восхитительного события! Ждем вас!

Ссылка для регистрации

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Работайте с большими данными в Evolution Data Platform 📊

❓ Что за инструмент? Evolution Data Platform — платформа для обработки больших данных, которая включает в себя несколько PaaS-сервисов. Среди них:

  1. Evolution Managed Trino — массивно-параллельный аналитический SQL-движок Trino с использованием распределенных запросов.

  2. Evolution Managed Metastore — сервис для хранения метаданных таблиц из разных источников. Metastore сообщает клиентским приложениям, где хранятся данные, как к ним обращаться и как их интерпретировать.

  3. Evolution Managed Spark — сервис для развертывания кластерного вычислительного решения на основе Apache Spark для распределенной обработки данных.

  4. Evolution Managed ArenadataDB — аналитическая база данных для хранения большого объема структурированных и полуструктурированных данных.

🖥 Особенности и преимущества. Вы можете выбрать любой сервис, который подходит под определенные задачи, или же комбинировать их. Из плюсов конкретных сервисов:

  1. Evolution Managed Trino способен работать с разными источниками в одном SQL-запросе, есть несколько конфигураций Trino. А еще можно создать приватный инстанс, недоступный из интернета.

  2. Evolution Managed Metastore прямо из интерфейса можно подключить к другим сервисам платформы Cloud.ru Evolution. Создание и обновление инстансов происходит за минуты, а данные для подключения к S3 — в безопасности, так как хранятся в сервисе Secret Management.

  3. Evolution Managed Spark позволяет отслеживать статусы выполнения задач, обрабатывать данные из Object Storage, а также из большинства доступных БД.

  4. Evolution Managed ArenadataDB дает возможность развертывать инстансы без обслуживания инфраструктуры, а кластеры Greenplum разворачиваются автоматически. Доступны конфигурации от 3 до 50 ТБ, что позволяет адаптировать систему под разные задачи.

👨‍💻 Кому будет полезно. PaaS-сервисы платформы Evolution Data Platform найдут применение во всех областях, где работают с большими объемами данных: финансовых учреждениях, ретейле, логистике, крупном и среднем бизнесе — и не только. Также сервисы будут полезны в машинном обучении и разработке. 

✍️ Где, как и для чего использовать. Для обработки структурированных, слабоструктурированных и неструктурированных данных, SQL-аналитики, ML, хранения метаданных таблиц, отправки сложных запросов, проверки гипотез, A/B-тестирований, построения приложений данных, интерактивного специального анализа данных.

В июне Evolution Managed Trino и Evolution Managed Metastore выйдут в коммерческий доступ, а еще станут доступны для тестирования сервисы Evolution Managed Airflow и Evolution Managed BI. Смотрите доклад с конференции GoCloud 2025, чтобы больше узнать о PaaS-сервисах для работы с данными 🌐

Теги:
Рейтинг0
Комментарии0

Управляемые сервисы на базе YTsaurus и Apache Spark, новые возможности DataLens и Yandex Cloud AI Studio — о чём говорили на Data&ML2Business

Собрали самые интересные анонсы с Data&ML2Business, ежегодной конференции Yandex Cloud о практическом применении технологий. Вот что прозвучало на главном докладе 28 мая.

Трек Data

Ранний доступ к Yandex Managed Service for YTsaurus. Платформа Яндекса для хранения и обработки больших данных YTsaurus уже два года в опенсорсе, а с этого дня доступ к ней открывается ещё в двух форматах: в облаке и в инфраструктуре заказчика (on‑premise).

Создать базовый кластер YTsaurus теперь можно в привычной консоли
Создать базовый кластер YTsaurus теперь можно в привычной консоли

Для тестирования работы в этих форматах необходимо подать заявку.

Доступ к сервису Yandex Managed Service for Spark. Новый управляемый сервис на базе опенсорс-решения поможет с загрузкой и обработкой данных, а также задачами машинного обучения в облаке. Протестировать его в режиме Preview можно здесь.

Кроме этого, в публичный доступ вышел сервис управления распределённым аналитическим массивно‑параллельным движком обработки больших данных Trino в облачной инфраструктуре.

Обновления Yandex DataLens. Что появилось в сервисе BI‑аналитики:

  • DataLens Gallery — публичная витрина готовых примеров дашбордов. Теперь любой пользователь может открыть галерею, выбрать нужную отрасль или предметную область и изучить готовые дашборды и модели данных, а также стать автором галереи. При согласии автора дашборд из галереи можно развернуть у себя в качестве примера или стартового дашборда.

  • DataLens Editor — редактор для кастомизации графиков и таблиц с помощью JavaScript. Пользователи смогут создавать продвинутые визуализации и удобно интегрировать данные из нескольких источников (включая внешние API).

  • Собственная программа сертификации Yandex DataLens Certified Analyst. С её помощью специалисты могут официально подтвердить свои навыки работы с DataLens. На экзамене проверяются знания и навыки работы с чартами и датасетами, вычисляемыми полями и параметрами, внешними источниками данных, построения дашбордов и выдачи доступов.

Также на конференции рассказали про OLAP-движок для YDB. Теперь СУБД подходит для самых высоконагруженных сценариев. В последней версии YDB появился неточный векторный поиск, позволяющий использовать YDB для специализированных задач, связанных с ИИ.

Трек ML

Обновления RAG‑пайплайна в AI Assistant API. Доступный на платформе Yandex Cloud AI Studio инструмент для создания умных ассистентов дополнился новым графическим UI — теперь создать виртуального помощника можно не только через API или SDK. Возможности поиска данных по базам знаний также расширились: доступны поддержка новых типов данных (таблицы и pdf‑файлы), дообучение эмбедингов, обогащение чанков метаданными, получение метаданных ответа, а также использование дообученной модели. Также на платформе появился рефразер — отдельная модель, которая может перефразировать запросы пользователя.

Доступ к Yandex Cloud AI Studio on‑premise. AI‑платформа Yandex Cloud внесена в реестр отечественного ПО, что позволяет интегрировать решения как в облаке, так и в своей инфраструктуре.

Эксперты обсудили и уже состоявшиеся запуски: 

  • Инструменты работы с OpenAI Compatible API в облаке. API для языковых моделей в Yandex Cloud AI Studio совместим с OpenAI API. Благодаря этому модели YandexGPT проще интегрировать с популярными решениями для работы с ML, например, AutoGPT или LangChain. В совместимом с OpenAI API поддерживаются Function Calling, работа с эмбеддингами и Structured Output.

  • Смысловые теги Yandex SpeechSense — инструмент умного тегирования и поиска для анализа диалогов в колл‑центрах, доступный отдельно по клиенту и оператору.

  • Доступ к VLM и LLM в режиме Batch Processing и co‑pilot сервис для операторов Yandex Neurosupport — о которых мы рассказывали на Хабре.

На конференции более 20 спикеров представили 15 докладов по направлениям Data и ML. Подключайтесь к трансляции на странице мероприятия или смотрите в записи, чтобы познакомиться с опытом внедрения технологий.

Теги:
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Вклад авторов