Обновить
256K+

Big Data *

Большие данные и всё о них

98,36
Рейтинг
Сначала показывать
Порог рейтинга

Большой русскоязычный roadmap по машинному обучению: от первого import numpy до LLM, RAG, fine-tuning, AI-агентов и MLOps и лучших примеров вабкодинга.

Внутри нормальная структура: что учить, в каком порядке, зачем это нужно и что должно получиться на практике после каждого этапа.

Roadmap разбит на 7 треков:

  1. Фундамент: Python, математика, статистика, инструменты

  2. Классический ML: scikit-learn, табличные данные, метрики, валидация

  3. Deep Learning: PyTorch, CNN, RNN, training loop

  4. LLM и трансформеры: attention, KV-cache, RAG, LoRA, агенты

  5. Generative AI: изображения, видео, аудио, мультимодальность

  6. MLOps и прод: Docker, Kubernetes, CI/CD, monitoring, serving

  7. Специализация: CV, NLP, RecSys, RL, Safety

Roadmap не продаёт иллюзию “обучил модель - стал ML-инженером”.

В реальной работе много времени уходит на данные, метрики, деплой, мониторинг, воспроизводимость и разбор ошибок. Модель - только часть системы.

Хорошая мысль из roadmap: LLM не делает джуна сеньором. Она ускоряет того, кто уже понимает базу. Без базы человек просто становится оператором Copilot, который не может объяснить, почему всё сломалось.

По времени тоже без сказок:

  1. 0-3 месяца: Python, математика, классический ML

  2. 3-6 месяцев: Deep Learning и PyTorch

  3. 6-12 месяцев: LLM, RAG, fine-tuning, AI-агенты

  4. 12+ месяцев: MLOps, прод, масштабирование, специализация

Тут же собрано 7 болших бесплатных курсов по машинному обучению, математике и вайбкодингу!

Если давно хотели зайти в ML системно, а не прыгать между роликами про ChatGPT, Stable Diffusion и “топ-10 библиотек”, это хороший ориентир.

https://github.com/justxor/MachineLearningRoadmap

Теги:
+4
Комментарии0

Автоматизация разработки в RStudio с помощью gemini cli

В новом видео делюсь тем, как у меня сейчас автоматизирован процесс разработки. Речь пойдет про интеграцию RStudio и Gemini CLI. Gemini CLI это аналог Claude Code, но с хорошим бесплатным тарифом, который способен в значительной части покрыть ваши повседневные потребности по разработке и автоматизации, позволяя не переплачивать там, где это не нужно.

В видео продемонстрирую пример решения одной из своих реальных задач, по переводу пакета на новую версию API.

Разбираем, как запустить этот стек в RStudio и использовать для реальных задач.

Что в видео:
• Gemini CLI vs Claude Code: Почему я перешел на Gemini и как это экономит бюджет.
• Настройка: Установка и получение API ключа.
• Интеграция: Подключение CLI к RStudio.
• Практика: Рефакторинг и перевод пакета rgoogleads на новую версию Google Ads API.
• Паттерны: Как через GEMINI.md заставить модель писать код именно так, как вам нужно.
• Расширение возможностей: Работа с MCP серверами.

Теги:
0
Комментарии0

Подреддит /r/DHExchange — это обменник для цифровых Плюшкиных, то есть сообщества подреддита /r/DataHoarder. Эти люди скачивают всё подряд, хранят данные петабайтами, раздают их другим и помогают друг другу найти редкие телесериалы, записи телеэфиров, архивы или дампы сайтов.

Один из реддиторов решил торгануть особо ароматным набором данных. Некто Ill_Car_7351 выставил на продажу около 150 тысяч фотографий стула от приблизительно 25 тысяч людей. Пост двухнедельной давности рассказывает, что база появилась как побочный продукт от приложения, которое Ill_Car_7351 выпустил в сторах несколько лет назад. Как уточняет реддитор, приложение давало советы по здоровью на основе фотографий испражнений пользователя.

Ill_Car_7351 высказал предположение, что настолько ценный датасет пригодится для раковых исследований, моделей машинного обучения или же обучения медперсонала. В комментариях он говорит, что интерес со стороны стартапов уже был, но у маленьких компаний обычно не хватает ресурсов, а до крупных медицинских игроков он достучаться не может.

Реакция комментаторов оказалась предсказуемой. Один из реддиторов написал: «Когда мне было пять, учитель научил меня читать. Об этом я теперь жалею».

Джейсон Коублер, журналист издания 404media, унюхал интересный инфоповод и решил копнуть поглубже. Как рассказывает Коублер, он выяснил у реддитора, что приложение называлось PoopCheck. У приложения было полноценное сообщество и даже рейтинг какунов.

За базу данных реддитор просит $5000. За эти деньги покупатель получит размеченные картинки, снабжённые тэгами по типу «уровень запаха», «уровень боли» и «форма». Если судить по скриншотам из статьи 404media, этих меток много: от твёрдости по Бристольской шкале и плавучести до диеты и сна автора экскрементов.

Теги:
0
Комментарии1

Приходите на вебинар — покажем, как построить потоковый конвейер данных с латентностью в минуты

Батчевый ETL раз в сутки перестает справляться, когда бизнесу нужна аналитика в режиме, близком к реальному времени. Как перейти на потоковую обработку без лишней сложности в инфраструктуре?

Разберем это на вебинаре по Evolution Data Platform. Будет полезно дата-инженерам, которые проектируют конвейеры, аналитикам и BI-специалистам, которым важно работать с актуальными данными, а еще архитекторам и руководителям дата-отделов.

На вебинаре расскажем и покажем:

  • как проектировать архитектуру конвейера под near real-time: когда брать микробатчинг в Managed Spark Streaming, а когда хватит классического батча;

  • зачем нужен Managed Trino как единый слой запросов поверх «горячих» и «холодных» данных — и как это убирает дублирование логики;

  • как партиционировать данные по времени в Object Storage, чтобы запросы не тормозили;

  • как управлять схемой через Managed Metastore, когда структура потока меняется;

  • как настроить дашборд в Managed BI с автообновлением и алертами на отклонения;

  • как измерять латентность конвейера — от генерации события до появления на дашборде.

На практической части соберем реальный сценарий: оконная агрегация транзакций в Managed Spark Streaming, оркестрация через Managed Airflow, витрина в Object Storage, ad-hoc запросы через Managed Trino без копирования данных, дашборд с обновлением раз в две минуты.

📅 Когда? 21 мая в 11:00 мск.

📍 Где? Онлайн. Зарегистрируйтесь, чтобы задать вопросы спикеру в прямом эфире.

P.S. А еще мы тут подготовили чек-лист, как создать качественное хранилище данных за 15 шагов — забирайте, нам не жалко. 

Теги:
0
Комментарии0

Планы на 20 мая — прийти на Inside AI Meetup

На митапе обсудим реальные кейсы: от высоконагруженной модерации с векторным поиском и AIOps-подходов к управлению ML-сервисами до практики построения RAG-систем, тонкостей реранкинга и реальных этапов запуска LLM-продуктов.

Когда: 20 мая, старт в 15:00
Где: Москва + онлайн

Что в программе?

  • «Векторный поиск в модерации контента: как поместить более 200 моделей в 1 ансамбль» | Wildberries & Russ

  • «Внедрение AIOps Практик для контроля и повышения общей утилизации ресурсов для тысяч продуктовых сервисов» | Wildberries & Russ

  • «RAG, который не галлюцинирует (почти)» | MWS

  • «Что на самом деле представляет запуск продуктов на базе LLM» | Wildberries & Russ

  • Кейсы в секции Fast Track: «Промптить нельзя файнтюнить» — Как мы поставили запятую и обучили BerryLM», «Text is All You Need. Отекстовка потока видеоклипов в платформе Wibes», «Эволюция поиска вакансий на Avito: ML‑оптимизации в Avito Работе»

  • И финал — дискуссия про применение AI в разных продуктах и процессах с экспертами из Wildberries & Russ, Сбера, Альфа‑Банка и red_mad_robot

Не откладывайте регистрацию — приглашайте коллег и присоединяйтесь к митапу! А больше одробностей ищите на сайте и в telegram-канале WB Space.

Теги:
0
Комментарии0

5 человек, 1 300 дашбордов, 2 200 пользователей в месяц. Как не сойти с ума

В Уралсибе self-service BI вышел на масштаб, который сложно представить: 12 000 датасетов, 200+ разработчиков в разных бизнес-блоках, 1 000 потоков данных обновляются каждый день. И всё это поддерживает команда из пяти человек.


При таком масштабе неизбежно появляются дубли, забытые дашборды, сломанные компоненты, разработчики, которые не знают о существовании друг друга, и пользователи, которые всё ещё спрашивают «а зачем BI, если есть Excel?».

Как с этим справляться? Семён Юников расскажет про систему, которую они выстроили: автоматические рассылки разработчикам с рекомендациями по их же объектам, кастомный каталог дашбордов с ИИ-поиском, геймифицированный марафон на 80 разработчиков, после которого количество сломанных компонентов сократилось вдвое. И да, заставки на корпоративных ноутбуках с надписью «Ты ещё в Excel? Переходи в FineBI» тоже часть стратегии.

📅 22 апреля | 15:00 МСК

Бесплатно, онлайн ~3 часа

→ Регистрация

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Две попытки миграции FineBI, поломанная синхронизация кластера и выводы, которые пригодятся и вам

На FineBI 6.0 единственным способом резервирования было копирование папки через rsync. Восстановление медленное, переключение на резервный сервер требовало ручной правки конфигураций. Проще было чинить прод, чем восстанавливаться из бэкапа.

В ОТП Банке решили мигрировать сразу на 7.0: нужен был кластер, нормальное резервирование и новые фичи. Первая попытка выглядела логично, прошла без ошибок, но на выходе получился кластер с поломанной синхронизацией между нодами. Как нашли рабочую схему со второй попытки, почему заменили стандартный балансировщик на корпоративный и какие точки отказа остались, расскажет Евгений Иванов на FineDay Online.

📅 22 апреля | 15:00 МСК | FineDay Online 2026

Бесплатно, онлайн, ~3 часа

→ Регистрация

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии0

Терабайты данных из Teradata в Trino — эффективный способ передачи

В Data Ocean Nova был добавлен новый Trino Teradata Connector, который упрощает ad hoc-доступ к данным из Teradata и позволяет выгружать терабайты данных без кратного роста нагрузки на источник. Коллеги в новой статье объясняют, почему привычная параллельная выгрузка через несколько запросов плохо масштабируется, и показывают более правильный подход: распределять чтение по AMP’ам Teradata так, чтобы каждый из них читался только один раз.

Авторы разбирают архитектуру Teradata, типичные ошибки при многопоточном извлечении данных и принцип работы федеративного доступа через Trino. Отдельно показывают, как коннектор в Data Ocean Nova помогает организовать эффективную многопоточную передачу данных и использовать push-down для фильтрации, агрегаций и join’ов, когда это действительно уменьшает объем выборки.

Как всегда, в статье много полезных советов. Читайте и комментируйте!

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Привет, Хабр! Изучаю рынок курьерской доставки и гиг-экономику. В последнее время всё чаще слышу от знакомых курьеров, что доходы упали, а конкуренция выросла. Кто-то говорит, что хорошие слоты разбирают боты, другие жалуются на ужесточение условий.

Очень интересно мнение сообщества: какова сейчас реальная ситуация на рынке? Есть ли те, кто только начинает, или кто работает давно? Стоит ли сейчас новичку идти в курьеры как на подработку, или рынок уже перенасыщен?

Давайте обсудим, без рекламы, просто обменяемся опытом. Интересны любые города, не только Москва и Питер.

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии1

Когда бизнес получил self-service BI и построил внутри него собственное хранилище данных

Знакомая ситуация: вы даёте бизнесу инструмент для самостоятельной аналитики, а через год обнаруживаете, что FineBI выполняет функции корпоративного хранилища. Данные загружаются из файлов, логика считается прямо в датасетах, одни и те же «велосипеды» пересобираются десятки раз. Документации нет, доверия к отчётам всё меньше.

В ОТП Банке за год с момента запуска FineBI выросли до 1 000 пользователей и 660 отчётов при приросте 50 пользователей в месяц. Масштаб впечатляет, но вместе с ним пришло и теневое хранилище.

Пётр Гордиенко, руководитель команды BI в ОТП Банке, расскажет, как они к этому пришли, почему осознанно выбрали «больше свободы» на старте и какой план из трёх шагов готовят, чтобы вернуть контроль, не убив при этом скорость.

📅 22 апреля | 15:00 МСК | FineDay Online 2026

Бесплатно, онлайн, ~3 часа

→ Регистрация

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии0

Когда у тебя 50 отчётов в FineReport, 100+ дашбордов в FineBI, и никто не знает, откуда берутся данные 

Знакомая история: дашборды живут своей жизнью, новый сотрудник открывает отчёт и не понимает, что значит «ТО 5 руб.», а когда что-то ломается, полдня уходит на то, чтобы пройти по цепочке ETL и найти, где именно.

В Галамарте решили это системно: подключили дата-каталог DataHub к продуктам FanRuan. Как именно это сделали, какие стены пришлось пробить и чего не нашлось ни в одной документации, расскажет Дмитрий Конюхов на FineDay Online.

Что получили на выходе:

— бизнес-глоссарий, где каждый термин привязан к формуле, источнику и конкретным дашбордам

— lineage от витрины до сырых данных — в одном окне, за пределами FanRuan

— возможность за секунды найти, в каких из 100+ дашбордов используется нужнаяметрика

— базу для self-service: аналитики переиспользуют существующие датасеты вместо создания новых

📅 22 апреля | 15:00 МСК | FineDay Online 2026

Бесплатно, онлайн, ~3 часа

→ Регистрация

Теги:
Всего голосов 5: ↑3 и ↓2+1
Комментарии0

Встраивание вычислений в PostgreSQL: PL*, extensions, а теперь и WASM

В рамках выступления на PG BootCamp Russia 2026 Дмитрий Дорофеев, главный конструктор Luxms, рассказал о том, как сегодня развивается встраивание вычислений в PostgreSQL: от классических процедурных языков (PL/pgSQL, PL/Python и других) до новых возможностей с использованием WebAssembly (WASM).

В PostgreSQL исторически поддерживается несколько десятков языков программирования. Если этого недостаточно, можно воспользоваться готовым расширением из огромной экосистемы либо написать своё. Прогресс не стоит на месте, и теперь для выполнения стороннего кода в PostgreSQL можно использовать WASM. 

На примере Luxms BI я расскажу, как мы автоматически генерируем Swagger-документацию прямо внутри PostgreSQL с помощью open-source технологий и WASM.

Посмотреть видео выступления можно на нашем сайте.

Теги:
Рейтинг0
Комментарии0

Данные есть – чуда нет...

Приходите на онлайн-конференцию GlowByte и FanRuan разбираться, куда делось чудо

Дашборды построены, хранилища заполнены, лицензии куплены, а решения по-прежнему принимаются «на ощущениях». Это не ваша уникальная проблема – это системный разрыв между потенциалом BI и его реальным применением.

22 апреля в 15:00 (МСК) приглашаем вас на Fine Day Online 2026 – ежегодную онлайн-конференцию от GlowByte и FanRuan, где мы разберем, как этот разрыв закрыть.

Что в программе:

●     От данных к ИИ-инсайтам – как превращать сырые данные в умные решения, а не просто красивые графики (Вилл Ченг, ведущий эксперт по отраслевым решениям, руководитель направлений пресейл и внедрение CIS, FanRuan);

●     Интеграция FanRuan + DataHub – реальный опыт построения связной экосистемы данных (Дмитрий Конюхов, ведущий инженер отдела управления данными, “Галамарт”);

●     1 500 дашбордов для 2 500 пользователей – как сделать BI удобным и востребованным в масштабе (Семён Юников, главный эксперт Дирекции BI, Уралсиб);

●     Shadow DWH – тёмная сторона self-service аналитики и как с ней справляться (Пётр Гордиенко, Lead BI, ОТП);

●     Миграция FineBI с 6.0 на 7.0 – практический опыт и подводные камни (Евгений Иванов, DevOps BI-платформы, ОТП).

Для кого:

Руководители и специалисты в области BI, Data & Analytics, CDO, продуктовые и бизнес-аналитики – все, кто хочет, чтобы данные наконец работали на результат.

Формат:

Онлайн, бесплатно, ~3 часа концентрированной пользы. Нужна только регистрация

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Ближайшие события

Spark SQL Scripting. Новые возможности для инженеров данных

Коллеги в новой статье «Spark SQL Scripting» представили добротный туториал с практическим разбором возможностей Spark SQL Scripting для инженеров данных.

Spark SQL Scripting, появившийся в 4-й версии, представляет собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику.

Spark SQL Scripting – это не просто синтаксический сахар, а эволюционный шаг в сторону сближения классического функционала аналитических СУБД (таких как Oracle PL/SQL, MS SQL Server T-SQL) с мощью распределенных вычислений Apache Spark. Использование Scripting позволяет инженерам данных собирать пайплайны обработки на «чистом SQL», не прибегая к сторонним компонентам и языкам разработки, тем самым сокращая кодовую базу и снижая барьер входа для дата-аналитиков.

Как это работает в типовых сценариях применения (пакетные DDL/DML-последовательности обработки, подготовка и расчет витрин данных, проверки качества данных, Runbook-операции), читайте по ссылке. Бонус для дочитавших статью до конца – свод практических рекомендаций и архитектурных паттернов при работе со Spark SQL Scripting.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Как METRO перенесла 1 000 сервисов и 50 ТБ данных в российское облако за 3 месяца

🏪 Что за компания

METRO — одна из крупнейших сетей мелкооптовой торговли в мире. В России компания управляет 90+ торговыми центрами в 51 регионе и работает одновременно с B2C- и B2B-сегментами: физлицами, HoReCa, магазинами у дома и офисами.

⚡ Задача

С 2019 года METRO активно переходила на облачную инфраструктуру и разрабатывала cloud-native продукты на мощностях зарубежного провайдера. В конце 2023 года под санкционным давлением встала задача локализации: найти отечественное облако, архитектурно близкое к Google Cloud, и перенести туда весь централизованный ИТ-ландшафт. Это около 20 продуктов и 200 микросервисов — все с минимальными доработками.

В январе 2024 ситуация усложнилась: зарубежный вендор объявил об экстренном отключении корпоративной BI-системы. Сроки сжались до трех месяцев.

☁️ Что сделали

METRO выбрала платформу Cloud.ru Advanced как наиболее близкую по архитектуре к Google Cloud. Команды провайдера и ритейлера параллельно решали две задачи:

  • в экстренном режиме переносили BI-систему с Teradata/MicroStrategy на Advanced Data Warehouse Service с Apache Airflow и DBT — 50 ТБ данных, 10 000 таблиц и 2 000 скриптов преобразования без остановки процессов;

  • выполняли плановую локализацию ИТ-ландшафта: перенесли еще около 1 000 сервисов, провайдер дополнительно добавил специализированные сервисы под требования METRO.

🦾 Что получили в итоге

Вся корпоративная отчетность сохранила бесперебойную работу. METRO реализовала первый полноценный проект по SaaS-модели и локализовала ИТ-ландшафт с минимальными доработками благодаря архитектурной близости платформ.

Дополнительно компания одной из первых в России запустила в бою сервис Evolution Managed RAG и GPU-инфраструктуру для внедрения LLM под задачи оптимизации бизнес-процессов.

Все детали кейса — на сайте Cloud.ru.

Теги:
Всего голосов 3: ↑3 и ↓0+6
Комментарии0

Приглашаем на бизнес-ужин «Как построить ИИ-платформу: преимущества мультивендорских решений»

Очная закрытая встреча от Selectel, Data Sapience и GlowByte для предпринимателей, руководителей и специалистов по машинному обучению (ML) состоится 9 апреля в 18:00. Будет интересно всем, кто планирует автоматизировать бизнес-процессы с помощью ИИ, и хочет разобраться, с чего начать.

Участники на реальных примерах разберут пошагово, как реализуются проекты по машинному обучению (ML) сегодня, и увидят, как современные инструменты помогают решать важные бизнес-задачи. Мероприятие станет площадкой для нетворкинга и свободного диалога на тему ИИ в бизнесе.

В программе доклады:

  • «Как внедрить ИИ: от инфраструктуры до выхода в прод. Решение Selectel, Data Sapience и GlowByte»Алексей Рундасов, коммерческий директор, Data Sapience;
    Александр Тугов, директор ИИ-вертикали, Selectel;

  • «ИИ в продакшене: как инференс превращает модели в деньги»
    Владислав Кирпинский, директор по облачной интеграции, Selectel;

  • «Большой языковой барьер: ИИ-платформы 2026»
    Михаил Зайцев, директор продукта Kolmogorov AI, Data Sapience;

  • «GenAI на практике: кейс “Таврос”»
    Артем Самойлов, директор по информационным технологиям (IT) и цифровой трансформации, группа компаний «Таврос»;
    Александр Ефимов, директор практики искусственного интеллекта и машинного обучения, GlowByte.

Также в рамках бизнес-ужина пройдет круглый стол о границах возможностей ИИ «Хайп vs Реальность». Эксперты обсудят практические примеры, когда внедрение ИИ действительно оправдано, и ситуации, где компании могут столкнуться с ограничениями. Участники разберут технические барьеры, требования к данным и инфраструктуре, а также бизнес-факторы, влияющие на эффективность и окупаемость ИИ-проектов.

Зарегистрироваться на бизнес-ужин

Теги:
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Приглашаем на бизнес-ужин «Как построить ИИ-платформу: преимущества мультивендорских решений»

Очная закрытая встреча от Selectel, Data Sapience и GlowByte для предпринимателей, руководителей и специалистов по машинному обучению (ML) состоится 9 апреля в 18:00. Будет интересно всем, кто планирует автоматизировать бизнес-процессы с помощью ИИ, и хочет разобраться, с чего начать.

Участники на реальных примерах разберут пошагово, как реализуются проекты по машинному обучению (ML) сегодня, и увидят, как современные инструменты помогают решать важные бизнес-задачи. Мероприятие станет площадкой для нетворкинга и свободного диалога на тему ИИ в бизнесе.

В программе доклады:

  • «Как внедрить ИИ: от инфраструктуры до выхода в прод. Решение Selectel, Data Sapience и GlowByte»
    Алексей Рундасов,
    коммерческий директор, Data Sapience;
    Александр Тугов, директор ИИ-вертикали, Selectel;

  • «ИИ в продакшене: как инференс превращает модели в деньги»
    Владислав Кирпинский, директор по облачной интеграции, Selectel;

  • «Большой языковой барьер: ИИ-платформы 2026»
    Михаил Зайцев, директор платформы Kolmogorov AI, Data Sapience;

  • «GenAI на практике: кейс “Таврос”»
    Артем Самойлов, директор по информационным технологиям (IT) и цифровой трансформации, группа компаний «Таврос»;
    Александр Ефимов, директор практики искусственного интеллекта и машинного обучения, GlowByte.

Также в рамках бизнес-ужина пройдет круглый стол о границах возможностей ИИ «Хайп vs Реальность». Эксперты обсудят практические примеры, когда внедрение ИИ действительно оправдано, и ситуации, где компании могут столкнуться с ограничениями. Участники разберут технические барьеры, требования к данным и инфраструктуре, а также бизнес-факторы, влияющие на эффективность и окупаемость ИИ-проектов.

Зарегистрироваться на бизнес-ужин

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Что будет на конференции GoCloud 2026: трек «Данные и аналитика»

GoCloud — ежегодная конференция Cloud.ru про ИИ и облака. В этом году она пройдет в кинотеатре «КАРО 11 Октябрь» на Новом Арбате в Москве. Формат смешанный — можно прийти офлайн или подключиться удаленно. Выступят больше 40 экспертов. Вас ждут 15 демозон, практические сессии, тематические круглые столы и, конечно, вечеринка после.

Один из треков будет посвящен данным и аналитике — разберем, какие инструменты позволяют сделать управление данными эффективным и не переплачивать, также расскажем, куда движутся тренды в 2026 году. Вот что запланировано:

  • Evolution Data Platform: эволюция платформы данных — куда движется дата-платформа Cloud.ru и что изменилось за год.

  • Как обрабатывать потоковые данные с помощью Evolution Managed Flink — архитектура, компоненты, сценарии использования.

  • Evolution Managed ArenadataDB в облаке: что изменилось с момента запуска — обновления, анонсы новых функций и клиентский кейс.

  • Управляемые базы данных и почему это тоже про машинное обучение — почему все начинается не с моделей, а с инфраструктуры для работы с данными.

  • Управление Evolution Managed Spark с AI: инновации и эффективность — как ИИ помогает оптимизировать Spark-задачи.

Завершит трек круглый стол «Тренды развития дата-сервисов в 2026 году» — про дата-стратегию, суверенные облака, управление данными и как дата-инженерия становится основой для ИИ в реальных проектах.

​Встречаемся уже 9 апреля, успейте зарегистрироваться на сайте

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Успейте подать свою работу на конкурс BI-дашбордов Data Challenge

Партнер GlowByte компания FanRuan продолжает принимать заявки на первый открытый конкурс BI-дашбордов и визуальной аналитики FineGallery Insight Challenge. Срок подачи - до 31 марта.

Подробнее рассказывали о конкурсе в новости

FineGallery Insight Challenge – это конкурс для аналитиков, BI-разработчиков и команд, которые работают с данными и создают дашборды.

Цель конкурса – показать, насколько мощной и красивой может быть визуальная аналитика, и дать пользователям пространство для обмена идеями, диагностиками, методами анализа и вдохновляющими примерами решений визуализации.

Как участвовать

1. Создайте аналитическую работу в FineBI или FineReport.

2. Заполните форму подачи, включив:

  • дашборд,

  • описание работы по структуре (описана на сайте конкурса),

  • информацию об авторе.

3. Дождитесь подтверждения участия и ждите результатов.

Призовой фонд

  • Лучшая бизнес-аналитика – 100 000 руб.

  • Лучший UX (пользовательский опыт) и визуальный дизайн – 70 000 руб.

  • Приз зрительских симпатий – 30000 руб.

Все подробности, включая сроки и требования к конкурсным работам – на сайте конкурса.

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

Как Купер перенес 40 ТБ аналитических данных в облако без остановки процессов

🛒 Что за компания

Купер — сервис доставки из магазинов и ресторанов, работающий в 360 городах России. Аналитическая инфраструктура компании обрабатывает данные для управленческой отчетности и ситуативной аналитики — как внутренней, так и для внешних партнеров.

⚡ Задача

С ростом объемов данных старое решение перестало справляться. Нужно было:

  • найти управляемую СУБД в облаке аналогичную Greenplum по функциям, с поддержкой подключения к внешним источникам;

  • провести нагрузочное тестирование на реальных OLAP-запросах до миграции;

  • перенести 40 ТБ бизнес-критичных данных вместе с контуром разработки, не останавливая аналитические процессы.

☁️ Что сделали

Провайдер предложил Evolution Managed ArenadataDB — управляемую СУБД на базе Greenplum с открытым исходным кодом. Команда во время пилота:

  • развернула отказоустойчивый кластер и настроила процесс миграции;

  • подключила PXF-коннекторы к внешним источникам данных;

  • установила нестандартные JDBC-драйверы и оптимизировала использование памяти для крупных запросов;

  • настроила автоочистку и автоанализ — механизмы автоматического обслуживания СУБД для устойчивой работы под нагрузкой.

🦾 Что получили в итоге

40 ТБ данных и тестовый контур перенесены без остановки процессов. Инфраструктура работает оперативно: данные за вчера доступны уже на следующий день. Выросла скорость выполнения запросов, появилась гибкость масштабирования и прозрачность мониторинга.

В планах — оптимизация резервного копирования, архивация данных и бесшовная интеграция инструментов ИИ и машинного обучения.

Все детали кейса — на сайте Cloud.ru

Теги:
Всего голосов 4: ↑3 и ↓1+2
Комментарии0
1
23 ...