Big Data *

Большие данные и всё о них

105,02

Рейтинг

СтатьиПостыНовостиАвторыКомпании

Editor_cloud_ru

17 июл в 14:175K

Блог компании Cloud.ruBig Data * Машинное обучение * DevOps * Облачные сервисы *

Дайджест: новости за июнь 2026

Рассказываем, что произошло в июне и объясняем, зачем это может пригодиться.

🧠 AI Factory — цифровая среда для работы с генеративным ИИ
AI Agents — EvoClaw в Evolution AI Agents вышел в общий доступ и теперь покрыт SLA: сервис можно закладывать в прод без опасений.
Managed RAG — в сервисе появились OCR для doc/docx с картинками, загрузка данных через API источником Custom и полноценный API для работы с чанками. Документы из объектного хранилища синхронизируются по расписанию, а новый экстрактор разбирает аудио и видео.
ML Inference — появилась возможность при пиковых нагрузках маршрутизировать запросы с Foundation Models, чтобы производительность не падала.
Notebooks — в сервисе добавили совместное редактирование ноутбуков, управление логами и алертами без выхода из интерфейса, а также готовые дашборды мониторинга. Команда может работать над экспериментами параллельно и мгновенно обнаруживать проблемы, если они возникают.

📈 Evolution Data Platform — комплекс управляемых сервисов для работы с данными
Managed Airflow — сервис вышел в общий доступ: оркестрация данных теперь под SLA.
Managed Trino — топики Kafka теперь читаются прямо SQL-запросом без ETL, а кластер можно развернуть с одной нодой и автомасштабированием. Аналитика стриминга стала проще и дешевле.
Managed Spark — добавили несколько улучшений в сервис; задачи теперь создаются за секунды, добавлена поддержка Gang Scheduling, чтобы они блокировали друг друга по ресурсам.
Evolution Managed Flink — сервис для работы с потоковыми данными вышел на стадию открытого тестирования, а значит настал момент, когда его функции можно оценить бесплатно и без обязательств.

Важное обновление: платформа перешла на асинхронную модель управления сервисами, кластеры можно самостоятельно приостанавливать и возобновлять, появилось тегирование. Меньше расходов на простаивающие ресурсы и удобнее навигация.

☁️ Новости других сервисов Cloud.ru Evolution
Evolution Artifact Registry — поддержка PyPI-реестров перешла в публичный доступ: Docker-, RPM- и Python-артефакты теперь хранятся в одном месте без отдельной инфраструктуры.
Evolution Managed Kubernetes — обновили ключевые плагины (Istio, KEDA, Trivy Operator и другие), добавлен Spegel для ускорения загрузки образов, а Ingress Nginx получил поддержку PROXY-протокола.
Evolution Managed PostgreSQL — кластеры можно вручную останавливать на срок до 30 дней, платя только за диск, — заметная экономия на неактивных базах.
Evolution Managed Redis — добавлено мультизональное размещение кластеров Master/Replica: одна зона упала — кластер жив.
Evolution Distributed Train — появился Jupyter Server с мультидоступом: несколько пользователей работают в изолированных окружениях под одним сервером. Совместная работа над ML-задачами стала стабильнее и удобнее.

🏢 Cloud.ru Advanced и Облако VMware
В сервисе Advanced Data Warehouse Service поменялся интерфейс создания кластера и появились новые возможности, а в Terraform добавились новые ресурсы.

Подробнее читайте в полной версии дайджеста.

📽️Вебинары
В июне провели четыре вебинара, записи которых уже доступны на страничке с мероприятиями. Там же можно зарегистрироваться на июльские вебинары от экспертов.

💼 Свежие кейсы
Рассказали, как Agentic Lab запустили в продакшен ИИ-помощника для юристов, который способен выстраивать хронологию событий любого дела и быстро находить нужные сведения в огромных массивах данных.

Остаемся на связи! ✌️

Editor_cloud_ru

9 июл в 11:054.3K

Блог компании Cloud.ruАнализ и проектирование систем * Big Data * DevOps * Data Engineering *

Подборка вебинаров на июль

Вы просили — мы сделали. Повторяем вебинары про работу с данными в облаке: от развертывания платформы до ETL-процессов и полноценной BI-аналитики. Регистрируйтесь, чтобы спросить экспертов о важных деталях и получить ответ.

Как развернуть платформу данных в облаке и подготовить данные для аналитики
Покажем, как быстро развернуть managed-сервисы Evolution Data Platform, подключить источники данных и построить пайплайны для подготовки данных к аналитике. Разберем интеграцию с PostgreSQL, ADB, S3 и настройку автоматического обновления — без долгого погружения в инфраструктуру.
🧑‍💻 Для кого: дата-инженеры, аналитики, архитекторы данных.
📅 Когда: 16 июля 11:00 мск.
📍 Где: Онлайн. Зарегистрируйтесь, чтобы задать вопросы спикерам.

ETL в облаке: от хаоса к управляемым процессам
Покажем, как выстроить надежную ETL-платформу в облаке на базе Evolution Data Platform. Разберем интеграцию разрозненных источников, управление метаданными и оркестрацию — и покажем всё это в live-демо: от извлечения данных до готовой витрины.
🧑‍💻 Для кого: дата-инженеры, DevOps, руководители дата-команд.
📅 Когда: 23 июля 11:00 мск.
📍 Где: Онлайн. Зарегистрируйтесь, чтобы задать вопросы спикерам.

Evolution Managed BI: все возможности BI-сервиса в облаке
Разберем, как получить максимум от Evolution Managed BI: подключить источники данных, настроить интерактивные дашборды, кеширование запросов и автоматические алерты. Покажем продвинутые возможности сервиса — от виртуальных датасетов до управления доступом.
🧑‍💻 Для кого: аналитики, BI-разработчики, руководители дата-отделов.
📅 Когда: 30 июля 11:00 мск.
📍 Где: Онлайн. Зарегистрируйтесь, чтобы задать вопросы спикерам.

dKosarevsky

2 июл в 12:104.9K

Python * Big Data * Искусственный интеллект

В дополнение к посту по albu-mcp

В доке Albumentations появился отдельный раздел про мой AlbumentationsX MCP - https://albumentations.ai/docs/integrations/mcp/

Теперь есть официальный integration guide, где показано, как ты можешь подключить MCP-сервер к AI-assistant’у и использовать его для нормального HITL workflow вокруг CV-аугментаций: подобрать pipeline, провалидировать его, отрендерить локальные previews, сравнить baseline и candidate, дать feedback вроде too_noisy:high и экспортировать финальный pipeline.

Приятно видеть, что проект стал частью экосистемной документации Albumentations. 🙂

AlbumentationsX MCP это конечно же не замена Python API, а assistant-facing review layer для тех случаев, когда ты хочешь быстрее и безопаснее работать с augmentation pipelines.

Maxpiter

26 июн в 12:073.9K

Базы данных * Apache * Big Data * Хранение данных * Data Engineering *

Новости мира Datalakehouse - DWH: на 26.06.26

"гонка сместилась к ИИ-агентам"

Полгода назад про корпоративные хранилища данных спорили, чей движок быстрее обрабатывает запросы. Сейчас почти каждый крупный анонс - про то, как пустить к данным ИИ-агентов и не дать им наломать дров. Собрал главное человеческим языком.

Сначала про слово, которое будет дальше. Lakehouse - это подход, когда вся аналитика компании живёт в одном общем хранилище поверх дешёвых файлов, без отдельной дорогой базы под отчёты. Дальше речь о том, что с этим подходом случилось за полгода.

Databricks (их большая конференция прошла 16 июня). Показали новый движок Lakehouse//RT - он обещает выдавать аналитику почти мгновенно прямо из общего хранилища, без отдельной быстрой базы под витрины. Пока это ранняя версия и работает только на чтение, то есть данные через него можно читать, но не записывать. Второй анонс - способ держать «живые» рабочие данные и аналитику в одном месте, без постоянной перекачки между системами (обычно компании гоняют данные туда-сюда ночными выгрузками). Третий, и самый показательный - набор инструментов, чтобы пускать к данным ИИ-агентов: объяснять программе смысл данных и контролировать, куда ей можно лезть, а куда нет.

ClickHouse (своя конференция 27 мая). Это очень быстрая база для аналитики. Они запустили собственную управляемую версию Postgres - популярной базы, на которой работают тысячи приложений, - и научили её мгновенно отдавать все изменения в аналитику, без задержек. Плюс добавили ИИ-агентов поверх данных, построенных на Claude. По деньгам у них всё хорошо: годовая выручка за год утроилась и перевалила за 250 миллионов долларов.

Snowflake. Открыли свой каталог данных Polaris - это, грубо говоря, общее оглавление всех таблиц, по которому разные программы понимают, где что лежит. Раньше он был только их, теперь его передали в открытый фонд Apache, чтобы пользоваться им могли любые инструменты. А популярный открытый формат таблиц Iceberg дорос до новой версии и научился хранить более сложные данные.

SAP покупает компанию Dremio (сделка ещё не закрыта). Крупный вендор корпоративного софта докупает технологию, чтобы собрать собственное хранилище нового типа под ИИ. Это часть общего движения: рынок сходится вокруг одного открытого формата данных - того самого Iceberg.

DuckLake дорос до версии 1.0. Маленький и нарочно простой проект: он хранит оглавление данных в обычной знакомой базе (Postgres), а не в куче разрозненных служебных файлов, как делают старшие конкуренты. Меньше магии - проще обслуживать.

Если совсем коротко: скорость никуда не делась, её даже больше. Но она перестала быть главным козырем и стала фундаментом. Поверх неё все теперь строят слой управления ИИ-агентами - как объяснить программе смысл данных и как не пустить её туда, куда нельзя. По сути это ровно то, чем администраторы баз данных занимаются уже много лет, просто теперь у этого модные названия.

Дальше разберу каждый анонс по отдельности. Ждите продолжения.

Подъехало продолжение:

Databricks (их большая конференция прошла 16 июня) - ссылка на подробный разбор

ClickHouse (своя конференция 27 мая) - ссылка на подробный разбор

dKosarevsky

23 июн в 19:266.4K

Python * Big Data * Искусственный интеллектData Engineering *

Я сделал AlbumentationsX MCP — MCP-сервер для работы с аугментациями в computer vision.

Идея простая: когда ты собираешь augmentation pipeline, не хочется бесконечно вручную перебирать transforms, гадать с параметрами и проверять глазами десятки вариантов. Хотелось, чтобы MCP-host мог помочь: найти подходящие transforms, собрать консервативный baseline, провалидировать pipeline, отрендерить локальные previews, сравнить результаты, собрать feedback вроде too_noisy:high и экспортировать принятый вариант.

Проект работает поверх AlbumentationsX и не пытается делать магию вместо тебя. Он помогает быстрее пройти цикл: recommend → validate → preview → compare → adjust → export.

Особенно полезно, если ты делаешь classification, detection, segmentation, OCR или просто хочешь быстрее проверять качество аугментаций на локальных примерах.

Запуск:

uvx --from albumentationsx-mcp albumentationsx-mcp

Репозиторий: albu-mcp

SnezhSh

3 июн в 11:303.8K

Блог компании GlowByteBig Data * Визуализация данных * КонференцииData Engineering *

Всем привет! Коллеги из бизнес-практики BI GlowByte подготовили репортаж по следам прошедшей конференции Fine Day Online, где эксперты из Галамарта, Уралсиба, ОТП и FanRuan говорили о том, что реально происходит внутри больших BI-команд.

Если коротко: дата-каталог на DataHub своими руками, Shadow DWH как болезнь свободного self-service, пиксельный марафон для разработчиков и грабли при миграции FineBI 6.0 на 7.0.

Красная нить всех докладов: данные – есть, BI – внедрен, дашборды – сияют, но бизнес продолжает ~~гадать на кофейной гуще~~ работать на ощущениях.

Кстати, для тех, кто любит не только почитать, но и послушать, есть ссылочки на выступления.

Roma_habr

31 мая в 10:244.5K

Big Data * DevOps * Data Engineering *

ИИ-агент удаляет прод за 9 секунд: новости автоматизации.

Помните, как нас пугали, что ИИ отберёт работу? Пока что он скорее отбирает базы данных.

Свежий кейс. У американской PocketOS ИИ-агент за девять секунд удалил продакшен-базу вместе с бэкапами — без всякого разрешения. На вопрос «зачем» агент невозмутимо ответил, что чинил «несоответствие учётных данных».

Девять секунд на то что бы снести базу и найти оправдание - отличная работа!

88% компаний, гоняющих ИИ-агентов в работе, за год словили подтверждённый или подозрительный инцидент безопасности — при том что на защиту этих агентов уходит жалкие 6% бюджета. Причём чаще всего агент не ломается, а именно сливает данные: в 61% инцидентов была утечка. Он же не виноват — он просто делал свою работу. Ему забыли сказать, где у этой работы край.

Есть и другие случаи, более курьезные. Диллер Cevrolet, их бот под давлением юзеров согласился продать машину за $1 и заявил, что сделка «юридически обязывающая» — no take-backsies.

Разница в том, что раньше у ботов был только язык, а теперь — права доступа. И шутки подорожали на пару порядков. Вывод банальный: ИИ и правда работает. Просто его пускают в прод быстрее, чем успевают огородить забором. Минимальные привилегии, аудит и большая красная кнопка — это теперь не паранойя, а реальность работы с агентами.

Источники: PocketOS, кейс с удалением базы — Information Age (ACS): https://ia.acs.org.au/article/2026/gone-in-9-seconds--ai-agent-deletes-company-database.html

Тот же кейс глазами ServiceNow — Fortune: https://fortune.com/2026/05/06/servicenow-kill-switch-ai-agents-bill-mcdermott/

Статистика по инцидентам с ИИ-агентами — beam.ai: https://beam.ai/agentic-insights/ai-agent-security-breaches-2026-lessons

vibecodingai

19 мая в 10:544.6K

Python * Big Data * Машинное обучение * Искусственный интеллект

Большой русскоязычный roadmap по машинному обучению: от первого import numpy до LLM, RAG, fine-tuning, AI-агентов и MLOps и лучших примеров вабкодинга.

Внутри нормальная структура: что учить, в каком порядке, зачем это нужно и что должно получиться на практике после каждого этапа.

Roadmap разбит на 7 треков:

Фундамент: Python, математика, статистика, инструменты
Классический ML: scikit-learn, табличные данные, метрики, валидация
Deep Learning: PyTorch, CNN, RNN, training loop
LLM и трансформеры: attention, KV-cache, RAG, LoRA, агенты
Generative AI: изображения, видео, аудио, мультимодальность
MLOps и прод: Docker, Kubernetes, CI/CD, monitoring, serving
Специализация: CV, NLP, RecSys, RL, Safety

Roadmap не продаёт иллюзию “обучил модель - стал ML-инженером”.

В реальной работе много времени уходит на данные, метрики, деплой, мониторинг, воспроизводимость и разбор ошибок. Модель - только часть системы.

Хорошая мысль из roadmap: LLM не делает джуна сеньором. Она ускоряет того, кто уже понимает базу. Без базы человек просто становится оператором Copilot, который не может объяснить, почему всё сломалось.

По времени тоже без сказок:

0-3 месяца: Python, математика, классический ML
3-6 месяцев: Deep Learning и PyTorch
6-12 месяцев: LLM, RAG, fine-tuning, AI-агенты
12+ месяцев: MLOps, прод, масштабирование, специализация

Тут же собрано 7 болших бесплатных курсов по машинному обучению, математике и вайбкодингу!

Если давно хотели зайти в ML системно, а не прыгать между роликами про ChatGPT, Stable Diffusion и “топ-10 библиотек”, это хороший ориентир.

https://github.com/justxor/MachineLearningRoadmap

selesnow

15 мая в 07:033.1K

Data Mining * Big Data * R * Data Engineering *

Автоматизация разработки в RStudio с помощью gemini cli

В новом видео делюсь тем, как у меня сейчас автоматизирован процесс разработки. Речь пойдет про интеграцию RStudio и Gemini CLI. Gemini CLI это аналог Claude Code, но с хорошим бесплатным тарифом, который способен в значительной части покрыть ваши повседневные потребности по разработке и автоматизации, позволяя не переплачивать там, где это не нужно.

В видео продемонстрирую пример решения одной из своих реальных задач, по переводу пакета на новую версию API.

Разбираем, как запустить этот стек в RStudio и использовать для реальных задач.

Что в видео:
• Gemini CLI vs Claude Code: Почему я перешел на Gemini и как это экономит бюджет.
• Настройка: Установка и получение API ключа.
• Интеграция: Подключение CLI к RStudio.
• Практика: Рефакторинг и перевод пакета rgoogleads на новую версию Google Ads API.
• Паттерны: Как через GEMINI.md заставить модель писать код именно так, как вам нужно.
• Расширение возможностей: Работа с MCP серверами.

atomlib

14 мая в 16:508K

Обработка изображений * Big Data * Научно-популярноеЗдоровье

Подреддит /r/DHExchange — это обменник для цифровых Плюшкиных, то есть сообщества подреддита /r/DataHoarder. Эти люди скачивают всё подряд, хранят данные петабайтами, раздают их другим и помогают друг другу найти редкие телесериалы, записи телеэфиров, архивы или дампы сайтов.

Один из реддиторов решил торгануть особо ароматным набором данных. Некто Ill_Car_7351 выставил на продажу около 150 тысяч фотографий стула от приблизительно 25 тысяч людей. Пост двухнедельной давности рассказывает, что база появилась как побочный продукт от приложения, которое Ill_Car_7351 выпустил в сторах несколько лет назад. Как уточняет реддитор, приложение давало советы по здоровью на основе фотографий испражнений пользователя.

Ill_Car_7351 высказал предположение, что настолько ценный датасет пригодится для раковых исследований, моделей машинного обучения или же обучения медперсонала. В комментариях он говорит, что интерес со стороны стартапов уже был, но у маленьких компаний обычно не хватает ресурсов, а до крупных медицинских игроков он достучаться не может.

Реакция комментаторов оказалась предсказуемой. Один из реддиторов написал: «Когда мне было пять, учитель научил меня читать. Об этом я теперь жалею».

Джейсон Коублер, журналист издания 404media, унюхал интересный инфоповод и решил копнуть поглубже. Как рассказывает Коублер, он выяснил у реддитора, что приложение называлось PoopCheck. У приложения было полноценное сообщество и даже рейтинг какунов.

За базу данных реддитор просит $5000. За эти деньги покупатель получит размеченные картинки, снабжённые тэгами по типу «уровень запаха», «уровень боли» и «форма». Если судить по скриншотам из статьи 404media, этих меток много: от твёрдости по Бристольской шкале и плавучести до диеты и сна автора экскрементов.

Editor_cloud_ru

14 мая в 12:304K

Блог компании Cloud.ruАнализ и проектирование систем * Big Data * Хранение данных * Data Engineering *

Приходите на вебинар — покажем, как построить потоковый конвейер данных с латентностью в минуты

Батчевый ETL раз в сутки перестает справляться, когда бизнесу нужна аналитика в режиме, близком к реальному времени. Как перейти на потоковую обработку без лишней сложности в инфраструктуре?

Разберем это на вебинаре по Evolution Data Platform. Будет полезно дата-инженерам, которые проектируют конвейеры, аналитикам и BI-специалистам, которым важно работать с актуальными данными, а еще архитекторам и руководителям дата-отделов.

На вебинаре расскажем и покажем:

как проектировать архитектуру конвейера под near real-time: когда брать микробатчинг в Managed Spark Streaming, а когда хватит классического батча;
зачем нужен Managed Trino как единый слой запросов поверх «горячих» и «холодных» данных — и как это убирает дублирование логики;
как партиционировать данные по времени в Object Storage, чтобы запросы не тормозили;
как управлять схемой через Managed Metastore, когда структура потока меняется;
как настроить дашборд в Managed BI с автообновлением и алертами на отклонения;
как измерять латентность конвейера — от генерации события до появления на дашборде.

На практической части соберем реальный сценарий: оконная агрегация транзакций в Managed Spark Streaming, оркестрация через Managed Airflow, витрина в Object Storage, ad-hoc запросы через Managed Trino без копирования данных, дашборд с обновлением раз в две минуты.

📅 Когда? 21 мая в 11:00 мск.

📍 Где? Онлайн. Зарегистрируйтесь, чтобы задать вопросы спикеру в прямом эфире.

P.S. А еще мы тут подготовили чек-лист, как создать качественное хранилище данных за 15 шагов — забирайте, нам не жалко.

MariMokieva

27 апр в 15:574.5K

Блог компании RWBBig Data * Машинное обучение * КонференцииИскусственный интеллект

Планы на 20 мая — прийти на Inside AI Meetup

На митапе обсудим реальные кейсы: от высоконагруженной модерации с векторным поиском и AIOps-подходов к управлению ML-сервисами до практики построения RAG-систем, тонкостей реранкинга и реальных этапов запуска LLM-продуктов.

Когда: 20 мая, старт в 15:00
Где: Москва + онлайн

Что в программе?

«Векторный поиск в модерации контента: как поместить более 200 моделей в 1 ансамбль» | Wildberries & Russ
«Внедрение AIOps Практик для контроля и повышения общей утилизации ресурсов для тысяч продуктовых сервисов» | Wildberries & Russ
«RAG, который не галлюцинирует (почти)» | MWS
«Что на самом деле представляет запуск продуктов на базе LLM» | Wildberries & Russ
Кейсы в секции Fast Track: «Промптить нельзя файнтюнить» — Как мы поставили запятую и обучили BerryLM», «Text is All You Need. Отекстовка потока видеоклипов в платформе Wibes», «Эволюция поиска вакансий на Avito: ML‑оптимизации в Avito Работе»
И финал — дискуссия про применение AI в разных продуктах и процессах с экспертами из Wildberries & Russ, Сбера, Альфа‑Банка и red_mad_robot

Не откладывайте регистрацию — приглашайте коллег и присоединяйтесь к митапу! А больше одробностей ищите на сайте и в telegram-канале WB Space.

Gi_gi_gi_gi_gi

22 апр в 06:012.2K

Блог компании GlowByteBig Data * Визуализация данных * Финансы в IT

5 человек, 1 300 дашбордов, 2 200 пользователей в месяц. Как не сойти с ума

В Уралсибе self-service BI вышел на масштаб, который сложно представить: 12 000 датасетов, 200+ разработчиков в разных бизнес-блоках, 1 000 потоков данных обновляются каждый день. И всё это поддерживает команда из пяти человек.

При таком масштабе неизбежно появляются дубли, забытые дашборды, сломанные компоненты, разработчики, которые не знают о существовании друг друга, и пользователи, которые всё ещё спрашивают «а зачем BI, если есть Excel?».

Как с этим справляться? Семён Юников расскажет про систему, которую они выстроили: автоматические рассылки разработчикам с рекомендациями по их же объектам, кастомный каталог дашбордов с ИИ-поиском, геймифицированный марафон на 80 разработчиков, после которого количество сломанных компонентов сократилось вдвое. И да, заставки на корпоративных ноутбуках с надписью «Ты ещё в Excel? Переходи в FineBI» тоже часть стратегии.

📅 22 апреля | 15:00 МСК

Бесплатно, онлайн ~3 часа

→ Регистрация

Gi_gi_gi_gi_gi

21 апр в 14:002.9K

Блог компании GlowByteСистемное администрирование * Big Data * DevOps * Финансы в IT

Две попытки миграции FineBI, поломанная синхронизация кластера и выводы, которые пригодятся и вам

На FineBI 6.0 единственным способом резервирования было копирование папки через rsync. Восстановление медленное, переключение на резервный сервер требовало ручной правки конфигураций. Проще было чинить прод, чем восстанавливаться из бэкапа.

В ОТП Банке решили мигрировать сразу на 7.0: нужен был кластер, нормальное резервирование и новые фичи. Первая попытка выглядела логично, прошла без ошибок, но на выходе получился кластер с поломанной синхронизацией между нодами. Как нашли рабочую схему со второй попытки, почему заменили стандартный балансировщик на корпоративный и какие точки отказа остались, расскажет Евгений Иванов на FineDay Online.

📅 22 апреля | 15:00 МСК | FineDay Online 2026

Бесплатно, онлайн, ~3 часа

→ Регистрация

SnezhSh

21 апр в 10:472.6K

Блог компании GlowByteВысоконагруженные системы * Базы данных * Big Data * Data Engineering *

Терабайты данных из Teradata в Trino — эффективный способ передачи

В Data Ocean Nova был добавлен новый Trino Teradata Connector, который упрощает ad hoc-доступ к данным из Teradata и позволяет выгружать терабайты данных без кратного роста нагрузки на источник. Коллеги в новой статье объясняют, почему привычная параллельная выгрузка через несколько запросов плохо масштабируется, и показывают более правильный подход: распределять чтение по AMP’ам Teradata так, чтобы каждый из них читался только один раз.

Авторы разбирают архитектуру Teradata, типичные ошибки при многопоточном извлечении данных и принцип работы федеративного доступа через Trino. Отдельно показывают, как коннектор в Data Ocean Nova помогает организовать эффективную многопоточную передачу данных и использовать push-down для фильтрации, агрегаций и join’ов, когда это действительно уменьшает объем выборки.

Как всегда, в статье много полезных советов. Читайте и комментируйте!

smir0ff

21 апр в 07:192.6K

Big Data * Исследования и прогнозы в IT * Карьера в IT-индустрии

Привет, Хабр! Изучаю рынок курьерской доставки и гиг-экономику. В последнее время всё чаще слышу от знакомых курьеров, что доходы упали, а конкуренция выросла. Кто-то говорит, что хорошие слоты разбирают боты, другие жалуются на ужесточение условий.

Очень интересно мнение сообщества: какова сейчас реальная ситуация на рынке? Есть ли те, кто только начинает, или кто работает давно? Стоит ли сейчас новичку идти в курьеры как на подработку, или рынок уже перенасыщен?

Давайте обсудим, без рекламы, просто обменяемся опытом. Интересны любые города, не только Москва и Питер.

Gi_gi_gi_gi_gi

21 апр в 06:002.2K

Блог компании GlowByteBig Data * Хранение данных * Финансы в ITData Engineering *

Когда бизнес получил self-service BI и построил внутри него собственное хранилище данных

Знакомая ситуация: вы даёте бизнесу инструмент для самостоятельной аналитики, а через год обнаруживаете, что FineBI выполняет функции корпоративного хранилища. Данные загружаются из файлов, логика считается прямо в датасетах, одни и те же «велосипеды» пересобираются десятки раз. Документации нет, доверия к отчётам всё меньше.

В ОТП Банке за год с момента запуска FineBI выросли до 1 000 пользователей и 660 отчётов при приросте 50 пользователей в месяц. Масштаб впечатляет, но вместе с ним пришло и теневое хранилище.

Пётр Гордиенко, руководитель команды BI в ОТП Банке, расскажет, как они к этому пришли, почему осознанно выбрали «больше свободы» на старте и какой план из трёх шагов готовят, чтобы вернуть контроль, не убив при этом скорость.

📅 22 апреля | 15:00 МСК | FineDay Online 2026

Бесплатно, онлайн, ~3 часа

→ Регистрация

Gi_gi_gi_gi_gi

20 апр в 10:172K

Блог компании GlowByteOpen source * Big Data * Хранение данных * Data Engineering *

Когда у тебя 50 отчётов в FineReport, 100+ дашбордов в FineBI, и никто не знает, откуда берутся данные

Знакомая история: дашборды живут своей жизнью, новый сотрудник открывает отчёт и не понимает, что значит «ТО 5 руб.», а когда что-то ломается, полдня уходит на то, чтобы пройти по цепочке ETL и найти, где именно.

В Галамарте решили это системно: подключили дата-каталог DataHub к продуктам FanRuan. Как именно это сделали, какие стены пришлось пробить и чего не нашлось ни в одной документации, расскажет Дмитрий Конюхов на FineDay Online.

Что получили на выходе:

— бизнес-глоссарий, где каждый термин привязан к формуле, источнику и конкретным дашбордам

— lineage от витрины до сырых данных — в одном окне, за пределами FanRuan

— возможность за секунды найти, в каких из 100+ дашбордов используется нужнаяметрика

— базу для self-service: аналитики переиспользуют существующие датасеты вместо создания новых

📅 22 апреля | 15:00 МСК | FineDay Online 2026

Бесплатно, онлайн, ~3 часа

→ Регистрация

Luxms

17 апр в 10:001.9K

Блог компании Luxms BIPostgreSQL * Анализ и проектирование систем * Big Data * Визуализация данных *

Встраивание вычислений в PostgreSQL: PL*, extensions, а теперь и WASM

В рамках выступления на PG BootCamp Russia 2026 Дмитрий Дорофеев, главный конструктор Luxms, рассказал о том, как сегодня развивается встраивание вычислений в PostgreSQL: от классических процедурных языков (PL/pgSQL, PL/Python и других) до новых возможностей с использованием WebAssembly (WASM).

В PostgreSQL исторически поддерживается несколько десятков языков программирования. Если этого недостаточно, можно воспользоваться готовым расширением из огромной экосистемы либо написать своё. Прогресс не стоит на месте, и теперь для выполнения стороннего кода в PostgreSQL можно использовать WASM.
На примере Luxms BI я расскажу, как мы автоматически генерируем Swagger-документацию прямо внутри PostgreSQL с помощью open-source технологий и WASM.

Посмотреть видео выступления можно на нашем сайте.

SnezhSh

14 апр в 14:501.2K

Блог компании GlowByteBig Data * Визуализация данных * КонференцииИскусственный интеллект

Данные есть – чуда нет...

Приходите на онлайн-конференцию GlowByte и FanRuan разбираться, куда делось чудо

Дашборды построены, хранилища заполнены, лицензии куплены, а решения по-прежнему принимаются «на ощущениях». Это не ваша уникальная проблема – это системный разрыв между потенциалом BI и его реальным применением.

22 апреля в 15:00 (МСК) приглашаем вас на Fine Day Online 2026 – ежегодную онлайн-конференцию от GlowByte и FanRuan, где мы разберем, как этот разрыв закрыть.

Что в программе:

● От данных к ИИ-инсайтам – как превращать сырые данные в умные решения, а не просто красивые графики (Вилл Ченг, ведущий эксперт по отраслевым решениям, руководитель направлений пресейл и внедрение CIS, FanRuan);

● Интеграция FanRuan + DataHub – реальный опыт построения связной экосистемы данных (Дмитрий Конюхов, ведущий инженер отдела управления данными, “Галамарт”);

● 1 500 дашбордов для 2 500 пользователей – как сделать BI удобным и востребованным в масштабе (Семён Юников, главный эксперт Дирекции BI, Уралсиб);

● Shadow DWH – тёмная сторона self-service аналитики и как с ней справляться (Пётр Гордиенко, Lead BI, ОТП);

● Миграция FineBI с 6.0 на 7.0 – практический опыт и подводные камни (Евгений Иванов, DevOps BI-платформы, ОТП).

Для кого:

Руководители и специалисты в области BI, Data & Analytics, CDO, продуктовые и бизнес-аналитики – все, кто хочет, чтобы данные наконец работали на результат.

Формат:

Онлайн, бесплатно, ~3 часа концентрированной пользы. Нужна только регистрация.

2 3 ...

8 9