Как стать автором
Обновить
78.61

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга

Переход ScyllaDB на Source-Available: Последствия для пользователей OSS

ScyllaDB переходит на единый релиз ScyllaDB Enterprise с лицензией source-available с февраля 2025 года. ScyllaDB OSS AGPL 6.2 будет последним открытым релизом. Бесплатная версия Enterprise с полным функционалом станет доступна сообществу, включая оптимизации производительности и безопасности. ScyllaDB Enterprise 2024.2 получит source-available лицензию в декабре 2024. Scylla Manager перейдет на AGPL, а закрытый Kubernetes-оператор объединится с основным под Apache-лицензией. Остальные компоненты (Seastar, драйверы) сохранят текущие лицензии. Переход упростит разработку, устранит дублирование и повысит ценность бесплатной версии, но ограничит крупные OSS-кластеры.

Чтобы отключить телеметрию в ScyllaDB, измените файл /etc/scylla.d/housekeeping.cfg, установив check-version: False, и перезапустите сервер командой sudo systemctl restart scylla-server. Это отключает службы проверки версий, которые собирают данные. Однако лицензия (от 18 декабря 2024) упоминает сбор телеметрии через License Key или ПО, и конкретных способов её отключения нет. Блокировка на сетевом уровне или изменение кода могут нарушить лицензию.

Да, вы можете клонировать исходный код ScyllaDB, компилировать и использовать бесплатную версию без оплаты, если соблюдаете лимиты лицензии (10 ТБ хранилища и 50 vCPU) и не используете ПО для коммерческих SaaS/dBaaS или конкуренции с ScyllaDB. Нарушение условий требует покупки коммерческой лицензии.

Чтобы отключить телеметрию ScyllaDB (сбор данных об использовании), измените файл конфигурации scylla.yaml, установив параметр telemetry_enabled в false. Это предотвратит отправку данных об использовании на централизованный сервис.

Это Команды клонируют репозиторий ScyllaDB, обновляют подмодули, настраивают проект в указанном режиме (например, debug или release), компилируют его и создают дистрибутив:

git clone https://github.com/scylladb/scylla
cd ./scylla
git submodule update --init --force --recursive
./tools/toolchain/dbuild ./configure.py --mode=<mode>
./tools/toolchain/dbuild ninja
./tools/toolchain/dbuild ninja dist

Команда ./tools/toolchain/dbuild ninja dist создает дистрибутивные пакеты ScyllaDB в каталоге build/dist/release/debian/. В результате получаются Debian-пакеты (.deb), файлы сборки (.build, .buildinfo), исходные архивы (.tar.xz, .orig.tar.gz), файлы изменений (.changes) и спецификации (.dsc) для различных компонентов ScyllaDB, включая сервер, конфигурацию, ядро и node-exporter, для версий OSS и Enterprise.

ls build/dist/release/debian/
scylla-conf_2025.3.0~dev-0.20250604.6cbcabd10047-1_amd64.deb                    scylla-server-dbg_2025.3.0~dev-0.20250604.6cbcabd10047-1_amd64.deb
scylla-enterprise-conf_2025.3.0~dev-0.20250604.6cbcabd10047-1_all.deb           scylla-server_2025.3.0~dev-0.20250604.6cbcabd10047-1.debian.tar.xz
scylla-enterprise-kernel-conf_2025.3.0~dev-0.20250604.6cbcabd10047-1_all.deb    scylla-server_2025.3.0~dev-0.20250604.6cbcabd10047-1.dsc
scylla-enterprise-node-exporter_2025.3.0~dev-0.20250604.6cbcabd10047-1_all.deb  scylla-server_2025.3.0~dev-0.20250604.6cbcabd10047-1_amd64.build
scylla-enterprise-server_2025.3.0~dev-0.20250604.6cbcabd10047-1_all.deb         scylla-server_2025.3.0~dev-0.20250604.6cbcabd10047-1_amd64.buildinfo
scylla-enterprise_2025.3.0~dev-0.20250604.6cbcabd10047-1_all.deb                scylla-server_2025.3.0~dev-0.20250604.6cbcabd10047-1_amd64.changes
scylla-kernel-conf_2025.3.0~dev-0.20250604.6cbcabd10047-1_amd64.deb             scylla-server_2025.3.0~dev-0.20250604.6cbcabd10047-1_amd64.deb
scylla-node-exporter_2025.3.0~dev-0.20250604.6cbcabd10047-1_amd64.deb           scylla-server_2025.3.0~dev-0.20250604.6cbcabd10047.orig.tar.gz
scylla-package                                                                  scylla_2025.3.0~dev-0.20250604.6cbcabd10047-1_amd64.deb
Теги:
0
Комментарии0

Я Павел Денисенко, отвечаю за развитие дата-платформы в X5 Tech!

Редко публикую тут посты (никогда), но сейчас не могу не поделиться новость о том, что наша команда CDO X5 Tech впервые участвует в Data Fest — главном событии года для сообщества Open Data Science! 

В один из дней, 1 июня, мы принимаем фестиваль у нас в гостях, и это событие нельзя пропустить!

Наша программа будет насыщенной и интересной. Мы будем рады поделиться опытом X5 Tech с сообществом дата-экспертов. Наши эксперты поделятся докладами на самые актуальные темы в области инженерии данных и искусственного интеллекта. С участием признанных экспертов индустрии Data и ML в Retail мы поговорим о том, как данные меняют сферу ритейла и не только ее. 

Но это еще не всё! В нейтральных секциях мы также поговорим о таких темах, как Advanced LLM и ML in Music. Узнаем, как большие языковые модели находят применение в разных сферах и что происходит на стыке машинного обучения и творчества.

🌟 И, конечно, не обойдется без неформальной части: холиварные зоны для тех, кто точно знает, как правильно, и вечеринка после официальной части для самых стойких.

📍 Где и когда? 1 июня, Москва, Loft Hall. 

Data Fest 2025 — must visit для всех, кто интересуется работой с данными и хочет лучше понимать, как информационные технологии меняют бизнес и помогают в работе. Мест немного, так что успевайте зарегистрироваться по ссылке!

Не упустите шанс стать частью этого восхитительного события! Ждем вас!

Ссылка для регистрации

Теги:
+3
Комментарии0

Работайте с большими данными в Evolution Data Platform 📊

❓ Что за инструмент? Evolution Data Platform — платформа для обработки больших данных, которая включает в себя несколько PaaS-сервисов. Среди них:

  1. Evolution Managed Trino — массивно-параллельный аналитический SQL-движок Trino с использованием распределенных запросов.

  2. Evolution Managed Metastore — сервис для хранения метаданных таблиц из разных источников. Metastore сообщает клиентским приложениям, где хранятся данные, как к ним обращаться и как их интерпретировать.

  3. Evolution Managed Spark — сервис для развертывания кластерного вычислительного решения на основе Apache Spark для распределенной обработки данных.

  4. Evolution Managed ArenadataDB — аналитическая база данных для хранения большого объема структурированных и полуструктурированных данных.

🖥 Особенности и преимущества. Вы можете выбрать любой сервис, который подходит под определенные задачи, или же комбинировать их. Из плюсов конкретных сервисов:

  1. Evolution Managed Trino способен работать с разными источниками в одном SQL-запросе, есть несколько конфигураций Trino. А еще можно создать приватный инстанс, недоступный из интернета.

  2. Evolution Managed Metastore прямо из интерфейса можно подключить к другим сервисам платформы Cloud.ru Evolution. Создание и обновление инстансов происходит за минуты, а данные для подключения к S3 — в безопасности, так как хранятся в сервисе Secret Management.

  3. Evolution Managed Spark позволяет отслеживать статусы выполнения задач, обрабатывать данные из Object Storage, а также из большинства доступных БД.

  4. Evolution Managed ArenadataDB дает возможность развертывать инстансы без обслуживания инфраструктуры, а кластеры Greenplum разворачиваются автоматически. Доступны конфигурации от 3 до 50 ТБ, что позволяет адаптировать систему под разные задачи.

👨‍💻 Кому будет полезно. PaaS-сервисы платформы Evolution Data Platform найдут применение во всех областях, где работают с большими объемами данных: финансовых учреждениях, ретейле, логистике, крупном и среднем бизнесе — и не только. Также сервисы будут полезны в машинном обучении и разработке. 

✍️ Где, как и для чего использовать. Для обработки структурированных, слабоструктурированных и неструктурированных данных, SQL-аналитики, ML, хранения метаданных таблиц, отправки сложных запросов, проверки гипотез, A/B-тестирований, построения приложений данных, интерактивного специального анализа данных.

В июне Evolution Managed Trino и Evolution Managed Metastore выйдут в коммерческий доступ, а еще станут доступны для тестирования сервисы Evolution Managed Airflow и Evolution Managed BI. Смотрите доклад с конференции GoCloud 2025, чтобы больше узнать о PaaS-сервисах для работы с данными 🌐

Теги:
0
Комментарии0

Управляемые сервисы на базе YTsaurus и Apache Spark, новые возможности DataLens и Yandex Cloud AI Studio — о чём говорили на Data&ML2Business

Собрали самые интересные анонсы с Data&ML2Business, ежегодной конференции Yandex Cloud о практическом применении технологий. Вот что прозвучало на главном докладе 28 мая.

Трек Data

Ранний доступ к Yandex Managed Service for YTsaurus. Платформа Яндекса для хранения и обработки больших данных YTsaurus уже два года в опенсорсе, а с этого дня доступ к ней открывается ещё в двух форматах: в облаке и в инфраструктуре заказчика (on‑premise).

Создать базовый кластер YTsaurus теперь можно в привычной консоли
Создать базовый кластер YTsaurus теперь можно в привычной консоли

Для тестирования работы в этих форматах необходимо подать заявку.

Доступ к сервису Yandex Managed Service for Spark. Новый управляемый сервис на базе опенсорс-решения поможет с загрузкой и обработкой данных, а также задачами машинного обучения в облаке. Протестировать его в режиме Preview можно здесь.

Кроме этого, в публичный доступ вышел сервис управления распределённым аналитическим массивно‑параллельным движком обработки больших данных Trino в облачной инфраструктуре.

Обновления Yandex DataLens. Что появилось в сервисе BI‑аналитики:

  • DataLens Gallery — публичная витрина готовых примеров дашбордов. Теперь любой пользователь может открыть галерею, выбрать нужную отрасль или предметную область и изучить готовые дашборды и модели данных, а также стать автором галереи. При согласии автора дашборд из галереи можно развернуть у себя в качестве примера или стартового дашборда.

  • DataLens Editor — редактор для кастомизации графиков и таблиц с помощью JavaScript. Пользователи смогут создавать продвинутые визуализации и удобно интегрировать данные из нескольких источников (включая внешние API).

  • Собственная программа сертификации Yandex DataLens Certified Analyst. С её помощью специалисты могут официально подтвердить свои навыки работы с DataLens. На экзамене проверяются знания и навыки работы с чартами и датасетами, вычисляемыми полями и параметрами, внешними источниками данных, построения дашбордов и выдачи доступов.

Также на конференции рассказали про OLAP-движок для YDB. Теперь СУБД подходит для самых высоконагруженных сценариев. В последней версии YDB появился неточный векторный поиск, позволяющий использовать YDB для специализированных задач, связанных с ИИ.

Трек ML

Обновления RAG‑пайплайна в AI Assistant API. Доступный на платформе Yandex Cloud AI Studio инструмент для создания умных ассистентов дополнился новым графическим UI — теперь создать виртуального помощника можно не только через API или SDK. Возможности поиска данных по базам знаний также расширились: доступны поддержка новых типов данных (таблицы и pdf‑файлы), дообучение эмбедингов, обогащение чанков метаданными, получение метаданных ответа, а также использование дообученной модели. Также на платформе появился рефразер — отдельная модель, которая может перефразировать запросы пользователя.

Доступ к Yandex Cloud AI Studio on‑premise. AI‑платформа Yandex Cloud внесена в реестр отечественного ПО, что позволяет интегрировать решения как в облаке, так и в своей инфраструктуре.

Эксперты обсудили и уже состоявшиеся запуски: 

  • Инструменты работы с OpenAI Compatible API в облаке. API для языковых моделей в Yandex Cloud AI Studio совместим с OpenAI API. Благодаря этому модели YandexGPT проще интегрировать с популярными решениями для работы с ML, например, AutoGPT или LangChain. В совместимом с OpenAI API поддерживаются Function Calling, работа с эмбеддингами и Structured Output.

  • Смысловые теги Yandex SpeechSense — инструмент умного тегирования и поиска для анализа диалогов в колл‑центрах, доступный отдельно по клиенту и оператору.

  • Доступ к VLM и LLM в режиме Batch Processing и co‑pilot сервис для операторов Yandex Neurosupport — о которых мы рассказывали на Хабре.

На конференции более 20 спикеров представили 15 докладов по направлениям Data и ML. Подключайтесь к трансляции на странице мероприятия или смотрите в записи, чтобы познакомиться с опытом внедрения технологий.

Теги:
+5
Комментарии0

Интересно применение ML и AI в борьбе за безопасность и доверие пользователей? Тогда Trust&Safety AI Meetup точно для тебя 👀

Когда? 22 мая, 18:00
Где? офлайн в Москве + онлайн-трансляция 

В программе будут 2 технических доклада, интересная дискуссия, спикеры из Wildberries&Russ, Avito, AI Masters. А еще розыгрыш классного мерча среди активных участников и нетворкинг с полезными знакомствами.

Регистрация закроется 21 мая — выбирай формат участия и успей отправить заявку. До встречи на Trust&Safety AI Meetup!

Не пропустите подробности о митапе: @wb_space 🌟

Теги:
0
Комментарии0

BI-проекты: 5 причин, почему они выходят за рамки бюджета (и как этого избежать)

Если вы хоть раз участвовали во внедрении BI-системы — знаете, как легко проект может уйти не туда:
– бюджет трещит по швам,
– сроки съедены интеграцией и доработками,
– пользователи по-прежнему делают аналитику в Excel.

Мы в GlowByte собрали в статье практический разбор типичных ошибок, которые чаще всего приводят к перерасходу бюджета и снижению отдачи от BI-проектов.

Плюс: даём самодиагностический чек-лист и PDF-гайд, где перечислены все организационные, финансовые и технические риски BI-проектов.

Заходите почитать! Статья здесь → Скрытая стоимость BI: что не учитывают 8 из 10 компаний при внедрении аналитических систем.

Теги:
+1
Комментарии0

Смотрите новый выпуск подкаста про AI и Data Science 🔥

В гостях у Cloud.ru — Алексей Четыркин, директор по Data Science в Magnit Tech. В подкасте обсудили, как ритейл-гигант внедряет AI и какие технологии меняют будущее торговли.

Также в выпуске:

  • как организовать работу с данными в ритейле эффективно,

  • для чего «Магниту» нужна собственная AI Lab,

  • какие функции могут забрать на себя AI-агенты.

Посмотреть подкаст можно на YouTube и VK Видео 👈

Теги:
+1
Комментарии0

AI-агенты в облаке: как они работают, зачем нужны — и как создать собственного

📅 13 мая | 18:00 (МСК) | Онлайн

На встрече поговорим о том, как устроены современные AI-агенты на базе LLM, какие архитектуры и инфраструктуры используются для их работы, и продемонстрируем создание агента в режиме live coding.

👨‍💻 Спикер — Михаил Дремин
Технический лидер Data Science-направления в Clоud.ru

🔍 В программе:
— Основы LLM-агентов и взаимодействие с внешним миром через инструменты (tools)
— Архитектурные подходы: Prompt chaining, ReAct, Evaluator-optimizer, ambient agents и другие
— Реальные кейсы использования
— Практическая часть: разработка собственного агента на Python (с использованием LangChain) и развертывание в облаке

💼 А также: представители компании расскажут о стажировке для студентов и молодых специалистов: какие направления доступны, как попасть в команду.

📌 Участие бесплатное

📎 Регистрация: https://mnlp.cc/mini?domain=digitalmipt&id=7

Теги:
0
Комментарии0

«Как нефть, только важнее»: как выстроить культуру работы с данными

В рамках конференции ArenaDAY, посвящённой передовым технологиям и трансформации бизнес-процессов, Chief Data Officer ОТП Банка Николай Шевцов выступил с докладом «От data-команд к data-компании: как сформировать культуру работы с данными».

На примере ОТП Банка он представил пошаговый подход к выстраиванию data-культуры в крупной организации — от локальных инициатив внутри ИТ-подразделений до интеграции данных в повседневные бизнес-процессы.

«Весь процесс работы с данными напоминает нефтепереработку: сырые данные — это нефтеносная жидкость, которую сначала нужно добыть (собрать), затем очистить (data governance) и переработать в полезные продукты — отчёты, аналитику, модели. Но главное отличие в том, что данные — не просто актив, а неотъемлемая часть нашей жизни, как одежда или предметы быта. Чтобы быть эффективными, мы должны научиться работать с ними так же естественно, как дышать», — отметил Николай Шевцов.

В центре внимания доклада — зрелость компании по отношению к данным, доверие к информации и способность организаций принимать решения на её основе. Николай представил собственную систему замера уровня data-культуры и рассказал о ключевых ролях, необходимых для её развития: от Data-чемпионов в командах до топ-менеджмента, задающего вектор и распределяющего ресурсы.

По мнению эксперта, эффективная трансформация невозможна без постоянного обучения, пилотных запусков и механики «быстрых побед» — так создаётся среда, где данные становятся не просто инструментом, а частью корпоративной ДНК.

ОТП Банк последовательно внедряет подход data as a culture и делится практиками, которые позволяют строить устойчивые решения в условиях высокой неопределённости.

Теги:
0
Комментарии0
Бесплатный курс по ML
Бесплатный курс по ML

Мы подготовили мини-курс «Введение в машинное обучение»

За 5-7 часов погружения вы узнаете, что такое ML и как он трансформирует целые индустрии. Курс реализован в формате Телеграм-бота, что позволяет учиться в любое время.

Что вас ждет:
— Узнаете, что такое ML и как он меняет отрасли.
— Поймете, какие задачи решает машинное обучение.
— Рассмотрите ключевые алгоритмы и подходы, используемые на практике.
— Ознакомитесь с этапами подготовки данных — основой любой ML-модели.
— Пройдете тесты для закрепления полученных знаний.

Мини-курс станет вашей отправной точкой для начала изучения машинного обучения.

Получите моментальный доступ к курсу: https://mnlp.cc/mini?domain=digitalmipt&id=2&utm_source=habr

Теги:
Всего голосов 1: ↑1 и ↓0+2
Комментарии0
Приглашаем освоить одну из самых востребованных IT-специальностей!
Приглашаем освоить одну из самых востребованных IT-специальностей!

🎓Подача документов для поступления в магистратуру открыта!

Сегодня, 10 апреля, открылся прием документов на магистерскую программу «Науки о данных» в МФТИ.

📌 Если вы уже прошли консультацию с нашим менеджером приемной комиссии — самое время сделать следующий шаг.

Подавайте документы через официальный сайт приемной комиссии МФТИ . Вход в личный кабинет для подачи — в правом верхнем углу: «Заполнить анкету».

Время проверки документов — до 3 дней.

📌 Еще не получали консультации? Тогда оставьте заявку на странице программы — и в течение дня с вами свяжется специалист, чтобы помочь с подачей документов

Теги:
Рейтинг0
Комментарии0
Пройдите квиз и узнайте, какое направление Data Science выбрать
Пройдите квиз и узнайте, какое направление Data Science выбрать

🎓 Пройдите квиз и узнайте, какое направление Data Science вам подходит.

В онлайн-магистратуре «Науки о данных» доступны три профильных направления.
Чтобы выбрать подходящий трек, пройдите мини-квиз — он учитывает ваши интересы и бэкграунд.

🔹 ML Engineer
Создает и внедряет модели для обработки данных, изображений, видео и текстов — от прогнозирования оттока до диагностики по снимкам и разработки чат-ботов поддержки клиентов.

🔹 Data Analyst
Проектирует модели для анализа данных: сбор, очистка, визуализация, интерпретация данных. Например, создает дашборд для анализа продаж.

🔹 Data Engineer
Строит инфраструктуру для работы с большими данными: создает каналы и пайплайны для сбора, обработки и хранения данных.

💡 Профильные треки — это возможность получить дополнительные навыки и углубиться в одну из ключевых сфер работы с данными.

👉 Пройти кви: https://t.me/mipt_ds_spec_bot

Теги:
Рейтинг0
Комментарии0

Дайджест открытых мероприятий на май:

1️⃣ AI-агенты в облаке
🗓 13 мая, 18:00 по Мск, онлайн
Узнаем, как строятся AI-агенты, какие инфраструктуры стоят за их работой и какие возможности открывает стажировка в Cloud.ru.
🔗 Регистрация

2️⃣Вебинар от Московского инновационного кластера: «Защита и регистрация интеллектуальной собственности в России»
🗓 14 мая, 12:00 по Мск, онлайн
Практические советы о том, как защитить свои разработки и оформить права на них.
🔗 Регистрация

3️⃣MTS Startup Hub: как найти и реализовать идею для технологического проекта
🗓15 мая, 19:00 по Мск, онлайн
Как придумать идею для стартапа, пройти путь предпринимателя и найти ресурсы на развитие.
🔗 Регистрация

4️⃣ Т-Банк: образовательный кредит — как получить высшее образование с господдержкой
🗓 20 мая, 19:00 по Мск, онлайн
Разберем условия образовательного кредита, преимущества, оформление и действия в случае отказа.
🔗 Регистрация

5️⃣MTS Startup Hub: анализ единорогов как топливо для развития стартапов
🗓 22 мая, 19:00 по Мск, онлайн
Как изучение успешных стартапов помогает понять рынок, находить инновации и строить перспективные бизнес-модели.
🔗 Регистрация

6️⃣ Карьерный буст: как ускорить профессиональный рост
🗓 29 мая, 19:00 по Мск, онлайн
Поговорим о карьерных стратегиях, востребованных навыках и росте в новых реалиях.
🔗 Регистрация

7️⃣MTS Startup Hub: создание прототипов и MVP
🗓 29 мая, 19:00 по Мск, онлайн
Как быстро и эффективно протестировать идеи на практике.
🔗 Регистрация

8️⃣Экскурсия в Сбер
🗓 30 мая, 16:30 по Мск, онлайн
Смотрим, как работает один из самых технологичных банков страны изнутри.
🔗 Регистрация

Участие во всех мероприятиях - бесплатное. Регистрируйтесь по ссылкам выше, а также:

➡️ Скачайте брошюру о магистратуре «Науки о данных»
➡️ Проходите курс «Введение в машинное обучение»
➡️ Получите доступ к записи Дня открытых дверей онлайн-магистратуры «Науки о данных»

И успейте подать документы в магистратуру в мае, чтобы получить специальные бонусы. Выберите магистратуру и оставьте заявку по ссылке.

Теги:
Рейтинг0
Комментарии0

Ближайшие события

Как я снова отравилась из-за океана — и при чём тут аналитика данных

  1. Температура, тошнота, диарея — это происходит со мной каждый раз после серфинга в дождливый сезон, когда в море сливается всё, что угодно — от мусора до банальных 💩.

  2. В северной части Тихого океана, на полпути между Гавайями и Калифорнией, вращается 100 000 тонн пластикового мусора. Добро пожаловать в Большое мусорное пятно — область, втрое больше Франции. Оно выглядит так же катастрофично, как и звучит: сверху напоминает гигантский пластиковый суп.

И это лишь 2 примера, подтверждающие: мусор в океане — это глобальный кризис, а не локальная история. Скоро мы вообще не зайдём в океан?

Ежегодно в океаны, реки и озёра попадает 19–23 млн тонн пластика — как если бы каждую минуту в воду сбрасывали 2 000 мусоровозов.

На поверхности океанов плавает около 170 трлн пластиковых частиц, а на дне может быть в 10 000 раз больше.

Ежегодно из-за мусора в океане погибают 100 миллионов морских животных. Страдают и морские растения, которые участвуют в производстве 70% кислорода.

В исследовании микропластик нашли в 99% морепродуктов. Это вызывает тревогу из-за возможного влияния на пищеварительную, эндокринную и другие системы организма.

Все ссылки на исследования опубликовала тут.

Чем помогает аналитика в этой проблеме?

В мире есть некоммерческие и частные организации, борющиеся с загрязнением. Например, The Ocean Cleanup очищает океаны от пластика с помощью инновационных технологий.

1. Определяют источники загрязнения, чтобы “поймать проблему на старте”

💡 80% пластика попадает в океан через ~1000 рек.

Чтобы найти эти «артерии загрязнения», анализируют спутниковые данные, гидрологические карты, поведение мусора в воде, данные о населении и инфраструктуре. Это позволяет не просто «ловить мусор в океане», а перехватывать его у истока — в реках.

2. Предсказывают, куда поплывёт мусор, чтобы точнее планировать очистку

— Камеры на мостах фиксируют мусор в реках
— GPS-буи и радары отслеживают его путь в океане
— ИИ-модели показывают, где и когда он соберётся в “мусорные вихри”

Это помогает запускать очистку точно там и тогда, где она даст максимальный эффект.

3. Визуализация, которая не оставляет равнодушным

Цифры — это важно, но именно визуализация заставляет почувствовать масштаб. Данные превращают в наглядные дашборды, которые:
— Показывают, где океан «захлёбывается» от пластика
— Делают проблему видимой и понятной
— Помогают влиять на решения политиков и доноров

Дашборды по загрязнению пластиком можно посмотреть тут.

4. Прогнозы на будущее и машинное обучение

Чтобы не просто тушить пожары, а предотвращать их, аналитики обучают модели, которые помогают заглянуть вперёд:
— Что будет с океаном, если мы продолжим жить «как обычно»?
— А что изменится, если сократим пластик хотя бы на 20%?
— Где появятся новые точки бедствия через 5 лет?

Такие организации нанимают аналитиков данных и стажёров — есть вакансии по визуализации, машинному обучению, компьютерному зрению, анализу временных рядов (ссылки на вакансии опубликовала тут).

Или можно стать гражданским учёным и внести свой вклад, документируя пластиковое загрязнение с помощью специальных приложений (Ocean Cleanup Survey App или Debris Tracker).

Теги:
Всего голосов 6: ↑5 и ↓1+6
Комментарии2

Эффективная аналитика данных: GlowByte представит кейс METRO C&C на Russian Retail Show 2025

GlowByte выступит серебряным партнером Russian Retail Show 2025. Максим Серов, Head of BI and Integration в METRO C&C, и Александр Брежнев, руководитель отдела продаж BI-решений в GlowByte, станут спикерами секции PRODATA 23 апреля.

Эксперты поделятся историей "Выбор BI-платформы: ставка на эффективность", в которой расскажут о платформе для самостоятельного анализа данных FineBI, позволяющей бизнес-пользователям без глубоких технических знаний проводить сложные аналитические операции.

В рамках презентации будут затронуты особенности ИТ-ландшафта METRO C&C – компании с 93 торговыми точками в 51 регионе России, и вызовы, с которыми столкнулись специалисты при построении гомогенной аналитической платформы.

Также вы узнаете об уникальном подходе GlowByte к пилотным проектам, который позволяет за 1,5-2 месяца провести полноценное тестирование BI-системы и принять взвешенное решение о внедрении без значительных затрат ресурсов.

Выступление состоится в зале "ЭФФЕКТИВНОСТЬ". Будем рады встретиться, пообщаться и ответить на ваши вопросы на Russian Retail Show 2025!

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Хабр, привет!

Завтра, 22 апреля, в 09:00 мск стартует ArenaDAY 2025 — крупнейшая конференция по управлению данными и аналитике. Мы понимаем, что в будний день не у всех получится включить видеотрансляцию, поэтому запускаем текстовую онлайн-трансляцию.

Вас ждёт:

  • Шесть тематических секций: «Бизнес-кейсы», «Продукты», «Гибридное хранилище», «Будущее», Data Governance и Investor Day; отдельная демозона с живыми показами решений и экосистемы Arenadata.

  • Кейсы от ВТБ, «Газпромнефти», МКБ, «Росатома», «Северстали», «МегаФона» и других лидеров.

  • Интерактивы и розыгрыши.

Сохраните этот пост в закладки — ровно в 09:00 здесь появится ссылка на текстовую трансляцию ArenaDAY. До встречи в онлайне!

 Ссылка на трансляцию: https://habr.com/ru/companies/arenadata/articles/902964/

Теги:
Рейтинг0
Комментарии0

Приключение Запроса в Царстве Данных: Как CATALIST Провёл SELECT через Опасности Оптимизации

Привет, друзья! С тех пор, как в моей жизни появился маленький человечек, я погрузился в мир сказок — читаю их каждый вечер. И вот подумал: а что, если оживить сухие технические термины через волшебные метафоры? Так родилась «Приключение SELECT в Царстве Данных» — история о том, как запрос проходит путь от строки кода до результата, встречая на пути оптимизаторов, шардинг-великанов и магию Catalyst’а.

О чём эта сказка?

  • Как CATALIST (наш рыцарь-оптимизатор) сражается с неэффективными планами.

  • Почему Shuffle — это бурная река, которую нельзя пересечь вброд.

  • Зачем Skew-великана нужно посыпать «солью».

Это не просто фантазия — под метафорами спрятаны реальные процессы Spark: парсинг, predicate pushdown, broadcast join и борьба с skew-данными.

1. Врата Валидации: "Ты ли ты?"
Запрос select id, name, s.salary from users u inner join salaries s where u.part_date = '2025-01-01' робко постучался в высокие врата Царства Данных. Стражник CATALIST в доспехах из кода Scala встретил его:
"Покажи свои намерения! Где твои таблицы? Совпадают ли имена колонок?"

SELECT дрожа протянул:
"Я ищу id, name из users и salary из salaries... И только за 2025-01-01!"

CATALIST раскрыл древний свиток Catalog:
— «users и salaries есть в хранилище. Но part_date… А, это партиция! Проходи, но держись пути — дальше Лес Логических Преобразований

Стражник толкнул тяжёлые врата, и запрос шагнул в густой лес, где деревья-операции сплетались в непролазные дебри.

2. Лес Логических Преобразований: "Сруби лишнее!"

Ветви операций JOIN и Filter обвивали тропу. CATALIST вынул топор Predicate Pushdown:
— «Фильтр по дате должен быть ближе к users! Зачем ждать JOIN?»

Удар! Дерево плана рухнуло, открыв путь:

TEXTJOIN  
  → Scan users (part_date = '2025-01-01')  // Фильтр переместился сюда!  
  → Scan salaries  

— «Теперь к Реке Shuffle! Но берегись — она бурная!»

Они вышли к бурлящей реке, где волны данных сталкивались в хаосе.

3. Река Shuffle: "Выбери правильный мост!"

— «Как перейти? — испугался SELECT. — Здесь же все утонем!»

CATALIST достал карту Статистики:
— «users после фильтра — 10 тыс. строк, salaries — миллион. Мост BroadcastJoin выдержит!»

Магический мост вспыхнул, соединив берега. Данные salaries превратились в светящиеся шары и разлетелись к исполнителям.

— «Вперёд, к Горам Физического Плана! Там рождается настоящая сила!»

За холмом возвышались остроконечные пики, где гномы-компиляторы ковали байт-код.

4. Горы Физического Плана: "Куй быстрее, куй умнее!"

В пещере Tungsten гномы кричали:
— «Никаких Java-объектов! Только примитивы!»

CATALIST бросил им логический план:
— «Превратите это в код! Да будет векторизация!»

Молоты застучали:

JAVAif (row.getDate(3) == 2025-01-01) {  // Фильтр по part_date  
  emit(row.getInt(0), row.getString(1));  // id и name  
}  

— «Теперь — в Долину Исполнения, где задачи становятся результатом!»

Они спустились в зелёную долину, где партиции данных складывались в аккуратные стопки.

5. Долина Исполнения: "Собери пазл!"

Исполнители в синих мантиях хватали партиции и кричали:
— «Task 1 готов! Task 2 завершён!»

Но вдруг из-за скалы выполз Skew-великан с мешком, где 90% данных висело на одном плече:
— «Не пройдёте! Разорву ваши партиции!»

CATALIST рассыпал волшебную Соль:
— «Пусть каждый ключ обретет случайный суффикс!»

Великан взревел и рассыпался на сотни мелких духов. Shuffle-река успокоилась.

6. Финал: "Свет знаний"

На краю долины ждал ResultTask с золотым свитком:
— «Данные собраны! Вот твой результат: /data/output/part-0000.snappy.parquet».

CATALIST кивнул:
— «Запомни: без Catalog — ты слеп, без оптимизаций — медлен, а без борьбы с skew — обречён!»

Мораль:
Даже самый простой запрос — это путешествие через:

  1. Валидацию (что ты есть?),

  2. Логические преобразования (как сократить путь?),

  3. Физический план (как сделать быстро?),

  4. Исполнение (как не утонуть в данных?).

🔗 Каждый этап связан: нельзя прыгнуть в реку Shuffle, не построив мост из физического Join, и не победить Skew-великана

Теги:
Всего голосов 1: ↑0 и ↓1-1
Комментарии0

Регистрируйтесь на Fine Day 2025 в GlowByte: Как избежать скрытых расходов при внедрении BI?

Внедрение бизнес-аналитики (BI) — это не просто покупка инструмента, а долгосрочная инвестиция. Но знаете ли вы, сколько на самом деле тратит ваша компания на поддержку и развитие BI-системы?

Друзья, 17 апреля в 16:00 (МСК) GlowByte проведет ежегодную онлайн-конференцию, посвященную реальной стоимости BI-решений. Приглашаем всех, кто хочет оптимизировать затраты на BI!

Что обсудим?

Скрытые расходы: какие неочевидные траты есть в BI-проектах и как их избежать?
Self-service BI: как оценить эффективность и снизить стоимость владения?
Реальные кейсы: опыт компаний, уже внедривших BI.

Где прячутся переплаты?

BI помогает бизнесу расти, но неконтролируемые затраты могут свести пользу на нет. На конференции разберем вопросы:
- Как оценить реальную цену данных.
- Оптимизация расходов без потери качества аналитики.
- Ошибки, которые удорожают BI-проекты.
- Успешный опыт компаний.

Почему стоит участвовать?

 Вас ждут кейсы топ-компаний:

  • Альфа-Лизинг – Реальная стоимость данных: за что платит бизнес?

  • Газпромбанк – BI: центр затрат или источник экономии? Опыт интеграции FineBI с Service Desk.

  • СИБУР – Self-service BI: как контролировать расходы.

  • t2 – Как не уйти в минус при внедрении BI?

Будут только практические решения – реальный опыт, без воды.
Бонусы для участников: GlowByte предоставит чек-лист «BI без переплат», сделает запись эфира, и вы получите возможность задать вопросы спикерам.

Участие бесплатное! Регистрация по ссылке.

Будет круто и очень полезно, подключайтесь!

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Друзья инженеры, разработчики пишу в Вашу поддержку честный отзыв о наших соотечественниках.

НАБОЛЕЛО!!!!

Что бы вы не сделали, диванным критикам просто до одного места! Даже диван на котором он лежит это тоже Г-но потому, что болит левая пятка.

Семь лет назад нам нужен был промышленный компьютер (1000 штук), который бы собрал данные через промышленные протоколы и отправил их в облачную платформу с бюджетом до 15к (400 баксов) рублей на то время.

По какой то причине мы не заметили контроллер Wirenboard 6 (на процессоре NXP который покрывал все наши задачи) и начали разработку своего устройства AntexGate на базе Raspberry cm3 (теперь уже на Raspberry CM4 )


Сколько же хейта мы услышали в инфополе в свой адрес, но чем больше критики тем больше тебя узнают и покупают.

Мы тратим много сил и средств, чтобы развивать свой продукт и поддержку, отвечаем в Телеграм канале почти круглосуточно на вопросы.

Имея таких конкурентов как Wirenboard, ОВЕН, RealLab, Siemens .... мы нашли своих клиентов и продаем в год более 700 компьютеров.

Мы заморозили свое прибор до -65 (легко запустился на таком морозе), нагрели до +101 (на 102гр выключился).
Все равно получаем каждый день отзывы: "Вы просто засунули малину в свое коробку!"
Нет не просто! Мы угрохали более 5 лет жизни небольшой команды на то, чтобы это все работало - "Так как должно!" Перебрали рефенсные схемы самых именитых Европейских производителей под свои реалии.


Теперь про миллионы - чтобы развиваться у нас уходит почти вся наша прибыть не в карман, а в разработку новых приборов и поддержку уже имеющегося, однако никто в команде не жалуется на свою ЗП и мы стараемся чтобы она росла.


Я желаю пройти каждому разработчику правильный путь и по возможности сделать свое решение на сколько можно.
Я надеюсь, что оттепель настанет в нашей стране и появятся действительно Росcийские процессоры и другая элементная база, а пока увы Broadcom, Raspberry, NXP да на худой конец RockChip главное что-то делать и с голоду не умереть.


Уважаемые инженеры - разрабы, присоединяйтесь к нашему каналу в телеге мы ответим на любой вопрос (как сделать корпус, выбор источника питания и тд..), поможем и поддержим, дадим ответ на любой вопрос не только по прибору, но и любой другой.
Спасибо за внимание.

Теги:
Всего голосов 15: ↑14 и ↓1+16
Комментарии10

Петля времени в пайплайне для уменьшения числа галлюцинаций в LLM

Это — грубая схема работа RAG-пайплайна, который использует одна из ML-команд в YADRO.

Задача команды: улучшить качество выдаваемых ответов на запросы пользователей, исключив галлюцинации.

Что сделали инженеры?

Решили дообучить базовую модель при помощи LoRA на специально собранном датасете для ситуаций, когда в контексте нет ответа на вопрос пользователя. На тот момент в качестве базовой модели LLM использовали saiga_mistral_7b, которая нетребовательна к ресурсам и долгое время была в топе на Russian SuperGLUE. Есть модели лучше, но, как правило, они либо огромные, либо имеют проблемы с лицензией в России, в том числе все, что основаны на LLaMa.

Самое главное: в этом RAG-пайплайне ML-инженеры решили сделать опциональную петлю, в которой проверяли бы каждый найденный фрагмент контекста на релевантность вопросу пользователя. Только те куски контекста, которые пройдут проверку, будут попадать в финальный вопрос для LLM.

Чтобы петля фильтрации работала правильно, нужен некий маркер, который позволяет однозначно определить, что модель считает кусок контекста нерелевантным.

Что это и за маркер? И к каким результатам привела оптимизация работы модели, читайте по ссылке → 

Спойлер: Модель DeepSeek-R1-Distill-Qwen-7B уступила saiga_mistral_7b по качеству, несмотря на то, что первая намного новее и вооружена механизмом reasoning.

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

Работа

Data Scientist
56 вакансий