Все потоки

Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

@PhoenixLi 26 ноя в 09:08

От минут к секундам, от ClickHouse к StarRocks: путь к real‑time в Hello

Средний

12 мин

6.4K

Big Data * Data Engineering * Open source * Java *

Кейс

Recovery Mode

Кейс Hello: миграция 100+ млрд строк с ClickHouse на StarRocks. Как ускорить аналитику в 5 раз, снизить расходы на инфраструктуру на 80% и построить real-time DWH. Разбор архитектуры, самописных инструментов валидации и подводных камней перехода.

Читать далее

+2

25 ноя в 12:28

Властелин алгоритмов: сезон «ИИ в разработке» на Хабре

3 мин

12K

Блог компании ХабрBig Data * Машинное обучение * Искусственный интеллект

Сезон ИИ в разработке

Он пришёл на пятый день с востока! Сезон «ИИ в разработке» на Хабре.

Искусственный интеллект становится соисполнителем в современной разработке, он берет на себя анализ кода, стратегическое планирование и другие задачи. И в этом сезоне мы предлагаем вам поделиться историями о том, как искусственный интеллект помогает решать реальные задачи, разгружать рутину и ускорять процессы в работе и жизни.

Под катом — условия, призы и детали участия.

Читать далее

+31

@koanse 24 ноя в 05:23

Особенности агрегации SUMMARIZE в Power BI

4 мин

5.5K

Big Data * SQL * Визуализация данных *

Кейс

Привет, Хабр! Некоторые функции DAX из Power BI могут выглядеть интуитивно понятными, но при детальном рассмотрении ведут себя не совсем ожидаемо. Например, SUMMARIZE не агрегирует «сразу», в месте использования, но SUMMARIZE реализуется через «виртуальную», «отложенную» агрегацию за счет сохранения состояния. Для суммы, т.е. SUM, промежуточное состояние и есть сумма и особенности SUMMARIZE не проявляются, но для любой другой агрегации (например, среднего AVERAGE) становится понятно, что в Power BI уже учитывается так называемое состояние для корректного расчета SUMMARIZE, т.е. данные по всем записям сохраняются в состоянии. В других СУБД единственный аналог — только State и Merge комбинаторы из ClickHouse, поэтому для иллюстрации состояний будет рассмотрен пример из ClickHouse, соответствующий DAX с SUMMARIZE и AVERAGE. Интересующимся особенностями SUMMARIZE в Power BI — добро пожаловать под кат :)

Читать далее

+1

@vkotletkin 23 ноя в 16:31

Расширяем функционал Apache NiFi 2.0: руководство к написанию своего процессора

Средний

17 мин

6.2K

Big Data * Apache * Java * Data Engineering *

Из песочницы

Привет, Хабр!

В последние годы потоки данных в различных системах и между ними только увеличиваются, а в дальнейшем этот тренд наврятли изменится. Для работы с данными всегда требуются различные инструменты.

Apache NiFi — программный продукт с открытым исходным кодом, написанный на языке Java, предназначенный для автоматизации потоков данных между системами. Главная его задача: организовывать ETL-процессы. На GitHub у Apache NiFi имеется 5.9 тысяч звезд.

Эта статья посвящена написанию процессора для Apache NiFi на Java и требует базовых знаний в области Apache NiFi, опыт программирования на Java и IDE на борту компьютера.

Читать далее

+1

@antipov_dmitry 23 ноя в 14:30

LLM Evals: движущая сила новой эры ИИ в бизнесе

7 мин

7.5K

Искусственный интеллектМашинное обучение * Big Data * Анализ и проектирование систем *

Перевод

На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей читабельности, очень уж бюрократический язык в оригинале.

Статью авторы называют «руководством для бизнес-лидеров». Внутри — про оценку недетерминированных систем, как к этому подходить, немного про A/B тесты и почему не стоит пытаться решить все сразу. Классический цикл фиксации метрики и постепенного ее улучшения, но с LLM спецификой.

Так что это стоит прочитать как сборник хороших практик для LLM-систем. Дальше — слово OpenAI.

Читать далее

+2

@flow_data 23 ноя в 08:15

Atomic insert in Clickhouse

Средний

7 мин

6.1K

Big Data * Data Engineering *

Из песочницы

В этой статье мы поговорим о том, как реализовать поведение атомарной вставки в ClickHouse. Рассмотрим несколько вариантов, подсветим их сильные и слабые стороны, а также, когда каждый из них применять.

Читать далее

+1

@bdmitriipro 21 ноя в 07:07

Почему ChatGPT не знает ваших внутренних данных и как это исправить: простое объяснение RAG

3 мин

7.4K

Мнение

Вы думаете, ChatGPT стал идеальным? Может «загуглить» любой факт, анализировать документы, даже писать код? Попробуйте спросить его про внутренние API вашей компании, корпоративные гайдлайны или правила код-ревью. Он молчит — и не зря. Ведь около 80 % рабочего времени программист тратит на поиск информации во внутренних системах.

Сегодня расскажу о технологии, которая решает эту проблему — Retrieval Augmented Generation (RAG).

Читать далее

+2

@kucev 20 ноя в 10:02

Как подключить LLM в n8n без иностранной карты и протестировать сервис бесплатно

2 мин

5.9K

Блог компании Data Feeling SchoolBig Data * Машинное обучение * Искусственный интеллектData Mining *

Подключить LLM к n8n вроде бы просто, но на практике большинство зарубежных сервисов ломают весь процесс. Чтобы получить ключ, приходится использовать карту иностранного банка и заходить с иностранного IP-адреса. Для российских разработчиков и вайбкодеров это превращается в отдельный квест.

Поэтому в инструкции разберем, как настроить работу LLM в n8n без иностранной карты и протестировать все бесплатно. Для примера воспользуемся сервисом VseLLM — это российский аналог OpenRouter, где можно оплачивать модели российской картой. Плюс у сервиса есть готовая интеграция с n8n, поэтому подключение занимает несколько минут. Пользователи VseLLM получают доступ к бесплатному серверу, который развернут и поддерживается командой сервиса. Все работает из коробки, если на вашем балансе есть хотя бы небольшой положительный остаток.

Чтобы протестировать систему, достаточно активировать промокод VSELLM — он начисляет 200 рублей. Этого достаточно, чтобы спокойно протестировать пару нодов и собрать свои первые рабочие цепочки. А если вдруг вы проходите обучение в школе DATAFEELING, то тоже получите доступ бесплатно.

Читать далее

+1

@Vjatcheslav_S 19 ноя в 13:00

Adaptive Query Execution в Spark 3: как умная оптимизация покончила с ручными танцами с бубном

Средний

6 мин

6K

Блог компании АО «ГНИВЦ»Hadoop * Big Data * Data Engineering * Apache *

Обзор

Представим ситуацию: мы спланировали маршрут до точки назначения, предположили, по какой дороге будет быстрее добраться, даже вспомнили, где обычно бывают пробки, чтобы их объехать. Но, неожиданно, на самом свободном участке образовался затор из‑за аварии в правом ряду. В этот момент понимаем, что лучше бы мы ехали по навигатору, и какая‑нибудь «Анфиса» предупреждала о дорожной ситуации, чтобы в определенный момент можно было изменить траекторию движения. Именно так годами чувствовали себя пользователи Spark, когда их красиво оптимизированные запросы наталкивались на суровую реальность распределенных данных.

Читать далее

+3

@qlever 18 ноя в 15:48

Подход к построению DWH, основанный на единой инфраструктуре данных Unified Data Infrastructure или модели a16z

5 мин

9.2K

Высоконагруженные системы * Анализ и проектирование систем * Data Engineering * Big Data * Базы данных *

В статье рассказываем о подходе к построению DWH на базе единой инфраструктуры данных (Unified Data Infrastructure), разработанной Andreessen Horowitz.

Разбираемся, почему модель a16z полезна в быстрорастущих компаниях или тех, кто переходит к data-driven управлению.

Читать далее

+2

@PhoenixLi 18 ноя в 10:55

Полное руководство по управлению привилегиями в StarRocks

Средний

4 мин

5.4K

Big Data * Data Engineering * SQL * Open source *

Туториал

Recovery Mode

Статья — практическое руководство по управлению привилегиями в StarRocks: объектная модель (SYSTEM, CATALOG, DATABASE, TABLE, VIEW, MATERIALIZED VIEW, FUNCTION и др.), перечень привилегий для каждого типа сущности и соответствующие операции. Разбираем роль‑based доступ (RBAC): встроенные роли (root, cluster_admin, db_admin, user_admin, public), создание собственных ролей и выдачу прав через GRANT/REVOKE с наглядными SQL‑примерами. Отдельный блок — особенности StarRocks: ограничение ресурсов на пользователя (max_user_connections), роли по умолчанию и их активация при входе, массовая выдача прав через public, выполнение от имени другого пользователя (IMPERSONATE/EXECUTE AS). Материал полезен инженерам данных, DBA и разработчикам, работающим с OLAP/MPP‑СУБД и хранилищами данных, а также тем, кто внедряет контроль доступа в аналитических кластерах. Дополнительно освещены создание пользователей с разными методами аутентификации (включая LDAP), управление RESOURCE/RESOURCE GROUP, GLOBAL FUNCTION и STORAGE VOLUME, а также практики безопасной раздачи прав по ролям.

Читать далее

0

@PhoenixLi 17 ноя в 11:44

Глубокое сравнение StarRocks и ClickHouse в задачах аналитики в реальном времени и соображения по выбору

Сложный

7 мин

6.5K

Big Data * Data Engineering *

Аналитика

Перевод

Статья представляет техническое сравнение StarRocks и ClickHouse для real‑time аналитики. На идентичных AWS‑кластерах с набором ~1 ТБ (Parquet, >3 млрд строк) смоделированы параллельные нагрузки (k6) и непрерывный поток UPSERT из PostgreSQL через CDC. Оцениваются субсекундная Latency, согласованность обновлений, полнофункциональные JOIN и операционная простота (TCO). ClickHouse с Replacing/CollapsingMergeTree обеспечивает eventual consistency и нередко требует FINAL/внешних потоковых компонентов. StarRocks с Primary Key Model дает нативный UPSERT с мгновенной видимостью изменений и асинхронным Compaction. В бенчмарках StarRocks показал до ~40% преимущество в длинных запросах, лучший p99/QPS и стабильность (без HTTP 5xx). В контексте Lakehouse StarRocks сильнее за счет внешних таблиц и записи в Apache Iceberg. Рекомендации: ClickHouse — для append‑only сценариев; StarRocks — для real‑time аналитики с частыми обновлениями.

Читать далее

+1

@PastorGL 17 ноя в 11:33

Добавляем MapReduce в этот наш SQL: генераторы на основе курсоров

Средний

20 мин

7.7K

SQL * Big Data * Java * Hadoop * Программирование *

Туториал

Вот уже который год я потихоньку разрабатываю SQL-ный движок на основе Apache Spark, специализированный под задачи ETL. И хотя диалект языка изначально называется «Transform Definition Language», писать трансформации данных непосредственно на нём самом было до сих пор невозможно. Вместо этого на фазе Transform предполагалось использовать подключаемые модули, которые рантайм интерпретатора предоставляет из Java classpath.

Это очень эффективный с точки зрения производительности, но довольно долгий с точки зрения внедрения, и дорогой в разработке способ. Сначала трансформацию надо описать формально в виде статьи-whitepaper'а (это делает data scientist), потом написать прототип на Python (ответственность data analyst), отладиться на сэмпле реальных данных (тоже аналитик), и тогда уже делать и оптимизировать финальную имплементацию на Java с использованием низкоуровневого API Spark (собственно, задача разработчика). Неудобно.

Нельзя ли его как-нибудь сократить? Например, дать аналитикам инструмент для написания трансформаций непосредственно в самом SQL, вынеся некоторую часть функциональности MapReduce как разновидность итерирующих функций? Можно, конечно!

Давайте узнаем, как именно

+2

@Aleron75 17 ноя в 10:47

Проанализировал 3000 n8n workflow и выделил топ-40 нод. Забирайте в виде pdf

Простой

1 мин

9K

Блог компании Data Feeling SchoolBig Data * Data Mining *

Недавно меня попросили мои студенты сделать для них какой-нибудь гайд по самым популярным нодам в n8n, чтобы быстро погрузить в их разнообразие.

Чтобы моя подборка была действительно из самых часто используемых n8n нод - я спарсил большую коллекцию из 3000 workflows. Разбил ее на ноды. Удалил ноды, которые редко используются в СНГ. Добавил к каждой ноде короткое описание и примеры использования, в итоге получился cheat sheet гайд на почти 40 n8n нод в виде pdf - забирайте pdf по ссылка с гугл драйва!

Забрать pdf файл с результатом анализа

+8

@lkill 17 ноя в 08:28

Мощь XBRL в мире данных: автоматизируем проверку отчетности с помощью SQL-формул

Средний

7 мин

6.8K

Базы данных * Анализ и проектирование систем * Data Mining * Big Data *

Всем привет! В первой части https://habr.com/ru/articles/958356/ мы познакомились с форматом XBRL-CSV2, который позволяет упаковать сложность XBRL-отчетности в простые и удобные для обработки CSV-таблицы. Мы обсудили, как данные и их метаописания (маппинг) преобразуются из XML-представления в реляционное.

Но сбор данных — это только половина дела. Вторая, не менее важная часть — это их проверка на целостность, непротиворечивость и соответствие бизнес-правилам. В классическом XBRL за это отвечает формульный слой (Formula Layer). Сегодня мы поговорим о том, как мы превратили эти формулы в исполняемые SQL-скрипты, создав так называемый «слой отделяемых формул».

Читать далее

+3

@MnsDev 16 ноя в 17:28

Как устроена цензура изнутри. На примере слитого китайского фаерволла (блокировки Tor, VPN, анализ трафика)

Простой

7 мин

55K

Блог компании Femida SearchBig Data * Информационная безопасность * Реверс-инжиниринг * Сетевые технологии *

Продолжаем нашу серию статей с разбором работы Китайского Firewall'а (GFW). В этой статье углубимся в техническую часть этой системы

Читать далее

+34

@maksimkushner 14 ноя в 13:00

Как создать динамическую сводную таблицу на Power BI Report Server

Средний

22 мин

6.5K

Блог компании Лемана ТехВизуализация данных * Big Data *

Туториал

Всем привет! Меня зовут Максим Кушнер, и я занимаюсь BI-разработкой в команде HR-аналитики «Лемана Тех». Дашборды, которые создаёт и поддерживает наша команда, охватывают широкий круг HR-процессов компании, в т. ч. состояние и движение персонала, расходы на персонал, продуктивность, контроль использования рабочего времени, обучение, профессиональное развитие, вовлечённость, внутренние конкурсы, различные рейтинги и др. Пользователями дашбордов могут быть все 40 000+ сотрудников нашей компании – от топ-менеджмента до любого работника в магазине. Соответственно, количество различных срезов данных и бизнес-показателей в дашбордах может исчисляться десятками.

И очень часто наши коллеги говорят: «Ваш дашборд, конечно, классный, но нам хочется самим покрутить данные». Другими словами, пользователи хотят построить аналитику в нужных им разрезах и структуре, которые не предусмотрены разработчиком по умолчанию.

Если не пытаться решить эту боль пользователя, то он просто экспортирует сырые данные из дашборда в Excel, где использует инструмент сводных таблиц (pivot tables) для выстраивания аналитики в нужном ему виде. Но тогда встаёт вопрос: зачем нужен такой дашборд (и его разработчики), если пользователь использует его как перевалочный пункт, а основную ценность извлекает из другого инструмента?

Читать далее

+6

@Ledi_Bag 14 ноя в 09:18

Как мы тестируем RT.Warehouse: тестовые сценарии, сбор и анализ метрик по результатам тестирования

Средний

7 мин

6.8K

Блог компании РостелекомBig Data * Тестирование IT-систем * IT-компанииPostgreSQL *

Привет, Хабр! Меня зовут Ольга Проскурякова, я лид направления тестирования в компании TData. Эта статья — моя первая публикация на Хабре. Буда рада поделиться своим опытом.

Платформа, которую разрабатывает TData — это комплексное решение для работы с большими данными: сбор, управление, хранение, визуализация и анализ. В центре платформы — десяток ключевых продуктов. Все они проходят проверку нашей командой тестировщиков. Сегодня я расскажу о том, как мы тестируем один из них.

Для наглядности опишу предметную область тестирования. Это продукт RT.Warehouse — массивно‑параллельная СУБД для построения хранилищ данных, разработанная на базе Greenplum.

RT.Warehouse обеспечивает высокую степень производительности и отказоустойчивости благодаря гибкости горизонтального масштабирования, использованию в ядре продвинутого оптимизатора запросов и адаптации архитектуры для хранения и обработки больших массивов данных.

Читать далее

+7

@PhoenixLi 14 ноя в 03:15

Сверхбыстрые запросы: принципы Compaction при разделении хранения и вычислений в StarRocks и руководство по тюнингу

Средний

12 мин

6.9K

Data Engineering * Big Data * Open source * SQL *

Перевод

StarRocks при каждом импорте данных создаёт новую версию, что со временем приводит к росту числа мелких файлов и падению эффективности запросов. Фоновый процесс Compaction объединяет версии, устраняет дубликаты и сокращает количество I/O. В материале разобраны: архитектура Compaction в режиме разделения хранения и вычислений (FE — Scheduler, BE/CN — Executor), диспетчеризация по Partition и Tablet, критерии безопасной очистки данных, а также практики тюнинга. Показано, как смотреть Compaction Score на уровне Partition, отслеживать и отменять задачи, и какие параметры FE/BE/CN действительно влияют на производительность (compact_threads, lake_compaction_max_tasks и др.). Отдельно затронут мониторинг и алерты в Grafana/Prometheus. Текст ориентирован на инженеров DWH/OLAP и эксплуатацию высоконагруженных систем хранения данных.

Читать далее

+4

@Cloud4Y 12 ноя в 14:34

3D-карта вместо инстинктов: как робот учится ползать и прыгать

4 мин

11K

Блог компании Cloud4YBig Data * Читальный залРобототехникаНаучно-популярное

Перевод

В Гонконге разработали технологию для передвижения четвероногих роботов. Теперь они почти как настоящие животные способны автономно преодолевать экстремально сложные препятствия. Роботы находят обходные пути там, где кажется, что пройти невозможно. Как это стало возможно и какие возможности открывает новая технология?

Читать далее

+2

2

3 4 ...