Все потоки

Базы данных *

Все об администрировании БД

СтатьиПостыНовостиАвторыКомпании

TantorLabs 5 авг в 10:52

Выбор индекса при соединении по нескольким столбцам

Средний

16 мин

1.4K

Блог компании Тантор ЛабсPostgreSQL * SQL * Базы данных * Высоконагруженные системы *

Кейс

Когда имеется несколько индексов с одинаковыми ведущими столбцами, иногда выбирается не лучший индекс, и время выполнения запроса увеличивается на порядки. Такие ситуации встречаются в сложных приложениях, но чаще всего в 1С:ERP, поскольку это приложение наиболее распространено. Как это обычно бывает: после миграции приложения на СУБД PostgreSQL часть запросов начинает выполняться медленнее. Планировщик выбирает индекс, созданный по меньшему числу столбцов, время выполнения увеличивается, потому что при использовании такого индекса индексные записи указывают на строки таблицы, которые не соответствуют условиям соединения. При выборе же индекса по большему числу задействованных в запросе столбцов время выполнения становится существенно ниже и практически не зависит от размера таблиц.

В статье детализируется часть доклада Максима Старкова на конференции PG BootCamp, которая прошла в апреле в Екатеринбурге. Описываются признаки таблиц и индексов, при работе с которыми может возникнуть проблема выбора худшего индекса, а также рассматривается пример, демонстрирующий, что строка "Buffers" характерна для определения эффективности выполнения запроса (в 18 версии PostgreSQL "Buffers" будет показываться в планах по умолчанию).

Читать далее

+11

badcasedaily1 4 авг в 14:01

Resource Groups в MySQL

Простой

4 мин

940

Блог компании OTUSMySQL * Базы данных *

Обзор

Привет, Хабр!

Сегодня мы рассмотрим Resource Groups в MySQL — и перестанем жить на одной CPU.

Resource Groups — это контроль над CPU прямо из SQL. Вы создаёте логическую группу, говорите «эта группа может использовать только 2 CPU и работать на низком приоритете», и назначаете туда тяжелые, но второстепенные задачи. Всё. Дальше MySQL сам всё регулирует.

Читать далее

+5

dolgonosic 4 авг в 13:30

Как мы реализовали георезервирование инфраструктуры для системы видеоконференций: опыт, ошибки, выводы

Средний

13 мин

4K

Блог компании К2ТехБазы данных * Облачные сервисы * DevOps * Серверное администрирование *

Кейс

Что общего у систем видеоконференцсвязи (ВКС), финансовых транзакций и авиаперевозок? Все они должны работать всегда, когда нужны людям. Сегодня расскажем, как мы строили георезервирование для инфраструктуры, что пошло не так и какие выводы сделали. Перед вами — true story, как мы помогаем одному из наших заказчиков сопровождать инфраструктуру большого критичного сервиса.

Привет, Хабр! Это Никита Турцаков и Алексей Кузьмин из К2.

В этой статье расскажем:

• зачем и для чего нужно георезервирование для системы ВКС;
• как мы подошли к выбору архитектуры;
• с чем столкнулись при реализации;
• и что бы сделали по-другому, если бы начинали сейчас.

Готовьтесь: будет много практики и немного боли — потому что как без неё в масштабных и амбициозных задачах.

Читать далее

+53

alealandreev 3 авг в 17:31

Выбор стратегии компактизации в ScyllaDB

Средний

28 мин

2.4K

NoSQL * Базы данных * Big Data * Data Engineering * Высоконагруженные системы *

Туториал

ScyllaDB — это высокопроизводительная NoSQL база данных, созданная как улучшенная версия Apache Cassandra на C++. Она способна обрабатывать миллионы операций в секунду, что делает ее лидером среди распределенных баз данных. Такая производительность достигается благодаря особой архитектуре хранения данных, в центре которой находится процесс компактизации данных. Правильный выбор стратегии компактизации данных и ее оптимизация - это ключ к высокой производительности и отказоустойчивости распределенной базы данных ScyllaDB.

В этой статье рассмотрены все стратегии компактизации, их преимущества и недостатки, а также приведен детальный алгоритм выбора стратегии компактизации под конкретные use cases.

Читать далее

+6

bormee 3 авг в 17:15

CJON (Compact JSON-like Object Notation) v0.1

Средний

5 мин

4.6K

Базы данных * Восстановление данных * Хранение данных * Сжатие данных *

Из песочницы

1. Назначение

CJON – это легковесный, компактный и человекочитаемый формат, предназначенный для использования в условиях ограниченных каналов связи, таких как SMS, DTMF, и низкоскоростная радиосвязь. Его основное назначение – передача структурированных телеметрических или управляющих данных в случаях, когда традиционный JSON слишком объёмен, а бинарные форматы непрактичны или плохо читаемы.

2. Области применения

• Дистанционная телеметрия для сельского хозяйства и промышленного оборудования
• Аварийные сообщения и тревоги
• Автоматизация в условиях низкоскоростной или оффлайн-связи
• Мобильные устройства, передающие структурированные данные через SMS или голосовую связь
• Передача данных по DTMF через GSM-сети

Читать далее

+1

Bright_Translate 1 авг в 13:01

Как я от нечего делать замедлил Postgres в 42 000 раз

Средний

11 мин

18K

Блог компании RUVDS.comPostgreSQL * Базы данных * Хранение данных * Высоконагруженные системы *

Кейс

Перевод

Всех постоянно интересует, как сделать Postgres быстрее, эффективнее и всё такое, но никто не задумывался, как её замедлить. Да, большинству этих людей платят за то, чтобы они повышали скорость, но ко мне это не относится. Недавно я писал более полезное руководство, и мне вдруг пришла мысль, что кто-то должен попробовать создать такую конфигурацию Postgres, которая будет настроена на максимально медленную обработку запросов. Зачем? Сложно сказать, но вот такая возникла мысль.

Читать далее

+75

MVideohabr 1 авг в 10:25

Больше, чем аналитика: как Process Mining помогает ритейлу экономить и повышать выручку

9 мин

1.5K

Блог компании М.Видео-ЭльдорадоАнализ и проектирование систем * Базы данных *

Процессная аналитика (Process Mining) — это методология сбора и анализа информации о бизнес-процессах. Она помогает составить реальную схему процессов, разобраться в их работе и найти узкие места, требующие вашего внимания. Также процессная аналитика помогает выявлять «нетипичные» пути прохождения и прогнозировать работу бизнес-процессов.

Мы рассмотрим подробнее эту методологию и особенности её применения. А также на нескольких примерах из практики М.Видео-Эльдорадо и Т1 покажем, чем процессная аналитика может быть полезна в компании.

Читать далее

+8

danolivo 1 авг в 08:11

Выжимаем максимум из Postgres на RTABench Q0

Средний

10 мин

1.6K

PostgreSQL * Серверная оптимизация * Базы данных *

Кейс

Время от времени приходится слышать мнение, что Postgres никуда не годится для решения задач аналитики. При при этом, в качестве аргументации приводятся в пример результаты тестирования на TPC‑H или ClickBench. Что ж, когда стоит простая задача перебрать 100 млн строк на диске и посчитать набор агрегатов над ними — формат хранения и распараллеливания действительно сильно ограничивают нас в возможностях оптимизации СУБД. Однако когда запросы высоко селективны, им по факту требуется не так много строк таблицы и фокус внимания смещается на порядок JOINов, кэширование промежуточных результатов и минимизацию операций сортировки. В этом случае Postgres, имеющий весьма широкий выбор различных стратегий выполнения запроса, может получить преимущество...

Читать далее

+10

akardapolov 1 авг в 07:52

Автоматическое определение параметров хранения в базе данных

Средний

7 мин

1.4K

Базы данных * Анализ и проектирование систем * Java * Высоконагруженные системы * Визуализация данных *

Кейс

Предлагается к рассмотрению метод динамического определения форматов хранения и типов индексации в таблицах аналитической базы данных Dimension DB. На основе метаданных из источников данных (SQL-запросов, таблиц или представлений) определяется формат хранения или представления данных, а по текущему распределению данных, автоматически определяется тип индексирования.

Читать далее

+8

melanny20 31 июл в 16:05

Shardman и Citus: как масштабировать СУБД Postgres Pro

Простой

5 мин

2.8K

Блог компании Postgres ProfessionalPostgreSQL * Системное администрирование * Базы данных *

Обзор

Когда ресурсы сервера уже на пределе, вертикальное масштабирование рано или поздно перестаёт работать — остаётся горизонтальный подход. В этой статье подробно разбираем два способа шардирования в Postgres Pro: Shardman и внешнее расширение Citus. Сравним архитектуры, межузловое взаимодействие, схемы распределения данных и сценарии, в которых каждое решение раскрывается по‑максимуму.

Читать далее

+25

dmkan 31 июл в 14:00

Ускоренная экстракция данных из SAP-систем в DWH и Lakehouse: наш опыт интеграции

Средний

5 мин

1.5K

Блог компании Sapiens solutionsData Engineering * ERP-системы * Базы данных *

В современных условиях возрастает актуальность выгрузки данных из SAP ERP в хранилища данных DWH или Data Lakehouse сторонних вендоров. Интеграция с системами, не входящими в экосистему SAP, зачастую сопровождается сложностями: поставщики программного обеспечения, как правило, не поддерживают использование конкурентных продуктов. Нативный механизм выгрузки данных в SAP BW (Business Warehouse) не может быть применен к системам, не принадлежащим к экосистеме SAP.

На нашем проекте внедрения хранилища данных на основе Arenadata DB для одного из крупных банков мы столкнулись со сложностями при интеграции с SAP S/4HANA.

В статье рассматривается решение, которое позволяет быстро и надежно производить выгрузку больших объемов данных.

Читать далее

+6

alserok 30 июл в 14:54

Практический CQRS и Event Sourcing на Go

Простой

4 мин

3.4K

Параллельное программирование * Базы данных * Алгоритмы * IT-инфраструктура * Go *

Event Sourcing и CQRS — это мощные архитектурные подходы, которые заменяют традиционное CRUD-управление состоянием на журналирование событий и разделение операций записи и чтения для масштабируемости и надежности. Вместо прямого изменения данных система сохраняет каждое изменение как событие, что обеспечивает полный аудит, контроль конкурентности и гибкость в обработке данных.

Читать далее

+6

select_zvezdo4ka_from 30 июл в 14:18

ClickHouse не тормозит, но теряет данные. Часть 1 — дедупликация

7 мин

7.1K

Data Engineering * Big Data * Базы данных * Серверное администрирование *

Туториал

ClickHouse не тормозит, но теряет данные. Набор простых действий с объяснениями, позволяющий избежать потери данных

Читать далее

+19

ArchitectSimbirSoft 30 июл в 13:05

Если не хватает памяти для процессинга модели SSAS: варианты решения проблемы

Сложный

9 мин

652

Блог компании SimbirSoftПрограммирование * Базы данных *

Кейс

Всем привет! Меня зовут Николай, я DBA-разработчик SimbirSoft. Если вам приходилось иметь дело с табличной моделью данных SQL Server Analysis Services (SSAS), то вы наверняка знаете, что на сервере она работает только в режиме In-Memory и использует под свои процессы выделенную часть оперативной памяти. А когда памяти недостаточно для нормальной работы, то возникает системное сообщение о ее нехватке.

В этой статье я кратко рассмотрел причины и общие стратегии по решению данной проблемы, а также рассказал о своем опыте на примере табличной модели объемом около 100 ГБ на MS SQL Server 2019 Ent.

Погрузиться в чертоги

+5

VitaminND 29 июл в 16:15

Data Vault: моделирование хабов, линков, сателлитов в IDE asapBI

Средний

5 мин

945

Data Engineering * PostgreSQL * Базы данных * Текстовые редакторы и IDE * Хранение данных *

Из песочницы

Recovery Mode

Привет, Хабр!

Всем хорош Data Vault, однако схватиться с ним «врукопашную», используя только SQL, захочет не каждый. Останавливает большой объем ручных операций, а также большой объем деталей реализации. Большое количество join, за которые критикуют Data Vault, не является определяющим моментом, так как уже сейчас базы данных способны их эффективно обрабатывать, а с течением времени мощность серверов только возрастает.

Но творческая мысль не дремлет, постепенно появляются инструменты для автоматизации построения Data Vault. Например, это пакет AutomateDV для dbt, графическая надстройка над ним Datapulse, построение модели DV в BI.Qube.

Data Vault меня заинтересовал — уж много плюшек он сулит, и для его изучения я занимаюсь проектом asapBI — low‑code IDE для моделирования DWH. Требования к создаваемой системе я описал на сайте asapbi.ru. Их достаточно много, поэтому не буду их тут перечислять.

Сегодня я хотел поделиться графическим интерфейсом для создания хабов, линков и стеллитов.

Читать далее

+1

ItsPavel 29 июл в 09:02

Как перестать сомневаться и подать доклад на IT-конференцию

Простой

4 мин

619

Блог компании Конференции Олега Бунина (Онтико)Системное администрирование * Высоконагруженные системы * КонференцииБазы данных *

Туториал

Привет, Хабр! За то время, пока существует Онтико, мы подготовили вместе со спикерами тысячи докладов. И точно знаем, что спикер тоже человек и как любой человек он может сомневаться.

Мы поговорили с психологами и опытными докладчиками, чтобы разобрать страхи, знакомые каждому начинающему спикеру. В этой статье — пошаговый разбор, как выбрать тему, которую точно примут, как перестать бояться недостатка опыта и подготовить доклад без выгорания.

Читать далее

+12

Auterrix 29 июл в 08:00

Оптимизация Redis для высоких нагрузок: полное руководство

Средний

15 мин

14K

Блог компании SelectelIT-стандарты * Программирование * Базы данных * IT-инфраструктура *

Обзор

Привет, Хабр! На связи Александр Горьев, ведущий разработчик в Selectel. Сегодня в фокусе нашего внимания Redis — высокопроизводительное хранилище «ключ-значение», работающее в оперативной памяти. Скорость, простота и богатый набор структур сделали Redis очень популярным.

На старте Redis часто воспринимается как инструмент, который отлично работает «из коробки». Действительно, при небольшом объеме данных и малом числе клиентов он стабильно быстр даже с настройками по умолчанию. Однако с ростом нагрузки и усложнением архитектуры появляются проблемы. Ситуация усугубляется тем, что у каждого сценария свои требования к конфигурации и нет универсального набора параметров.

Мы рассмотрим целостный подход к оптимизации: от управления памятью и клиентскими подключениями — до выбора структур данных, настройки механизмов персистентности и использования встроенных инструментов мониторинга. Перейдем от запоздалого решения проблем к упреждающей стратегии и планированию мощностей.

Читать далее

+75

badcasedaily1 28 июл в 16:38

Расчет RFM-модели в чистом SQL на примере магазина котиков: коротко

Простой

6 мин

1.9K

Блог компании OTUSData Engineering * Data Mining * Базы данных * SQL *

Обзор

Привет, Хабр!

Сегодня мы рассмотрим, как реализовать RFM‑модель в чистом SQL на примере магазина котиков.

Читать далее

+8

TantorLabs 28 июл в 14:11

Работа с временными таблицами в PostgreSQL

Средний

18 мин

2.4K

Блог компании Тантор ЛабсБазы данных * SQL * PostgreSQL * Высоконагруженные системы *

Обзор

При создании временных таблиц в PostgreSQL изменяются до 13 таблиц системного каталога, при этом особенно сильно разрастаются pg_attribute, pg_class, pg_depend и pg_type. Массовое создание и усечение временных таблиц активно применяется, в том числе в 1C:ERP. В статье рассматриваются особенности работы с временными таблицами и описано решение проблемы раздувания таблиц системного каталога, реализованное в СУБД Tantor Postgres.

Читать далее

+8

Flampanzer 28 июл в 08:00

Расширение jsquery для PostgreSQL — точные и быстрые выборки из JSONB

Простой

14 мин

5.6K

Блог компании SelectelPostgreSQL * Базы данных * IT-стандарты * Программирование *

Обзор

Привет, Хабр! Это Антон Дятлов, инженер по защите информации в Selectel. В современных базах данных JSON — де-факто стандарт для хранения полуструктурированных сведений. PostgreSQL предлагает два специализированных типа для работы с ним: json и jsonb. Первый хранит точную текстовую копию документа со всеми пробелами и порядком ключей. Второй применяет оптимизированный бинарный формат.

Рассказываем про jsquery — расширение, которое предоставляет полноценный язык для формулирования выборок. Появляется возможность писать декларативные, понятные и очень быстрые инструкции для работы с jsonb-полями.

Читать далее

+60

1 2 ...

10

11 12 ...