Базы данных *

Все об администрировании БД

СтатьиПостыНовостиАвторыКомпании

AlexanderDeulin 5 авг 2020 в 09:25

Кэши Tarantool и репликация из Oracle

7 мин

4.5K

Блог компании VKВысоконагруженные системы*Базы данных*Tarantool*Oracle*

Меня зовут Александр Деулин, я работаю в отделе развития собственной разработки «Фабрика микросервисов» в компании МегаФон. И хочу рассказать о тернистом пути появления кэшей Tarantool в ландшафте нашей компании, а также о том, как мы внедряли репликацию из Oracle. И сразу поясню, что под кэшем в данном случае подразумевается приложение с базой данных.

Читать дальше →

+23

Kilor 4 авг 2020 в 12:30

PostgreSQL Antipatterns: «Должен остаться только один!»

3 мин

16K

Блог компании ТензорPostgreSQL*SQL*Базы данных*Программирование*

На SQL вы описываете «что» хотите получить, а не «как» это должно исполняться. Поэтому проблема разработки SQL-запросов в стиле «как слышится, так и пишется» занимает свое почетное место, наряду с особенностями вычисления условий в SQL.

Сегодня на предельно простых примерах посмотрим, к чему это может приводить в контексте использования GROUP/DISTINCT и LIMIT вместе с ними.

Вот если вы написали в запросе «сначала соедини эти таблички, а потом выкинь все дубли, должен остаться только один экземпляр по каждому ключу» — именно так и будет работать, даже если соединение вовсе не было нужно.

И иногда везет и это «просто работает», иногда — неприятно сказывается на производительности, а иногда дает абсолютно неожидаемые с точки зрения разработчика эффекты.

Ну, может, не настолько зрелищные, но…

«Сладкая парочка»: JOIN + DISTINCT

SELECT DISTINCT
  X.*
FROM
  X
JOIN
  Y
    ON Y.fk = X.pk
WHERE
  Y.bool_condition;

Как бы понятно, что хотели отобрать такие записи X, для которых в Y есть связанные с выполняющимся условием. Написали запрос через JOIN — получили какие-то значения pk по несколько раз (ровно сколько подходящих записей в Y оказалось). Как убрать? Конечно DISTINCT!

Читать дальше →

+24

zverolyub 30 июл 2020 в 14:59

Сказ о том, как каскадное удаление в Realm долгий запуск победило

11 мин

5.9K

Блог компании Dodo EngineeringAndroid*Разработка мобильных приложений*Базы данных*Kotlin*

Все пользователи считают быстрый запуск и отзывчивый UI в мобильных приложениях само собой разумеющимся. Если приложение запускается долго, пользователь начинает грустить и злиться. Запросто можно подпортить клиентский опыт или вовсе потерять пользователя ещё до того, как он начал пользоваться приложением.

Однажды мы обнаружили, что приложение Додо Пицца запускается в среднем 3 секунды, а у некоторых «счастливчиков» 15-20 секунд.

Под катом история с хеппи эндом: про рост базы данных Realm, утечку памяти, то, как мы копили вложенные объекты, а после взяли себя в руки и всё починили.

Читать дальше →

+20

Kilor 29 июл 2020 в 17:55

Вооруженным глазом: наглядно о проблемах PostgreSQL-запроса

2 мин

8.1K

Блог компании ТензорPostgreSQL*SQL*Базы данных*Визуализация данных*

Технотекст 2020

Продолжаем открывать для публичного доступа новый функционал нашего сервиса анализа планов выполнения запросов в PostgreSQL explain.tensor.ru. Сегодня мы научимся определять больные места навскидку в больших и сложных планах, лишь мельком взглянув на них вооруженным глазом…

В этом нам помогут различные варианты визуализации:

Читать дальше →

+32

moscas 28 июл 2020 в 13:41

DataGrip 2020.2: редактор больших значений, предпросмотр SQL при редактировании, новое отображение ячеек bool и другое

6 мин

9.6K

Блог компании JetBrainsMicrosoft SQL Server*MySQL*PostgreSQL*Базы данных*

Привет! За последние четыре месяца мы выпускали фичи и между релизами, поэтому в этой статье о том, что нового появилось в DataGrip за это время. Она приурочена к нашему новому релизу: 2020.2. Получилось длинно, но, надеемся, полезно.

Читать дальше →

+18

chemtech 28 июл 2020 в 07:28

Patroni Failure Stories or How to crash your PostgreSQL cluster. Алексей Лесовский

24 мин

5.6K

PostgreSQL*Базы данных*Системное администрирование*

Основная цель Patroni — это обеспечение High Availability для PostgreSQL. Но Patroni — это лишь template, а не готовый инструмент (что, в общем, и сказано в документации). На первый взгляд, настроив Patroni в тестовой лабе, можно увидеть, какой это прекрасный инструмент и как он легко обрабатывает наши попытки развалить кластер. Однако на практике в производственной среде, не всегда всё происходит так красиво и элегантно, как в тестовой лабе.

+15

PeterZaitsev 23 июл 2020 в 20:50

Чем для вас опасна MongoDB SSPL лицензия?

3 мин

18K

Базы данных*Open source*MongoDB*

Из песочницы

Читая FAQ по SSPL MongoDB лицензии, кажется, что в ее изменении нет ничего страшного, если только вы не «большой и крутой провайдер облачных решений».

Однако спешу вас разочаровать: последствия непосредственно для вас станут гораздо серьезнее и хуже, чем вы могли бы подумать.

Читать дальше →

+18

chemtech 23 июл 2020 в 07:22

Борьба с нагрузкой в PostgreSQL, помогает ли репликация в этом. Андрей Сальников (Data Egret)

22 мин

11K

PostgreSQL*Базы данных*Системное администрирование*

Что делать, когда мастер сервер PostgreSQL погибает под нагрузкой?

Довольно часто встречается ситуация, когда база данных не тянет существующую нагрузку и вертикальное масштабирование железа не помогает. Менять PostgreSQL на другую базу данных или переделывать архитектуру приложения и отказываться от СУБД?

Читать дальше →

+11

olegborzov 16 июл 2020 в 08:00

PgGraph — утилита для архивации и поиска зависимостей таблиц в PostgreSQL

10 мин

5.3K

Блог компании ДомкликPostgreSQL*Python*Базы данных*

Сегодня я хочу представить читателям Хабра утилиту, написанную на Python, для работы с зависимостями таблиц в СУБД PostgreSQL.

API утилиты простое и состоит из трех методов:

archive_table — рекурсивная архивация/удаление строк с указанными Primary Keys
get_table_references — поиск зависимостей для таблицы (покажет таблицы, на которые ссылается указанная и ссылающиеся на нее)
get_rows_references — поиск строк в других таблицах, которые ссылаются на указанные строки в нужной таблице

Читать дальше →

+21

Kilor 8 июл 2020 в 07:10

PostgreSQL Antipatterns: анализируем блокировки — SELF JOIN vs WINDOW

4 мин

4.4K

Блог компании ТензорБазы данных*SQL*PostgreSQL*

Ранее мы уже научились перехватывать блокировки из лога сервера PostgreSQL. Давайте теперь положим их в БД и разберем, какие фактические ошибки и проблемы производительности можно допустить на примере их простейшего анализа.

В логах у нас отражается всего 3 вида событий, которые могут происходить с блокировкой:

ожидание блокировки
LOG: process 38162 still waiting for ExclusiveLock on advisory lock [225382138,225386226,141586103,2] after 100.047 ms
получение блокировки
LOG: process 38162 acquired ExclusiveLock on advisory lock [225382138,225386226,141586103,2] after 150.741 ms
взаимоблокировка
ERROR: deadlock detected

deadlock'и исключим из анализа — это просто ошибки, и попробуем выяснить, сколько всего времени мы потеряли из-за блокировок за конкретный день на определенном хосте.

Читать дальше →

+14

grichik 7 июл 2020 в 13:29

Когда у вас сберовские масштабы. Использование Ab Initio при работе с Hive и GreenPlum

12 мин

12K

Блог компании СберSQL*Базы данных*Программирование*

Некоторое время назад перед нами встал вопрос выбора ETL-средства для работы с BigData. Ранее использовавшееся решение Informatica BDM не устраивало нас из-за ограниченной функциональности. Её использование свелось к фреймворку по запуску команд spark-submit. На рынке имелось не так много аналогов, в принципе способных работать с тем объёмом данных, с которым мы имеем дело каждый день. В итоге мы выбрали Ab Initio. В ходе пилотных демонстраций продукт показал очень высокую скорость обработки данных. Информации об Ab Initio на русском языке почти нет, поэтому мы решили рассказать о своём опыте на Хабре.

Ab Initio обладает множеством классических и необычных трансформаций, код которых может быть расширен с помощью собственного языка PDL. Для мелкого бизнеса такой мощный инструмент, вероятно, будет избыточным, и большинство его возможностей могут оказаться дорогими и невостребованными. Но если ваши масштабы приближаются к сберовским, то вам Ab Initio может быть интересен.

Он помогает бизнесу глобально копить знания и развивать экосистему, а разработчику — прокачивать свои навыки в ETL, подтягивать знания в shell, предоставляет возможность освоения языка PDL, даёт визуальную картину процессов загрузки, упрощает разработку благодаря обилию функциональных компонентов.

В посте я расскажу о возможностях Ab Initio и приведу сравнительные характеристики по его работе с Hive и GreenPlum.

Описание фреймворка MDW и работ по его донастройке под GreenPlum
Сравнительные характеристики производительности Ab Initio по работе с Hive и GreenPlum
Работа Ab Initio с GreenPlum в режиме Near Real Time

Читать дальше →

+10

unfilled 5 июл 2020 в 16:37

SQL Server Plan Guide и другие не самые лучшие практики

11 мин

13K

Microsoft SQL Server*Базы данных*

Обычно посты об оптимизации запросов рассказывают о том, как делать правильные вещи, чтобы помочь оптимизатору запросов выбрать оптимальный план выполнения: использовать SARGable-выражения в WHERE, доставать только те столбцы, которые нужны, использовать правильнопостроенные индексы, дефрагментированные и с обновлённой статистикой.

Я же сегодня хочу поговорить о другом — о том, что ни в коем случае не относится к best practices, том, с помощью чего очень легко выстрелить себе в ногу и сделать выполнявшийся ранее запрос более медленным, или вообще больше не выполняющимся из-за ошибки. Речь пойдёт о хинтах и plan guides.

Читать дальше →

+17

chemtech 4 июл 2020 в 11:50

Что нужно знать об архитектуре ClickHouse, чтобы его эффективно использовать. Алексей Зателепин (2018г)

19 мин

25K

Хранение данных*Высоконагруженные системы*Базы данных*Open source*IT-инфраструктура*

ClickHouse — высокопроизводительная аналитическая база данных с открытыми исходниками, разработанная в Яндексе. Изначально ClickHouse создавался для задач Яндекс.Метрики, но постепенно нашёл множество применений как внутри Яндекса, так и в других компаниях. Я расскажу, как ClickHouse устроен внутри с акцентом на то, какие у выбранной архитектуры следствия с точки зрения прикладного разработчика.

Будут затронуты следующие темы:

Как ClickHouse хранит данные на диске и выполняет запрос, почему такой способ хранения позволяет на несколько порядков ускорить аналитические запросы, но плохо подходит для OLTP и key-value нагрузки.
Как устроена репликация и шардирование, как добиться линейного масштабирования и что делать с eventual consistency.
Как диагностировать проблемы на production-кластере ClickHouse.

+25

Kilor 28 июн 2020 в 17:20

PostgreSQL Antipatterns: накручиваем себе проблемы

5 мин

14K

Блог компании ТензорБазы данных*SQL*PostgreSQL*

Некоторые ситуации в работе PostgreSQL кажутся неочевидными, пока не попытаешься детально понять, «почему это работает так». Из-за незнания таких особенностей иногда разработчик сам провоцирует проблемы для нормальной работы своего приложения в будущем.

Сегодня разберем пару примеров, как неудачная организация БД и кода могут превратить наше приложение в клубок проблем:

накрутка serial при ON CONFLICT
накрутка счетчика транзакций

Читать дальше →

+21

imschur 24 июн 2020 в 12:40

Подозрительные типы

8 мин

14K

Блог компании ТензорPostgreSQL*SQL*Базы данных*

Из песочницы

В их внешнем облике ничто не вызывает подозрений. Более того, они даже кажутся тебе хорошо и давно знакомыми. Но это только до тех пор, пока ты их не проверишь. Вот тут-то они и проявят свою коварную сущность, сработав совсем не так, как ты ожидал. А иногда выкидывают такое, от чего волосы просто встают дыбом — к примеру, теряют доверенные им секретные данные. Когда ты делаешь им очную ставку, они утверждают, что не знают друг друга, хотя в тени усердно трудятся под одним колпаком. Пора уже наконец-то вывести их на чистую воду. Давайте же и мы разберемся с этими подозрительными типами.

Типизация данных в PostgreSQL, при всей своей логичности, действительно преподносит порой очень странные сюрпризы. В этой статье мы постараемся прояснить некоторые их причуды, разобраться в причине их странного поведения и понять, как не столкнуться с проблемами в повседневной практике. Сказать по правде, я составил эту статью в том числе и в качестве некоего справочника для самого себя, справочника, к которому можно было бы легко обратиться в спорных случаях. Поэтому он будет пополняться по мере обнаружения новых сюрпризов от подозрительных типов. Итак, в путь, о неутомимые следопыты баз данных!

Читать дальше →

+40

chemtech 23 июн 2020 в 07:38

Тестирование горизонтального масштабирования SELECT запросов на реплику

9 мин

5.3K

Java*PostgreSQL*Базы данных*

Тестирование горизонтального масштабирования SELECT запросов на реплику

Цель данного поста протестировать горизонтальное масштабирование SELECT запросов на реплику.

Схема горизонтального масштабирования примерно такая.

Читать дальше →

+11

katherins 22 июн 2020 в 12:56

Эффективный поиск функциональных зависимостей в базах данных

4 мин

Блог компании Образовательные проекты JetBrainsБазы данных*

Поиск функциональных зависимостей в данных применяется в разных направлениях анализа данных: управление базами данных, очистка данных, ревёрс-инжиниринг баз данных и эксплорация данных. Про сами зависимости мы уже публиковали статью Анастасии Бирилло и Никиты Боброва. В этот раз Анастасия — выпускница Computer Science Center этого года — делится развитием этой работы в рамках НИР, которую она защитила в центре.

Читать дальше →

+15

Kilor 15 июн 2020 в 17:00

DBA: кто скрывается за блокировкой

7 мин

7.7K

Блог компании ТензорPostgreSQL*SQL*Базы данных*Системное администрирование*

В предыдущей статье мы научились снимать состояние блокировок на сервере PostgreSQL ровно в тот момент, когда они происходят. В этой — научимся трактовать собранное и узнавать, кто именно может скрываться за конкретной матрицей конфликтов, и почему результат выглядит именно так.

Читать дальше →

+11

Lord_Alfred 14 июн 2020 в 09:44

WAL-G: бэкапы и восстановление СУБД PostgreSQL

9 мин

45K

Системное администрирование*Резервное копирование*Базы данных*SQL*PostgreSQL*

Туториал

Технотекст 2020

Из песочницы

Уже давно известно, что делать бэкапы в SQL-дампы (используя pg_dump или pg_dumpall) – не самая хорошая идея. Для резервного копирования СУБД PostgreSQL лучше использовать команду pg_basebackup, которая делает бинарную копию WAL-журналов. Но когда вы начнёте изучать весь процесс создания копии и восстановления, то поймёте что нужно написать как минимум пару трёхколёсных велосипедов, чтобы всё это работало и не вызывало у вас боль как сверху, так и снизу. Дабы облегчить страдания был разработан WAL-G.

WAL-G – это инструмент, написанный на Go для резервного копирования и восстановления PostgreSQL баз данных (а с недавнего времени и MySQL/MariaDB, MongoDB и FoundationDB). Он поддерживает работу с хранилищами Amazon S3 (и аналогами, например, Yandex Object Storage), а также Google Cloud Storage, Azure Storage, Swift Object Storage и просто с файловой системой. Вся настройка сводится к простым шагам, но из-за того что статьи о нём разрозненны по интернету – нет полного how-to мануала, который бы включал все шаги от и до (на Хабре есть несколько постов, но многие моменты там упущены).

postgresql backup

Читать дальше →

+12

chemtech 10 июн 2020 в 07:40

PostgreSQL Scaling Usecases. Алексей Лесовский

20 мин

13K

PostgreSQL*SQL*Базы данных*Системное администрирование*

Расшифровка доклада 2020 года Алексея Лесовского "PostgreSQL Scaling Usecases".

На сегодня уже никого не удивить тем что инфраструктура живет в "облаке", однако не все компоненты заезжают в "облако" легко и просто. Одним из таких компонентов является "база данных", которая всегда требовательна в плане ресурсов и производительности. Особенно остро стоит вопрос масштабируемости и устойчивости к сбоям, именно поэтому в последние годы можно наблюдать бурное развитие альтернативных СУБД.

Однако классические РСУБД за счет накопленных фич нередко остаются выбором №1 при том что они также не стоят на месте и предоставляют богатый набор инструментов в плане масштабирования.

В этом докладе я буду рассматривать преимущественно PostgreSQL, варианты его масштабирования и то когда это стоит делать и как это делать правильно и как делать неправильно. В докладе будут рассмотрены следующие темы:

Потоковая репликация и разделение read/write рабочей нагрузки
Логическая репликация и шардирование данных
Обеспечение высокой доступности и устойчивости к сбоям

+17

1 2 ...

34 35

37 38 ...

56 57

Базы данных *

Кэши Tarantool и репликация из Oracle

PostgreSQL Antipatterns: «Должен остаться только один!»

«Сладкая парочка»: JOIN + DISTINCT

Сказ о том, как каскадное удаление в Realm долгий запуск победило

Вооруженным глазом: наглядно о проблемах PostgreSQL-запроса

DataGrip 2020.2: редактор больших значений, предпросмотр SQL при редактировании, новое отображение ячеек bool и другое

Patroni Failure Stories or How to crash your PostgreSQL cluster. Алексей Лесовский

Чем для вас опасна MongoDB SSPL лицензия?

Борьба с нагрузкой в PostgreSQL, помогает ли репликация в этом. Андрей Сальников (Data Egret)

PgGraph — утилита для архивации и поиска зависимостей таблиц в PostgreSQL

PostgreSQL Antipatterns: анализируем блокировки — SELF JOIN vs WINDOW

Когда у вас сберовские масштабы. Использование Ab Initio при работе с Hive и GreenPlum

SQL Server Plan Guide и другие не самые лучшие практики

Что нужно знать об архитектуре ClickHouse, чтобы его эффективно использовать. Алексей Зателепин (2018г)

Ближайшие события

PostgreSQL Antipatterns: накручиваем себе проблемы

Подозрительные типы

Тестирование горизонтального масштабирования SELECT запросов на реплику

Тестирование горизонтального масштабирования SELECT запросов на реплику

Эффективный поиск функциональных зависимостей в базах данных

DBA: кто скрывается за блокировкой

WAL-G: бэкапы и восстановление СУБД PostgreSQL

PostgreSQL Scaling Usecases. Алексей Лесовский

Вклад авторов