Articles / Profile of Kilor / Habr

Боровиков Кирилл@Kilor

Архитектура ИС: PostgreSQL, Node.js и highload

ProfileArticles172Posts6NewsComments710

@Kilor Jan 9 2020 at 17:13

БД мессенджера (ч.2): секционируем «наживую»

4 min

12K

Тензор corporate blogSystem Analysis and Design * Database Administration * SQL * PostgreSQL *

Мы удачно спроектировали структуру нашей PostgreSQL-базы для хранения переписки, прошел год, пользователи активно ее наполняют, вот в ней уже миллионы записей, и… что-то все начало подтормаживать.

Часть 1: проектируем каркас базы
Часть 2: секционируем «наживую»

Дело в том, что с ростом объема таблицы растет и «глубина» индексов — хоть и логарифмически. Но со временем это заставляет сервер для выполнения тех же задач чтения/записи обрабатывать в разы больше страниц данных, чем в начале.

Вот тут на помощь и приходит секционирование.

Читать дальше →

@Kilor Jan 9 2020 at 17:13

БД мессенджера (ч.1): проектируем каркас базы

5 min

23K

Тензор corporate blogPostgreSQL * SQL * Database Administration * System Analysis and Design *

Как можно перевести бизнес-требования в конкретные структуры данных на примере проектирования «с нуля» базы для мессенджера.

Часть 1: проектируем каркас базы
Часть 2: секционируем «наживую»

Наша база будет не такой масштабной и распределенной, как у ВКонтакте или Badoo, а «чтобы было», но было хорошо — функционально, быстро и умещалось на одном сервере PostgreSQL — чтобы можно было развернуть отдельный экземпляр сервиса где-то на стороне, например.

Поэтому не будем затрагивать вопросы шардинга, репликации и геораспределенных систем, а сосредоточимся на схемных решениях внутри БД.

Читать дальше →

@Kilor Dec 30 2019 at 08:43

SQL HowTo: рисуем морозные узоры на SQL

2 min

7.2K

Тензор corporate blogData visualization * Algorithms * SQL * PostgreSQL *

Немного SQL-магии под катом: математика, рекурсия, псевдографика.

Заодно вспоминаем под Новый год формулу угла между векторами:

Читать дальше →

+21

@Kilor Dec 25 2019 at 17:15

DBA: когда пасует VACUUM — чистим таблицу вручную

7 min

37K

Тензор corporate blogHigh performance * Database Administration * SQL * PostgreSQL *

VACUUM может «зачистить» из таблицы в PostgreSQL только то, что никто не может увидеть — то есть нет ни одного активного запроса, стартовавшего раньше, чем эти записи были изменены.

А если такой неприятный тип (продолжительная OLAP-нагрузка на OLTP-базе) все же есть? Как почистить активно меняющуюся таблицу в окружении длинных запросов и не наступить на грабли?

Читать дальше →

+18

@Kilor Dec 24 2019 at 07:00

PostgreSQL Antipatterns: обновляем большую таблицу под нагрузкой

6 min

39K

Тензор corporate blogPostgreSQL * SQL * Database Administration * High performance *

Как стоит поступить (а как точно не надо), если в «многомиллионной» активно используемой таблице PostgreSQL нужно обновить большое количество записей — проинициализировать значение нового поля или скорректировать ошибки в существующих записях? А при этом сохранить свое время и не потерять деньги компании из-за простоя.

Читать дальше →

+11

@Kilor Dec 20 2019 at 14:57

DBA: вычищаем клон-записи из таблицы без PK

3 min

7.1K

Тензор corporate blogDatabase Administration * SQL * PostgreSQL *

Случаются ситуации, когда в таблицу без первичного ключа или какого-то другого уникального индекса по недосмотру попадают полные клоны уже существующих записей.

Например, пишутся в PostgreSQL COPY-потоком значения хронологической метрики, а потом внезапный сбой, и часть полностью идентичных данных приходит повторно.

Как избавить базу от ненужных клонов?

Читать дальше →

+10

@Kilor Dec 19 2019 at 12:33

PostgreSQL Antipatterns: передача наборов и выборок в SQL

5 min

21K

Тензор corporate blogDatabase Administration * SQL * PostgreSQL *

Периодически у разработчика возникает необходимость передать в запрос набор параметров или даже целую выборку «на вход». Иногда попадаются очень странные решения этой задачи.

Пойдем «от обратного» и посмотрим, как делать не стоит, почему, и как можно сделать лучше.

Читать дальше →

@Kilor Dec 12 2019 at 11:00

PostgreSQL Antipatterns: сизифов JOIN массивов

2 min

12K

Тензор corporate blogPostgreSQL * SQL * Database Administration *

Иногда возникает задача «склеить» внутри SQL-запроса из переданных в качестве параметров линейных массивов целостную выборку с теми же данными «по столбцам».

Читать дальше →

+11

@Kilor Dec 11 2019 at 09:18

PostgreSQL Antipatterns: статистика всему голова

3 min

17K

Тензор corporate blogDatabase Administration * SQL * PostgreSQL *

Для выбора наиболее эффективного плана выполнения запроса PostgreSQL пользуется накопленной статистикой о распределении значений данных в целевых таблицах.

Она обновляется с помощью явного запуска команд ANALYZE и VACUUM ANALYZE или в фоновом режиме процессом autovacuum/autoanalyze. Но если статистика не успеет актуализироваться — может произойти беда.

Как такую проблему обнаружить и исправить?

Читать дальше →

@Kilor Dec 10 2019 at 09:00

PostgreSQL Antipatterns: вредные JOIN и OR

4 min

22K

Тензор corporate blogPostgreSQL * SQL * Database Administration *

Бойтесь операций, buffers приносящих…
На примере небольшого запроса рассмотрим некоторые универсальные подходы к оптимизации запросов на PostgreSQL. Пользоваться ими или нет — выбирать вам, но знать о них стоит.

Читать дальше →

+17

@Kilor Dec 9 2019 at 07:43

PostgreSQL Antipatterns: CTE x CTE

2 min

12K

Тензор corporate blogDatabase Administration * SQL * PostgreSQL *

По роду деятельности приходится сталкиваться с ситуациями, когда разработчик пишет запрос и думает "база умная, сама со всем справится!"

В некоторых случаях (частично от незнания возможностей БД, частично от преждевременных оптимизаций) такой подход приводит к появлению «франкенштейнов».

Читать дальше →

@Kilor Nov 26 2019 at 18:21

О чем молчит EXPLAIN, и как его разговорить

4 min

26K

Тензор corporate blogPostgreSQL * Database Administration *

From sandbox

Классический вопрос, с которым разработчик приходит к своему DBA или владелец бизнеса — к консультанту по PostgreSQL, почти всегда звучит одинаково: «Почему запросы выполняются на базе так долго?»

Традиционный набор причин:

неэффективный алгоритм
когда вы решили сделать JOIN нескольких CTE по паре десятков тысяч записей
неактуальная статистика
если фактическое распределение данных в таблице уже сильно отличается от собранной ANALYZE'ом в последний раз
«затык» по ресурсам
и уже не хватает выделенных вычислительных мощностей CPU, постоянно прокачиваются гигабайты памяти или диск не успевает за всеми «хотелками» БД
блокировки от конкурирующих процессов

И если блокировки достаточно сложны в поимке и анализе, то для всего остального нам достаточно плана запроса, который можно получить с помощью оператора EXPLAIN (лучше, конечно, сразу EXPLAIN (ANALYZE, BUFFERS) ...) или модуля auto_explain.

Но, как сказано в той же документации,

«Понимание плана — это искусство, и чтобы овладеть им, нужен определённый опыт, …»

Но можно обойтись и без него, если воспользоваться подходящим инструментом!

Читать дальше →

+35

1 2 ...

7 8