Статьи / Профиль Kilor / Хабр

Все потоки

Боровиков Кирилл@Kilor

Архитектура ИС: PostgreSQL, Node.js и highload

625

Подписчики

ПрофильСтатьи182Посты6НовостиКомментарии723

Kilor 20 фев 2020 в 07:15

Микропост: режем UNICODE-строки для PostgreSQL

2 мин

2.8K

PostgreSQL * Node.JS * JavaScript *

Периодически возникает желание положить в базу «неположимое» — например, засунуть очень длинную строку. Нет, записать ее в поле таблицы — для PostgreSQL проблем нет, но вот в индекс…

Проблема в том, что вся строка (ROW) индекса целиком должна полностью умещаться на одной странице данных (8KB), иначе вас ждет примерно такая ошибка:

ERROR: index row size… exceeds maximum… for index ...

То есть даже в простейшем случае индекса из единственной строки — можно наступить на грабли. Как с ними бороться?

Читать дальше →

0

Kilor 19 фев 2020 в 06:45

DBA: находим бесполезные индексы

12 мин

29K

Блог компании ТензорPostgreSQL * SQL * Базы данных * Высоконагруженные системы *

Регулярно сталкиваюсь с ситуацией, когда многие разработчики искренне полагают, что индекс в PostgreSQL — это такой швейцарский нож, который универсально помогает с любой проблемой производительности запроса. Достаточно добавить какой-нибудь новый индекс на таблицу или включить поле куда-нибудь в уже существующий, а дальше (магия-магия!) все запросы будут эффективно таким индексом пользоваться.

Во-первых, конечно, или не будут, или не эффективно, или не все. Во-вторых, лишние индексы только добавят проблем с производительностью при записи.

Чаще всего такие ситуации происходят при «долгоиграющей» разработке, когда делается не заказной продукт по модели «написал разово, отдал, забыл», а, как в нашем случае, создается сервис с длинным жизненным циклом.

Доработки происходят итеративно силами множества распределенных команд, которые бывают разнесены не только в пространстве, но и во времени. И тогда, не зная всей истории развития проекта или особенностей прикладного распределения данных в его БД, можно легко «напортачить» с индексами. Но соображения и проверочные запросы под катом позволяют заранее предсказывать и обнаруживать часть проблем:

неиспользуемые индексы
префиксные «клоны»
timestamp «в середине»
индексируемый boolean
массивы в индексе
NULL-мусор

Читать дальше →

+16

Kilor 13 фев 2020 в 11:20

Фантастические advisory locks, и где они обитают

6 мин

75K

Блог компании ТензорАлгоритмы * Базы данных * SQL * PostgreSQL *

В PostgreSQL существует очень удобный механизм рекомендательных блокировок, они же — advisory locks. Мы в «Тензоре» используем их во многих местах системы, но мало кто детально понимает, как конкретно они работают, и какие проблемы можно получить при неправильном обращении.

Читать дальше →

+8

Kilor 11 фев 2020 в 06:45

Массовая оптимизация запросов PostgreSQL. Кирилл Боровиков (Тензор)

16 мин

25K

Блог компании ТензорВысоконагруженные системы * Базы данных * PostgreSQL * Node.JS *

В докладе представлены некоторые подходы, которые позволяют следить за производительностью SQL-запросов, когда их миллионы в сутки, а контролируемых серверов PostgreSQL — сотни.

Какие технические решения позволяют нам эффективно обрабатывать такой объем информации, и как это облегчает жизнь обычного разработчика.

Кому интересен разбор конкретных проблем и разные техники оптимизаций SQL-запросов и решения типовых DBA-задач в PostgreSQL — можно также ознакомиться с серией статей на эту тему.

+25

Kilor 31 янв 2020 в 09:56

SQL HowTo: пишем while-цикл прямо в запросе, или «Элементарная трехходовка»

5 мин

45K

Блог компании ТензорPostgreSQL * SQL * Базы данных * Алгоритмы *

Периодически возникает задача поиска связанных данных по набору ключей, пока не наберем нужное суммарное количество записей.

Наиболее «жизненный» пример — вывести 20 самых старых задач, числящихся на списке сотрудников (например, в рамках одного подразделения). Для различных управленческих «дашбордов» с краткими выжимками по участкам работы похожая тема требуется достаточно часто.

В статье рассмотрим реализацию на PostgreSQL «наивного» варианта решения такой задачи, «поумнее» и совсем сложный алгоритм «цикла» на SQL с условием выхода от найденных данных, который может быть полезен как для общего развития, так и для применения в других похожих случаях.

Читать дальше →

+5

Kilor 27 янв 2020 в 14:33

PostgreSQL Antipatterns: ударим словарем по тяжелому JOIN

6 мин

27K

Блог компании ТензорАлгоритмы * Базы данных * SQL * PostgreSQL *

Продолжаем серию статей, посвященных исследованию малоизвестных способов улучшения производительности «вроде бы простых» запросов на PostgreSQL:

Не подумайте, что я так сильно не люблю JOIN… :)

Но зачастую без него запрос получается ощутимо производительнее, чем с ним. Поэтому сегодня попробуем вообще избавиться от ресурсоемкого JOIN — с помощью словаря.

Читать дальше →

+5

Kilor 22 янв 2020 в 09:30

PubSub почти бесплатно: особенности NOTIFY в PostgreSQL

9 мин

29K

Блог компании ТензорJavaScript * Node.JS * PostgreSQL * Программирование *

Туториал

Если ваши микросервисы уже используют общую базу PostgreSQL для хранения данных, или ей пользуются несколько экземпляров одного сервиса на разных серверах, можно относительно «дешево» получить возможность обмена сообщениями (PubSub) между ними без интеграции в архитектуру Redis, RabbitMQ-кластера или встройки в код приложения другой MQ-системы.

Для этого мы не будем писать сообщения в таблицы БД, поскольку это вызывает слишком большие накладные расходы сначала на запись передаваемого, а потом еще и на зачистку от уже прочитанного.

Передавать и получать данные мы станем с помощью механизма NOTIFY/LISTEN, а модельную реализацию соберем для Node.js.

Но на этом пути лежат грабли, которые придется аккуратно обойти.

Читать дальше →

+17

Kilor 20 янв 2020 в 12:11

PostgreSQL Antipatterns: редкая запись долетит до середины JOIN

3 мин

22K

Блог компании ТензорАлгоритмы * Базы данных * SQL * PostgreSQL *

Если писать SQL-запросы без анализа алгоритма, который они должны реализовать, ни к чему хорошему с точки зрения производительности это обычно не приводит.

Такие запросы любят «кушать» процессорное время и активно почитывать данные практически на ровном месте. Причем, это вовсе не обязательно какие-то сложные запросы, наоборот — чем проще он написан, тем больше шансов получить проблемы. А уж если в дело вступает оператор JOIN…

Само по себе соединение таблиц не вредно и не полезно — это просто инструмент, но и пользоваться им надо уметь.

Читать дальше →

+18

Kilor 15 янв 2020 в 09:05

DBA: перенос значений SEQUENCE между базами PostgreSQL

3 мин

9.7K

Блог компании ТензорБазы данных * PostgreSQL *

Как можно перенести в другую PostgreSQL-базу последнее назначавшееся значение «автоинкремент»-поля типа serial, если в таблице могли быть какие-то удаления, и «просто подставить max(pk)» уже не подходит?

Мало кто знает, что хоть PG и не предоставляет до версии 10 функций, чтобы узнать последнее значение последовательности для такого поля из другого сеанса, это все-таки можно сделать.

Читать дальше →

+8

Kilor 13 янв 2020 в 06:07

SQL HowTo: собираем «цепочки» с помощью window functions

6 мин

8.7K

Блог компании ТензорPostgreSQL * SQL * Алгоритмы *

Иногда при анализе данных возникает задача выделения «цепочек» в выборке — то есть упорядоченных последовательностей записей, для каждой из которых выполняется некоторое условие.

Это может быть как условие от данных самой записи, так и сложное выражение относительно одной или нескольких предыдущих записей — например, длина интервала между близкими временными отсчетами.

Традиционные решения предусматривают разные варианты «self join», когда выборка соединяется с собой же, либо использование некоторых фактов «за пределами данных» — например, что записи должны иметь строго определенный шаг (N+1, «за каждый день», ...).

Первый вариант зачастую приводит к квадратичной сложности алгоритма от количества записей, что недопустимо на больших выборках, а второй может легко «развалиться», если каких-то отсчетов в исходных данных вдруг не окажется.

Но эту задачу нам помогут эффективно решить оконные функции в PostgreSQL.

Читать дальше →

+8

Kilor 9 янв 2020 в 17:13

БД мессенджера (ч.2): секционируем «наживую»

4 мин

12K

Блог компании ТензорАнализ и проектирование систем * Базы данных * SQL * PostgreSQL *

Мы удачно спроектировали структуру нашей PostgreSQL-базы для хранения переписки, прошел год, пользователи активно ее наполняют, вот в ней уже миллионы записей, и… что-то все начало подтормаживать.

Часть 1: проектируем каркас базы
Часть 2: секционируем «наживую»

Дело в том, что с ростом объема таблицы растет и «глубина» индексов — хоть и логарифмически. Но со временем это заставляет сервер для выполнения тех же задач чтения/записи обрабатывать в разы больше страниц данных, чем в начале.

Вот тут на помощь и приходит секционирование.

Читать дальше →

+2

Kilor 9 янв 2020 в 17:13

БД мессенджера (ч.1): проектируем каркас базы

5 мин

24K

Блог компании ТензорPostgreSQL * SQL * Базы данных * Анализ и проектирование систем *

Как можно перевести бизнес-требования в конкретные структуры данных на примере проектирования «с нуля» базы для мессенджера.

Часть 1: проектируем каркас базы
Часть 2: секционируем «наживую»

Наша база будет не такой масштабной и распределенной, как у ВКонтакте или Badoo, а «чтобы было», но было хорошо — функционально, быстро и умещалось на одном сервере PostgreSQL — чтобы можно было развернуть отдельный экземпляр сервиса где-то на стороне, например.

Поэтому не будем затрагивать вопросы шардинга, репликации и геораспределенных систем, а сосредоточимся на схемных решениях внутри БД.

Читать дальше →

0

Kilor 30 дек 2019 в 08:43

SQL HowTo: рисуем морозные узоры на SQL

2 мин

7.3K

Блог компании ТензорВизуализация данных * Алгоритмы * SQL * PostgreSQL *

Немного SQL-магии под катом: математика, рекурсия, псевдографика.

Заодно вспоминаем под Новый год формулу угла между векторами:

Читать дальше →

+21

Kilor 25 дек 2019 в 17:15

DBA: когда пасует VACUUM — чистим таблицу вручную

7 мин

38K

Блог компании ТензорPostgreSQL * SQL * Базы данных * Высоконагруженные системы *

VACUUM может «зачистить» из таблицы в PostgreSQL только то, что никто не может увидеть — то есть нет ни одного активного запроса, стартовавшего раньше, чем эти записи были изменены.

А если такой неприятный тип (продолжительная OLAP-нагрузка на OLTP-базе) все же есть? Как почистить активно меняющуюся таблицу в окружении длинных запросов и не наступить на грабли?

Читать дальше →

+18

Kilor 24 дек 2019 в 07:00

PostgreSQL Antipatterns: обновляем большую таблицу под нагрузкой

6 мин

41K

Блог компании ТензорВысоконагруженные системы * Базы данных * SQL * PostgreSQL *

Как стоит поступить (а как точно не надо), если в «многомиллионной» активно используемой таблице PostgreSQL нужно обновить большое количество записей — проинициализировать значение нового поля или скорректировать ошибки в существующих записях? А при этом сохранить свое время и не потерять деньги компании из-за простоя.

Читать дальше →

+11

Kilor 20 дек 2019 в 14:57

DBA: вычищаем клон-записи из таблицы без PK

3 мин

7.3K

Блог компании ТензорБазы данных * SQL * PostgreSQL *

Случаются ситуации, когда в таблицу без первичного ключа или какого-то другого уникального индекса по недосмотру попадают полные клоны уже существующих записей.

Например, пишутся в PostgreSQL COPY-потоком значения хронологической метрики, а потом внезапный сбой, и часть полностью идентичных данных приходит повторно.

Как избавить базу от ненужных клонов?

Читать дальше →

+10

Kilor 19 дек 2019 в 12:33

PostgreSQL Antipatterns: передача наборов и выборок в SQL

5 мин

22K

Блог компании ТензорPostgreSQL * SQL * Базы данных *

Периодически у разработчика возникает необходимость передать в запрос набор параметров или даже целую выборку «на вход». Иногда попадаются очень странные решения этой задачи.

Пойдем «от обратного» и посмотрим, как делать не стоит, почему, и как можно сделать лучше.

Читать дальше →

+5

Kilor 12 дек 2019 в 11:00

PostgreSQL Antipatterns: сизифов JOIN массивов

2 мин

12K

Блог компании ТензорБазы данных * SQL * PostgreSQL *

Иногда возникает задача «склеить» внутри SQL-запроса из переданных в качестве параметров линейных массивов целостную выборку с теми же данными «по столбцам».

Читать дальше →

+11

Kilor 11 дек 2019 в 09:18

PostgreSQL Antipatterns: статистика всему голова

3 мин

18K

Блог компании ТензорБазы данных * SQL * PostgreSQL *

Для выбора наиболее эффективного плана выполнения запроса PostgreSQL пользуется накопленной статистикой о распределении значений данных в целевых таблицах.

Она обновляется с помощью явного запуска команд ANALYZE и VACUUM ANALYZE или в фоновом режиме процессом autovacuum/autoanalyze. Но если статистика не успеет актуализироваться — может произойти беда.

Как такую проблему обнаружить и исправить?

Читать дальше →

+7

Kilor 10 дек 2019 в 09:00

PostgreSQL Antipatterns: вредные JOIN и OR

4 мин

23K

Блог компании ТензорPostgreSQL * SQL * Базы данных *

Бойтесь операций, buffers приносящих…
На примере небольшого запроса рассмотрим некоторые универсальные подходы к оптимизации запросов на PostgreSQL. Пользоваться ими или нет — выбирать вам, но знать о них стоит.

Читать дальше →

+17

1 2 ...

9