Kilor 13 апр 2020 в 18:25

Пишем в PostgreSQL на субсветовой: 1 host, 1 day, 1TB

5 мин

13K

Блог компании ТензорPostgreSQL*Администрирование баз данных*Анализ и проектирование систем*Высокая производительность*

+19

Комментарии 7

viking_unet 14 апр 2020 в 11:28

Спасибо за статью! Почему не используете pg_pathman для секционирования? Как именно вы кешируете данные? У вас одна БД на кластер? Рассматриваете увеличение пропускной способности на чтение?

Kilor 14 апр 2020 в 11:50

Почему не используете pg_pathman для секционирования?

Для наших задач это несколько избыточное решение.
Гораздо проще всегда иметь предсозданные секции на завтра-послезавтра. И делать это по cron в период минимальной нагрузки, как и перепаковку «стабилизировавшейся» секции, запись в которую больше не идет.
Про это будет отдельная статья.

Как именно вы кешируете данные?

В памяти коллектора хранится Set, где ведется отметка отправленного в «словари».

У вас одна БД на кластер?

Да. Поскольку это логи, то их потерять жалко, но не настолько критично, чтобы задействовать еще одно хранилище такого же объема.
Пока нам одного хоста хватает и запас кратный.

Рассматриваете увеличение пропускной способности на чтение?

Не понял вопроса.

viking_unet 14 апр 2020 в 17:18

про pg_pathman пишу, потому что ваше решение под заголовком PG10: второй шанс мне показалось сложноватым, у них в либе всё реализовано и можно использовать с минимальными настройками, просто попробуйте на досуге, может понравится. Про запись понятно, ускорили, да и ssd тоже позволит расти в ширь. Всё равно рано или поздно крупная нагруженная БД думает стать кластером)) я сам в кластерах ноль, но было бы приятно послушать опыт "коллег по цеху")

Kilor 14 апр 2020 в 17:34

ваше решение под заголовком PG10: второй шанс мне показалось сложноватым

Просто это тоже не финальное состояние. Потом мы отказались от записи в прокси-таблицу и начали лить прямо в целевую секцию.
Прокси осталась только для словарей, чтобы лить через COPY и туда, но все-таки реагировать на unique_violation, если через Set какой-то дубль таки просочился.

крупная нагруженная БД думает стать кластером

У нас обычно применяется шардинг. С кластерами иногда возникают нетривиальные проблемы.

greenxxl 15 апр 2020 в 09:02

> У нас обычно применяется шардинг. С кластерами иногда возникают нетривиальные проблемы.
Это всё к тому же: логика работы кластера должна работать независимо от самого кластера.

Aytuar 20 июл 2020 в 22:13

Чем пользуетесь для шардинга?

Kilor 20 июл 2020 в 23:29

Конкретно в этом проекте — ничем, нет необходимости пока. В других доступ к данным рулится на уровне БЛ — то есть ничего типа PL/Proxy или pgpool.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий