Как стать автором

Базы данных *

Все об администрировании БД

СтатьиПостыНовостиАвторыКомпании

n_bogdanov 7 мая 2020 в 11:27

Обновление MySQL (Percona Server) с 5.7 до 8.0

8 мин

19K

Блог компании ФлантMySQL*Базы данных*Системное администрирование*

Прогресс не стоит на месте, поэтому причины обновиться на актуальные версии MySQL становятся всё более весомыми. Не так давно в одном из наших проектов настало время обновлять уютные кластеры Percona Server 5.7 до 8-й версии. Всё это происходило на платформе Ubuntu Linux 16.04. Как выполнить подобную операцию с минимальным простоем и с какими проблемами мы столкнулись при обновлении — читайте в этой статье.

Читать дальше →

+48

anna_lesnykh 7 мая 2020 в 09:10

ClickHouse для продвинутых пользователей в вопросах и ответах

44 мин

37K

Блог компании AvitoTechБазы данных*

В апреле инженеры Авито собирались на онлайн-посиделки с главным разработчиком ClickHouse Алексеем Миловидовым и Кириллом Шваковым, Golang-разработчиком из компании Integros. Обсуждали, как мы используем систему управления базами данных и какие сложности у нас возникают.

По мотивам встречи мы собрали статью с ответами экспертов на наши и зрительские вопросы про бэкапы, решардинг данных, внешние словари, Golang-драйвер и обновление версий ClickHouse. Она может быть полезна разработчикам, которые уже активно работают с СУБД «Яндекса» и интересуются её настоящим и будущим. По умолчанию ответы Алексея Миловидова, если не написано иное.

Осторожно, под катом много текста. Надеемся, что содержание с вопросами поможет вам сориентироваться.

Читать дальше →

+32

chemtech 30 апр 2020 в 07:16

PostgreSQL и JDBC выжимаем все соки. Владимир Ситников

10 мин

16K

PostgreSQL*SQL*Базы данных*Серверное администрирование*Системное администрирование*

Предлагаю ознакомиться с расшифровкой доклада начала 2016 года Владимира Ситникова "PostgreSQL и JDBC выжимаем все соки"

Читать дальше →

+12

nikolai-averin 29 апр 2020 в 04:59

Postgres: bloat, pg_repack и deferred constraints

Средний

14 мин

19K

PostgreSQL*Базы данных*

Эффект раздувания таблиц и индексов (bloat) широко известен и присутствует не только в Postgres. Есть способы борьбы с ним “из коробки” вроде VACUUM FULL или CLUSTER, но они блокируют таблицы во время работы и поэтому не всегда могут быть использованы.

В статье будет немного теории о том, как возникает bloat, как с ним можно бороться, о deferred constraints и о проблемах, которые они привносят в использование расширения pg_repack.

Читать дальше →

+16

chemtech 28 апр 2020 в 07:30

Управление нагрузкой на PostgreSQL, когда одного сервера уже мало. Андрей Сальников

26 мин

31K

PostgreSQL*SQL*Базы данных*Серверное администрирование*Системное администрирование*

Предлагаю ознакомиться с расшифровкой доклада начала 2019 года Андрея Сальникова "Управление нагрузкой на PostgreSQL, когда одного сервера уже мало"

Основные тезисы:
1) Стандартные практики распределения нагрузки в PostgreSQL. Сначала мы обсудим причины возникновения высокой нагрузки на базу данных. Следующим этапом рассмотрим те методы распределения нагрузки.
2) Будут рассмотрены вопросы того, как устроена репликация в PostgreSQL, какие есть различия между синхронными и асинхронными репликами, как правильно настраивать реплики.

+18

Kilor 27 апр 2020 в 07:10

PostgreSQL Antipatterns: навигация по реестру

4 мин

11K

Блог компании ТензорPostgreSQL*SQL*Базы данных*Серверная оптимизация*

Сегодня не будет никаких сложных кейсов и мудреных алгоритмов на SQL. Все будет очень просто, на уровне Капитана Очевидность — делаем просмотр реестра событий с сортировкой по времени.

То есть вот лежит в базе табличка events, а у нее поле ts — ровно то самое время, по которому мы хотим эти записи упорядоченно показывать:

CREATE TABLE events(
  id
    serial
      PRIMARY KEY
, ts
    timestamp
, data
    json
);

CREATE INDEX ON events(ts DESC);

Понятно, что записей у нас там будет не десяток, поэтому нам потребуется в каком-то виде постраничная навигация.

#0. «Я у мамы погроммист»

cur.execute("SELECT * FROM events;")
rows = cur.fetchall();
rows.sort(key=lambda row: row.ts, reverse=True);
limit = 26
print(rows[offset:offset+limit]);

Даже почти не шутка — редко, но встречается в дикой природе. Иногда после работы с ORM бывает тяжело перестроиться на «прямую» работу с SQL.

Но давайте перейдем к более распространенным и менее очевидным проблемам.

Читать дальше →

+22

Kilor 22 апр 2020 в 09:10

Экономим копеечку на больших объемах в PostgreSQL

6 мин

14K

Блог компании ТензорВысоконагруженные системы*Анализ и проектирование систем*Базы данных*PostgreSQL*

Продолжая тему записи больших потоков данных, поднятую предыдущей статьей про секционирование, в этой рассмотрим способы, которыми можно уменьшить «физический» размер хранимого в PostgreSQL, и их влияние на производительность сервера.

Речь пойдет про настройки TOAST и выравнивание данных. «В среднем» эти способы позволят сэкономить не слишком много ресурсов, зато — вообще без модификации кода приложения.

Однако, наш опыт оказался весьма продуктивным в этом плане, поскольку хранилище почти любого мониторинга по своей природе является большей частью append-only с точки зрения записываемых данных. И если вам интересно, как можно научить базу писать на диск вместо 200MB/s вдвое меньше — прошу под кат.

Читать дальше →

+11

eduard_timoshenko 22 апр 2020 в 09:05

Наш опыт миграции Cassandra между Kubernetes-кластерами без потери данных

7 мин

4.1K

Блог компании ФлантСистемное администрирование*Базы данных*Kubernetes*DevOps*

Последние ~полгода для работы с Cassandra в Kubernetes мы использовали Rook operator. Однако, когда нам потребовалось выполнить весьма тривиальную, казалось бы, операцию: поменять параметры в конфиге Cassandra, — обнаружилось, что оператор не обеспечивает достаточной гибкости. Чтобы внести изменения, требовалось склонировать репозиторий, внести изменения в исходники и пересобрать оператор (конфиг встроен в сам оператор, поэтому ещё пригодится знание Go). Всё это занимает много времени.

Обзор существующих операторов мы уже делали, и на сей раз остановились на CassKop от Orange, который поддерживает нужные возможности, а в частности — кастомные конфиги и мониторинг из коробки.

Читать дальше →

+34

chemtech 22 апр 2020 в 07:26

WAL-G: новые возможности и расширение сообщества. Георгий Рылов

10 мин

3.2K

Системное администрирование*Серверное администрирование*Базы данных*SQL*PostgreSQL*

Предлагаю ознакомиться с расшифровкой доклада начала 2020 года Георгия Рылова "WAL-G: новые возможности и расширение сообщества"

У меинтейнеров open-source возникает множество проблем по мере их роста. Как писать все больше требуемых фич, чинить все больше issues'ов и успевать смотреть все больше pull request'ов? На примере WAL-G(backup-tool for PostgreSQL) расскажу про то, как мы решали эти проблемы, запустив курс по Open-source разработке в университете, чего мы добились и куда будем двигаться дальше.

Читать дальше →

+12

chemtech 21 апр 2020 в 07:23

Odyssey: архитектура, настройка, мониторинг. Андрей Бородин (2020)

20 мин

21K

PostgreSQL*SQL*Базы данных*Серверное администрирование*Системное администрирование*

Предлагаю ознакомиться с расшифровкой доклада начала 2020 года Андрея Бородина "Odyssey: архитектура, настройка, мониторинг"

Совсем недавно мы выпустили версию 1.0 нашего пулера соединений Odyssey. Он призван решить проблемы управления соединениям высоконагруженных инсталляций PostgreSQL. В этом докладе я хотел бы рассказать об архитектуре и эксплуатации Одиссея. Также будут затронуты проблемы, которые были решены в достаточно длинном переходе между 1.0rc и 1.0.

Читать дальше →

+14

AnnaPhc 20 апр 2020 в 15:11

Базы данных в IIoT-платформе: как Mail.ru Cloud Solutions работают с петабайтами данных от множества устройств

13 мин

6.2K

Блог компании VKХранение данных*Интернет вещейБазы данных*Tarantool*

Привет, я Андрей Сергеев, руководитель группы разработки IoT-решений в Mail.ru Cloud Solutions. Известно, что универсальной базы данных не существует. Особенно когда нужно построить платформу интернета вещей, способную обрабатывать миллионы событий от датчиков в секунду в режиме near real-time.

Наш продукт Mail.ru IoT Platform начинался с прототипа на базе Tarantool. Расскажу, какой путь мы прошли, с какими проблемами столкнулись и как их решали. А также покажу текущую архитектуру современной платформы индустриального интернета вещей. В статье поговорим:

о предъявляемых нами требованиях к базе данных, универсальном решении и CAP-теореме;
о том, является ли подход database + application server in one серебряной пулей;
об эволюции платформы и баз данных, используемых в ней;
о том, сколько у нас используется Tarantool’ов и как мы дошли до жизни такой.

+22

chemtech 20 апр 2020 в 07:16

Промышленный подход к тюнингу PostgreSQL: эксперименты над базами данных". Николай Самохвалов

18 мин

7.9K

PostgreSQL*SQL*Базы данных*Серверное администрирование*Системное администрирование*

Предлагаю ознакомиться с расшифровкой доклада Николая Самохвалова "Промышленный подход к тюнингу PostgreSQL: эксперименты над базами данных"

Shared_buffers = 25% – это много или мало? Или в самый раз? Как понять, подходит ли эта – довольно устаревшая – рекомендация в вашем конкретном случае?

Пришло время подойти к вопросу подбора параметров postgresql.conf "по-взрослому". Не с помощью слепых "автотюнеров" или устаревших советов из статей и блогов, а на основе:

строго выверенных экспериментов на БД, производимых автоматизированно, в больших количествах и в условиях, максимально приближенных к "боевым",
глубокого понимания особенностей работы СУБД и ОС.

Используя Nancy CLI (https://gitlab.com/postgres.ai/nancy), мы рассмотрим конкретный пример – пресловутые shared_buffers – в разных ситуациях, в разных проектах и попробуем разобраться, как же подобрать оптимальную настройку для нашей инфраструктуры, БД и нагрузки.

+16

SemionovAndrey 16 апр 2020 в 11:59

Денормализация баз данных ERP-систем и ее влияние на развитие ПО: открываем таверну на Тортуге

10 мин

4.2K

Блог компании SM LabБазы данных*SQL*ERP-системы*Data Engineering*

Привет! Меня зовут Андрей Семенов, я старший аналитик в Спортмастер. В этом посте я хочу поднять вопрос денормализации баз данных ERP-систем. Мы рассмотрим общие условия, а также конкретный пример — скажем, это будет прекрасная таверна-монополист для пиратов и моряков. В которой пиратов и моряков надо обслуживать по-разному, ибо представления о прекрасном и потребительские паттерны у этих добрых господ существенно отличаются.

Как сделать так, чтобы все были довольны? Как не сойти с ума, проектируя и поддерживая такую систему? Что делать, если в таверну начинают приходить не только привычные пираты и моряки?

Всё под катом. Но пойдем по порядку.

Читать дальше →

+12

AnnaPhc 15 апр 2020 в 15:51

Видео @Databases Meetup: безопасность СУБД, Tarantool в IoT, Greenplum для аналитики Big Data

2 мин

1.7K

Блог компании VKBig Data*PostgreSQL*Tarantool*Базы данных*

28 февраля прошел митап @Databases, организованный Mail.ru Cloud Solutions. Более 300 участников собрались в Mail.ru Group, чтобы обсудить актуальные проблемы современных производительных баз данных.

Под катом видео выступлений: как «Газинформсервис» готовит безопасные СУБД без потери производительности; Arenadata рассказывает, что лежит в основе Greenplum — мощной массивно-параллельной СУБД для аналитических задач; а Mail.ru Cloud Solutions — как и на чем строили свою платформу интернета вещей (спойлер: не обошлось без Tarantool).

Смотреть видео: безопасность СУБД, база данных для IoT, аналитика с Greenplum

+22

mary_arti 15 апр 2020 в 12:55

T+ Conf 2019: Tarantool в Аэрофлоте, или MDM на лету

5 мин

3.1K

Блог компании VKTarantool*Базы данных*Анализ и проектирование систем*Высоконагруженные системы*

Сегодня публикуем расшифровку доклада Николая Шевцова и Рустама Кильдиева с T+ Conf 2019 «Tarantool в Аэрофлоте, или MDM (Master Data Management) на лету». Из доклада вы узнаете:

Зачем нужен MDM?
Зачем нужен риалтайм?
Data Science — это не только Jupyter Notebook.
Плюсы Tarantool.
Чем Lua хорош в проде.

Читать дальше →

+25

Kilor 13 апр 2020 в 15:25

Пишем в PostgreSQL на субсветовой: 1 host, 1 day, 1TB

5 мин

14K

Блог компании ТензорВысоконагруженные системы*Анализ и проектирование систем*Базы данных*PostgreSQL*

Недавно я рассказал, как с помощью типовых рецептов увеличить производительность SQL-запросов «на чтение» из PostgreSQL-базы. Сегодня же речь пойдет о том, как можно сделать более эффективной запись в БД без использования каких-либо «крутилок» в конфиге — просто правильно организовав потоки данных.

#1. Секционирование

Статья про то, как и зачем стоит организовывать прикладное секционирование «в теории» уже была, здесь же речь пойдет о практике применения некоторых подходов в рамках нашего сервиса мониторинга сотен PostgreSQL-серверов.

Читать дальше →

+19

victoriously 12 апр 2020 в 23:08

Весь Хабр в одной базе. Комментарии и веб-приложение

8 мин

7.5K

Flask*HabrPython*Базы данных*Программирование*

Туториал

КДПВ

Часть 1 | mega.nz | Онлайн демо | GitHub

Наверное, это продолжение статьи, в которой я парсил Хабр в базу данных. Теперь настало время её применить.

Читать дальше →

+11

PeterG 10 апр 2020 в 08:06

Проверяем на самих себе: как развернут и как администрируется 1С: Документооборот внутри компании 1С

11 мин

32K

Блог компании 1СMicrosoft SQL Server*Базы данных*

Мы в фирме 1С широко используем собственные разработки для организации работы компании. В частности, «1С:Документооборот 8». Помимо управления документами (как следует из названия) это ещё и современная ECM-система (Enterprise Content Management — управление корпоративным контентом) с широким набором функциональных возможностей – почта, рабочие календари сотрудников, организация совместного доступа к ресурсам (например, бронирование переговорных), учёт рабочего времени, корпоративный форум и многое другое.

В фирме 1С документооборотом пользуется более тысячи сотрудников. База данных стала уже внушительной (11 млрд. записей), а это значит, что она требует более тщательного ухода и более мощного оборудования.

Как устроена работа нашей системы, с какими сложностями при обслуживании базы мы сталкиваемся и как их решаем (в качестве СУБД мы используем MS SQL Server) – расскажем в статье.

Для тех, кто впервые читает про продукты 1С.
1С:Документооборот — это прикладное решение (конфигурация), реализованное на базе фреймворка для разработки бизнес-приложений — платформе 1С:Предприятие.

Читать дальше →

+15

grichik 9 апр 2020 в 07:00

Практика использования Spark SQL, или Как не наступить на грабли

17 мин

43K

Блог компании СберSQL*Базы данных*Программирование*

Если вы работаете с SQL, то вам это будет нужно очень скоро. Apache Spark – это один из инструментов, входящих в экосистему Hadoop, который обрабатывает данные в оперативной памяти. Одним из его расширений является Spark SQL, позволяющий выполнять SQL-запросы над данными. Spark SQL удобно использовать для работы посредством SQL-запросов с большими объемами данных и в системах с высокой нагрузкой.

Ниже вы найдёте некоторые нехитрые приёмы по работе со Spark SQL:

Как с помощью сбора статистики и использования хинтов оптимизировать план выполнения запроса.
Как, оставаясь в рамках SQL, эффективно обрабатывать соединения по ключам с неравномерным распределением значений (skewed joins).
Как организовать broadcast join таблицы, если её размер слишком велик.
Как средствами Spark SQL понять, сколько приложение Spark реально использовало памяти и ядер кластера в развёртке по времени.

Читать дальше →

+18

moscas 6 апр 2020 в 15:44

DataGrip 2020.1: Конфигурации запуска, экспорт в Excel, результаты в редакторе и другое

4 мин

8.9K

Блог компании JetBrainsMicrosoft SQL Server*MySQL*PostgreSQL*Базы данных*

Привет! Это наш первый релиз из дома. DataGrip и другие наши IDE с поддержкой баз данных теперь умеют больше.

Читать дальше →

+18

1 2 ...

38

39 40 ...