Как стать автором

Базы данных *

Все об администрировании БД

СтатьиПостыНовостиАвторыКомпании

PatientZero 29 апр в 05:21

Как Discord индексирует триллионы сообщений

Средний

12 мин

1.7K

Базы данных*Kubernetes*Виртуализация*Мессенджеры*

Обзор

Перевод

В 2017 году мы рассказывали о том, как спроектировали нашу систему поиска сообщений так, чтобы она могла индексировать миллиарды сообщений. Благодаря этому наша поисковая инфраструктура стала высокопроизводительной, экономной, масштабируемой и простой в использовании. Мы решили выбрать Elasticsearch, в котором сообщения Discord шардились по индексам и использовалось логическое пространство имён для сообщений Elasticsearch в двух кластерах Elasticsearch. Сообщения шардились или по серверу Discord (который ниже будем называть гильдией) или по личным сообщениям (DM). Это позволило нам хранить все сообщения гильдии рядом для обеспечения высокой скорости запросов и работать с маленькими, более удобными кластерами. Так как поиском пользуются не все, сообщения индексировались лениво, и мы создали очередь сообщений, позволявшую воркерам получать блоки сообщений для индексирования, чтобы воспользоваться возможностями массового индексирования (bulk-indexing) Elasticsearch.

Но с ростом объёмов Discord наша поисковая инфраструктура начала трещать по швам…‍

Читать далее

+11

LesnoyChelovek 25 апр в 13:54

Оптимальная настройка Postgres Pro в один клик с pgpro_tune

Простой

5 мин

5.1K

Блог компании Postgres ProfessionalPostgreSQL*Базы данных*

Обзор

Представьте знакомую ситуацию: утро понедельника, задачи сыпятся одна за другой. Перед вами задача срочно развернуть новый сервис на базе Postgres Pro. Или, возможно, в эти выходные вы обновили железо своего сервера базы данных, увеличили количество CPU и объём RAM. Расскажем, как быстро привести СУБД в состояние, оптимально подходящее новому оборудованию и текущим нагрузкам.

Читать далее

+19

IgrEk_32 25 апр в 11:16

Как мы автоматизировали учет в IT-команде и почему это не всегда было радужно

Простой

4 мин

2.4K

CRM-системы*Базы данных*Веб-разработка*Облачные сервисы*Платежные системы*

Из песочницы

Опыт автоматизации финучета в небольшой IT-команде — честно, с мемами и фейлами. Как ушли от Excel, почему сначала все пошло не по плану, что сэкономили, где накосячили и зачем все-таки это сделали. Без волшебных кнопок, но с выводами, которые помогут другим не наступить на те же грабли.

Читать далее

+1

T1_IT 23 апр в 10:56

Методы расширения атрибутивного состава таблиц БД

Средний

11 мин

2.7K

Блог компании Холдинг Т1Big Data*Apache*Базы данных*

Туториал

Представим себе картину из идеального мира данных, в котором всё стабильно, изменений нет и на горизонте не предвидятся. Аналитик полностью согласовал с заказчиком требования к витрине, спроектировал решение и передал в разработку. Разработчики внедрили витрину в продуктивный контур, пользователи счастливы, всё работает корректно — сопровождение разработчиков и аналитиков не требуется. Представили?

Но, как мы знаем, «IT» и «изменения» — синонимы, поэтому в идеальном мире, как гром среди ясного неба, появляются новые требования: разработать инструмент для регулярного добавления в витрину данных новых атрибутов, на текущий момент в неизвестном количестве.

Сразу отмечу, что решения и оценки, о которых пойдёт речь, подбирались для работы с большими данными на стеке технологий Apache Hadoop, где для обработки данных использовали фреймворк Apache Spark, СУБД — Apache Hive для анализа данных, оркестратор — Airflow, данные хранятся в колоночном формате Parquet.

Читать далее

+7

OlegIct 22 апр в 05:09

Параметры конфигурации мастера, отслеживаемые репликами PostgreSQL

Средний

9 мин

1.8K

PostgreSQL*Базы данных*

Обзор

Значения восьми параметров конфигурации мастера (primary, ведущего сервера PostgreSQL) сохраняются в управляющих файлах и изменения их значений передаются через журнал (WAL) на реплики. Если реплика открыта для запросов (hot_standby=on), то значения пяти числовых параметров на реплике должны быть не меньше, чем на мастере, иначе процесс startup прекратит накат (replay) журнальных записей. А после рестарта экземпляры реплик не запустятся. В статье рассматриваются эти параметры особенности изменения их значений.

Значения пяти числовых параметров конфигурации, сохраненных в управляющем файле кластера, можно посмотреть утилитой pg_controldata:

Читать далее

+6

ph_piter 21 апр в 11:29

Измерение аудитории блога с помощью OpenTelemetry

6 мин

706

Блог компании Издательский дом «Питер»Open source*Базы данных*Программирование*

Перевод

Мне интересно следить, какие статьи в моём блоге наиболее популярны, и сколько людей заглядывает в блог каждый день. Этот блог прошел через несколько этапов, позволяющих оценить эти показатели. Сначала это была Google Аналитика, но делиться всей этой информацией с Google не очень комфортно. Поэтому я перешёл на Matomo, развернутый на сервере CHATON: Libréon.

TL;DR

Хотите отслеживать трафик на статическом блоге без Matomo и Google Analytics?
Рассказываю, как с помощью OpenTelemetry, Prometheus, Grafana и небольшого самописного скрипта на JS (Otela) можно элегантно и эффективно следить за посещаемостью — при этом полностью сохранив контроль над своими данными.

Читать дальше →

+7

badcasedaily1 21 апр в 09:34

Почему COUNT(*) быстрее, чем COUNT(col) — и когда это не так

Простой

4 мин

23K

Блог компании OTUSSQL*PostgreSQL*Программирование*Базы данных*

Обзор

Привет, Хабр!

Сегодня поговорим про одну из тех тем, что вроде бы тривиальна, но до последней капли грязи тащит за собой внушительный пласт вопросов. Речь пойдёт про COUNT(*) и COUNT(col) в PostgreSQL.

Читать далее

+31

MaxRokatansky 19 апр в 14:13

JDBC: Как Java научилась дружить с Базами Данных

4 мин

9.2K

Блог компании OTUSБазы данных*Java*

Представьте, что вы — гид в огромном городе под названием «Базы Данных». Ваша задача — помочь Java-приложениям найти нужную информацию, обновить данные или создать новые таблицы. Но как «разговаривать» с разными СУБД, если у каждой свой язык? Здесь на помощь приходит JDBC — универсальный переводчик, который знает все диалекты.

Читать далее

+8

PavelVelikhov 18 апр в 15:07

Стоимостной оптимизатор: сердце гибридной базы данных YDB

8 мин

5.8K

Блог компании YDBПрограммирование*Высоконагруженные системы*IT-инфраструктура*Базы данных*

Я занимаюсь разработкой баз данных с 1999 года и сейчас работаю над YDB — базой данных, которую мы в Яндексе недавно выложили в опенсорс. Это моя шестая база данных и четвертая — массивно-параллельная. И каждый раз, когда основные задачи решены, я сажусь разрабатывать оптимизатор запросов. Под катом я кратко расскажу о том, что такое оптимизаторы запросов в базах данных и почему их непросто делать.

Читать далее

+42

OlegIct 17 апр в 03:01

Аналитические запросы теста TPC-H в PostgreSQL

Средний

14 мин

1.5K

PostgreSQL*Базы данных*SQL*Oracle*

Обзор

В статье рассматривается использование теста TPC-H с PostgreSQL и проблемы, связанные с запросами Q17-Q20 теста.

Введение

Вместе с PostgreSQL поставляется утилит pg_bench с "TPC-B like" тестом. Кроме этого теста были созданы тесты TPC-R для отчётов, TPC-D для OLAP, TPC-W для заказов в веб-магазине, которые не получили распространения. На основе TPC-D был создан более удачный тест TPC-H для хранилищ данных и аналитических запросов ("OLAP нагрузка"). В тесте используется 8 таблиц и 17 ограничений целостности. В TPC-H выделены номинации по размерам обрабатываемых данных от "до 100Гб" до 30-100Тб. Тест TPC-H предназначен для хранилищ данных, включает в себя 22 запроса, которые называют Q1 ... Q22.

Запросы теста TPC-H не меняют данные в таблицах, а значит, для повторных тестирований не нужно пересоздавать или вакуумировать таблицы. В тестах TPC-B, TPC-C, TPC-E запросы довольно простые. В реальных приложениях запросы более сложные, чем в этих тестах. Поэтому для тестирования того, как СУБД выполняет запросы, которые могут встретиться в реальных приложениях, можно использовать все или отдельные запросы из теста TPC-H. Для быстрого аудита производительности различных СУБД используют вариант с 1Гб данных. В этом варианте запросы выполняются быстро, не нужно много памяти под экземпляр СУБД и много места на диске. Можно найти программы или скрипты для большинства СУБД, например, для PostgreSQL, Oracle Database, MySQL. После теста TPC-H появился тест TPC-DS с 99 запросами, но он менее популярен.

Читать далее

+10

Kilor 16 апр в 06:50

PostgreSQL Antipatterns: создаем JSON из строки

Простой

3 мин

5.5K

Блог компании ТензорPostgreSQL*SQL*Базы данных*Высоконагруженные системы*

Туториал

Я уже не раз поднимал в статьях тему [не]эффективной работы с json[b] в PostgreSQL — и как его лучше превращать в выборку, и как можно «транспонировать». Сегодня же рассмотрим некоторые возможности по его генерации на стороне базы.

Читать далее

+22

Lexx_Nimofff 15 апр в 12:13

Переход из Oracle в Postgres Pro: не просто смена СУБД, а сдвиг подхода. Интервью с Марком Ривкиным

Простой

31 мин

6.8K

ИнтервьюБазы данных*PostgreSQL*Искусственный интеллект

Интервью

Давно не было обстоятельных интервью, тем более с таким корифеем отечественной СУБД‑разработки. В 2022 году в Postgres Professional перешла команда специалистов по Oracle, включая Марка Ривкина, который занял позицию руководителя отдела технического консалтинга. Вместе с командой он занялся адаптацией продуктов под требования крупных корпоративных заказчиков и доработкой функциональности Postgres Pro — в первую очередь для тех, кто планирует миграцию с проприетарных СУБД.

В интервью для Хабра Марк рассказал, с какими задачами столкнулись на старте, какие функции пришлось внедрять в первую очередь, как выстроена работа с разработкой и сообществом, и в чём сегодня Postgres Pro реально может заменить Oracle, а в чём — пока нет. Поговорили и про ИИ в администрировании, и про перспективы российских форков PostgreSQL, и даже о том, что бы он заложил в архитектуру, если бы проектировал СУБД с нуля. Приятного чтения!

Читать далее

+31

OlegIct 13 апр в 15:38

Визуальное представление структуры btree индекса PostgreSQL

Средний

17 мин

9.9K

PostgreSQL*Базы данных*

Туториал

В статье визуализируется структура индекса и показывается, как меняется структура индекса типа btree в PostgreSQL. Это полезно для понимания, как выглядят индексы btree. Также рассматривается FILLFACTOR и пример исследования структуры индекса в целях определения, как перераспределяются индексные записи при включении в структуру индекса новых блоков (страниц). Создадим простую таблицу, индекс, вставим три строки:

Читать далее

+20

SobolevP 10 апр в 16:44

Мониторинг бэкапов PostgreSQL, сделанных в pg_probackup

Средний

2 мин

3.5K

PostgreSQL*Базы данных*

Туториал

Хочу поделиться с сообществом свой наработкой по мониторингу бэкапов PostgreSQL.

Для того чтобы делать сами бэкапы, используется сторонний open source инструмент pg_probackup (разработка компании Postgres Professional).

Этот инструмент умеет делать инкрементные бэкапы, а также автоматизирует сопутствующие процессы, такие как, сжатие данных, merge, удаление старых бэкапов и wal-файлов.

Остается проблема мониторинга. Предположим, мы настроили pg_probackup и он трудится упорно, вызываемый регулярно через cron.

Как мы узнаем, о том, что что-то сломалось?

Для решения этой проблемы был написан небольшой экспортер метрик pg_probackup для Prometheus.

Читать далее

+12

LesnoyChelovek 10 апр в 11:14

High Availability в Postgres Pro без головной боли

Простой

6 мин

4.3K

Блог компании Postgres ProfessionalPostgreSQL*Высоконагруженные системы*Базы данных*

Обзор

Для тех, кто устал от «зоопарка» решений по созданию отказоустойчивых кластеров, расскажем, как добиться нужной функциональности одним решением. BiHA позволяет данным «выжить», даже если один из ЦОДов был физически уничтожен. Как же мы этого добились?

Читать далее

+11

SloNN 9 апр в 10:30

Почему сложно разработать OLAP-базу данных, если у тебя уже есть OLTP

14 мин

5.4K

Блог компании YDBБлог компании Yandex Cloud & Yandex InfrastructureПрограммирование*Высоконагруженные системы*Базы данных*

Это адаптированная для Хабра расшифровка доклада Алексея Дмитриева, директора аналитической платформы YDB DWH, которую создаёт команда Yandex Cloud, — компонента нашей гибридной базы данных YDB для обработки аналитических нагрузок. Когда проект только начинался, у нас было много наработок, которые мы успешно переиспользовали в других проектах. Но оказалось, что OLAP‑нагрузка так сильно отличается от OLTP, что за три года пришлось практически написать по ещё одной реализации многих частей системы. Под катом история о том, почему на рынке так мало гибридных баз данных класса Hybrid Transactional and Analytical Processing (HTAP) и какие сложности стоят на пути их разработки.

Читать далее

+37

stas_makarov 7 апр в 09:07

Асинхронный флаг без мистики

7 мин

522

Анализ и проектирование систем*Визуальное программирование*Базы данных*

Туториал

Перевод

Многие элементы процессов и кейсов в Flowable имеют свойство под названием «Асинхронность». Хотя это свойство сильно влияет на производительность, надежность и даже на пользовательский опыт, его часто игнорируют или недооценивают. Эта статья предназначена для того, чтобы помочь аналитикам и разработчикам понять его значимость.

Читать далее

+1

de-potato 7 апр в 08:43

Общие подходы к классическому PostgreSQL в Kubernetes

Средний

11 мин

6.2K

Блог компании ArenadataPostgreSQL*DevOps*Kubernetes*Базы данных*

Обзор

Хабр, привет! Меня зовут Алексей Быков, и я занимаюсь развитием Cloud Native платформы для обработки, хранения, анализа и управления данными Arenadata One в компании Arenadata. Современные высоконагруженные системы требуют гибкого масштабирования и отказоустойчивости для обеспечения стабильной производительности в условиях постоянно растущих объёмов данных. Когда речь идёт о PostgreSQL, развёрнутом в Kubernetes, перед инженерами встают особые вопросы: как упорядочить реплики для отказоустойчивости, каким образом настроить бэкапы и мониторинг, а главное — как корректно масштабироваться в облачной среде.

В этой статье мы рассмотрим, почему «ванильный» PostgreSQL в контейнерной среде может работать ненадёжно и какие механизмы применяются сегодня, чтобы сделать базу данных по-настоящему Cloud Native. Разберём ключевые аспекты классических инсталляций Postgres, проанализируем, в чём заключаются основные сложности их переноса в Kubernetes.

Монолит в облаке?!

+17

sokolovps 5 апр в 18:06

Где заканчивается наука и начинается маркетинг: сравниваю генетические тесты на происхождение

Простой

3 мин

5.1K

Блог компании Online patentБиотехнологииБазы данных*IT-компании

Мнение

Всем привет! Меня зовут Павел, я главный редактор блога «Онлайн патента» на Хабре. Сегодня я расскажу о своем опыте взаимодействия с генетическими тестами.

Но перед этим небольшое лирическое отступление. Компания 23andMe, один из лидеров рынка ДНК‑тестирования, подала заявление о банкротстве по главе 11 (реорганизация). Это решение связано с многомиллионными убытками и последствиями масштабной утечки данных в конце 2023 года, когда хакеры получили доступ к информации 6,9 млн пользователей.

Подозреваю, что одним из них был я.

Читать далее

+7

comol85 4 апр в 01:23

Neo4j. Графовая СУБД для RAG и не только

Простой

10 мин

4.6K

Базы данных*NoSQL*Искусственный интеллектХранение данных*

Графовые СУБД, пожалуй, одни из самых специализированных хранилищ, существующих на корпоративном рынке. Neo4j при этом яркий представитель этой категории.

C Neo4j я познакомился ещё в далеком 2018-м году, в рамках задачи создания более приятной системы корпоративных знаний чем классические Wiki (некий такой корпоративный Obsidian), ну или основные его части. Это сейчас вы можете радоваться всем благам цивилизации, а в то далёкое время нам надо было очень внимательно относиться к структуре корпоративной базы знаний, т.к. даже поисковые алгоритмы часто оставляли желатель лучшего. Никакого вам ранжирования статей в выдаче по просмотрам и времени создания.

Но в целом с точки зрения базы знаний даже текущие варианты Wiki с ранжированием статей, отображением связанных, последних просмотренных, которые смотрят вместе и т.п. всё равно не решает вопрос оперативного поиска информации. А вот граф - уже другая история. Использовали Obsidian? Понравилось представление информации связанных заметок? Особенно если качественно проставлять связи. Собственно именно таким образом мы обычно и оперируем информацией. Табличная модель конечно удобна, но несколько более синтетическая история, которую придумали чтобы упростить себе жизнь, потому как оперировать графами технически всё-таки более сложная история.

Читать далее

+3

1 2 ...

7

8 9 ...