Базы данных *

Все об администрировании БД

СтатьиПостыНовостиАвторыКомпании

DoctorX 20 дек 2018 в 13:01

Оптимизация реляционных баз данных без даунтайма на примере самой нагруженной БД в Badoo

9 мин

26K

Блог компании BadooСерверная оптимизация*Веб-разработка*Высоконагруженные системы*Базы данных*

В условиях highload сложность оптимизации реляционных баз данных возрастает на порядок, так как покупка ещё более мощного железа обходится дорого а также уже нет возможности просто выключить приложение ночью для долгого процесса альтера БД и миграции данных.

Недавно мы рассказали, как мы оптимизировали PHP-код нашего приложения. Теперь же пришёл черёд статьи про то, как мы полностью изменили внутреннюю структуру самой нагруженной и важной базы данных в Badoo, не потеряв при этом ни одного запроса.

Читать дальше →

+65

Maksvelis 12 апр 2024 в 12:37

Выжимаем максимум из PostgreSQL

Средний

14 мин

22K

Блог компании SelectelIT-инфраструктура*PostgreSQL*Базы данных*

Обзор

✏️ Технотекст 7

Привет, Хабр! Меня зовут Максим, я работаю тестировщиком оборудования в Selectel Lab. В лаборатории мы занимаемся тестированием нового оборудования для дата-центров. О том, как мы измеряли производительность PostgreSQL на разных конфигурациях — под катом!

Читать дальше →

+64

ru_vds 22 мар 2023 в 13:00

Как устроено индексирование баз данных

Простой

12 мин

139K

Блог компании RUVDS.comБазы данных*Алгоритмы*Программирование*

Перевод

Индексирование баз данных — это техника, повышающая скорость и эффективность запросов к базе данных. Она создаёт отдельную структуру данных, сопоставляющую значения в одном или нескольких столбцах таблицы с соответствующими местоположениями на физическом накопителе, что позволяет базе данных быстро находить строки по конкретному запросу без необходимости сканирования всей таблицы. Применяются разные типы индексов, однако они занимают пространство и должны обновляться при изменении данных. Важно тщательно продумывать стратегию индексирования базы данных и регулярно её оптимизировать.

Читать дальше →

+64

vitalyisaev2 30 июн в 07:01

Федеративные возможности YDB: масштабируем разработку вместе со студентами

13 мин

5.2K

Блог компании ЯндексБлог компании YDBХранение данных*Базы данных*Карьера в IT-индустрии

YDB — это разработанная в Яндексе распределённая СУБД с открытым исходным кодом, предназначенная для построения высоконагруженных систем. Разработка СУБД, особенно таких масштабных, как YDB, считается одной из самых сложных и ресурсоёмких задач в IT-индустрии. Для её решения от программиста требуется большой опыт и разносторонние знания в области алгоритмов, операционных систем и компьютерного железа. Тем не менее у студентов есть возможность внести свой вклад в развитие различных подсистем YDB.

Меня зовут Виталий Исаев, я занимаюсь разработкой федеративных возможностей YDB — в этой области вклад студентов в развитие YDB чувствуется особенно сильно. В статье я расскажу о том, как в Яндекс Образовании удалось выстроить процесс совместной работы со студентами: они получают ценный, реальный опыт работы над сложным продуктом, а опенсорс-сообщество YDB — новые фичи. А ещё опишу задачи, которые им приходится решать, и, конечно, поделюсь наиболее яркими их результатами.

+62

mr-pickles 5 сен 2022 в 09:25

Разбираемся с Redis

19 мин

407K

Блог компании Wunder FundВеб-разработка*Базы данных*Хранение данных*

Перевод

Этот материал представляет собой глубокое исследование всего, что связано с Redis. В частности — речь пойдёт о различных способах организации хранилищ Redis, о постоянном хранении данных, о форках процессов.

+62

Christina29 24 сен 2018 в 07:30

Разработчики остались неизвестны. Лекция Яндекса

15 мин

22K

Блог компании ЯндексOpen source*Базы данных*

Этот доклад руководителя группы разработки ClickHouse Алексея Миловидова представляет собой обзор мало кому известных СУБД. Некоторые из них устарели, некоторые прекратили свое развитие и заброшены. Алексей обращает внимание на интересные архитектурные решения в перечисленных примерах, разбирается в их судьбе и объясняет, каким требованиям должен отвечать ваш опенсорс-проект.

— Мой доклад будет про базы данных. Позвольте сразу спросить, схема метрополитена какого города изображена на этом слайде? Все линии идут в одну сторону.

+62

ITSumma 25 янв 2021 в 07:36

Let's Encrypt перевел серверы БД на AMD EPYC

4 мин

21K

Блог компании ITSummaСерверное администрирование*ПроцессорыКомпьютерное железоБазы данных*

Внутреннее устройство 2U-сервера Dell PowerEdge R7525. Два серебристых прямоугольника посередине — процессоры AMD EPYC 7542. Сверху и снизу от них планки оперативной памяти по 64 ГБ каждая. На левом краю фотографии — 24 диска NVMe, такое возможно только на EPYC

Let's Encrypt — крупнейший удостоверяющий центр в интернете, на его бесплатных TLS-сертификатах работает более 235 млн сайтов. В сердце УЦ находится база данных, на основе которой происходит управление сертификатами. Важно, чтобы её производительность была на уровне, иначе мы увидим ошибки API и таймауты при выдаче сертификатов.

В конце 2020 года некоммерческая организация сделала апгрейд своих серверов.

Читать дальше →

+61

110

Leono 13 янв 2019 в 08:00

Изменение схемы таблиц PostgreSQL без долгих блокировок. Лекция Яндекса

10 мин

25K

Блог компании ЯндексPostgreSQL*Базы данных*

Если одновременно выполняется много операций по изменению схемы БД, сервис не может корректно работать на запись. Разработчик Владимир Колясинский объяснил, какие операции в PostgreSQL требуют длительных блокировок и как команда Яндекс.Коннекта обеспечивает почти стопроцентную доступность сервиса на запись во время выполнения подобных операций. Кроме того, вы узнаете о библиотеке для Django, которая призвана автоматизировать часть описанных процессов.

У нас большие нагрузки, тысячи RPS, и простой в несколько минут, не говоря о большем времени, недопустим. Нужно, чтобы миграции происходили незаметно для пользователя. А с такими нагрузками уже не получится встать в четыре часа ночи, что-то накатить, когда нет нагрузки, и снова лечь спать — потому что нагрузка идет круглые сутки.

+61

Bright_Translate 28 фев в 13:01

Как фильтры Блума в 10 раз ускорили SQLite

Средний

4 мин

8.9K

Блог компании RUVDS.comБазы данных*SQLite*Хранение данных*

Обзор

Перевод

Это интригующая история о том, как исследователи с помощью грамотного использования фильтров Блума смогли в 10 раз ускорить аналитические запросы в SQLite. Ниже я приведу свой краткий обзор работы «SQLite: Past, Present, and Future (2022)», и объясню некоторые внутренние особенности баз данных, включая механизм реализации соединений.

Читать дальше →

+60

anshev0 18 дек 2020 в 19:46

Базы данных. Тенденции общемировые и в России

33 мин

50K

MySQL*Oracle*PostgreSQL*Microsoft SQL Server*Базы данных*

Из песочницы

Эта статья не является ответом на множество вопросов по базам данных (БД) и системам управлениям базами данных (СУБД). Я как автор выражаю своё собственное мнение о трендах, стараясь опираться на беспристрастные показатели, статистики и т.д., но для примера приводя собственный опыт. Я не являюсь ангажированным представителем какой-либо компании и выражаю точку зрения опираясь на опыт более 25 лет работы с разными СУБД, в том числе, которую создавал своими руками. Не так много даже опытных программистов и архитекторов, которые знают все термины, технологии, какие подводные камни и куда идёт движение. Тема поистине огромная, поэтому в рамках одной статьи не раскрыть даже верхний уровень информации. Если кто-то не встретит свою любимую СУБД или её невероятный плюс, который стоит упомянуть, то прошу в комментариях указать и этим дополнить общую картину, что поможет другим разобраться и понять лучше предметную область. Поехали!

Open Source DBMS vs Commercial DBMS

Для начала приведён график с сайта, db-engines.com, по моим ощущениям, неплохо отслеживающим тренды БД. Именно этот график добавил желания написать статью о текущем положении дел.

Читать далее (в конце краткие итоги)

+60

106

ru_vds 14 окт 2024 в 13:01

Почему важно оптимизировать формат данных

Средний

21 мин

18K

Блог компании RUVDS.comБазы данных*Алгоритмы*Хранение данных*

Обзор

Перевод

Если вам нужно повысить скорость вашей программы, то первым делом логично будет вспомнить курс по структурам данных и оптимизировать алгоритмическую сложность.

Алгоритмы — важнейшая часть программы: замена «горячего» алгоритма O(n) менее сложным, например, O(log n), обеспечивает практически произвольное увеличение производительности. Однако существенно влияет на производительность и структурированность данных: программы выполняются на физических машинах с физическими свойствами, например, разными задержками чтения/записи данных в кэши, на диски или в ОЗУ. После оптимизации алгоритмов стоит изучить эти свойства, чтобы достичь наибольшей производительности. Оптимизированный формат данных учитывает используемые алгоритмы и паттерны доступа при выборе того, как сохранять структуру данных на физическом носителе. Благодаря этому можно увеличить скорость алгоритмов в несколько раз. В этом посте мы покажем пример, в котором нам удалось достичь четырёхкратного повышения скорости чтения простым изменением формата данных в соответствии с паттерном доступа.

Сравнение хранилищ данных AoS и SoA

Современное оборудование, и, в частности CPU, спроектировано так, чтобы обрабатывать данные определённым образом. Расположение данных в памяти влияет на то, насколько эффективно программа сможет использовать кэш CPU, как часто она сталкивается с промахами кэша и насколько оптимально она сможет задействовать векторные команды (SIMD). Даже при использовании оптимальных алгоритмов выбор неподходящего формата данных может приводить к частым перезагрузкам кэша, простаивающим конвейерам и чрезвычайно большому объёму передач содержимого памяти; всё это снижает производительность.

Читать дальше →

+59

sergepetrenko 19 фев 2024 в 09:34

Во что обойдется линеаризуемость в распределенной системе

Средний

13 мин

7.7K

Блог компании VKРаспределённые системы*Высоконагруженные системы*Базы данных*Tarantool*

Всем привет, меня зовут Сергей Петренко, я программист в Tarantool. Сегодня мы посмотрим, с какими трудностями сталкивается клиент, когда вместо того чтобы общаться с системой, расположенной на одном инстансе, начинает общаться с распределенной системой. И разумеется, поговорим о том, как эти трудности преодолеть. Я расскажу, что такое линеаризуемость, как мы ее реализуем в Tarantool и как это делают другие СУБД. В завершение мы поговорим о накладных расходах от линеаризуемости.

Читать дальше →

+59

ultramarie 7 фев 2023 в 14:35

8 книг по PostgreSQL: от баз данных с «нуля» для самоучек до руководства про БД в облаках

Простой

7 мин

79K

Блог компании SelectelПрофессиональная литература*Базы данных*SQL*PostgreSQL*

В целом, эта объектно-реляционная СУБД в дополнительном представлении не нуждается. Разработанная более 20 лет назад, она предназначена для создания и поддержки баз данных серверных приложений, в том числе ресурсоемких аналитических БД. Одна из особенностей PostgreSQL — открытый исходный код. Мы любим ее за развитое комьюнити и возможность развернуть «постгрю» самостоятельно и бесплатно.

Подготовили подборку полезных книг для тех, кто только начал или собирается работать с PostgreSQL. В нее вошли актуальные руководства на русском и английском языках. Если знаете еще одну-две отличных книги, смело рекомендуйте в комментариях.

Читать дальше →

+59

m0nstermind 23 июл 2018 в 13:03

NewSQL = NoSQL+ACID

15 мин

35K

Блог компании ОКIT-инфраструктура*NoSQL*Базы данных*Распределённые системы*

До недавнего времени в Одноклассниках около 50 ТБ данных, обрабатываемых в реальном времени, хранилось в SQL Server. Для такого объема обеспечить быстрый и надежный, да еще и устойчивый к отказу ЦОД доступ, используя SQL СУБД, практически невозможно. Обычно в таких случаях используют одно из NoSQL-хранилищ, но не всё можно перенести в NoSQL: некоторые сущности требуют гарантий ACID-транзакций.

Это подвело нас к использованию NewSQL-хранилища, то есть СУБД, предоставляющей отказоустойчивость, масштабируемость и быстродействие NoSQL-систем, но при этом сохраняющей привычные для классических систем ACID-гарантии. Работающих промышленных систем этого нового класса немного, поэтому мы реализовали такую систему сами и запустили ее в промышленную эксплуатацию.

Как это работает и что получилось — читай под катом.

Читать дальше →

+59

daniil_dzheparov 2 мая 2022 в 12:25

Оконные функции SQL простым языком с примерами

4 мин

690K

SQL*Базы данных*Data Engineering*

Recovery Mode

Привет всем!

Сразу хочется отметить, что данная статья написана исключительно для людей, начинающих свое путь в изучении SQL и оконных функций. Здесь могут быть не разобраны сложные применения функций и могут не использоваться сложные формулировки определений - все написано максимально простым языком для базового понимания.

P.S. Если автор что-то не разобрал и не написал, значит он посчитал это не обязательным в рамках этой статьи)))

Для примеров будем использовать небольшую таблицу, которая показывает оценки учеников по разным предметам. В БД табличка выглядит следующим образом

+58

jobgemws 25 авг 2021 в 06:03

Как избавиться от дублей в базе данных (на примере MS SQL)

10 мин

19K

Блог компании Ozon TechБазы данных*Microsoft SQL Server*SQL*Программирование*

Туториал

Всем привет! Меня зовут Евгений, я занимаюсь разработкой и проектированием в Ozon. Больше всего работаю с MS SQL и C#, но попадаются и другие СУБД и языки программирования.

Ozon как продукт быстро растёт: во втором квартале этого года мы доставляли больше миллиона посылок в день. Для обработки такого объёма заказов мы используем разные языки и платформы: .NET (C#), Go, MS SQL Server и PostgreSQL.

Заказы пользователей обрабатываются разными системами, которые взаимодействуют между собой. Это порождает необходимость учитывать многочисленные интеграции и приводит к проблеме дублирования данных.

Я расскажу об одном таком случае, когда наша команда потратила много времени и сил, но всё-таки нашла оптимальный способ решения проблемы дублирования данных.

Но сначала позвольте погрузить вас немного в предметную область — объясню, на примере чего будет демонстрироваться проблема дублирования данных, и освещу некоторые методы её решения.

+58

olegbunin 4 июн 2019 в 13:34

Руководство по выживанию с MongoDB

12 мин

37K

Блог компании Конференции Олега Бунина (Онтико)MongoDB*NoSQL*Базы данных*Высоконагруженные системы*

Все хорошие стартапы либо быстро умирают, либо дорастают до необходимости масштабироваться. Мы смоделируем такой стартап, который сначала про фичи, а потом про перфоманс. Перфоманс будем улучшать с MongoDB — это популярное NoSQL-решение для хранения данных. С MongoDB легко стартовать, и многие проблемы имеют решения «из коробки». Однако, когда нагрузка растет, вылезают грабли, о которых вас заранее никто не предупреждал… до сегодняшнего дня!

Моделирование проводит Сергей Загурский, который отвечает за инфраструктуру бэкенда вообще, и MongoDB в частности, в Joom. Также был замечен в серверной части разработки MMORPG Skyforge. Как сам себя описывает Сергей — «профессиональный набиватель шишек собственным лбом и граблями». Под микроскопом — проект, который использует стратегию накопления для управления техническими долгом. В этой текстовой версии доклада на HighLoad++ будем двигаться в хронологическом порядке от возникновения проблемы до решения с помощью MongoDB.

Читать дальше →

+58

AlexeyKovyazin 8 июл в 18:14

Миграция с Firebird на PostgreSQL. Что может пойти не так? Часть 1

Простой

6 мин

7.7K

SQL*Firebird/Interbase*PostgreSQL*Базы данных*Open source*

Аналитика

Не секрет, что в последние годы различные компании достаточно часто принимают решение о миграции работающей информационной системы с Firebird на PostgreSQL.

Типичная ситуация выглядит так:

Проект работает несколько лет. Заказчик «верит», что проблема не в проекте, а в СУБД. Firebird — «плохая» СУБД.

+57

Flampanzer 8 июл в 12:00

Руководство по pgcrypto — шифрование внутри PostgreSQL. Часть 1

Средний

12 мин

6.9K

Блог компании SelectelPostgreSQL*Базы данных*Криптография*Информационная безопасность*

Обзор

Привет, Хабр! На связи Антон Дятлов, инженер по защите информации в Selectel. Хранение конфиденциальных данных в PostgreSQL в открытом виде — мина замедленного действия. Неприятности в будущем становятся неизбежными. Достаточно одной успешной SQL‑инъекции, утечки резервной копии или компрометации доступа к серверу, чтобы вся чувствительная информация — от персональных данных пользователей до API-ключей — оказалась в руках злоумышленников.

Даже если все обошлось, то принимать меры защиты все равно придется. Исправлять БД постфактум — задача неблагодарная и крайне рискованная. Шифрование уже существующих данных потребует сложной миграции. Это долго, дорого и не всегда проходит гладко.

К счастью, большинства этих проблем можно избежать, если подойти к безопасности данных осознанно с самого начала. PostgreSQL предлагает для этого мощный встроенный инструмент — расширение pgcrypto. Эта статья — небольшое руководство по его правильному и безопасному использованию

+57

timnizam 17 дек 2024 в 06:00

Как обновить PostgreSQL и не потерять данные: метод минимизации простоя

Простой

12 мин

14K

Блог компании ФлантБазы данных*DevOps*Системное администрирование*PostgreSQL*

Кейс

Мы успешно обновили кластер PostgreSQL с версии 13 до 16, обеспечив минимальный простой и высокую производительность. Процесс включал в себя создание новой реплики через логическую репликацию, перенос роли мастера на обновлённую реплику и настройку потоковой репликации. Несмотря на некоторые сложности, такие как управление LSN и проблемы с подписками, нам удалось сохранить данные и обеспечить синхронизацию.

Подробности читайте в статье.

+57

1 2

4 5 ...

83 84

Базы данных *

Оптимизация реляционных баз данных без даунтайма на примере самой нагруженной БД в Badoo

Выжимаем максимум из PostgreSQL

Как устроено индексирование баз данных

Федеративные возможности YDB: масштабируем разработку вместе со студентами

Разбираемся с Redis

Разработчики остались неизвестны. Лекция Яндекса

Let's Encrypt перевел серверы БД на AMD EPYC

Изменение схемы таблиц PostgreSQL без долгих блокировок. Лекция Яндекса

Как фильтры Блума в 10 раз ускорили SQLite

Базы данных. Тенденции общемировые и в России

Почему важно оптимизировать формат данных

Сравнение хранилищ данных AoS и SoA

Во что обойдется линеаризуемость в распределенной системе

8 книг по PostgreSQL: от баз данных с «нуля» для самоучек до руководства про БД в облаках

Ближайшие события

NewSQL = NoSQL+ACID

Оконные функции SQL простым языком с примерами

Как избавиться от дублей в базе данных (на примере MS SQL)

Руководство по выживанию с MongoDB

Миграция с Firebird на PostgreSQL. Что может пойти не так? Часть 1

Руководство по pgcrypto — шифрование внутри PostgreSQL. Часть 1

Как обновить PostgreSQL и не потерять данные: метод минимизации простоя

Вклад авторов