Базы данных *

Все об администрировании БД

СтатьиПостыНовостиАвторыКомпании

selenzorn 27 июн 2023 в 09:31

Подойдет ли PostgreSQL вообще всем проектам или нужны альтернативы

15 мин

18K

Блог компании SelectelБазы данных*PostgreSQL*MySQL*IT-инфраструктура*

✏️ Технотекст 2023

В интернете только и разговоров, что про PostgreSQL и MySQL, но выбор СУБД много шире. В этом материале мы рассмотрим несколько популярных баз данных, разберемся с их спецификацией и сценариями использования, чтобы выйти за рамки привычных решений.

Читать дальше →

+36

PatientZero 14 мар 2023 в 09:25

Как Discord хранит триллионы сообщений

Простой

10 мин

30K

Rust*Базы данных*Мессенджеры*Хранение данных*

Обзор

Перевод

В 2017 году мы написали пост о том, как храним миллиарды сообщений [перевод на Хабре]. В нём мы рассказали о том, как начали с использования MongoDB, но потом выполнили миграцию данных в Cassandra, потому что искали надёжную, устойчивую к сбоям базу данных, имеющую относительно низкую стоимость обслуживания. Мы знали, что будем расти, так и произошло!

Нам нужна была база данных, способная расти вместе с нами, но чтобы стоимость обслуживания не росла вместе с объёмом хранимых данных. К сожалению, оказалось, что это не так — кластер Cassandra демонстрировал серьёзные проблемы с производительностью, поэтому нам требовалось всё больше усилий, чтобы просто поддерживать его, не говоря уже о совершенствовании.

Спустя почти шесть лет мы многое изменили; изменился и способ хранения сообщений.

Читать дальше →

+36

Nurked 12 авг 2021 в 23:30

UUID версии 7, или как не потеряться во времени при создании идентификатора

7 мин

42K

Системное программирование*Базы данных*Big Data*Хранение данных*Инженерные системы*

В течение многих лет я противостоял засилью UUID как ключей в базах данных, но со временем и практикой до меня дошло. Они действительно удобны, когда речь идёт о распределённых системах. Генерировать новый идентификатор на разных концах планеты не так-то просто. Создание псевдослучайных идентификаторов решает эту проблему.

Хотя, подобные решения, не всегда хороши. В отличие от обыкновенных цифровых значений, которые легко кешировать и сортировать, UUID не так гибки в использовании. UUID версии 7 предназначен как раз для того, чтобы разобраться с подобными проблемами.

Добро пожаловать в мир сортированых UUID

+36

178

Filinger 13 янв 2021 в 15:30

Когда-то я внедрял ClickHouse в стартапе, где даже алерты мониторили индийцы — это был Дикий Запад

7 мин

19K

Блог компании РебреинDevOps*Хранение данных*Базы данных*IT-инфраструктура*

Однажды я работал дата-инженером в стартапе. Он быстро рос и в какой-то момент решился на покупку одной крупной компании. Там было больше сотни сотрудников — оказалось, почти все из Индии. Пока наши разработчики возились с экзотическим кодом, не поддающимся расшифровке с наскока, мое внимание привлек индийский отдел мониторинга.

Чтобы мониторить сеть и сервера, можно использовать самый разный софт. Главное — быть уверенным: если что-то пойдет не так, то сработает алерт. Вы увидите уведомление и успеете все починить. У них же было свое представление о мониторинге. Представьте, несколько комнат со столами, стульями и огромными плазмами на стенах, внутри сидят почти два десятка человек. На каждый монитор выведены разноцветные графики и рядом приклеены бумажки с номерами телефонов.

Работа этих двадцати людей заключалась в том, чтобы сидеть и смотреть на графики, а если линия вдруг окажется выше приклеенного рядом стикера — звонить по номеру телефона, который там написан, и бить тревогу. Вот они сидели и не отрываясь следили.

Покупка компании обошлась недорого, но содержание такой инфраструктуры стоило заоблачных денег. Индусы использовали дорогущую Vertica, где, кроме оплаты железа, нужно было еще отстегивать за лицензию. Мы решили попробовать переезд на ClickHouse. Это практически бесплатный аналог Vertica. Оба продукта работают по схожему принципу: колоночное СУБД с шардированием, с партиционированием данных.

И это было то еще приключение.

+36

vlstrochkov 13 окт 2020 в 16:00

Восемь интересных возможностей PostgreSQL, о которых вы, возможно, не знали

8 мин

28K

Блог компании OTUSPostgreSQL*SQL*Базы данных*

Перевод

Привет, Хабр! Приглашаем на бесплатный Demo-урок «Параллельный кластер CockroachDB», который пройдёт в рамках курса «PostgreSQL». Также публикуем перевод статьи Тома Брауна — Principal Systems Engineer at EnterpriseDB.

В этой статье рассмотрим несколько полезных советов по работе с PostgreSQL: ссылка на всю строку целиком, сравнение нескольких столбцов, общие табличные выражения, пользовательские параметры конфигурации, сравнение логических значений без "равно", изменение типа столбца без лишних затрат, информация о секции, в которой находится строка, таблицы — это типы.

+36

ovi 1 окт 2020 в 12:05

В Tarantool можно совместить супербыструю базу данных и приложение для работы с ними. Вот как просто это делается

15 мин

13K

Блог компании РебреинDevOps*Базы данных*Хранение данных*

Туториал

Пять лет назад я попробовал работать с Tarantool, но тогда он мне не зашел. Но недавно я проводил вебинар, где рассказывал про Hadoop, про то, как работает MapReduce. Там мне задали вопрос — «А почему под эту задачу не использовать Tarantool?».

Ради любопытства я решил вернуться к нему, протестировать последнюю версию — и на этот раз проект мне очень понравился. Сейчас я покажу, как написать в Tarantool простое приложение, нагружу его и проверю производительность, и вы увидите, как там все легко и круто.

Читать дальше →

+36

victoriously 3 мар 2020 в 09:07

Весь Хабр в одной базе

7 мин

17K

Python*Программирование*Базы данных*Проектирование API*Хранение данных*

Из песочницы

Добрый день. Прошло уже 2 года с момента написания последней статьи про парсинг Хабра, и некоторые моменты изменились.

Когда я захотел иметь у себя копию хабра, я решил написать парсер, который бы сохранил весь контент авторов в базу данных. Как это вышло и с какими ошибками я встретился — можете прочитать под катом.

Читать дальше →

+36

dev1ant 2 дек 2019 в 07:20

Как устроены сервисы управляемых баз данных в Яндекс.Облаке

12 мин

18K

Блог компании ЯндексБазы данных*PostgreSQL*MySQL*MongoDB*

Когда ты доверяешь кому-то самое дорогое, что у тебя есть, – данные своего приложения или сервиса – хочется представлять, как этот кто-то будет обращаться с твоей самой большой ценностью.

Меня зовут Владимир Бородин, я руководитель платформы данных Яндекс.Облака. Сегодня я хочу рассказать вам, как всё устроено и работает внутри сервисов Yandex Managed Databases, почему всё сделано именно так и в чём преимущества – с точки зрения пользователей – тех или иных наших решений. И конечно, вы обязательно узнаете, что мы планируем доработать в ближайшее время, чтобы сервис стал лучше и удобнее для всех, кому он нужен.

Что ж, поехали!

Читать дальше →

+36

olegbunin 31 окт 2019 в 11:08

Распределенное логирование и трассировка для микросервисов

18 мин

29K

Блог компании Конференции Олега Бунина (Онтико)Хранение данных*Системное администрирование*Высоконагруженные системы*Базы данных*

Логирование — важная часть любого приложения. Любая система логирования проходит три основных шага эволюции. Первый — вывод на консоль, второй — запись логов в файл и появление фреймворка для структурированного логирования, и третий — распределенное логирование или сбор логов различных сервисов в единый центр.

Если логирование хорошо организовано, то позволяет понимать, что, когда и как идет не так, как задумано, и передавать нужную информацию людям, которым предстоит эти ошибки исправлять. Для системы, в которой каждую секунду отправляется 100 тысяч сообщений в 10 дата-центрах на 190 стран, а 350 инженеров каждый день что-то деплоят, система логирования особенно важна.

Иван Летенко — тимлид и разработчик в Infobip. Чтобы решить проблему централизованной обработки и трассировки логов в микросервисной архитектуре при таких огромных нагрузках, в компании пробовали различные комбинации стека ELK, Graylog, Neo4j и MongoDB. В итоге, спустя много грабель, написали свой лог-сервис на Elasticsearch, а как БД для дополнительной информации взяли PostgreSQL.

Под катом подробно, с примерами и графиками: архитектура и эволюция системы, грабли, логирование и трассировка, метрики и мониторинг, практика работы с кластерами Elasticsearch и их администрирования в условиях ограниченных ресурсов.

+36

mary_arti 9 июл 2019 в 13:25

По следам конференции T+ Conf 2019

3 мин

1.7K

Блог компании VKTarantool*Базы данных*Высоконагруженные системы*Конференции

В середине июня в нашем офисе прошла конференция T+ Conf 2019, на которой прозвучало много интересных докладов про использование Tarantool, in-memory-вычислений, кооперативной многозадачности и Lua для создания высоконагруженных отказоустойчивых сервисов в Digital и Enterprise. И для всех, кто не смог побывать на конференции, мы приготовили видеозаписи и презентации всех выступлений, а также кучу отличных фотографий из гущи событий, так сказать.

+36

geoolekom 12 мар 2019 в 15:47

Готовим полнотекстовый поиск в Postgres. Часть 2

7 мин

24K

Веб-разработка*Базы данных*PostgreSQL*

В прошлой статье мы оптимизировали поиск в PostgreSQL стандартными средствами. В этой статье мы продолжим оптимизацию с помощью индекса RUM и проанализируем его плюсы и минусы в сравнении с GIN.

Читать дальше →

+36

eapotapov 17 янв 2019 в 06:33

Миграция с Mongo на Postgres: опыт газеты The Guardian

13 мин

19K

Блог компании ITSummaMongoDB*PostgreSQL*Базы данных*Системное администрирование*

Перевод

The Guardian — одна из крупнейших британских газет, она основана в 1821 году. За без малого 200 лет существования архив накопился изрядный. По счастью, далеко не весь он хранится на сайте — всего за какие-то последние пару десятков лет. В базе данных, которую сами англичане назвали «источником истины» для всего онлайн-контента, около 2,3 млн элементов. И в один прекрасный момент они осознали необходимость миграции с Mongo на Postgres SQL — после того, как одним жарким июльским днём в 2015 году процедуры аварийного переключения были подвергнуты суровому испытанию. Миграция заняла без малого 3 года!..

Мы перевели статью, в которой рассказывается, как проходил процесс миграции и с какими сложностями столкнулись администраторы. Процесс долгий, но резюме простое: приступая к большой задаче, смиритесь, что ошибки будут обязательно. Но в конечном итоге, 3 года спустя, британским коллегам удалось отпраздновать окончание миграции. И поспать.

Читать дальше →

+36

olegbunin 25 июл 2018 в 09:42

Cassandra для хранения метаданных: успехи и провалы

31 мин

21K

Блог компании Конференции Олега Бунина (Онтико)Базы данных*Высоконагруженные системы*Хранение данных*

Каким требованиям должно удовлетворять хранилище метаданных для облачного сервиса? Да не самого обычного, а для enterprise с поддержкой географически распределенных датацентров и Active-Active. Очевидно, система должна хорошо масштабироваться, быть отказоустойчивой и хотелось бы, чтобы было возможно реализовать настраиваемую консистентность операций.

Под все эти требования подходит только Cassandra, а ничто другое не подходит. Надо заметить, Cassandra действительно классная, но работа с ней напоминает американские горки.

В докладе на Highload++ 2017 Андрей Смирнов (smira) решил, что о хорошем говорить неинтересно, зато подробно рассказал, про каждую проблему, с которой пришлось столкнуться: про потерю и порчу данных, про зомби и потерю производительности. Эти истории и вправду напоминают катание на горках, но на все проблемы находится решение, за которым добро пожаловать под кат.

О спикере: Андрей Смирнов работает в компании Virtustream, реализующей облачное хранилище для enterprise. Идея состоит в том, что условно Amazon делает облако для всех, а Virtustream делает специфические вещи, которые необходимы большой компании.

+36

Leono 15 июл 2018 в 14:35

Метаданные S3 в PostgreSQL. Лекция Яндекса

12 мин

13K

Блог компании ЯндексPostgreSQL*Базы данных*

Это вторая лекция с Я.Субботника по базам данных — первую мы опубликовали пару недель назад.

Руководитель группы СУБД общего назначения Дмитрий Сарафанников рассказал об эволюции хранилища данных в Яндексе: о том, как мы решили делать S3-совместимый интерфейс, почему выбрали PostgreSQL, на какие грабли наступили и как с ними справились.

— Всем привет! Меня зовут Дима, в Яндексе я занимаюсь базами данных.

+36

Leono 1 июл 2018 в 09:23

Разгоняем бэкап. Лекция Яндекса

9 мин

19K

Блог компании ЯндексБазы данных*Промышленное программирование*

Несколько ближайших лекций будут по мотивам первого Я.Субботника по базам данных, который состоялся весной. Сначала на Я.Субботнике выступил разработчик Андрей Бородин. Он рассказал о WAL-G — простом и эффективном инструменте для резервного копирования PostgreSQL в облако, а также об алгоритмах и технологиях, которые позволяют WAL-G создавать бэкапы быстрее. Главная особенность WAL-G — дельта-бэкапы. Из лекции вы узнаете об их реализации и о том, как поддержка этой технологии развивается в PostgreSQL.

— Привет! Я разработчик в Яндексе из Екатеринбурга. К технологиям быстрого бэкапа. Бэкапом мы занимаемся довольно давно, были доклады Владимира Бородина и Евгения Дюкова о том, как мы исследуем и что разрабатываем, чтобы хранить данные безопасно, надежно, удобно и эффективно. Эта серия посвящена последним наработкам в указанной области.

Поговорим про бэкапы в PostgreSQL в принципе. Стандартная утилита для переноса данных — pg_dump — определяется как консольная утилита, создающая файл с логическим представлением ваших данных.

+36

danikin 6 апр 2018 в 07:11

Сравниваем Tarantool с Redis и Memcached

5 мин

32K

Блог компании VKNoSQL*Tarantool*Базы данных*Высоконагруженные системы*

Перевод

Выбираете между Tarantool и Redis или между Tarantool и Memcached? Давайте рассмотрим основные различия, чтобы вам легче было определиться.

Читать дальше →

+36

mOlind 6 июн 2013 в 09:30

Ускоряем базу данных. Bcache

3 мин

31K

Базы данных*Настройка Linux*Системное администрирование*

Для работы мы используем postgresql + postgis базу данных с данными для всей планеты от osm.org. На диске она занимает около 350 Gb и работает не быстро, да и хранится на обычном винчестере 2Tb 7200rpm, без RAID-a. Т.к. нагрузка на базу данных постепенно растет, было решено ускорить дисковую подсистему, потратив при этом минимум денег. Вариантов было не много:

купить еще один такой же винчестер и объединить их в raid-0.
купить небольшой SSD и организовать на нем быстрый кэш:
- dm-cache. Был добавлен в ядро 3.9, ставится просто.
- bcache. Судя по обзорам самый быстрый. Основной минус — надо форматировать диски перед началом использования. Официально добавлен в ядро 3.10, распространяется как пропатченое ядро 3.9.
- EnhanceIO. В обзорах я встретил упоминание его, как самого медленного, но простого в использовании.

Взвесив плюсы и минусы, а так же спросив отзывы знакомых, я решил остановиться на bcache. О нем и расскажу подробнее.

Читать дальше →

+36

Kerman 27 июн в 15:17

ORM на три звена. В 120 раз быстрее SQL?

Средний

45 мин

13K

Программирование*Базы данных*.NET*

Нет, речь не про кэш в памяти. Так было бы слишком просто. У нас сегодня будет препарирован ORM, который честно запрашивает данные у реляционной СУБД, маппит в объекты, подключает связи и отдаёт в логику приложения в виде объектов. И всё на порядки быстрее, чем прямой запрос из кода приложения.

Да, здесь есть нюанс. Об этом нюансе, а также о том, зачем я написал в пятый раз кастомный ORM и будет эта статья. Эта разработка тесно переплетена с моей личной историей, когда я переходил с одной работы на другую, а затем был уволен. Я не хочу оставлять сухой технический текст, поэтому эта статья будет скорее рассказом моей работе в этой компании.

Код в статью я старался включать по минимуму. Он точно не полный и возможно ошибочный, потому что дорабатывался по мере написания статьи. Полный и исправленный вариант будет доступен по ссылке в конце статьи.

+35

vgvoleg 30 апр в 11:52

Релиз диалекта YDB для SQLAlchemy: как мы сделали интеграцию с Apache Superset

Средний

5 мин

Блог компании YDBПрограммирование*Высоконагруженные системы*Базы данных*Визуализация данных*

Меня зовут Олег, и в Яндексе мы с командой занимаемся Python-обвязкой вокруг нашей базы данных YDB. Python знаменит «батарейками в комплекте», широким ассортиментом библиотек на все случаи жизни, включая богатую экосистему для работы с базами данных. Есть свой интерфейс DBAPI (PEP-249), несколько конкурирующих ORM и многочисленные уровни абстракции между софтом и базами. В этой статье — о том, как мы делали полноценную интеграцию нашей базы данных с Apache Superset: чтобы достаточно было выбрать YDB из выпадающего меню и начать визуализировать аналитические данные.

+35

yakvenalex 18 окт 2024 в 10:16

Pydantic 2: Полное руководство для Python-разработчиков — от основ до продвинутых техник

26 мин

65K

Блог компании AmveraDevOps*Системное администрирование*Базы данных*Python*

Туториал

Друзья, сегодня мы погрузимся в мир Pydantic 2 – мощного инструмента для валидации данных в Python! Узнаем, почему эта библиотека стала незаменимой в 30% Python-проектов и как она упрощает работу с данными. От базовых концепций до продвинутых техник – мы охватим всё, что нужно знать современному Python-разработчику. Готовьтесь к практике – ведь только так можно по-настоящему освоить Pydantic и сделать ваш код более надёжным и эффективным.

+35

1 2 ...

9 10

12 13 ...

82 83

Базы данных *

Подойдет ли PostgreSQL вообще всем проектам или нужны альтернативы

Как Discord хранит триллионы сообщений

UUID версии 7, или как не потеряться во времени при создании идентификатора

Когда-то я внедрял ClickHouse в стартапе, где даже алерты мониторили индийцы — это был Дикий Запад

Восемь интересных возможностей PostgreSQL, о которых вы, возможно, не знали

В Tarantool можно совместить супербыструю базу данных и приложение для работы с ними. Вот как просто это делается

Весь Хабр в одной базе

Как устроены сервисы управляемых баз данных в Яндекс.Облаке

Распределенное логирование и трассировка для микросервисов

По следам конференции T+ Conf 2019

Готовим полнотекстовый поиск в Postgres. Часть 2

Миграция с Mongo на Postgres: опыт газеты The Guardian

Cassandra для хранения метаданных: успехи и провалы

Ближайшие события

Метаданные S3 в PostgreSQL. Лекция Яндекса

Разгоняем бэкап. Лекция Яндекса

Сравниваем Tarantool с Redis и Memcached

Ускоряем базу данных. Bcache

ORM на три звена. В 120 раз быстрее SQL?

Релиз диалекта YDB для SQLAlchemy: как мы сделали интеграцию с Apache Superset

Pydantic 2: Полное руководство для Python-разработчиков — от основ до продвинутых техник

Вклад авторов