Базы данных *

Все об администрировании БД

СтатьиПостыНовостиАвторыКомпании

youngmyn 14 часов назад

От реляционных СУБД к экосистеме Hadoop

Простой

11 мин

2.1K

Hadoop * Базы данных * Программирование *

FAQ

Привет, Хабр!

Недавно я понял, что не знаю, что такое Hadoop.

(На этом моменте становится понятно, что данная статья ориентирована на людей, которые не имеют экспертизы и реального опыта взаимодействия с продуктами экосистемы Hadoop)

Сам я являюсь разработчиком, и ежедневно взаимодействую с различными СУБД – в основном, с пресловутой PostgreSQL. Каково же было мое удивление, когда я узнал, что на проде в эту БД данные попадают не напрямую – а с какого-то Greenplum, а туда они, в свою очередь, приходят с некоего Hadoop.

В этот момент я решил узнать, чем обоснована необходимость использования этих инструментов и что они из себя представляют.

batkov_av 16 часов назад

Не лает, не кусает, в 1С не пускает. Что поможет спасти ваши базы 1С от критической уязвимости BDU:2025-07182

Простой

10 мин

4.1K

1С * IT-инфраструктура * Информационная безопасность * Базы данных * Финансы в IT

Туториал

Из песочницы

17.06.2025 г. ФСТЭК России зафиксирована критическая уязвимость в платформе 1С:Предприятие 8 под номером BDU-2025-07182. Этот дефект позволяет злоумышленникам, действующим удаленно, получить несанкционированный доступ к системе от имени произвольного пользователя, что создает серьезные риски для компаний, использующих решения 1С в своих бизнес-процессах.

Что грозит в связи с этим малому и среднему бизнесу? И как защититься? Подробно рассказываю далее.

mgramin 18 часов назад

Shardman. Краткое пособие архитектора

31 мин

2.1K

Блог компании Postgres ProfessionalPostgreSQL * Базы данных * Серверное администрирование *

Туториал

Миф о волшебном параметре fast=true жив и здоров, но в распределённых СУБД появляется ещё один — distributed=true. Ни тот, ни другой не спасут, если не пересобрать схему, ключи шардирования, последовательности, запросы и процесс миграции. Мы трезво проходим по всем углам: от выбора ключей и colocated-таблиц до CDC, топологий и ограничений внешних ключей; показываем, где действительно ускорится, а где станет дороже — и что с этим делать.

+24

MirrorShip 19 часов назад

StarRocks и Trino: сходства, различия, бенчмарки и кейсы

Средний

8 мин

341

Data Engineering * Big Data * Сжатие данных * Базы данных *

Перевод

Проект Trino (ранее PrestoSQL) изначально разработан в Meta, чтобы аналитики могли выполнять интерактивные запросы по широкому спектру хранилищ данных на базе Apache Hadoop. Благодаря эффективной обработке крупных наборов и сложных запросов, а также гибкому подключению к множеству источников данных, Trino быстро стал предпочтительным инструментом аналитики для крупных организаций.

Со временем потребности пользователей в аналитике эволюционировали. С ростом мобильного интернета и SaaS-приложений критически важной стала оперативная (в том числе потоковая) аналитика. Компаниям потребовались более производительные движки, поддерживающие большое число одновременных запросов и обеспечивающие низкие задержки. На этом фоне всё больше пользователей стали искать альтернативы.

StarRocks как новый аналитический движок получил широкое признание отрасли. Он демонстрирует заметные преимущества по производительности, поддержке высокой степени параллелизма и низкой задержке, привлекая внимание крупных компаний, таких как WeChat , Xiaohongshu (RedNote), Ctrip, Beike и др. Как именно StarRocks формирует свои преимущества? В чём его сходства и различия с Trino? Ниже — подробный разбор.

Magnit_OMNI 20 авг в 10:25

CDC без боли: как мы делали отказоустойчивую репликацию с Debezium и Kafka

Средний

8 мин

1.4K

Блог компании Magnit TechБазы данных * Data Engineering * PostgreSQL * Хранение данных *

Кейс

Я Евгений Прочан, в платформенной команде Magnit OMNI развиваю инфраструктуру DWH. Расскажу здесь, почему нам понадобилось перейти от батчинга к CDC и как мы это делали. Причин перехода было две: потребность бизнеса в расширении возможностей инфраструктуры и нестабильность нашего старого процесса репликации.

Мы используем в основном базы данных PostgreSQL. Оттуда пакетами раз в час передаём данные в S3, ClickHouse и таблицы Iceberg. Наша потоковая нагрузка достигает примерно полутора терабайта данных, 6000 операций в секунду (около 1500 в самой нагруженной базе данных).

Dradmin 19 авг в 18:55

Альтернатива чатам с ИИ для анализа и оптимизации SQL запросов. Часть 2

Средний

2 мин

3.3K

Базы данных * MySQL * SQL * Системное администрирование * Веб-разработка *

Месяц назад я опубликовал пост об инструменте для автоматической оптимизации SQL-запросов. Идея была простая — убрать этап «общения» с ИИ и предоставить простой интерфейс, где не нужно придумывать промпты.

За первый месяц сервис использовали более 1000 человек. Ниже — выводы и результаты.

LdEsT 19 авг в 13:42

Наш опыт с Cassandra и ScyllaDB: какие есть ограничения у этих key-value-БД и почему стоит присмотреться к альтернативам

Простой

13 мин

2.3K

Блог компании МТСDevOps * Базы данных * NoSQL *

Быть или не быть? Стоит ли использовать key-value-базы данных в большом продакшне? На связи Иван Храмов, CTO МТС ID, и Николай Диденко, техлид из команды инфраструктуры МТС Web Services. Мы используем Cassandra в МТС ID и за годы эксплуатации познали и сильные, и слабые стороны этого решения.

Главная особенность и одновременно ограничение Cassandra и ScyllaDb — это то, что они строго key-value-хранилища. Именно с этим они справляются отлично — быстрое чтение и запись по ключу, георезервирование и масштабирование. На этом этапе все выглядит радужно.

Но по мере роста проекта возникает необходимость более сложной работы с данными. Например, когда хочется получить информацию в разрезе дат или понять, на каких устройствах какие токены живут. И вот здесь начинают всплывать ограничения архитектуры и типовые грабли, на которые можно наступить (и мы регулярно это делали). В этом материале мы опишем, почему выбрали Cassandra и с какими проблемами столкнулись — надеемся, это поможет правильно определиться с выбором нужного инструмента для ваших систем.

+20

SergeyGSA 19 авг в 13:17

Тестирование CAP-теоремы на примере MongoDB: аварийные ситуации

Средний

13 мин

1.2K

Блог компании Т-БанкБазы данных * Анализ и проектирование систем * Распределённые системы * MongoDB *

FAQ

Привет, Хабр! На связи Сергей Гайдамаков. Продолжаем обсуждать и тестировать набор реплик MongoDB.

В предыдущей статье мы рассмотрели структуру отдельного узла MongoDB, разобрали свойства параметров writeConcern и readConcern для работы с набором реплик MongoDB.

В этой статье я покажу результаты тестов при аварийных ситуациях, которые могут происходить в распределенной системе. Сделаем выводы о свойствах набора реплик с точки зрения CAP- и PACELC-теорем для распределенных систем и посмотрим параметры управления CAP-свойствами неоднородных распределенных систем.

akardapolov 19 авг в 07:33

Работа над ошибками

Простой

21 мин

748

Высоконагруженные системы * Базы данных * Oracle * Java * Программирование *

Ретроспектива

Достаточно большой период времени занимался технической поддержкой СУБД Oracle. Накопилось некоторое количество историй и заметок на полях по этому поводу, не могу не поделиться ими с вами. В общем — садимся по удобнее, берем попкорн, чашку горячего чая или кофе.. Дело было так.

dorooleg 18 авг в 08:13

Как YDB изолирует OLTP и OLAP

Средний

7 мин

3.8K

Блог компании YDBБлог компании ЯндексПрограммирование * Высоконагруженные системы * Базы данных *

Привет, Хабр! Меня зовут Олег Доронин, и мы с командой делаем СУБД Яндекса, которая называется YDB. Каждый транзакционный запрос к базе данных обычно работает с небольшим набором строк и быстро отрабатывает за единицы или десятки миллисекунд, но таких запросов каждую секунду поступает огромное количество. А вот аналитические запросы обычно выполняются не так часто, но каждый из них может требовать обработки вплоть до всех строк в одной или нескольких таблицах. Такие запросы могут выполняться секунды, минуты, или даже часы в зависимости от объёмов данных и сложности запрошенных вычислений.

Чтобы эти два принципиально разных паттерна нагрузки не мешали друг другу, гибридным базам данных важно изолировать транзакционную нагрузку от аналитической. Под катом я расскажу, как мы сделали в YDB компоненты для управления смешанной нагрузкой, которые изолируют миллионы RPS от аналитики, и как менеджер смешанной нагрузки устроен внутри.

+66

OlegIct 18 авг в 05:23

64-битный счётчик транзакций в PostgreSQL

Средний

16 мин

Блог компании Тантор ЛабсPostgreSQL * Базы данных *

Ретроспектива

На конференции PG BootCamp 2025 был представлен доклад Евгения Воропаева "Разработка и отладка 64-битного счётчика транзакций" с рассмотрением проблем при переносе патча с поддержкой 64-битного счетчика с 16 на 18 версию PostgreSQL. В статье описывается история создания патча и почему он есть только в коммерческих форках.

+10

tuzhms 17 авг в 14:45

Рефакторинг скриптов liquibase

Средний

15 мин

1.4K

SQL * Базы данных * Микросервисы * Проектирование и рефакторинг * PostgreSQL *

Из песочницы

Неважно почему, но иногда может появиться желание заняться рефакторингом ваших скриптов liquibase. В моём случае постоянно возникали конфликты в общем файле журнала изменений, количество скриптов превратилось в ужасно длинный список, а в самих скриптах невозможно было ориентироваться, поскольку они содержали по 1–2 команды, а в названии файла были только дата и действие. Долго это терпел, долго взвешивал плюсы и минусы, и всё время боролся с желанием всё отрефачить. И в какой-то момент дошёл до точки, когда желание взяло верх.

Решение принято: рефакторингу быть! Сразу скажу, приступать было страшно, но сейчас я очень доволен результатом. «Идеальную» структуру мы не получили, пришлось идти на компромиссы и заплатить свою цену, зато в новой структуре удалось вылечить все проблемы. Теперь в ней удобно ориентироваться и читать код, конфликты создаются очень редко, а все скрипты автоматически детектируются liquibase-ом. Но только это конец истории. А вначале было вообще непонятно, как рефакторить журнал изменений, да так, чтобы в существующие базы данных он смог пролиться, и ничего не поломал при этом!

Приступаем к рефакторингу

full_moon 15 авг в 09:47

Выбираем архитектуру данных для компании: руководство от дата-инженера

Средний

16 мин

4.9K

Блог компании Magnus TechХранение данных * Big Data * Базы данных * Data Engineering *

Перевод

Сегодня данные превратились в один из главных активов бизнеса. От того, как компания их использует, зависит и качество принимаемых решений, и эффективность процессов, и шансы обойти конкурентов.

Эпоха, когда бизнесу достаточно было просто владеть данными, осталась в прошлом. Теперь их нужно интерпретировать, делать легкодоступными, встраивать системы, поддерживающие принятие решений. При этом объемы данных растут, их форматы множатся, а сценарии использования — усложняются.

Чтобы справиться с этим, компании переходят на более гибкие подходы к управлению данными. В этой статье разберем четыре наиболее популярные архитектуры: Data Warehouse, Data Lake, Data Lakehouse и Data Mesh. Обсудим, чем они отличаются и какую выбрать под конкретные задачи.

+18

mipo256 14 авг в 15:32

Jakarta Data. Что это означает для Java-сообщества

Средний

12 мин

6.5K

Блог компании СберJava * Управление разработкой * Open source * Базы данных *

Обзор

Большинство enterprise-приложений работают с БД в том или ином виде. Чаще всего в качестве БД выступает реляционная DBMS, например, PostgreSQL или Oracle. Относительно часто для доступа к данным используют Hibernate. Ранее он предлагал только одну спецификацию — JPA (Java Persistence API), она же Jakarta. Но теперь Hibernate реализует ещё и Jakarta Data.

Jakarta Data — это новая спецификация под зонтиком проекта Jakarta EE (как и JPA), которая упрощает интеграцию данных в корпоративных Java-приложениях. Обе эти спецификации разрабатывает Eclipse Foundation, и в частности Gavin King, создатель Hibernate.

Большинство разработчиков привыкли работать с Hibernate именно через Spring Data JPA. Изначально, когда только обсуждали спецификацию Jakarta Data, Spring Data (не обязательно JPA) была одним из тех проектов, который, в перспективе, мог бы реализовать спецификацию Jakarta Data. Но этого не произошло, и, несмотря на то, что изначально команда Spring Data была вовлечена в процесс создания спецификации, они отказались от идеи реализовывать Jakarta Data, и та стала развиваться самостоятельно. Сегодня Jakarta Data применяют в Hibernate, Open Liberty и ряде более мелких решений. Как же так вышло?

Меня зовут Михаил Поливаха, я практикующий инженер и активный коммитер Spring Data. В этой статье я расскажу об особенностях Jakarta Data, как она появилась и чем отличается от конкурентных решений. Я также расскажу, что помешало команде Spring Data реализовать Jakarta Data, и что же нас ждёт дальше.

LesnoyChelovek 14 авг в 14:07

Postgres Pro TDE — безопасность и производительность

Средний

18 мин

Блог компании Postgres ProfessionalPostgreSQL * Базы данных * Серверное администрирование * Информационная безопасность *

Обзор

TDE бывает разным: от шифрования на уровне TAM до полного кодирования всего кластера и меток tablespace. Мы сравниваем Percona, Cybertec/EDB, Pangolin/Fujitsu и показываем, где теряется производительность и надёжность, а где появляется гибкость. Дополнительно замдиректора департамента разработки продуктов Василий Бернштейн и старший инженер по ИБ Владимир Абрамов расскажут о том, как в Postgres Pro Enterprise реализована ротация ключей без полного переписывания таблиц и почему выбран AES‑GCM.

+22

select_zvezdo4ka_from 14 авг в 13:00

ClickHouse не тормозит, но теряет данные. Часть 3 — материализованные представления

7 мин

2.7K

Серверное администрирование * Базы данных * Big Data * Data Engineering * NoSQL *

Туториал

ClickHouse не тормозит, но теряет данные. Набор простых действий с объяснениями, позволяющий избежать потери данных.

GrishinAlex 14 авг в 08:00

Как настроить Kafka в DBaaS от Selectel: подробный разбор параметров конфигурации

Простой

7 мин

1.2K

Блог компании SelectelХранение данных * Разработка публичных облаков * Облачные сервисы * Базы данных *

Обзор

Kafka — распределенная стриминговая платформа, которая стала де-факто стандартом для обработки событий в реальном времени. Она обеспечивает надежную доставку сообщений, масштабируемость и низкую задержку. Однако чтобы кластер Kafka работал стабильно под высокой нагрузкой, мало просто «поднять брокеры» — критично правильно настроить параметры конфигурации. От них напрямую зависят пропускная способность, время отклика, устойчивость к сбоям и эффективность использования ресурсов.

На связи снова Александр Гришин, руководитель по развитию продуктов хранения данных Selectel. В этой статье я разберу доступные параметры конфигурации Kafka-кластеров в облачных базах данных: от настроек репликации и ретеншена до лимитов на продюсеров и потребителей. Мы посмотрим, как каждый параметр влияет на производительность и надежность, приведем практические рекомендации для разных сценариев — от высокочастотных событий до больших архивных потоков.

Материал будет полезен инженерам, которые проектируют архитектуру обмена данными, DevOps-специалистам, отвечающим за эксплуатацию, и разработчикам, которым важно предсказуемое поведение стриминга на продакшене. Погнали!

Погнали!

+44

SGontzov 13 авг в 10:09

Мы пилили DBaaS

Средний

12 мин

Блог компании ArenadataСистемное администрирование * PostgreSQL * Kubernetes * Базы данных *

Обзор

Привет, Хабр! Наверняка каждый разработчик или администратор сталкивался с ситуацией, когда для проверки гипотезы или нового функционала срочно нужна «чистая» база данных. Приходится либо искать свободный сервер, либо разворачивать всё локально, тратя время на установку и настройку. А если таких тестовых баз нужны десятки для команды или разных команд? У наших клиентов мы видели целый зоопарк из PostgreSQL разных версий и конфигураций, поддержка которых превращалась в головную боль. Именно эту проблему — создание «одноразовых» и легковесных баз по одному клику — мы и решили. Меня зовут Сергей Гонцов, я занимаюсь развитием СУБД, основанной на PostgreSQL, которая совсем недавно перешла «под крыло» Arenadata и называется теперь Arenadata Prosperity (ADP). В этой статье расскажу нашу историю, как мы готовили свой DBaaS-сервис.

DBaaS по клику

+10

TrexSelectel 12 авг в 12:08

PostgreSQL без боли и костылей: обзор ключевых расширений

8 мин

10K

Блог компании SelectelPostgreSQL * Хранение данных * Базы данных * Облачные сервисы *

Существует огромное количество расширений для PostgreSQL, каждое из которых помогает решать конкретные задачи пользователей. С их помощью можно адаптировать базу данных под собственные нужды и упростить работу с данными. Под катом посмотрим на некоторые из популярных расширений PostgreSQL: зачем они нужны, как применяются, какие имеют преимущества и ограничения.

+55

shkato 12 авг в 11:59

Как правильно тащить данные в хранилище и не чувствовать боль

Средний

4 мин

957

IT-стандарты * Анализ и проектирование систем * Базы данных * Хранение данных *

Туториал

Так обычно начинается повесть о созданном в рекордные сроки дашборде. А потом боль и унижение, и никто не хочет брать на себя ответственность, когда упал прод, потому что BI‑аналитик выгружал 90 миллионов строк join’ом без фильтра. А вашему бизнесу всё равно, кто виноват. Данные не пришли, отчёта нет, шеф злой.

Пуск

2 3 ...

89 90

Базы данных *

От реляционных СУБД к экосистеме Hadoop

Новости

Не лает, не кусает, в 1С не пускает. Что поможет спасти ваши базы 1С от критической уязвимости BDU:2025-07182

Shardman. Краткое пособие архитектора

StarRocks и Trino: сходства, различия, бенчмарки и кейсы

CDC без боли: как мы делали отказоустойчивую репликацию с Debezium и Kafka

Альтернатива чатам с ИИ для анализа и оптимизации SQL запросов. Часть 2

Наш опыт с Cassandra и ScyllaDB: какие есть ограничения у этих key-value-БД и почему стоит присмотреться к альтернативам

Тестирование CAP-теоремы на примере MongoDB: аварийные ситуации

Работа над ошибками

Как YDB изолирует OLTP и OLAP

64-битный счётчик транзакций в PostgreSQL

Рефакторинг скриптов liquibase

Выбираем архитектуру данных для компании: руководство от дата-инженера

Ближайшие события

Jakarta Data. Что это означает для Java-сообщества

Postgres Pro TDE — безопасность и производительность

ClickHouse не тормозит, но теряет данные. Часть 3 — материализованные представления

Как настроить Kafka в DBaaS от Selectel: подробный разбор параметров конфигурации

Мы пилили DBaaS

PostgreSQL без боли и костылей: обзор ключевых расширений

Как правильно тащить данные в хранилище и не чувствовать боль

Вклад авторов