Базы данных *

Все об администрировании БД

СтатьиПостыНовостиАвторыКомпании

Cloud4Y 11 сен 2023 в 12:11

Выбираем СУБД по новым правилам — в какую сторону смотреть

Простой

6 мин

16K

Блог компании Cloud4YPostgreSQL * IT-инфраструктура * Хранение данных * Базы данных *

Обзор

Все говорят: «импортозамещение», а ты купи слона! Postgres PRO Certified, Postgres PRO, 1C PostgreSQL – какого слона купить?

MaxRokatansky 11 сен 2023 в 11:12

Модели данных в NoSQL

Простой

15 мин

11K

Блог компании OTUSNoSQL * Базы данных *

Обзор

Автор статьи: Артем Михайлов

NoSQL (от «Not Only SQL») представляют собой семейство баз данных, разработанных для решения проблем, связанных с хранением, извлечением и обработкой больших объемов разнообразных данных. Они отличаются от традиционных реляционных баз данных, таких как MySQL или PostgreSQL, тем, что не требуют жесткой схемы данных и предоставляют более гибкую структуру хранения.

Преимущества NoSQL баз данных включают в себя горизонтальное масштабирование, высокую производительность при больших нагрузках, способность обрабатывать полуструктурированные и неструктурированные данные, а также поддержку распределенных вычислений. Они широко используются в веб-разработке, анализе больших данных, интернете вещей и других областях, где требуется обработка и хранение данных большого объема и разнообразной структуры.

Читать дальше →

koloskovv 10 авг 2023 в 15:04

Записки оптимизатора 1С (часть 2). Полнотекстовый индекс или как быстро искать по подстроке

Средний

12 мин

12K

Блог компании SOFTPOINTMicrosoft SQL Server * Базы данных * Поисковая оптимизация * 1С *

Кейс

Сегодня речь пойдет про ускорение поиска по подстроке в высоконагруженных базах данных 1С. А точнее об альтернативе, которую можно предложить взамен полнотекстового поиска от 1С или MS SQL.

Поисковые запросы с конструкцией LIKE ‘%текст%’. Именно с двумя %%. В этом случае стандартные индексы не работают и SQL производит полное сканирование таблиц.

m11 10 авг 2023 в 06:26

Дайджест статей про YDB

Простой

2 мин

1.7K

Блог компании YDBБазы данных * Облачные вычисления *

Дайджест

Статьи про YDB публиковались на Хабре ещё до выхода в open source, а отдельным блогом мы обзавелись всего несколько недель назад. В связи с этим проведём небольшую ретроспективу — что пишут про YDB в других хабах.

edeshina 7 апр 2023 в 08:57

GreenPlum: уникальные индексы для таблиц AO/CO

15 мин

6.5K

Блог компании СлёрмPostgreSQL * IT-инфраструктура * Базы данных * Распределённые системы *

Аналитика

Перевод

Уникальные ограничения — классическая функция реляционной базы данных, которая обеспечивает уникальность столбца или группы столбцов во время ввода данных или построения индекса. Они могут быть указаны с помощью ключевых слов UNIQUE / PRIMARY KEY. Уникальные индексы — сущности, которые их поддерживают. Хотя такие ограничения всегда можно было указать в heap-таблицах, они не поддерживались в append optimized таблицах (AO/CO).

В статье разберём, как уникальные индексы помогают принимать более эффективные решения по планированию. А также рассмотрим примеры базовых сценариев и объясним, как они обрабатываются.

mgramin 23 мар 2023 в 13:38

Генерация данных — творчество или рутина?

15 мин

9.1K

DevOps * Базы данных * SQL * PostgreSQL * Тестирование IT-систем *

Обзор

Долгие годы люди стремились к всё более реалистичному изображению окружающих их вещей. Много лет прошло от симпатичных наскальных мамонтов до шедевров эпохи Ренессанса и Просвещения. Однако где-то в 19-м веке (примерно, когда стала появляться первая фототехника, ага), что-то пошло не так, и живопись сменила своё направление от реализма к абстракции. Дальше больше; и все "скатилось" до клякс, пятен и потёков, размазанных по холсту или любой другой поверхности стоимостью в миллионы долларов... И при этом зачастую совершенно было непонятно, кто автор "шедевра": 3-х летний ребенок, маститый художник, нейросеть или кот, опрокинувший банку варенья.

Похожие процессы происходят и в мире данных, синтетические, сгенерированные, абстрактные данные обретают всё большую ценность на рынке. Такие данные являются более безопасными, а также позволяют тестировать системы качественнее и воспроизводить проблемы до их появления в продакшене... А еще делать прогнозы, анализ, безопасно обмениваться и многое другое.

В этом посте мы рассмотрим основные моменты генерации данных с нуля (на основе схемы БД), а так же на основе уже существующих данных. Рассмотрим способы, методы, особенности и инструменты. А каждый шаг будем иллюстрировать примерами живых и настоящих SQL-запросов (в основном PostgreSQL-flavour, но постараемся и не только). И в итоге убедимся, что SQL позволяет нам не только эффективно работать с уже существующими данными (на минуточку, уже почти на протяжении 50 лет), но с помощью него их можно еще и довольно эффектно придумывать.

А начнем мы конечно же с ChatGPT

val6852 20 мар 2023 в 07:50

Разрушение PostgreSQL БД некорректными ограничениями целостности типа CHECK

Простой

7 мин

4.2K

PostgreSQL * Базы данных *

Туториал

Перевод

Я в ударе! После того, как я написал о разрушении вашей базы данных и обертывании идентификатора транзакции, здесь я пишу о повреждениях, вызванных CHECK ограничениями!

Поверьте мне, я не хочу разрушать базы данных PostgreSQL. Просто это сообщение в Твиттере привлекло мое внимание и вызвало воспоминания о других сообщениях о CHECK ограничениях, вызвавших проблемы.

menshakovvv 13 дек 2022 в 06:28

Greenplum Backup в Ceph: история миграции

18 мин

3.8K

Блог компании X5 TechСистемное администрирование * Базы данных * Big Data * Резервное копирование *

Привет, Хабр! У этой статьи два автора – Василий Меньшаков и Алексей Кузнецов. Мы системные архитекторы развития платформы больших данных в X5 Tech. Решили поделиться своим опытом построения нового хранилища резервных копий для Greenplum. Какие были проблемы у предыдущего решения? Почему мы выбрали Ceph? Какой способ интеграции лучше? С какими проблемами мы сталкивались при внедрении этого инструмента? Что мы настраивали? Читайте подробности в нашей статье.

Sber 9 дек 2022 в 09:12

TDE в Platform V DataGrid: учим систему шифрования менять ключи на лету

8 мин

1.5K

Блог компании СберБазы данных * Криптография * Информационная безопасность *

Привет, Хабр! Это Никита Амельчев и Павел Переслегин. Мы создаём Platform V DataGrid — распределённую базу данных, которая используется в сервисах Сбера и внешних клиентов. В статье расскажем, как мы усилили базовые функции шифрования TDE в нашем продукте и как решали вопрос совмещения полного шифрования и высокой производительности базы данных.

Sber 5 дек 2022 в 13:40

Как найти «слона» в песочнице на Hadoop: решаем проблему с ограничением объёма выделенной памяти

6 мин

1.8K

Блог компании СберBig Data * Hadoop * Базы данных *

И снова здравствуй, Хабр! Сегодня поговорим об актуальной для многих из нас проблеме при работе с базами данных. В ходе работы над разными проектами часто приходится создавать базу данных (командное пространство, песочница и т.п.), которую использует как сам автор, так и/или коллеги для временного хранения данных. Как у любого «помещения», в нашей «песочнице» есть своё ограничение по объёму выделенного места для хранения данных. Периодически бывает так, что вы или ваши коллеги забываете об этом маленьком ограничении, из-за чего, к сожалению, заканчивается объём выделенной памяти.

В этом случае можно применить маленький лайфхак, который позволит оперативно просмотреть, какая таблица больше всего занимает место, кто её владелец, как долго она находится в общей песочнице и т.д. Используя его, вы оперативно сможете почистить место в песочнице, предварительно согласовав действия с владельцем данных без нанесения вреда данным остальных коллег. Кроме того, этот инструмент позволит периодически проводить мониторинг наполняемости вашей общей песочницы.

dmitriizolotov 14 ноя 2022 в 16:04

Аналитические панели в реальном времени. В поисках (Apache) Doris

5 мин

3.4K

Блог компании OTUSMySQL * Базы данных *

Можно было бы назвать эту статью "Yet another analytical database", если бы не тот факт, что Apache Doris построен на архитектуре MPP, которая изначально ориентирована на параллельные вычисления и использование распределенного хранения и обработки данных на кластерах. Изначально проект Baidu, инструмент позволяет подготавливать аналитические панели с обновлением в реальном времени, при этом источниками данных могут быть как потоки из внешних источников (логи событий, time series-данные), так и источники из Data Lake (например, Apache Iceberg или Hive). В этой статье мы рассмотрим основные моменты использования Apache Doris на простом примере хранения и простой обработки данных о погоде.

Cloud4Y 9 сен 2022 в 14:55

ITить-КОЛОТИТЬ, серии 10-11

1 мин

2.1K

Блог компании Cloud4YСистемное администрирование * Базы данных * IT-компанииDevOps *

Привет! Мы продолжаем выкладывать новые выпуски нашего сериала про айтишников. Как он появился и как снимался второй сезон нашего мини-сериала, рассказывали ранее.

1shaman 2 мая 2022 в 08:00

Внедрение Postgres из Docker в Kubernetes

7 мин

15K

Блог компании FirstVDSKubernetes * Базы данных *

Перевод

Создание контейнера для базы данных отнюдь не является излишеством. На самом деле, это позволит вам привнести все преимущества контейнеров в вашу БД.

Мы рассмотрим, как создавать контейнеры Postgres с помощью Docker и перезапускать их без потери данных, а в конце статьи с помощью нестандартного метода (использующего ConfigMaps и StatefulSets) мы развернём внутри подов Kubernetes — Postgres.

Читать дальше →

Trend_Micro 21 фев 2022 в 09:03

Спасите ваши файлы: изучаем атаки на NAS

9 мин

8.7K

Блог компании Trend MicroИнформационная безопасность * Исследования и прогнозы в IT * Сетевое оборудованиеБазы данных *

Сетевые накопители (NAS) — практически идеальные устройства: компактные, экономичные, тихие. Легко настроить, легко использовать. Мечта домашних пользователей и администраторов небольших сетей.

К сожалению, простота настройки имеет и обратную сторону: не слишком погружённые в тему кибербезопасности владельцы NAS используют «слабые» настройки, превращая свои устройства в лёгкую мишень для взлома.

Мы изучили текущую инфраструктуру популярных устройств NAS и выявили значительные угрозы и риски, которые могут привести к их компрометации. В этом посте — наиболее важные результаты нашего исследования.

chestny_znak 3 дек 2021 в 07:46

Игры с Mongo, или как мы избежали проблем благодаря смекалке и реверс-инжинирингу

6 мин

4.1K

Блог компании Честный ЗНАКБазы данных * MongoDB * NoSQL * IT-инфраструктура *

Одним из трендов при проектировании сервисов в последнее время выступает использование в качестве баз данных NoSQL-систем. Мы также стараемся идти в ногу со временем и, конечно же, имеем в своем IT-ландшафте несколько таких решений. Одно из них — шардированный кластер MongoDB. Эксплуатация этой СУБД сопряжена с проблемами производительности, архитектуры, взаимодействия и т.д. Удивительно, но факт - зачастую, все мы сталкиваемся с тем, что ошибаются разработчики самой СУБД. Кто бы мог подумать.., что после штатной перезагрузки узла конфигурационного сервера MongoDB в процессе обновления может произойти аварийное завершение работы сервиса базы данных и наш стенд превратится в «тыкву»!

Об одном из таких случаев хотим рассказать в этой статье и, возможно, уберечь наших читателей от опрометчивых шагов при работе с MongoDB.

Дисклеймер: нижеописанные события произошли после того, как была опубликована рекомендация производителя не использовать версию 4.4.4.

JamesJGoodwin 27 авг 2021 в 00:06

PlanetScale — Serverless SQL база данных для разработчиков

4 мин

5.3K

Хранение данных * Базы данных * Системы управления версиями * SQL * MySQL *

Recovery Mode

Этим летом я по уши увяз в serverless-тематике и даже решил переписать один из своих pet-проектов целиком на serverless. Движок для сайта, поддерживающий бессерверные вычисления и вендор для кэширующей прослойки были найдены быстро - NextJS (с деплоем на Vercel) и Upstash с оплатой за каждую отдельную операцию и байт в хранилище. Камнем преткновения стал выбор провайдера для DBaaS. Мне бы хотелось реализовать всё таким образом, чтобы у проекта было две разных базы данных - для разработки и для production, и мне совсем не хотелось запускать базу данных для разработки на локальной машине. Поверхностное ознакомление с DBaaS провайдерами показало, что за дополнительную базу данных пришлось бы платить вдвое больше несмотря на то, что она использовалась бы дай Бог пару раз в неделю. И я ушёл в просмотр докладов и презентаций на YouTube и это именно тот момент когда я открыл для себя PlanetScale. Хочу поделиться своим открытием с вами.

ValentinDom 24 авг 2021 в 09:57

Принимаем на работу брокера для Celery: подбор, аджаст и выкатка

9 мин

5.7K

Блог компании Конференции Олега Бунина (Онтико)Облачные сервисы * Базы данных * Анализ и проектирование систем * Python *

У Яндекса много самописных сервисов для внутренних задач: Яндекс.Формы, Яндекс.Диск, трекер, календарь. Со временем их решили использовать не только внутри компании, но и за ее пределами. Так появилась платформа Яндекс.Коннект.

Большинство сервисов Коннекта построено на Python V3. В качестве web-фреймворка используется Django, реже Flask и Tornado, а новые чаще пишутся на FastAPI. Сервисы, как и базы PostgreSQL, MySQL и MongoDB, живут в облаке. В качестве очереди сообщений почти везде используется Celery с MongoDB в качестве брокера. Он и стал проблемой.

На Russian Python Week 2020 Владимир Колясинский, разработчик бэкенда сервисов платформы Яндекс.Коннект, рассказал, почему они пользовались связкой Celery MongoDB и почему пришлось отказаться от этого брокера. Он сравнил претендентов: Redis, RabbitMQ и YMQ, с их плюсами и минусами. Подробно разобрал процесс переезда на нового брокера, анализ его состояния и возможные проблемы. И у него получилась пошаговая инструкция, которая пригодится при подборе и настройке брокера. А для любителей разбираться самостоятельно под катом есть расшифровка доклада с конференции.

moscas 28 июл 2021 в 08:16

DataGrip 2021.2: Генерация источника на основе кода, поиск по истории изменений, управление списком автодополнения и др

5 мин

5.1K

Блог компании JetBrainsMySQL * PostgreSQL * SQL * Базы данных *

Привет! Рассказываем о том, что мы сделали в DataGrip за четыре месяца. Если вы пользуетесь другими IDE от JetBrains и работаете в них с базами данных, то этот пост для вас тоже.

Что внутри?

Kilor 15 июн 2021 в 10:25

Анализируем «слона» вместе с коллегами

2 мин

4.9K

Блог компании ТензорPostgreSQL * SQL * Базы данных * Визуализация данных *

Если ваша жизнь DBA, сопровождающего PostgreSQL, наполнена вопросами "а почему так медленно?" и "как сделать, чтобы запрос не тормозил?", наш сервис анализа и визуализации планов запросов explain.tensor.ru сделает ее немного легче за счет привлечения коллег и обновленных подсказок.

Gazinformservice 19 апр 2021 в 04:05

Нам мало CAP. Да здравствует PACELC

10 мин

16K

Блог компании ГазинформсервисИнформационная безопасность * Базы данных *

Если вы когда-нибудь сталкивались с распределёнными СУБД или системами обработки данных, то слышали о двух теоремах: CAP и PACELC, определяющих грани возможных конфигураций этих систем. Споры об их универсальности не утихают до сих пор, однако альтернативы, способные полностью заместить данные научные изыскания, ещё не сформулированы и вряд ли в ближайшее время появятся. Поэтому всем, кто работает с распределёнными системами, необходимо учитывать эти теории. Мы, команда разработки СУБД Jatoba, также столкнулись с противоречивостью теорем, детально разобрались и готовы помочь всем, кто только начинает работу с ними.

Введение

В 2000 году Эрик Брюер выдвинул гипотезу, суть которой можно описать так: в распределённой системе невозможно обеспечить одновременное выполнение всех трёх условий: корректности, доступности и устойчивости к разделению узлов CAP (Consistency-Availability-Partition tolerance). За 20 лет применения теорема действительно доказала свою состоятельность, однако показалась недостаточной. Так в 2010 году появилась PACELC как расширение CAP, которое гласит, что в случае разделения сети в распределённой компьютерной системе необходимо выбирать между доступностью и согласованностью, но даже если система работает нормально в отсутствии разделения, нужно выбирать между задержками и согласованностью.
Как это работает, рассмотрим далее.

Читать дальше →

1 2 ...

64 65

67 68 ...

84 85

Базы данных *

Выбираем СУБД по новым правилам — в какую сторону смотреть

Модели данных в NoSQL

Записки оптимизатора 1С (часть 2). Полнотекстовый индекс или как быстро искать по подстроке

Дайджест статей про YDB

GreenPlum: уникальные индексы для таблиц AO/CO

Генерация данных — творчество или рутина?

Разрушение PostgreSQL БД некорректными ограничениями целостности типа CHECK

Greenplum Backup в Ceph: история миграции

TDE в Platform V DataGrid: учим систему шифрования менять ключи на лету

Как найти «слона» в песочнице на Hadoop: решаем проблему с ограничением объёма выделенной памяти

Аналитические панели в реальном времени. В поисках (Apache) Doris

ITить-КОЛОТИТЬ, серии 10-11

Внедрение Postgres из Docker в Kubernetes

Ближайшие события

Спасите ваши файлы: изучаем атаки на NAS

Игры с Mongo, или как мы избежали проблем благодаря смекалке и реверс-инжинирингу

PlanetScale — Serverless SQL база данных для разработчиков

Принимаем на работу брокера для Celery: подбор, аджаст и выкатка

DataGrip 2021.2: Генерация источника на основе кода, поиск по истории изменений, управление списком автодополнения и др

Анализируем «слона» вместе с коллегами

Нам мало CAP. Да здравствует PACELC

Введение

Вклад авторов