Базы данных *

Все об администрировании БД

СтатьиПостыНовостиАвторыКомпании

aozeritsky 24 апр 2024 в 07:00

Эволюция обработки данных: от MapReduce к стриминговому движку

7 мин

8.5K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureSQL*Базы данных*Хранение данных*

Кейс

Yandex Query Language (YQL) — универсальный декларативный язык запросов к системам хранения и обработки данных, разработанный в Яндексе. А ещё это один из самых нагруженных сервисов: YQL ежедневно обрабатывает около 800 петабайт данных и 600 000 SQL-запросов, и эти показатели постоянно растут.

Изначально YQL основывался на операциях MapReduce, которые эффективны для больших данных. Но для средних объёмов данных (до 50 Гб, которые составляют около 60% запросов) этот подход оказался неоптимальным, потому что нужно было обмениваться данными между операциями через диск. Поэтому разработчики создали новый более гибкий стриминговый движок, который значительно ускоряет обработку данных за счёт выполнения всех вычислений в памяти.

В этой статье я хочу рассказать о подходах и технологиях в разработке систем для обработки данных на примере YQL. Основное внимание я уделил переходу от MapReduce к стриминговому движку, который обеспечивает более эффективную обработку данных, вмещающихся в память, и который доступен в опенсорсе.

+39

erbanovanastasia 27 сен 2023 в 10:05

Погружаемся в базы данных и SQL: полезные материалы и инструменты от сотрудников Selectel

4 мин

12K

Блог компании SelectelMySQL*SQL*Базы данных*

Почему программисты SQL так плохо шутят? Потому что их юмор — это всегда "SELECT * FROM jokes WHERE is_funny = 1".

Новичку нужно перебрать много сайтов, чтобы научиться работать с базами данных и понимать такие шутки. Это усложняется тем, что в открытом доступе мало действительно полезных материалов, которые могут закрыть все пробелы в знаниях.

Мы попросили наших коллег порекомендовать полезные ресурсы, которые помогут сделать первые шаги в работе с базами данных и SQL. Сохраняйте подборку в закладки, чтобы сэкономить время на изучение темы, и делитесь своими вариантами в комментариях.

Читать дальше →

+39

trublast 21 июл 2023 в 08:24

KeyDB и Redis: в поисках серебряной пули — in-memory replicated DB (Replicated IMDB)

Средний

19 мин

15K

Блог компании ФлантKubernetes*DevOps*Базы данных*NoSQL*

Кейс

✏️ Технотекст 2023

На кластерах клиентов, которые мы обслуживаем, есть как «одноголовые» инсталляции Redis (обычно для кэшей, которые не страшно потерять), так и более отказоустойчивые решения — Redis Sentinel или Redis Cluster. По нашему опыту, во всех трех вариантах можно безболезненно переключиться с Redis на KeyDB и получить прирост производительности. Точнее, избавиться от бутылочного горлышка Redis в одно ядро. Хотя в новых версиях Redis(r) появилась обработка I/O в отдельных тредах, иногда этого бывает недостаточно.

В то же время, если мы хотим использовать отказоустойчивые решениями вроде Sentinel и Cluster, нам понадобится поддержка этих технологий на уровне библиотеки, которую приложение использует для подключения в Redis. Причем лишь немногие библиотеки умеют читать из реплик Redis — в обоих вариантах (Sentinel и Cluster) чтение, как правило, происходит с мастеров. И запись, естественно, тоже происходит в мастеры.

В итоге у нас есть несколько реплик довольно дорогого in-memory-хранилища, а в рабочем процессе используется только часть из них. Остальные — на подхвате. Хотя в большинстве кейсов операции с in-memory NoSQL DB — это именно операции чтения.

Однако если посмотреть в сторону KeyDB, то можно увидеть, что там есть киллер-фича — и даже две: я говорю о режимах Active Replica и Multi-Master. Использование этих режимов позволяет получить распределенный отказоустойчивый KeyDB, совместимый с Redis, писать в любую ноду, читать из любой ноды. И все это с точки зрения приложения выглядит как один экземпляр Redis без всяких Sentinel — то есть в коде приложения ничего менять не придется.

Звучит как фантастика?

+39

Gallemar 4 июл 2023 в 15:56

Странная архитектура

5 мин

21K

Базы данных*

Странная архитектура — небольшой рассказ с претензией на юмор как в пост‑ковидный период разбирал проблемы на новой работе.

+39

selenzorn 29 дек 2022 в 11:58

Не все типы репликации одинаково полезны, или почему две MySQL лучше одной

5 мин

7.4K

Блог компании SelectelMySQL*Базы данных*

В это сложно поверить, но MySQL как продукт появился еще в 1995 году. Со временем название СУБД стало таким же нарицательным, как Xerox. Сегодня под этим термином могут понимать самые разные связки: от MySQL Native от компании Oracle до Percona XtraDB Cluster, а ведь есть еще MariaDB, Galera, Percona Server.

О том, как устроено генеалогическое древо MySQL можно снимать сериал с драконами, поэтому в материале мы сконцентрируемся на особенностях и ограничениях работы СУБД с разным типом репликации: MySQL sync и MySQL Semi-sync.

Читать дальше →

+39

m1rko 19 фев 2018 в 09:43

Вопросы для собеседования бэкенд-разработчика

16 мин

201K

Серверная оптимизация*Веб-разработка*Программирование*Карьера в IT-индустрииБазы данных*

Перевод

Этот список появился как личная памятка по темам, которые я обсуждал с коллегами и друзьями и в которых хотел разобраться поглубже…

Я не большой любитель задавать технические вопросы на собеседованиях: по мне так лучше посидеть с кандидатом (или кандидаткой) за клавиатурой над каким-то реальным кодом, реальной проблемой — и целый день заниматься парным программированием, желательно поочерёдно с остальными членами команды. Но я считаю, что некоторые технические вопросы могут быть хорошей отправной точкой для начала увлекательного и приятного разговора и позволят глубже узнать друг друга.

В этом репозитории собран ряд вопросов, связанных с серверной частью, которые можно использовать при проверке потенциальных кандидатов. Ни в коем случае не рекомендуется задавать все вопросы одному кандидату: это займет несколько часов и вообще не имеет смысла, потому что они охватывают слишком широкий спектр тем. Никто не может знать всего. Выберите наиболее актуальный раздел и самые интересные вопросы, чтобы развернуть беседу.

Читать дальше →

+39

274

unnforgiven 1 ноя 2016 в 05:33

Кластер высокой доступности на postgresql 9.6 + repmgr + pgbouncer + haproxy + keepalived + контроль через telegram

32 мин

59K

Блог компании ESOFTХранение данных*Серверное администрирование*Базы данных**nix*

Туториал

Recovery Mode

На сегодняшний день процедура реализации «failover» в Postgresql является одной из самых простых и интуитивно понятных. Для ее реализации необходимо определиться со сценариями файловера — это залог успешной работы кластера, протестировать его работу. В двух словах — настраивается репликация, чаще всего асинхронная, и в случае отказа текущего мастера, другая нода(standby) становится текущем «мастером», другие ноды standby начинают следовать за новым мастером.

На сегодняшний день repmgr поддерживает сценарий автоматического Failover — autofailover, что позволяет поддерживать кластер в рабочем состоянии после выхода из строя ноды-мастера без мгновенного вмешательства сотрудника, что немаловажно, так как не происходит большого падения UPTIME. Для уведомлений используем telegram.

Появилась необходимость в связи с развитием внутренних сервисов реализовать систему хранения БД на Postgresql + репликация + балансировка + failover(отказоустойчивость). Как всегда в интернете вроде бы что то и есть, но всё оно устаревшее или на практике не реализуемое в том виде, в котором оно представлено. Было решено представить данное решение, чтобы в будущем у специалистов, решивших реализовать подобную схему было представление как это делается, и чтобы новичкам было легко это реализовать следуя данной инструкции. Постарались описать все как можно подробней, вникнуть во все нюансы и особенности.

Читать дальше →

+39

PyLounge 28 ноя 2024 в 09:55

Большой гайд по миграциям в Django: готовимся к миграциям и избегаем конфликтов

Простой

28 мин

8.9K

Блог компании ИдаПроджектПрограммирование*Django*Базы данных*Python*

Туториал

Привет! Меня зовут Макс, я backend-разработчик в компании idaproject и автор YouTube-канала PyLounge.

Я всегда хотел создавать контент, который пригодился бы мне самому в прошлом или настоящем. Эта большая статья — не исключение. Она для тех, кто только начинает изучение Django: жалею, что когда я начинал, мне не попался подобный материал. Надеюсь, он станет для вас хорошим подспорьем.

Кому-то всё сказанное здесь покажется очевидным, но я всегда придерживался принципа — «то что очевидно мне или вам, не всегда очевидно другому».

Что будет? Я расскажу, что такое миграции, зачем они нужны, как подготовиться к работе с ними и провести базовую работу на Django; отдельно подсвечу тему конфликтов и схлопываний, покажу, как содержать в чистоте историю миграций.

Всё это с примерами на практике и иллюстрациями. Погнали!

+38

maxkokryashkin 22 янв 2024 в 08:30

Exception Handling: сквозь мультивселенные интероперабельности

10 мин

2.8K

Блог компании Конференции Олега Бунина (Онтико)Блог компании VKВысоконагруженные системы*Базы данных*Tarantool*

В любой программе периодически возникают исключительные ситуации, которые необходимо обрабатывать. В большинстве случаев обработка ошибок не вызывает вопросов, но ситуация становится сложнее, когда среда вашего исполнения представляет собой сэндвич из интерпретируемого и нативно исполняемого кода на разных языках.

Меня зовут Максим Кокряшкин, я занимаюсь поддержкой и расширением функциональности форка LuaJIT, интегрированного в Tarantool. В этой статье мы обсудим, как интероперабельность исключений помогает упростить обработку ошибок на стыках разных языковых рантаймов, а также посмотрим, как можно реализовать интероперабельность стандартными механизмами обработки исключений.

Читать дальше →

+38

kirillkosolapov 21 авг 2023 в 07:23

Виды баз данных. Большой обзор типов СУБД

21 мин

152K

Блог компании AmveraБазы данных*Хранение данных*

Обзор

Часто, в обзорах видов баз данных упоминают реляционные и “другие”, “NoSQL” и т.д., либо приводят самые основные типы СУБД (базы данных), забывая о редких. В данной статье я постараюсь описать максимально полно виды баз данных и привести примеры конкретных реализаций. Разумеется, статья не претендует на всеохватность и классифицировать базы данных можно по разному, в том числе по типам оптимальной нагрузки и т.д., но надеюсь, она даст базовое представление о видах СУБД и принципах их работы.

В статье мы рассмотрим следующие типы баз данных:

+38

CrushBy 23 ноя 2021 в 08:05

Настройка PostgreSQL под Linux

Простой

10 мин

138K

Блог компании lsFusionOpen source*PostgreSQL*Базы данных*

Туториал

Время от времени приходится слышать мнение от некоторых системных администраторов, а также некоторых 1С-разработчиков, что установка, настройка и поддержка PostgreSQL под Linux очень сложна. Что гораздо дешевле покупать лицензии Windows и Microsoft SQL Server, чем нанимать высококвалифицированных администраторов, которые будут администрировать все эти open-source системы.

На наших бизнес-приложениях, использующих в качестве СУБД PostgreSQL, работают 70% крупнейших розничных сетей в Беларуси. Во всех из них одновременно работают от 500 до 1500 пользователей. В приложениях реализованы практически все основные процессы розничных сетей (демо, чтобы оценить сложность). Размер баз данных на данный момент составляет от 2 до 4ТБ. И все они работают практически со стандартными настройками PostgreSQL на одиночных серверах без какой-либо кластеризации. При этом даже в самых загруженных серверах есть еще значительный резерв по ресурсам для дальнейшего увеличения нагрузки без потребности в кластеризации.

Да, конечно же, многое зависит от запросов к СУБД, и несколькими кривыми запросами можно положить весь сервер. Однако, точно также можно положить и Oracle, и MSSQL. Да, платформа lsFusion, на которой написаны наши приложения, делает много различных оптимизаций запросов конкретно под PostgreSQL. Но вручную SQL-запросы можно оптимизировать еще лучше.

В этой статье я полностью опишу все настройки PostgreSQL (и немножко ОС), которые мы делаем на наших системах. Кроме того, мы специально стараемся не изменять те настройки, которые не дают видимого изменения в производительности, чтобы потом не гадать, почему в одном окружении есть проблема, а в другом - нет.

+38

Kilor 26 ноя 2019 в 18:21

О чем молчит EXPLAIN, и как его разговорить

4 мин

24K

Блог компании ТензорPostgreSQL*Базы данных*

Из песочницы

Классический вопрос, с которым разработчик приходит к своему DBA или владелец бизнеса — к консультанту по PostgreSQL, почти всегда звучит одинаково: «Почему запросы выполняются на базе так долго?»

Традиционный набор причин:

неэффективный алгоритм
когда вы решили сделать JOIN нескольких CTE по паре десятков тысяч записей
неактуальная статистика
если фактическое распределение данных в таблице уже сильно отличается от собранной ANALYZE'ом в последний раз
«затык» по ресурсам
и уже не хватает выделенных вычислительных мощностей CPU, постоянно прокачиваются гигабайты памяти или диск не успевает за всеми «хотелками» БД
блокировки от конкурирующих процессов

И если блокировки достаточно сложны в поимке и анализе, то для всего остального нам достаточно плана запроса, который можно получить с помощью оператора EXPLAIN (лучше, конечно, сразу EXPLAIN (ANALYZE, BUFFERS) ...) или модуля auto_explain.

Но, как сказано в той же документации,

«Понимание плана — это искусство, и чтобы овладеть им, нужен определённый опыт, …»

Но можно обойтись и без него, если воспользоваться подходящим инструментом!

Читать дальше →

+38

olegbunin 10 июл 2019 в 09:01

Последние изменения в IO-стеке Linux с точки зрения DBA

15 мин

21K

Блог компании Конференции Олега Бунина (Онтико)PostgreSQL*Базы данных*Высоконагруженные системы*Настройка Linux*

Главные вопросы работы с базой данных связаны с особенностями устройства операционной системы, на которой работает база. Сейчас Linux — основная операционная система для баз данных. Solaris, Microsoft и даже HPUX все еще применяются в энтерпрайзе, но первое место им больше никогда не занять, даже вместе взятым. Linux уверенно завоевывает позиции, потому что open source баз данных все больше. Поэтому вопрос взаимодействия БД с ОС, очевидно, о базах данных в Linux. На это накладывается вечная проблема БД — производительность IO. Хорошо, что в Linux последние годы идет капитальный ремонт IO-стека и есть надежда на просветление.

Илья Космодемьянский (hydrobiont) работает в компании Data Egret, которая занимается консалтингом и поддержкой PostgreSQL, и про взаимодействие ОС и баз данных знает многое. В докладе на HighLoad++ Илья рассказал о взаимодействии IO и БД на примере PostgreSQL, но и показал, как с IO работают другие БД. Рассмотрел стек Linux IO, что нового и хорошего в нем появилось и почему все не так, как было пару лет назад. В качестве полезной памятки — контрольный список настроек PostgreSQL и Linux для максимальной производительности подсистемы IO в новых ядрах.

+38

FedorVasilevich 16 мар 2019 в 18:13

Китайский онлайн-ритейлер Gearbest оставил в открытом доступе базу данных с миллионами персональных данных покупателей

1 мин

13K

Базы данных*Информационная безопасность*

Из песочницы

Комманда хакеров из VPNMentor обнаружила, что китайский гигант онлайн торговли Gearbest хранит данные покупателей в легкодоступных базах данных.

Ребята из VPNMentor обнаружили несколько незащищенных баз данных (Indices) Elasticsearch с миллионами записей, содержащих персональные данные покупателей, информацию о заказах и данные платежей.

Читать дальше →

+38

ass026 11 мар 2019 в 14:48

Сюрпризы планировщика запросов в БД PostgreSQL

13 мин

22K

Блог компании OkkoБазы данных*SQL*PostgreSQL*

Графики, отчеты и аналитика – все это так или иначе присутствует в back-office любого, даже совсем маленького, предприятия. Когда в обычных таблицах в Excel/Numbers/Libre становится уже тесно, но data все еще не очень big, традиционные решения для внутренних потребностей компании часто строятся с помощью реляционных баз данных, таких как PostgreSQL, MySQL или MariaDB.

Эти базы данных бесплатны, благодаря SQL удобно интегрируются с остальными компонентами в системе, они популярны и с ними умеют работать большинство разработчиков и аналитиков. Нагрузку (трафик и объемы) они могут переварить достаточно объемную, чтобы спокойно продержаться до того момента, когда компания сможет позволить себе более сложные (и дорогие) решения для аналитики и отчетов.

Однако даже в многократно изученной технологии всегда существуют разные нюансы

+38

maxout 24 янв 2019 в 06:43

Бесшовная (почти) миграция между мажорными релизами PostgreSQL с помощью логической репликации

9 мин

20K

Блог компании True EngineeringВысоконагруженные системы*Базы данных*PostgreSQL*DevOps*

Туториал

У нас в True Engineering на одном проекте назрела необходимость в смене версии PostgreSQL с 9.6 на 11.1.

Зачем? База данных на проекте уже объемом 1,5 Tb и растет. Перформанс – одно из основных требований к системе. А сама структура данных эволюционирует: добавляются новые колонки, меняются существующие. Новая версия Postgres научилась эффективно работать с добавлением новых колонок с дефолтным значением, так что не нужно городить кастомных костылей на уровне приложения. Ещё в новой версии добавили несколько новых способов партиционирования таблиц, что тоже крайне полезно в условиях большого объема данных.

Итак, решено, мигрируем. Конечно, можно поднять параллельно со старой новую версию сервера PostgreSQL, остановить приложение, через dump/restore (или pg_upgrade) переместить базу и снова запустить приложение. Нам это решение не подошло из-за большого размера базы, к тому же, приложение работает в боевом режиме, и на даунтайм есть считанные минуты.

Поэтому мы решили попробовать миграцию с помощью логической репликации в PostgreSQL с использованием стороннего плагина под названием pglogical.

В процессе «проб» мы столкнулись с весьма обрывочной документацией по этому процессу (а на русском языке её вообще нет), а также некоторыми подводными камнями и неочевидными нюансами. В этой статье мы хотим изложить свой опыт в виде Tutorial.

TL;DR

Всё получилось (не без костылей, о них и статья).
Мигрировать можно в рамках PostgreSQL версии от 9.4 до 11.x, с любой версии на любую, вниз или вверх.
Даунтайм равен времени, которое требуется вашему приложению, чтобы переподключиться к новому серверу БД (в нашем случае это был перезапуск всего приложения, но в дикой природе, очевидно, «возможны варианты»).

Читать дальше →

+38

Jericho135 17 июл 2018 в 08:12

Когда 2 х 3 = 2, или еще раз про виртуализацию данных

11 мин

11K

Блог компании ГК ЛАНИТБазы данных*Виртуализация*

Всем привет! Слышали ли вы что-нибудь о феномене Баадера-Майнхофа? Это забавное когнитивное искажение, наблюдать которое, как оказалось, довольно интересно на собственном примере. В 2016 году на Хабре вышла обзорная статья про технологию Delphix. Как любая хорошая теория, которую ты потребляешь ежедневно тоннами, чтобы быть в курсе, ты начисто забываешь процентов 80, не применяя ее на практике. Так случилось и со мной – я довольно быстро забыл про тот пост и Delphix, пока где-то год назад по долгу службы не столкнулся с авторами продукта и с самим продуктом. Получив возможность изучить тему не в теории, а на практике, ЛАНИТ погрузился в данную технологию настолько глубоко, что в этой статье я бы хотел систематизировать полученные знания и проанализировать полученный опыт.

Картинка любезно предоставлена поисковой выдачей Яндекса.

Читать дальше →

+38

SloNN 9 апр в 10:30

Почему сложно разработать OLAP-базу данных, если у тебя уже есть OLTP

14 мин

5.3K

Блог компании Yandex Cloud & Yandex InfrastructureБлог компании YDBВысоконагруженные системы*Программирование*Базы данных*

Это адаптированная для Хабра расшифровка доклада Алексея Дмитриева, директора аналитической платформы YDB DWH, которую создаёт команда Yandex Cloud, — компонента нашей гибридной базы данных YDB для обработки аналитических нагрузок. Когда проект только начинался, у нас было много наработок, которые мы успешно переиспользовали в других проектах. Но оказалось, что OLAP‑нагрузка так сильно отличается от OLTP, что за три года пришлось практически написать по ещё одной реализации многих частей системы. Под катом история о том, почему на рынке так мало гибридных баз данных класса Hybrid Transactional and Analytical Processing (HTAP) и какие сложности стоят на пути их разработки.

+37

khafizovtim 12 ноя 2024 в 13:15

По мотивам одного сбоя в БД Oracle

Средний

14 мин

6.1K

Блог компании Т-БанкOracle*Программирование*Базы данных*

Кейс

Всем привет! Я Тимур, инженер в команде Databases Т-Банка. Занимаюсь решением проблем и настройкой производительности СУБД Oracle и PostgreSQL Oracle — это СУБД для наших критичных нагруженных legacy систем, системы построенные на новой архитектуре используют PostgreSQL.

Расскажу о случае конкуренции на одной критичной БД. В какой-то момент перестали проходить транзакции из-за конкуренции за ITL-слоты на вставке в таблицу. Проблема, конечно, была решена, но хочу порассуждать о том, как можно расследовать такие инциденты хорошо известными способами. А еще рассмотрим, как можно подсмотреть за некоторыми аспектами внутреннего устройства СУБД.

+37

zorgan 11 ноя 2024 в 11:17

Секреты успешной миграции: как перенести базу данных с выделенного сервера в облако

Средний

9 мин

5.1K

Блог компании SelectelIT-инфраструктура*IT-компанииБазы данных*Сетевые технологии*

Обзор

✏️ Технотекст 7

Обычно, когда речь заходит про миграцию базы данных, задача формулируется так: без простоя и с минимальными усилиями перенести базу в облако. Процесс кажется понятным, однако на практике приходится учитывать множество нюансов.

Привет, Хабр! Меня зовут Жан, я системный администратор баз данных в Selectel. Сегодня мы на практическом примере рассмотрим все нюансы миграции PostgreSQL из выделенного сервера в Managed Service.

Читать дальше →

+37

1 2 ...

7 8

10 11 ...

81 82

Базы данных *

Эволюция обработки данных: от MapReduce к стриминговому движку

Погружаемся в базы данных и SQL: полезные материалы и инструменты от сотрудников Selectel

KeyDB и Redis: в поисках серебряной пули — in-memory replicated DB (Replicated IMDB)

Странная архитектура

Не все типы репликации одинаково полезны, или почему две MySQL лучше одной

Вопросы для собеседования бэкенд-разработчика

Кластер высокой доступности на postgresql 9.6 + repmgr + pgbouncer + haproxy + keepalived + контроль через telegram

Большой гайд по миграциям в Django: готовимся к миграциям и избегаем конфликтов

Exception Handling: сквозь мультивселенные интероперабельности

Виды баз данных. Большой обзор типов СУБД

Настройка PostgreSQL под Linux

О чем молчит EXPLAIN, и как его разговорить

Последние изменения в IO-стеке Linux с точки зрения DBA

Ближайшие события

Китайский онлайн-ритейлер Gearbest оставил в открытом доступе базу данных с миллионами персональных данных покупателей

Сюрпризы планировщика запросов в БД PostgreSQL

Бесшовная (почти) миграция между мажорными релизами PostgreSQL с помощью логической репликации

Когда 2 х 3 = 2, или еще раз про виртуализацию данных

Почему сложно разработать OLAP-базу данных, если у тебя уже есть OLTP

По мотивам одного сбоя в БД Oracle

Секреты успешной миграции: как перенести базу данных с выделенного сервера в облако

Вклад авторов