SQL *

Формальный непроцедурный язык программирования

moscas 30 июл 2019 в 14:13

DataGrip 2019.2: Управление соединениями, поиск по данным, фильтрация в навигации

5 мин

26K

Блог компании JetBrainsMicrosoft SQL Server*MySQL*PostgreSQL*SQL*

Привет! Рассказываем о том, что мы сделали в DataGrip за четыре месяца. Если вы используете поддержку баз данных в других наших IDE, этот пост для вас тоже.

Читать дальше →

+25

VlK 30 июл 2019 в 13:01

Вулканический поросенок, или SQL своими руками

15 мин

15K

Блог компании BadooПрограммирование*Компиляторы*SQL*C*

Сбор, хранение, преобразование и презентация данных — основные задачи, стоящие перед инженерами данных (англ. data engineer). Отдел Business Intelligence Badoo в сутки принимает и обрабатывает больше 20 млрд событий, отправляемых с пользовательских устройств, или 2 Тб входящих данных.

Исследование и интерпретация всех этих данных — не всегда тривиальные задачи, иногда возникает необходимость выйти за рамки возможностей готовых баз данных. И если вы набрались смелости и решили делать что-то новое, то следует сначала ознакомиться с принципами работы существующих решений.

Словом, любопытствующим и сильным духом разработчикам и адресована эта статья. В ней вы найдёте описание традиционной модели исполнения запросов в реляционных базах данных на примере демонстрационного языка PigletQL.

Читать дальше →

+43

erogov 27 июл 2019 в 08:28

WAL в PostgreSQL: 4. Настройка журнала

17 мин

38K

Блог компании Postgres ProfessionalSQL*PostgreSQL*

Итак, мы познакомились с устройством буферного кеша и на его примере поняли, что когда при сбое пропадает содержимое оперативной памяти, для восстановления необходим журнал предзаписи. Размер необходимых файлов журнала и время восстановления ограничены благодаря периодически выполняемой контрольной точке.

В предыдущих статьях мы уже посмотрели на довольно большое число важных настроек, так или иначе относящихся к журналу. В этой статье (последней в этом цикле) мы рассмотрим те вопросы настройки, которые еще не обсуждались: уровни журнала и их назначение, а также надежность и производительность журналирования.

Уровни журнала

Основная задача журнала предзаписи — обеспечить возможность восстановления после сбоя. Но, если уж все равно приходится вести журнал, его можно приспособить и для других задач, добавив в него некоторое количество дополнительной информации. Есть несколько уровней журналирования. Они задаются параметром wal_level и организованы так, что журнал каждого следующего уровня включает в себя все, что попадает в журнал предыдущего уровня, плюс еще что-то новое.

Читать дальше →

+29

erogov 17 июл 2019 в 15:27

WAL в PostgreSQL: 3. Контрольная точка

12 мин

45K

Блог компании Postgres ProfessionalSQL*PostgreSQL*

Мы уже познакомились с устройством буферного кеша — одного из основных объектов в разделяемой памяти, — и поняли, что для восстановления после сбоя, когда содержимое оперативной памяти пропадает, нужно вести журнал предзаписи.

Нерешенная проблема, на которой мы остановились в прошлый раз, состоит в том, что неизвестно, с какого момента можно начинать проигрывание журнальных записей при восстановлении. Начать с начала, как советовал Король из Алисы, не получится: невозможно хранить все журнальные записи от старта сервера — это потенциально и огромный объем, и такое же огромное время восстановления. Нам нужна такая постепенно продвигающаяся вперед точка, с которой мы можем начинать восстановление (и, соответственно, можем безопасно удалять все предшествующие журнальные записи). Это и есть контрольная точка, о которой сегодня пойдет речь.

Контрольная точка

Каким свойством должна обладать контрольная точка? Мы должны быть уверены, что все журнальные записи, начиная с контрольной точки, будут применяться к страницам, записанным на диск. Если бы это было не так, при восстановлении мы могли бы прочитать с диска слишком старую версию страницы и применить к ней журнальную запись, и тем самым безвозвратно повредили бы данные.

Читать дальше →

+30

Sanders-the-Softwarer 12 июл 2019 в 11:04

По следам Highload++ Siberia 2019 — 8 задач по Oracle

8 мин

5.6K

Блог компании SM LabOracle*SQL*Базы данных*

Привет!

24-25 июня в Новосибирске прошла конференция Highload++ Siberia 2019. Наши ребята тоже там были докладом «Контейнерные базы Oracle (CDB/PDB) и их практическое использование для разработки ПО», мы выложим текстовую версию немного позже. Было круто, спасибо olegbunin за организацию, а также всем, кто пришёл.

В этом посте мы хотели бы поделиться с вами задачами, которые были на нашем стенде, чтобы вы могли проверить свои знания в Oracle. Под катом — 8 задач, варианты ответов и объяснение.

Читать дальше →

+25

jobgemws 12 июл 2019 в 06:48

Некоторые аспекты оптимизации LINQ-запросов в C#.NET для MS SQL Server

6 мин

24K

.NET*C#*Microsoft SQL Server*SQL*Базы данных*

Туториал

LINQ вошел в .NET как новый мощный язык манипуляции с данными. LINQ to SQL как часть его позволяет достаточно удобно общаться с СУБД с помощью например Entity Framework. Однако, достаточно часто применяя его, разработчики забывают смотреть на то, какой именно SQL-запрос будет генерировать queryable provider, в вашем случае — Entity Framework.

Читать дальше →

+47

379

NitroJunkie 2 июл 2019 в 08:26

Не очередной язык программирования. Часть 1: Логика предметной области

31 мин

50K

Блог компании lsFusionПрограммирование*SQL*Open source*ERP-системы*

Туториал

В последнее время на рынке появилось огромное количество новых языков программирования: Go, Swift, Rust, Dart, Julia, Kotlin, Hack, Bosque – и это только из числа тех, которые на слуху.
Ценность того, что эти языки привносят в мир программирования, тяжело переоценить, но, как правильно в прошлом году отмечал Y Combinator, говоря про инструменты разработки:

Фреймворки становятся лучше, языки немного умнее, но в основном мы делаем то же самое.

В данной статье будет рассказано о языке, построенном на подходе, принципиально отличающемся от подходов, используемых во всех существующих языках, в том числе вышеперечисленных. По большому счету, этот язык можно считать языком общего назначения, хотя некоторые его возможности и текущая реализация платформы, построенной на нем, все же, наверное, ограничивают его применение немного более узкой областью – разработкой информационных систем.

Читать дальше →

+35

431

erogov 30 июн 2019 в 15:18

WAL в PostgreSQL: 1. Буферный кеш

13 мин

80K

Блог компании Postgres ProfessionalPostgreSQL*SQL*

Предыдущий цикл был посвящен изоляции и многоверсионности PostgreSQL, а сегодня мы начинаем новый — о механизме журналирования (write-ahead logging). Напомню, что материал основан на учебных курсах по администрированию, которые делаем мы с Павлом pluzanov, но не повторяет их дословно и предназначен для вдумчивого чтения и самостоятельного экспериментирования.

Этот цикл будет состоять из четырех частей:

Буферный кеш (эта статья);
Журнал предзаписи — как устроен и как используется при восстановлении;
Контрольная точка и фоновая запись — зачем нужны и как настраиваются;
Настройка журнала — уровни и решаемые задачи, надежность и производительность.

Читайте и другие серии.

Индексы:

Механизм индексирования;

Интерфейс метода доступа, классы и семейства операторов;

Hash;

B-tree;

GiST;

SP-GiST;

GIN;

RUM;

BRIN;

Bloom.

Изоляция и многоверсионность:

Изоляция, как ее понимают стандарт и PostgreSQL;

Слои, файлы, страницы — что творится на физическом уровне;

Версии строк, виртуальные и вложенные транзакции;

Снимки данных и видимость версий строк, горизонт событий;

Внутристраничная очистка и HOT-обновления;

Обычная очистка (vacuum);

Автоматическая очистка (autovacuum);

Переполнение счетчика транзакций и заморозка.

Блокировки:

Блокировки отношений;

Блокировки строк;

Блокировки других объектов и предикатные блокировки;

Блокировки в оперативной памяти.

Читать дальше →

+36

jobgemws 30 июн 2019 в 10:10

Исследование быстродействия СУБД MS SQL Server Developer 2016 и PostgreSQL 10.5 для 1С

25 мин

48K

Базы данных*SQL*PostgreSQL*Microsoft SQL Server*.NET*

Туториал

Цели и требования к тестированию «1С Бухгалтерии»

Основной целью проводимого тестирования является сравнение поведения системы 1С на двух разных СУБД при прочих одинаковых условиях. Т.е. конфигурация баз данных 1С и первоначальная заполненность данными должны быть одинаковыми при проведении каждого тестирования.

Основными параметрами, которые должны быть получены при тестировании:

Время выполнения каждого теста (снимается отделом Разработки 1С)
Нагрузка на СУБД и серверное окружение во время выполнения теста снимается- администраторами СУБД, а также по серверному окружению системными администраторами

Тестирование системы 1С должно выполняться с учетом клиент-серверной архитектуры, поэтому необходимо произвести полноценную эмуляцию работы пользователя или нескольких пользователей в системе с отработкой ввода информации в интерфейсе и сохранением этой информации в базе данных. При этом, необходимо, чтобы большой объем периодической информации был разнесен по большому отрезку времени для создания итогов в регистрах накопления.

Для выполнения тестирования разработан алгоритм в виде скрипта сценарного тестирования, для конфигурации 1С Бухгалтерия 3.0, в котором выполняется последовательный ввод тестовых данных в систему 1С. Скрипт позволяет указать различные настройки по выполняемым действиям и количеству тестовых данных. Детальное описание ниже по тексту.

Описание настроек и характеристик тестируемых сред

Мы в компании Fortis решили перепроверить результаты, в том числе с помощью известного теста Гилева.

Также нас подстегнуло к тестированию в том числе и некоторые публикации по результатам изменения производительности при переходе от MS SQL Server к PostgreSQL. Такие как: 1С Батл: PostgreSQL 9,10 vs MS SQL 2016.

Читать дальше →

+48

113

pluzanov 19 июн 2019 в 14:16

Не очень большие данные

21 мин

22K

Блог компании Postgres ProfessionalPostgreSQL*SQL*

В статье будут рассмотрены возможности, предоставляемые встроенным или декларативным секционированием в 12 версии PostgreSQL. Демонстрация подготовлена для одноименного доклада на конференции HighLoad++Siberia 2019 (upd: появилось видео с докладом).

Все примеры выполнены на недавно появившейся бета-версии:

=> SELECT version();

                                                     version                                                      
------------------------------------------------------------------------------------------------------------------
 PostgreSQL 12beta1 on i686-pc-linux-gnu, compiled by gcc (Ubuntu 5.4.0-6ubuntu1~16.04.10) 5.4.0 20160609, 32-bit
(1 row)

Читать дальше →

+32

varanio 6 июн 2019 в 08:35

Понимание джойнов сломано. Продолжение. Попытка альтернативной визуализации

2 мин

93K

PostgreSQL*SQL*Программирование*Веб-разработка*

Многие из вас читали предыдущую статью про то, как неправильная визуализация для объяснения работы JOIN-ов в некоторых случаях может запутать. Круги Венна не могут полноценно проиллюстрировать некоторые моменты, например, если значения в таблице повторяются.

При подготовке к записи шестого выпуска подкаста "Цинковый прод" (где мы договорились обсудить статью) кажется удалось нащупать один интересный вариант визуализации. Кроме того, в комментариях к изначальной статье тоже предлагали похожий вариант.

Все желающие приглашаются под кат

Читать дальше →

+29

AloneCoder 24 мая 2019 в 08:11

Используем все возможности индексов в PostgreSQL

8 мин

29K

Блог компании VKВысоконагруженные системы*Базы данных*SQL*PostgreSQL*

Туториал

Перевод

В мире Postgres индексы крайне важны для эффективной навигации по хранилищу базы данных (его называют «куча», heap). Postgres не поддерживает для него кластеризацию, и архитектура MVCC приводит к тому, что у вас накапливается много версий одного и того же кортежа. Поэтому очень важно уметь создавать и сопровождать эффективные индексы для поддержки приложений.

Предлагаю вашему вниманию несколько советов по оптимизации и улучшению использования индексов.

Примечание: показанные ниже запросы работают на не модифицированном образце базы данных pagila.

Читать дальше →

+30

varanio 17 апр 2019 в 18:48

Понимание джойнов сломано. Это точно не пересечение кругов, честно

4 мин

377K

PostgreSQL*SQL*Программирование*Веб-разработка*

Так получилось, что я провожу довольно много собеседований на должность веб-программиста. Один из обязательных вопросов, который я задаю — это чем отличается INNER JOIN от LEFT JOIN.

Чаще всего ответ примерно такой: "inner join — это как бы пересечение множеств, т.е. остается только то, что есть в обеих таблицах, а left join — это когда левая таблица остается без изменений, а от правой добавляется пересечение множеств. Для всех остальных строк добавляется null". Еще, бывает, рисуют пересекающиеся круги.

Я так устал от этих ответов с пересечениями множеств и кругов, что даже перестал поправлять людей.

Дело в том, что этот ответ в общем случае неверен. Ну или, как минимум, не точен.

Читать дальше →

+97

227

m1rko 31 мар 2019 в 18:50

Была ли MongoDB вообще правильным выбором?

7 мин

33K

Хранение данных*NoSQL*SQL*MySQL*

Перевод

Недавно я узнал, что Red Hat удаляет поддержку MongoDB из Satellite (говорят, из-за изменений лицензии). Это заставило меня задуматься, что в последние несколько лет я видел кучу статей, как ужасна MongoDB и что никто никогда не должен её использовать. Но за это время MongoDB стала гораздо более зрелым продуктом. Что же случилось? Действительно ли вся ненависть объясняется ошибками в начале маркетинга новой СУБД? Или люди просто применяют MongoDB не там, где нужно?

Если вам вдруг кажется, что я защищаю MongoDB, пожалуйста, прочитайте дисклеймер в конце статьи.

Читать дальше →

+37

erogov 29 мар 2019 в 21:13

MVCC-2. Слои, файлы, страницы

12 мин

54K

Блог компании Postgres ProfessionalSQL*PostgreSQL*

В прошлый раз мы поговорили о согласованности данных, посмотрели на отличие между разными уровнями изоляции транзакций глазами пользователя и разобрались, почему это важно знать. Теперь мы начинаем изучать, как в PostgreSQL реализованы изоляция на основе снимков и механизм многоверсионности.

В этой статье мы посмотрим на то, как данные физически располагаются в файлах и страницах. Это уводит нас в сторону от темы изоляции, но такое отступление необходимо для понимания дальнейшего материала. Нам потребуется разобраться, как устроено хранение данных на низком уровне.

Отношения (relations)

Если заглянуть внутрь таблиц и индексов, то окажется, что они устроены схожим образом. И то, и другое — объекты базы, которые содержат некоторые данные, состоящие из строк.

То, что таблица состоит из строк, не вызывает сомнений; для индекса это менее очевидно. Тем не менее, представьте B-дерево: оно состоит из узлов, которые содержат индексированные значения и ссылки на другие узлы или на табличные строки. Вот эти узлы и можно считать индексными строками — фактически, так оно и есть.

На самом деле есть еще некоторое количество объектов, устроенных похожим образом: последовательности (по сути однострочные таблицы), материализованные представления (по сути таблицы, помнящие запрос). А еще есть обычные представления, которые сами по себе не хранят данные, но во всех остальных смыслах похожи на таблицы.

Все эти объекты в PostgreSQL называются общим словом отношение (по-английски relation). Слово крайне неудачное, потому что это термин из реляционной теории. Можно провести параллель между отношением и таблицей (представлением), но уж никак не между отношением и индексом. Но так уж сложилось: дают о себе знать академические корни PostgreSQL. Мне думается, что сначала так называли именно таблицы и представления, а остальное наросло со временем.

Читать дальше →

+36

FranciscoSuarez 26 мар 2019 в 10:52

Продуктовая аналитика ВКонтакте на базе ClickHouse

10 мин

25K

Блог компании VKBig Data*SQL*

Развивая любой продукт, будь то видеосервис или лента, истории или статьи, хочется уметь измерять условное «счастье» пользователя. Понимать, делаем мы своими изменениями лучше или хуже, корректировать направление развития продукта, опираясь не на интуицию и собственные ощущения, а на метрики и цифры, в которые можно верить.

В этой статье я расскажу, как нам удалось запустить продуктовую статистику и аналитику на сервисе с 97-миллионной месячной аудиторией, получив при этом чрезвычайно высокую производительность аналитических запросов. Речь пойдёт о ClickHouse, используемых движках и особенностях запросов. Я опишу подход к агрегации данных, который позволяет нам за доли секунды получать сложные метрики, и расскажу о преобразовании и тестировании данных.

Сейчас у нас около 6 миллиардов продуктовых событий в сутки, в ближайшее время дойдём до 20–25 миллиардов. А дальше — не такими быстрыми темпами поднимемся до 40–50 миллиардов к концу года, когда опишем все интересующие нас продуктовые события.

1 rows in set. Elapsed: 0.287 sec. Processed 59.85 billion rows, 59.85 GB (208.16 billion rows/s., 208.16 GB/s.)

Подробности под катом.

Читать дальше →

+29

erogov 20 мар 2019 в 22:53

MVCC-1. Изоляция

25 мин

176K

Блог компании Postgres ProfessionalPostgreSQL*SQL*

Привет, Хабр! Этой статьей я начинаю серию циклов (или цикл серий? в общем, задумка грандиозная) о внутреннем устройстве PostgreSQL.

Материал будет основан на учебных курсах по администрированию, которые делаем мы с Павлом pluzanov. Смотреть видео не все любят (я точно не люблю), а читать слайды, пусть даже с комментариями, — совсем «не то».

Конечно, статьи не будут повторять содержание курсов один в один. Я буду говорить только о том, как все устроено, опуская собственно администрирование, зато постараюсь делать это более подробно и обстоятельно. И я верю в то, что такие знания полезны прикладному разработчику не меньше, чем администратору.

Ориентироваться я буду на тех, кто уже имеет определенный опыт использования PostgreSQL и хотя бы в общих чертах представляет себе, что к чему. Для совсем новичков текст будет тяжеловат. Например, я ни слова не скажу о том, как установить PostgreSQL и запустить psql.

Вещи, о которых пойдет речь, не сильно меняются от версии к версии, но использовать я буду текущий, 11-й «ванильный» PostgreSQL.

Первый цикл посвящен вопросам, связанным с изоляцией и многоверсионностью, и план его таков:

Изоляция, как ее понимают стандарт и PostgreSQL (эта статья);
Слои, файлы, страницы — что творится на физическом уровне;
Версии строк, виртуальные и вложенные транзакции;
Снимки данных и видимость версий строк, горизонт событий;
Внутристраничная очистка и HOT-обновления;
Обычная очистка (vacuum);
Автоматическая очистка (autovacuum);
Переполнение счетчика транзакций и заморозка.

Ну, поехали.

Читать дальше →

+34

ass026 11 мар 2019 в 14:48

Сюрпризы планировщика запросов в БД PostgreSQL

13 мин

22K

Блог компании OkkoPostgreSQL*SQL*Базы данных*

Графики, отчеты и аналитика – все это так или иначе присутствует в back-office любого, даже совсем маленького, предприятия. Когда в обычных таблицах в Excel/Numbers/Libre становится уже тесно, но data все еще не очень big, традиционные решения для внутренних потребностей компании часто строятся с помощью реляционных баз данных, таких как PostgreSQL, MySQL или MariaDB.

Эти базы данных бесплатны, благодаря SQL удобно интегрируются с остальными компонентами в системе, они популярны и с ними умеют работать большинство разработчиков и аналитиков. Нагрузку (трафик и объемы) они могут переварить достаточно объемную, чтобы спокойно продержаться до того момента, когда компания сможет позволить себе более сложные (и дорогие) решения для аналитики и отчетов.

Однако даже в многократно изученной технологии всегда существуют разные нюансы

+38

varanio 17 фев 2019 в 18:54

Важные изменения в работе CTE в PostgreSQL 12

2 мин

28K

PostgreSQL*SQL*Программирование*Веб-разработка*

WITH w AS  NOT MATERIALIZED (
    SELECT * 
    FROM very_very_big_table
)
SELECT * 
FROM w AS w1 
    JOIN w AS w2 
        ON w1.key = w2.ref
WHERE w2.key = 123;

Сегодня в репозиторий PostgreSQL упал комит, позволяющий управлять поведением обработки подзапросов CTE, а именно: теперь можно явно указывать, будет ли подзапрос материализовываться отдельно или же выполняться как часть одного большого запроса.

Это войдет в PostgreSQL 12, и это big deal. Давайте рассмотрим, почему

Читать дальше →

+42

PastorGL 13 янв 2019 в 11:54

Нельзя так просто взять и написать SELECT, если вендор не разрешает… но мы таки напишем

8 мин

15K

Java*NoSQL*SQL*Алгоритмы*Ненормальное программирование*

Туториал

TL;DR: GitHub://PastorGL/AQLSelectEx.

Aerospike AQL SELECT

Однажды, ещё не в студёную, но уже зимнюю пору, а конкретно пару месяцев назад, для проекта, над которым я работаю (нечто Geospatial на основе Big Data), потребовалось быстрое NoSQL / Key-Value хранилище.

Терабайты исходников мы вполне успешно прожёвываем при помощи Apache Spark, но схлопнутый до смешного объёма (всего лишь миллионы записей) конечный результат расчётов надо где-то хранить. И очень желательно хранить таким образом, чтобы его можно было по ассоциированным с каждой строкой результата (это одна цифра) метаданным (а вот их довольно много) быстро найти и отдать наружу.

И вот какая вышла история...

+40

1 2 ...

8 9

11 12 ...

18 19

SQL *

DataGrip 2019.2: Управление соединениями, поиск по данным, фильтрация в навигации

Вулканический поросенок, или SQL своими руками

WAL в PostgreSQL: 4. Настройка журнала

Уровни журнала

WAL в PostgreSQL: 3. Контрольная точка

Контрольная точка

По следам Highload++ Siberia 2019 — 8 задач по Oracle

Некоторые аспекты оптимизации LINQ-запросов в C#.NET для MS SQL Server

Не очередной язык программирования. Часть 1: Логика предметной области

WAL в PostgreSQL: 1. Буферный кеш

Исследование быстродействия СУБД MS SQL Server Developer 2016 и PostgreSQL 10.5 для 1С

Цели и требования к тестированию «1С Бухгалтерии»

Описание настроек и характеристик тестируемых сред

Не очень большие данные

Понимание джойнов сломано. Продолжение. Попытка альтернативной визуализации

Используем все возможности индексов в PostgreSQL

Понимание джойнов сломано. Это точно не пересечение кругов, честно

Ближайшие события

Была ли MongoDB вообще правильным выбором?

MVCC-2. Слои, файлы, страницы

Отношения (relations)

Продуктовая аналитика ВКонтакте на базе ClickHouse

MVCC-1. Изоляция

Сюрпризы планировщика запросов в БД PostgreSQL

Важные изменения в работе CTE в PostgreSQL 12

Нельзя так просто взять и написать SELECT, если вендор не разрешает… но мы таки напишем

Вклад авторов