SQL *

Формальный непроцедурный язык программирования

СтатьиПостыНовостиАвторыКомпании

Tzimie 26 мар 2021 в 09:55

Email Chart — это вам не ASCII Art

4 мин

Ненормальное программирование * SQL * PowerShell * Microsoft SQL Server * Базы данных *

Отправляем графики (peformance, да и вообще все что угодно) по почте с PROD серверов, куда просто так не добраться .

Мужик! Графики по почте? Что, cерьезно? Web интерфейс, интерактивность, Grafana - "нет, не слышал"? Ты бы еще звездочками графики нарисовал бы в письме, ASCII art-ом. - говорит мне мой воображаемый оппонент.

Конечно, он абсолютно прав в идеальном, воображаемом мире. Это вам подтвердит любой пролетающий там розовый единорог. Однако, если мы не в стартапе, а в кровавом enterprise, то все не так розово.

MaxRokatansky 1 мар 2021 в 17:05

Секционирование таблиц и время компиляции плана запроса в SQL Server

5 мин

5.5K

Блог компании OTUSSQL *

Перевод

Меня иногда спрашивают: «Если в таблице много индексов и SQL Server вынужден анализировать больше вариантов, то не замедлит ли это построение плана запроса?»

Что же, вполне может быть, но что действительно сбивает с толку оптимизатор, так это секционирование. Даже простейшие запросы к секционированным таблицам могут привести к значительному увеличению использования процессорного времени. Хуже того, как однажды сказал знаменитый философ: «Больше секционирования — больше проблем».

Итак, давайте возьмем какую-нибудь из баз данных Stack Overflow и создадим функцию секционирования, которая будет разбивать наши данные по дням:

xtender 10 фев 2021 в 14:36

Oracle: Deterministic functions, result_cache and operators

4 мин

4.1K

Oracle * SQL *

После перевода статьи Oracle: разница между deterministic и result_cache от Steven Feuerstein, хотелось бы дополнить ее действительно важными деталями их устройства. У меня есть серия статей на эти темы, но тут я хотел бы просто все резюмировать и оставить самое важное.

lisij 5 фев 2021 в 08:03

Работа с Google BigQuery. Считаем деньги

13 мин

35K

Блог компании ex-WargamingSQL * Big Data * Google Cloud Platform *

В данной статье мы хотели бы рассказать о том, как мы в команде Wargaming Platform знакомились с BigQuery, о задаче, которую необходимо было решать, и проблемах, с которыми мы столкнулись. Кроме того, расскажем немного о ценообразовании и об инструментах, имеющихся в BigQuery, с которыми нам удалось поработать, а также предоставим наши рекомендации, как можно сэкономить бюджет во время работы с BigQuery.

MaxRokatansky 21 дек 2020 в 10:45

Контроль версий в базах данных — Сравнение Liquibase и Flyway

6 мин

15K

Блог компании OTUSПрограммирование * Java * SQL * Облачные сервисы *

Перевод

Автоматизированный рефакторинг баз данных должен быть частью жизненного цикла разработки наших продуктов наряду с рефакторингом любых других программных компонентов. Исторически так сложилось, что контроль версий исходников покрывал в подавляющем большинстве случаев только так называемый прикладной код (например, Java), исключая SQL, скрипты на котором носили внешний характер и применялись к целевым базам данных, минуя контроль версий.

Тем не менее, в связи с ростом популярности аджайл методологии в последние годы и востребованностью непрерывной интеграции и развертывания, мы больше не можем ограничивать применение CI/CD только к коду приложения, оставив SQL позади.

В аджайл проектах тех требования вырабатываются спринт за спринтом, поэтому очень маловероятно, что вы сможете с самого начала точно угадать со структурой модели базы данных. Модель базы данных развивается по мере формирования продукта. Многие команды и компании разрабатывают собственные процессы контроля версий баз данных, подходящие сугубо для целей их собственных продуктов, но существуют и общие решения, уже приобретшие статус отраслевых стандартов. Им мы и уделим внимание в этой статье.

Ниже будут рассмотрены сходства и различия ныне хорошо известных продуктов Flyway и Liquibase.

dimoobraznii 25 ноя 2020 в 08:06

Опыт создания аналитической консалтинг-компании в Северной Америке (не очень успешный)

17 мин

8.8K

SQL * Big Data * Управление проектами * Развитие стартапаКарьера в IT-индустрии

Всем привет, последние 2-3 года у меня было интересное хобби, интересное для меня - предоставление аналитических услуг компаниям в Канаде и США. В этой статья я хочу поделиться опытом по созданию консалтинг-компании в области аналитики. Могу сразу сказать, что идея провалилась, если оценивать денежную составляющую идеи, но зато я смог получить полезный опыт и расширить кругозор.

MaxRokatansky 24 ноя 2020 в 16:17

Проблема с N+1 запросами в JPA и Hibernate

7 мин

141K

Блог компании OTUSВысоконагруженные системы * Программирование * SQL *

Перевод

В этой статье я расскажу, в чем состоит проблема N + 1 запросов при использовании JPA и Hibernate, и как ее лучше всего исправить.

Проблема N + 1 не специфична для JPA и Hibernate, с ней вы можете столкнуться и при использовании других технологий доступа к данным.

MaxRokatansky 5 окт 2020 в 11:39

Шифрование в MySQL: хранилище ключей

6 мин

6.5K

Блог компании OTUSMySQL * SQL * Базы данных *

Перевод

В преддверии старта нового набора на курс «Базы данных» подготовили для вас перевод полезной статьи.

Прозрачное шифрование данных (Transparent Data Encryption, TDE) появилось в Percona Server for MySQL и MySQL довольно давно. Но задумывались ли вы когда-нибудь о том, как оно работает под капотом и какое влияние TDE может оказывать на ваш сервер? В этой серии статей мы рассмотрим, как TDE работает внутри. Начнем с хранения ключей, так как оно требуется для работы любого шифрования. Затем подробно рассмотрим как работает шифрование в Percona Server for MySQL/MySQL и какие дополнительные возможности есть в Percona Server for MySQL.

Читать дальше →

chemtech 24 июл 2020 в 07:23

Теория и практика использования ClickHouse в реальных приложениях. Александр Зайцев (2018г)

21 мин

18K

Хранение данных * Big Data * SQL * Системное администрирование * Высоконагруженные системы *

Несмотря на то, что данных сейчас много почти везде, аналитические БД все еще довольно экзотичны. Их плохо знают и еще хуже умеют эффективно использовать. Многие продолжают "есть кактус" с MySQL или PostgreSQL, которые спроектированы под другие сценарии, мучиться с NoSQL или переплачивать за коммерческие решения. ClickHouse меняет правила игры и значительно снижает порог вхождения в мир аналитических DBMS.

Доклад с BackEnd Conf 2018г и он опубликован с разрешения докладчика.

imschur 14 июл 2020 в 06:09

Unreal Features of Real Types, или Будьте осторожны с REAL

4 мин

2.4K

Блог компании ТензорБазы данных * SQL * PostgreSQL *

После публикации статьи об особенностях типизации в PostgreSQL, первый же комментарий был про сложности работы с вещественными числами. Я решил бегло пробежаться по коду доступных мне SQL-запросов, чтобы посмотреть, насколько часто в них используется тип REAL. Достаточно часто используется, как оказалось, и не всегда разработчики понимают опасности, стоящие за ним. И это несмотря на то, что в Интернете и на Хабре достаточно много хороших статей про особенности хранения вещественных чисел в машинной памяти и о работе с ними. Поэтому в этой статье я постараюсь применить такие особенности к PostgreSQL, и попробую «на пальцах» рассмотреть связанные с ними неприятности, чтобы разработчикам SQL-запросов было легче избежать их.

Документация PostgreSQL содержит лаконичную фразу: «Управление подобными ошибками и их распространение в процессе вычислений является предметом изучения целого раздела математики и компьютерной науки, и здесь не рассматривается» (при этом благоразумно отсылая читателя к стандарту IEEE 754). Что за ошибки здесь имеются в виду? Давайте обсудим их по-порядку, и скоро станет понятно, почему я снова взялся за перо.

Читать дальше →

MaxRokatansky 25 июн 2020 в 13:36

Обратная связь по грантам памяти (memory grant feedback) в SQL Server 2019

11 мин

4.2K

Блог компании OTUSMicrosoft SQL Server * SQL *

Перевод

Всем привет! В преддверии старта курса «MS SQL Server разработчик», подготовили для вас еще один интересный перевод.

Если оптимизатор неправильно вычисляет необходимый объем памяти для выполнения запроса, то это будет либо пустая трата памяти, которую мог бы использовать другой процесс, либо будет слив данных на диск (disk spill). Для решения этой проблемы Microsoft добавила обратную связь по грантам памяти (Memory Grant Feedback). В этой статье Грег Ларсен (Greg Larsen) объясняет, как это работает.

Обратная связь по грантам памяти (Memory Grant Feedback) в более ранних версиях SQL Server (до SQL Server 2019 или 15.x) была реализована только для запросов, выполняющихся в пакетном режиме (batch mode). Запросы в пакетном режиме выполняют сканирование и вычисление до 900 строк одновременно, в отличие от запросов в строковом режиме (row mode), когда за раз обрабатывается только одна строка. В версии 15.x обратная связь по грантам памяти была расширена для поддержки запросов в строковом режиме.

Что такое обратная связь по грантам памяти? Это процесс корректировки вычисления памяти, необходимой для запроса с учетом того, сколько памяти было использовано при его предыдущих выполнениях. Это означает, что если кэшированный запрос использовал слишком много памяти при последнем выполнении, то SQL Server уменьшит выделение памяти при его следующем выполнении. Или если SQL Server обнаружил запрос, использующий диск из-за того, что в последний раз ему было выделено недостаточно памяти, то он увеличит память для запроса. Целью обратной связи по грантам памяти является корректировка требований к памяти при каждом выполнении запроса до тех пор, пока запрос не будет использовать объем памяти, соответствующий количеству обрабатываемых строк.

Читать дальше →

Kilor 10 июн 2020 в 07:10

Классифицируем ошибки из PostgreSQL-логов

9 мин

5.4K

Блог компании ТензорPostgreSQL * SQL * Базы данных * Регулярные выражения *

Посвящается всем любителям анализировать логи.

В логах работающих систем рано или поздно появляются тексты каких-то ошибок. Чем таких систем больше в обозримом пространстве, тем больше вероятность ошибку увидеть. Серверы PostgreSQL, которые находятся под нашим мониторингом ежедневно генерируют от 300K до, в неудачный день, 12M записей об ошибках.

И такие ошибки — это не какой-то там «о, ужас!», а вполне нормальное поведение сложных алгоритмов с высокой степенью конкурентности вроде тех, о которых я рассказывал в статье про расчет себестоимости в СБИС — все эти deadlock, could not obtain lock on row in relation …, canceling statement due to lock timeout как следствие выставленных разработчиком statement/lock timeout.

Но есть ведь и другие виды ошибок — например, you don't own a lock of type ..., которая возникает при неправильном использовании рекомендательных блокировок и может очень быстро «закопать» ваш сервер, или, мало ли, кто-то периодически пытается «подобрать ключик» к нему, вызывая возникновение password authentication failed for user …

^{[источник КДПВ]}

Собственно, это все нас подводит к мысли, что если мы не хотим потом хвататься за голову, то возникающие в логах PostgreSQL ошибки недостаточно просто «считать поштучно» — их надо аккуратно классифицировать. Но для этого нам придется решить нетривиальную задачу индексированного поиска регулярного выражения, наиболее подходящего для строки.

Читать дальше →

chemtech 2 июн 2020 в 07:53

Как PostgreSQL работает с диском. Илья Космодемьянский

20 мин

19K

Системное администрирование * Базы данных * SQL * PostgreSQL *

Расшифровка доклада 2014 года Ильи Космодемьянского "Как PostgreSQL работает с диском".

Часть поста, конечно, устарела, но здесь рассмотрены фундаментальные моменты PostgreSQL при работе с диском, которые актуальны и сейчас.

Диски, память, цена, процессор — в таком порядке смотрят на характеристики сервера админы, покупающие машину под базу данных. Как эти характеристики взаимосвязаны? Почему именно они?

В докладе будет объяснено, для чего нужен диск базе данных вообще, как PostgreSQL взаимодействует с ним и в чем заключаются особенности PostgreSQL по сравнению с другими базами.

"Железо", настройки операционной системы, файловой системы и PostgreSQL: как и для чего выбирать хороший setup, что делать, если конфигурация "железа" не оптимальна, и какие ошибки могут сделать бесполезным самый дорогой RAID-контроллер. Увлекательное путешествие в мир батареек, "грязных" и "чистых" страниц, хороших и плохих SSD-дисков, покрасневших графиков мониторинга и ночных кошмаров системных администраторов.

ASenterprise 28 мая 2020 в 07:24

Развитие DATA VAULT и переход к BUSINESS DATA VAULT

4 мин

14K

Big Data * Data Engineering * Data Mining * SQL *

В предыдущей статье я рассказал об основах DATA VAULT, описал основные элементы DATA VAULT и их назначение. На этом нельзя считать тему DATA VAULT исчерпанной, необходимо поговорить о следующих ступенях эволюции DATA VAULT.

И в этой статье я сконцентрируюсь на развитии DATA VAULT и переходу к BUSINESS DATA VAULT или просто BUSINESS VAULT.

Причины появления BUSINESS DATA VAULT

Следует отметить, DATA VAULT имея определенные сильные стороны не лишен недостатков. Одним из таких недостатков является сложность в написании аналитических запросов. Запросы имеют значительное количество JOIN’ов, код получается длинным и громоздким. Также данные попадающие в DATA VAULT не подвергаются никаким преобразованиям, поэтому с точки зрения бизнеса DATA VAULT в чистом виде не имеет безусловной ценности.

Читать дальше →

MaxRokatansky 25 мая 2020 в 09:17

Идентификация зараженных людей с помощью пересечения GPS-треков

5 мин

1.6K

Блог компании OTUSBig Data * PostgreSQL * SQL *

Перевод

В преддверии старта курса «PostgreSQL» подготовили перевод интересной статьи.

Во времена пандемии COVID-19 правительства предусматривают жесткие меры по выявлению и отслеживанию инфицированных людей. Эти меры включают использование данных мобильных телефонов для отслеживания зараженных людей и их контактов с целью обуздать эпидемию. Эта статья рассказывает, как функции PostGIS можно использовать для выявления пересекающихся участков путей зараженных и здоровых людей посредством пространственно-временного анализа треков.

На этот раз мы не концентрируемся на производительности и тюнинге, а скорее стремимся повысить уровень вашей креативности в отношении пространственного расширения PostgreSQL и его функциональных возможностей.

Читать дальше →

MaxRokatansky 19 мая 2020 в 14:28

Как создать сервер PostgreSQL на Google Cloud Platform SQL

2 мин

9.4K

Блог компании OTUSGoogle Cloud Platform * PostgreSQL * SQL *

Перевод

Перевод статьи подготовлен в преддверии старта курса «PostgreSQL».

Введение

В этой статье я познакомлю вас с GCP SQL и покажу как создать в этом сервисе сервер PostgreSQL.

Читать дальше →

IgorShatalkin 27 мар 2020 в 09:01

EF Core + Oracle: как сделать миграции идемпотентными

4 мин

4.3K

Блог компании CUSTIS.NET * C# * Oracle * SQL *

Обычно фреймворк EF Core используют в сочетании с MS SQL — другим продуктом Microsoft. Однако это не догма. Например, мы в CUSTIS пишем бизнес-логику на C#, а для управления базами данных используем Oracle. В EF Core есть замечательный механизм миграций, но в нашем случае они не идемпотентны. Дело в том, что Oracle и ряд других БД, например MySQL, не поддерживают транзакционный DDL. Значит, если миграция упадет где-то посередине, ее не получится ни накатить, ни откатить. Как же реализовать идемпотентные миграции на EF Core без MS SQL?

Читать дальше →

shmelev-1987 5 фев 2020 в 22:38

ImportExportDataSql — бесплатный конвертер данных MSSQL

4 мин

18K

.NET * Microsoft SQL Server * SQL *

Введение

Очень часто возникает задача конвертации данных из одной БД в другую, из внешнего файла разного формата в БД и наоборот. При этом типы данных внутри БД могут быть не только текстовые, но и бинарные (binary или varbinary). Бинарные и текстовые данные, как известно, в SQL Server Management Studio обрезаются и не выводятся полностью. В связи с этими недостатками пришлось написать свое приложение для конвертации данных в/из MSSQL на языке C# (.NET Framework 4.0). Приложение называется ImportExportDataSql и изначально он создавался именно для конвертации из бинарных полей БД в файлы, но потом функционал расширялся. Приложение портативное, без рекламы и не требует доступа в Интернет.

Возможности приложения

Результат SQL-запроса выборки данных генерит данные в SQL-формате с проверкой наличия записи в таблице по указанному пользователем условию WHERE
Несколько результатов SQL-запросов объединяются в один файл, если пользователь укажет в разных задачах одинаковое имя выходного файла
Все настройки хранятся в XML файле
Возможность запуска из консоли
Быстрая загрузка/выгрузка в БД при работе с CSV
Возможность загружать Excel-файлы в двух режимах
Выполняются только отмеченные задачи
Задачи, выполненные с ошибками подсвечиваются красным цветом, а без ошибок — зеленым. Сообщение об ошибке при этом выводится не только в лог, но и в виде всплывающей подсказки напротив строки, где возникла ошибка

Интерфейс приложения

При запуске приложения необходимо соединиться с БД.

После успешного соединения с БД отображается список задач.

Читать дальше →

UltimaSol 28 авг 2019 в 06:53

Quintet data model и сотни гигабайт данных

4 мин

1.9K

SQL * Анализ и проектирование систем * Бизнес-модели * Программирование * Качество кода *

Недавно мы протестировали подход, именуемый нами QDM, при работе с большими объемами данных — сотни гигабайт. В рамках задачи мы обрабатывали по 12-24 млн записей и сравнивали производительность квинтетного решения с аналогичным функционалом в обычных таблицах.

Мы не сделали каких-то новых открытий, но подтвердили те гипотезы, что озвучивали ранее: насколько всё таки универсальный конструктор в руках условного «чайника» проигрывает профессионально настроенной базе данных.

Также мы теперь знаем, что делать в подобной ситуации — решение достаточно простое и надежное, и имеем опыт организации компромиссного решения для сколько угодно больших данных.

Дай пять!

puyol_dev2 22 авг 2019 в 06:33

Использование Union вместо OR

3 мин

10K

SQL * Microsoft SQL Server *

Recovery Mode

Перевод

Иногда медленные запросы можно исправить, немного изменив запрос. Один из таких примеров может быть проиллюстрирован, когда несколько значений сравниваются в предложении WHERE с помощью оператора OR или IN. Часто OR может вызывать сканирование индекса или таблицы, которая может не быть предпочтительным планом выполнения с точки зрения потребления ввода-вывода или общей скорости запросов.

Многие переменные вступают в игру, когда оптимизатор запросов создает план выполнения. Эти переменные включают в себя множество характеристик оборудования, настроек экземпляра, настроек базы данных, статистики (таблица, индекс, auto-generated), а также способ написания запроса. Здесь мы меняем способ написания запроса. Каким бы неожиданным это ни казалось, даже если два разных запроса могут возвращать одни и те же результаты, путь, по которому они идут, может быть совершенно разным в зависимости от формата запроса.

Читать дальше →

1 2 ...

55 56

58 59 ...

91 92

SQL *

Email Chart — это вам не ASCII Art

Секционирование таблиц и время компиляции плана запроса в SQL Server

Oracle: Deterministic functions, result_cache and operators

Работа с Google BigQuery. Считаем деньги

Контроль версий в базах данных — Сравнение Liquibase и Flyway

Опыт создания аналитической консалтинг-компании в Северной Америке (не очень успешный)

Проблема с N+1 запросами в JPA и Hibernate

Шифрование в MySQL: хранилище ключей

Теория и практика использования ClickHouse в реальных приложениях. Александр Зайцев (2018г)

Unreal Features of Real Types, или Будьте осторожны с REAL

Обратная связь по грантам памяти (memory grant feedback) в SQL Server 2019

Классифицируем ошибки из PostgreSQL-логов

Как PostgreSQL работает с диском. Илья Космодемьянский

Ближайшие события

Развитие DATA VAULT и переход к BUSINESS DATA VAULT

Причины появления BUSINESS DATA VAULT

Идентификация зараженных людей с помощью пересечения GPS-треков

Как создать сервер PostgreSQL на Google Cloud Platform SQL

Введение

EF Core + Oracle: как сделать миграции идемпотентными

ImportExportDataSql — бесплатный конвертер данных MSSQL

Введение

Возможности приложения

Интерфейс приложения

Quintet data model и сотни гигабайт данных

Использование Union вместо OR

Вклад авторов