SQL *

Формальный непроцедурный язык программирования

Статьи Посты Новости Авторы Компании

vaiti_media 12 сен 2024 в 16:41

ClickHouse vs BigQuery: 4 отличия в SQL

Средний

5 мин

3.7K

Блог компании beeline cloudSQL*Хранение данных*

Аналитика

Привет, Хабр!
Я Павел Беляев — тимлид дата-аналитиков. Наша компания отвечает за разработку и поддержку витрин данных. Как и многие, мы столкнулись с необходимостью перевести инфраструктуру с иностранного стека на отечественный.

Наша аналитическая база данных несколько лет строилась на базе Google BigQuery. Она содержала сотни представлений на гугл-диалекте SQL, и весь этот технопарк было решено перебазировать на российские платформы. Понятное дело, что ClickHouse и BigQuery — далеко не одно и то же, так что в процессе переезда нам пришлось набить немало шишек. В этой статье я покажу несколько отличий в SQL этих СУБД. Надеюсь, их понимание поможет сэкономить время и нервы тем, кто сталкивается с аналогичной задачей.

Kilor 12 сен 2024 в 15:45

SQL HowTo: загадка Эйнштейна, или снова Джиндош

Средний

7 мин

3.7K

Блог компании ТензорНенормальное программирование*PostgreSQL*SQL*Алгоритмы*

Мнение

Пару дней назад был опубликован пост с решением на MySQL загадки Джиндоша (она же загадка Эйнштейна).

Предложенное решение показалось мне "неспортивным" - помимо необходимости жестко учитывать в структуре запроса количество исходных элементов ("джойнить" нужные таблицы нужное количество раз), так еще и условия в запросе приходилось многократно дублировать.

Поэтому я попробовал решить эту задачу "в общем виде", используя возможности PostgreSQL, и вот что из этого получилось.

+25

Kilor 11 сен 2024 в 12:25

Курс «PostgreSQL для начинающих»: #4 — Анализ запросов (ч.2 — узлы получения данных)

Средний

12 мин

15K

Блог компании ТензорАдминистрирование баз данных*SQL*Анализ и проектирование систем*PostgreSQL*

Туториал

Продолжаю публикацию расширенных транскриптов лекционного курса "PostgreSQL для начинающих", подготовленного мной в рамках "Школы backend-разработчика" в "Тензоре".

В первой части лекции мы узнали, что такое план выполнения запроса, как и зачем его читать (и почему это совсем непросто), и о каких проблемах с производительностью базы он может сигнализировать. В этой - разберем, что такое Seq Scan, Bitmap Heap Scan, Index Scan и почему Index Only Scan бывает нехорош.

Как обычно, для предпочитающих смотреть и слушать, а не читать - доступна видеозапись (часть 1, часть 2) и слайды.

+23

inetstar 10 сен 2024 в 16:01

Решаем загадку Джиндоша из Dishonored 2 на SQL перебором с возвратом

Средний

18 мин

15K

Блог компании RUVDS.comMySQL*SQL*Алгоритмы*Ненормальное программирование*

Кейс

SQL — язык сверхвысокого уровня, а SQL-движки очень высоко оптимизированы. И поэтому во многих случаях с помощью него можно просто и быстро решать сложные задачи. Вы удивитесь, но даже существует шахматный движок на SQL.

Сегодня мы рассмотрим решение непростой загадки Джиндоша из замечательной игры Dishonored 2 с помощью SQL.

SQL Может Многое!

+90

koanse 10 сен 2024 в 04:36

Примеры использования state функций в ClickHouse

Простой

3 мин

2.5K

SQL*

Обзор

Существуют базы данных различного вида, и для колоночных баз данных, таких как, например, ClickHouse, характерны особые инструменты для вычислений аггрегированных значений.

Из документации ClickHouse не всегда легко сразу понять ценность функций для имплементации бизнес-логики, в частности, ценность функции runningAccumulate. Например, несмотря на богатые возможности runningAccumulate, неотформатированный код и имена вида k и sum_k из документации могут немного ввести в заблуждение.

Если Вам интересно рассмотреть state функции ClickHouse на паре примеров с более понятной логикой, то добро пожаловать :)

VOBradley 9 сен 2024 в 05:18

Генерация диаграммы «Сущность-Связь/ Entity-Relationship» с помощью Laravel

Простой

1 мин

1.9K

Laravel*PHP*SQL*

Обзор

Laravel ERD (Схема сущность/связь)

Автоматическая генерация диаграмм базы данных под ваши сущности в Laravel

Ogurche 8 сен 2024 в 13:15

Хранение данных в Postgresql

Средний

10 мин

19K

SQL*PostgreSQL*Администрирование баз данных*

Из песочницы

В этом тексте хочется подробнее рассмотреть хранение данных в PostgreSQL на физическом уровне.

Для начала определимся с общеизвестными вещами. Данные хранятся в таблицах, таблицы находятся в схемах, схемы, в свою очередь, в базах данных. Под данными я тут подразумеваю одну или несколько строк. В качестве примера будем рассматривать эталон критики, по моему личному мнению, цитаты Линуса Торвальдса.

Подробнее под катом

+22

pluzanov 6 сен 2024 в 18:06

PostgreSQL 17: Часть 5 или Коммитфест 2024-03

Средний

29 мин

5.5K

Блог компании Postgres ProfessionalPostgreSQL*SQL*

После выхода релиз-кандидата версии 17 в плане выпуска осталась последняя незакрытая дата: 26 сентября 2024 года. На этот день намечен официальный выпуск PostgreSQL 17.

В этой статье рассказывается о патчах, принятых в ходе последнего мартовского коммитфеста. Предыдущие статьи о коммитфестах 17-й версии: 2023-07, 2023-09, 2023-11, 2024-01.

Все вместе они дают подробное представление о новой версии СУБД.

Читать дальше →

+15

rustabapclub 6 сен 2024 в 17:12

Вложенные тексты как возможность для композиции (разделения на части) в длинных текстах (so10; sapscript text)

Простой

9 мин

971

SQL*Прототипирование*Алгоритмы*Программирование*ERP-системы*

Мнение

В статье рассмотрены примеры использования длинных (sapscript) текстов для построения шаблонов с использованием вложенности шаблонов, переменных и условных конструкций. Статья будет полезна для разработок рассылок на основе SAP NetWeaver, формирование печатных форм, рекомендательной/пояснительной документации.

О, покажите мне, что может текстозавр...

nvv 6 сен 2024 в 08:36

Статический анализ структуры базы данных в проекте GitLab

Простой

4 мин

2.2K

PostgreSQL*Анализ и проектирование систем*SQL*

Туториал

Возможно ли применить статический анализ структуры базы данных к реальным проектам, которые используют PostgeSQL, какой будет результат? Давайте применим и посмотрим что получится. В качестве реальных проектов возьмем инструменты с открытым кодом, которыми многие пользуются ежедневно - GitLab и Redmine.

alisichkin 29 авг 2024 в 13:30

Повышение параллелизма UnitTest'ов utPLSQL в Oracle

Средний

7 мин

28K

Блог компании SM LabSQL*Программирование*Oracle*

Быстрое развитие проекта несет в себе множество сложностей: большая вероятность сломать старый функционал или привнести новые баги. Одним из способов поддержания качества кода в хорошем состоянии – это покрытие кода Unit тестами. Но следствием увеличения количества Unit тестов, является увеличение времени исполнения. Попробуем достигнуть максимума – скомбинируем параллельно выполняющиеся UnitTest’ы таким образом, чтобы достигнуть наибольшего быстродействия.

+10

remoteadmiral 27 авг 2024 в 15:36

Мысли вслух. Создание распределенного вычислительного кластера для СУБД

14 мин

3.5K

Блог компании SOFTPOINTВысокая производительность*SQL*Распределённые системы*

Из песочницы

Привет, меня зовут Владимир Сердюк. Я основатель компании Софтпоинт и этой статьей хочу открыть цикл, посвященный распределенным кластерам СУБД с возможностью равномерного распределения нагрузки по всем его серверам.

Идеи создания распределенного вычислительного кластера СУБД (далее РВК) посещали меня достаточно давно. Если упрощенно описать, то программное обеспечение РВК позволяет объединить множество серверов в один суперсервер (кластер), осуществляющий равномерную балансировку всех запросов между отдельными серверами. При этом для приложения, которое работает на РВК все будет выглядеть как будто оно работает с одним сервером и одной базой данных (далее БД), это будут не разрозненные базы данных на распределенных серверах, а как будто одна виртуальная. Все сетевые протоколы, репликационные обмены, прокси-перенаправления будут скрыты внутри РВК. При этом будут эффективно и равномерно использоваться все ресурсы распределенных серверов, в частности, оперативная память и процессорное время.

+11

koanse 27 авг 2024 в 02:24

Преимущества DAX на примерах

Простой

3 мин

4.5K

SQL*Big Data*

Кейс

Популярным языком запросов от Microsoft является DAX. В отличие от диалектов SQL, DAX позволяет аналитикам сфокусироваться на решении задач бизнес-аналитики, вместо того, чтобы заниматься рутинными техническими задачами (например, вопросами производительности).

Безусловно, DAX не является панацеей для решения любых задач, но, если честно, ознакомление с этим функциональным языком может быть своего рода открытием, что создать единый язык для всех SQL диалектов - это вообще "doable", причем поддерживаются практически все имеющиеся базы данных многих видов (например, реляционные, колоночные), а также обеспечивается высокая производительность запросов.

В этой статье рассматриваются преимущества DAX на конкретных примерах, таким образом, если Вам интересен Business Intelligence на DAX - добро пожаловать :)

+11

Kartafan 26 авг 2024 в 12:29

Вычисляем Вес в приросте в Superset

Средний

7 мин

3.8K

SQL*PostgreSQL*Apache*Визуализация данных*

Из песочницы

Сегодня я продолжу знакомить вас с нестандартными задачами, которые появляются в моей работе, и способами их решения.

За информацию из этой статьи, я был готов заплатить деньги, убить или сходить на концерт Шамана.

Уверен, что мой рассказ будет полезен не только пользователям Superset, но и всем аналитикам, которые используют SQL в своей работе и учёбе.

Не буду рассказывать про базовое построение таблиц на BI системе Superset, с этим прекрасно справятся тонны видео на ютубе и бесполезные курсы (про которые я писал ранее). Но сразу скажу, что суперсет в отличие от некоторых других BI систем начинает раскрываться только если ты знаешь SQL, так что хотим мы этого или нет – погружаться в тонкости языка придётся.

Больше двух недель на поиск оптимального решения, ошибки, костыли и элегантный финал.

Итак, Что такое «Вес в приросте» и чем он отличается от обычного «Прироста», и в чем собственно говоря — сложность?

Разберёмся на примере:

pgonin 26 авг 2024 в 08:57

Как небольшой команде переехать на ClickHouse: на какие грабли мы наступили и о каких фишках не знали

Простой

21 мин

15K

Блог компании Конференции Олега Бунина (Онтико)Блог компании OkkoOpen source*SQL*Data Engineering*

Кейс

Привет, Хабр!

Меня зовут Петр. Я работаю инженером по данным в Okko и обожаю ClickHouse.

Примерно в середине прошлого года мы начали переезжать с PostgreSQL на ClickHouse. Одной из главных причин переезда была низкая производительность: среднее время аналитического запроса составляло около минуты. Сейчас, после переезда, среднее время запроса в аналитическом кластере — около 2 с. И это не предел.

Я расскажу, как мы пришли к текущему состоянию хранилища данных, какие ошибки совершили, какие шишки набили, и о каких фишках кликхауса предпочли бы знать заранее.

Статья в основном для тех, кто только начинает свой путь работы с кликхаусом: мы посмотрим, как делать не надо, и как можно сделать лучше.

В этой статье не будет объяснений почему для переезда мы выбрали именно этот инструмент. Не будет и глубокой теории о его внутреннем устройстве. Отметим лишь: в правильных руках ClickHouse — одна из самых быстрых колоночных СУБД для OLAP запросов.

+59

PastorGL 23 авг 2024 в 13:19

Искусство ETL. Пишем собственный движок SQL на Spark [часть 7]

Средний

10 мин

2.3K

Big Data*Java*Open source*SQL*Программирование*

Туториал

В предыдущих сериях (FAQ • 1 • 2 • 3 • 4 • 5 • 6 ) мы весьма подробно рассмотрели, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL поверх Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.

В данной части поговорим о том, как добавить в собственный диалект SQL поддержку процедур. Например,

-- library.tdl

CREATE PROCEDURE dwellTimeByMode(@signals, @target, @outPrefix,
  @modes = ['pedestrian', 'non_pedestrian', 'car', 'bike'],
  @groupid='cell10') AS BEGIN
    LOOP $mode IN $modes BEGIN
        SELECT * FROM $signals INTO "{$signals}/{$mode}" WHERE mode=$mode;

        CALL dwellTime(@signals_userid_attr=userid,
            @target_userid_attr=userid,
            @target_grouping_attr=$groupid
        ) INPUT signals FROM "{$signals}/{$mode}", target FROM $target
        OUTPUT INTO "{$outPrefix}/{$mode}";

        ANALYZE "{$signals}/{$mode}";
        ANALYZE "{$outPrefix}/{$mode}";
    END;
END;

--- ... --- ... --- ... ---

-- script.tdl

CALL dwellTimeByMode(@signals=$this_month, @target=$population, @outPrefix=$this_month);

Нафига это надо?

Ну, допустим, у нас уже есть некоторое количество SQL ETL кода, наработанного за время эксплуатации инструмента в продакшене, и становится заметно, что значительная часть скриптов на разных проектах совпадает, и из раза в раз повторяется. Логично было бы вынести все эти совпадающие куски в библиотеку, чтобы держать в одном месте, да и вызывать с какими надо параметрами, когда надо. Вот прям как на примере выше.

Читать дальше →

badcasedaily1 18 авг 2024 в 15:47

Паттерн Unit of Work в Python с SQLAlchemy

Простой

7 мин

5.2K

Блог компании OTUSPython*SQL*

Unit of Work отслеживает все объекты, которые были загружены в память и изменены в ходе выполнения программы. Он управляет их состояниями и сохраняет изменения в базе данных в конце транзакции. Это делается с использованием сессий, которые действуют как контейнеры для всех изменений.

Когда работа завершена, Unit of Work выполняет commit для всех изменений, сохраняя их в базе данных. Если что-то пошло не так, выполняется rollback, и база данных возвращается в состояние до начала транзакции.

В данной статье рассмотрим, как реализовать паттерн Unit of Work с использованием SQLAlchemy.

+11

makondo 17 авг 2024 в 02:40

Data Lineage из топора

Средний

9 мин

2.6K

Big Data*Data Engineering*SQL*

Кейс

Статья навеяна удачной реализацией Data Lineage «на коленке». Рассматривается случай, когда в окружающем корпоративном ландшафте Apache Atlas, Datahub или Amundsen еще не подвезли (и неизвестно, будет ли, и если будет, то когда) — а посмотреть от таблицы назад к источниками или вперед к потребителям от конкретной таблицы хочется прямо сейчас. Условия, в которых это удалось сделать, могут не повториться в других случаях, но сам кейс наверняка будет интересен.

Разные самопальные data lineages

Tzimie 15 авг 2024 в 21:37

SQL server: темная сторона AlwaysOn

4 мин

2.2K

SQL*Серверное администрирование*Microsoft SQL Server*

Кейс

В SQL server есть замечательная технология - AlwaysOn. Она используется для DR (disaster recovery, асинхронная репликация данных), HA (high availability, часто с automatic failover, что возможно при синхронной репликации), и для того, что мы обсудим в статье: readonly replica для DWH/OLAP/Reporting workload.

Ничто не совершенно (хотя я восхищаюсь простотой установки некоторых решений в MS SQL по сравнению с Postgre и Oracle. Хотя бы бэкапы... А AlwaysOn для маленьких баз заводится буквально в пару кликов).

Cегодня мы рассмотрим проблемы при использовании AlwaysOn для DWH/OLAP/Reporting.

Alice-Goncharova 15 авг 2024 в 02:28

Array функции Clickhouse

Средний

10 мин

SQL*

Туториал

Когда вы анализируете данные, базовых функций SQL часто недостаточно, особенно когда дело касается сложных запросов и обработки больших объемов информации. В таких случаях на помощь приходят функции для работы с массивами в ClickHouse. Однако, многие пользователи не знают о их существовании или не используют их в полной мере.

Эта статья — небольшой гид по функциям работы с массивами в ClickHouse. Мы рассмотрим самые полезные и мощные инструменты, такие как arrayJoin, arrayMap, arrayFilter, и другие. Разберём, как их использовать для решения повседневных задач аналитики данных, на конкретных примерах.

Почему это важно? Потому что умение грамотно работать с массивами позволяет сократить и упростить код, делая его более читаемым и поддерживаемым. Это ключевой навык для тех, кто хочет писать оптимальные запросы.

Вам могут пригодиться array функции, когда стандартные SQL-запросы становятся сложными и трудными для понимания. Например, вместо использования множества подзапросов и объединений для отслеживания последовательности действий пользователя, вы можете использовать функции работы с массивами. Кроме того, использование функций позволяет фильтровать элементы внутри массива, избавляя от необходимости написания сложных условий в подзапросах. Функции работы с массивами в ClickHouse помогут сократить количество кода и упростить запросы, заменяя многократные подзапросы на более элегантные и читабельные решения.

1 2 ...

6 7

9 10 ...

91 92

SQL *

ClickHouse vs BigQuery: 4 отличия в SQL

SQL HowTo: загадка Эйнштейна, или снова Джиндош

Курс «PostgreSQL для начинающих»: #4 — Анализ запросов (ч.2 — узлы получения данных)

Решаем загадку Джиндоша из Dishonored 2 на SQL перебором с возвратом

Истории

Примеры использования state функций в ClickHouse

Генерация диаграммы «Сущность-Связь/ Entity-Relationship» с помощью Laravel

Хранение данных в Postgresql

PostgreSQL 17: Часть 5 или Коммитфест 2024-03

Вложенные тексты как возможность для композиции (разделения на части) в длинных текстах (so10; sapscript text)

Статический анализ структуры базы данных в проекте GitLab

Повышение параллелизма UnitTest'ов utPLSQL в Oracle

Мысли вслух. Создание распределенного вычислительного кластера для СУБД

Преимущества DAX на примерах

Ближайшие события

Вычисляем Вес в приросте в Superset

Как небольшой команде переехать на ClickHouse: на какие грабли мы наступили и о каких фишках не знали

Искусство ETL. Пишем собственный движок SQL на Spark [часть 7]

Паттерн Unit of Work в Python с SQLAlchemy

Data Lineage из топора

SQL server: темная сторона AlwaysOn

Array функции Clickhouse

Вклад авторов