varanio Oct 16 2015 at 19:34

Как посчитать всё на свете одним SQL-запросом. Оконные функции PostgreSQL

5 min

675K

PostgreSQL * SQL *

+71

Comments 54

zzashpaupat Oct 16 2015 at 20:46

«There was SQL before window functions and SQL after window functions».

Оконные функции удобно применять для всякой аналитики, отчетов, и так далее.

А еще однажды была задача добавить unique constraint на таблицу, где уже было порядка 500к записей и из них много не соответствовало условию. Запрос на удаление лишних записей был удобно сформирован с помощью оконной фукнции. Боюсь представить, сколько времени я бы удалял это вручную.

xobotyi Oct 17 2015 at 10:29

Да-да, помнится, делал удаление дублей до того как познакомился с окнами, а потом после. С окнами это один запрос, а без — страшно подумать, добавление столбца, создание последовательности, потом выборка по хевингу, и все это в табле с 2+млн записей, ужас! ( '/ /_ / /)

caballero Oct 16 2015 at 21:12

Ну, самый распространенный способ использования — для пагинации раз уж у нас номера строк под рукой

zzashpaupat Oct 17 2015 at 07:22

Вы бы еще OFFSET предложили.

caballero Oct 17 2015 at 12:58

ну, затупил. Я єтим в mssql пользуюсь а там только TOP (если в последних версиях конечно не добавили что то типа offset).

yar3333 Oct 17 2015 at 14:06

Может я чего не понимаю, но в MySQL есть «LIMIT from,count», которым я всегда пользовался…

caballero Oct 17 2015 at 14:17

MSSQL
у мускула как раз нет оконных функций

zzashpaupat Oct 17 2015 at 15:23

Основная проблема тут в том, что при «LIMIT 100000, 10» MySQL сначала посмотрит 100000 записей, а только потом вернёт 10.

JeStoneDev Oct 17 2015 at 16:57

если в последних версиях конечно не добавили что то типа offset

Добавили technet.microsoft.com/en-us/library/gg699618(v=sql.110).aspx

SELECT First Name + ' ' + Last Name FROM Employees ORDER BY First Name OFFSET 10 ROWS FETCH NEXT 5 ROWS ONLY;

evnuh Oct 17 2015 at 00:31

А можно ли использовать результат оконной функции в HAVING? Как раз сегодня решал задачу на MySQL, нужно было сделать пагинацию по дням, имея колонку с таймстемпом записей. Очень горевал, что он не умеет оконные функции, пришлось извращаться с переменными в селектах и подзапросами, но зато потом эту переменную можно в HAVING напихать и всё отфлильтруется.

varanio Oct 17 2015 at 05:28

> А можно ли использовать результат оконной функции в HAVING?
нет, нельзя. Оконные функции просчитываются уже после фильтрации по having

Casufi Oct 19 2015 at 09:43

Но ведь можно запихнуть запрос с оконной функцией в with а в результирующем запросе сделать и группировку и having нет?

varanio Oct 19 2015 at 09:45

если запрос засунуть в with, то в результирующем запросе можно и группировку, и having, и всё, что угодно

Casufi Oct 19 2015 at 13:33

Я собственно про это же.

Mingun Oct 17 2015 at 06:37

Вот такая особенность агрегатных функций, если их использовать как оконные. На мой взгляд, это довольно-таки странный, интуитивно неочевидный момент SQL-стандарта.

Не понял, чего тут не очевидного? Не указываем order by — границами окна являются первая и последняя запись в выборке, указываем — первая и текущая запись в выборке.

Кстати, ваше описание оконных функций неполно — как минимум не указаны полезнейшие предложения range / rows, позволяющие явно указать границы окна.

varanio Oct 17 2015 at 06:51

> Не понял, чего тут не очевидного? Не указываем order by — границами окна являются первая и последняя запись в выборке, указываем — первая и текущая запись в выборке.

Если мы берем функцию row_number(), то она как-то все равно учитывает текущую строку, даже если не делать order by. А sum — никак не учитывает. Вот это и не очевидно, на мой взгляд.

zzashpaupat Oct 17 2015 at 07:11

Об этом прямо написано в документации. sum — это агрегатная функция изначально, а row_number — оконная.

«When an aggregate function is used as a window function, it aggregates over the rows within the current row's window frame. An aggregate used with ORDER BY and the default window frame definition produces a „running sum“ type of behavior, which may or may not be what's wanted. To obtain aggregation over the whole partition, omit ORDER BY or use ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING. Other frame specifications can be used to obtain other effects.»

varanio Oct 17 2015 at 07:30

угу

bolk Apr 6 2016 at 15:08

А в чём проблема? FIRST_VALUE вы куда отнесёте?

rinnaatt Oct 17 2015 at 10:02

я довольно часто использовал оконную функцию, чтобы найти крайнее значение из набора.
Представим, что есть таблица со списком тарифов, для каждого тарифа есть цена и дата начала действия. Текущую цену можно будет узнать таким запросом.

+----+------------+--------+------------+
| id | service_id | tariff |  put_into  |
+----+------------+--------+------------+
|  1 |          1 |  100.0 | 2013-10-01 |
|  2 |          1 |  200.0 | 2014-12-01 |
|  3 |          1 |  150.0 | 2015-02-01 |
|  4 |          1 |  170.0 | 2016-02-15 |
|  5 |          2 |  300.0 | 2013-10-01 |
|  7 |          2 |  330.0 | 2015-02-01 |
|  8 |          2 |  315.0 | 2016-02-15 |
+----+------------+--------+------------+

select distinct first_value (t1.tariff) over (order by t1.put_into desc) as price
from tariff_price t1 where t1.service_id = 1 and t1.put_into <= CURRENT_DATE;

+-------+
| price |
+-------+
| 150.0 |
+-------+

Melkij Oct 17 2015 at 10:14

Эмм. А зачем тут оконная функция?

select t1.tariff from from tariff_price t1 where t1.service_id = 1 and t1.put_into <= CURRENT_DATE order by t1.put_into desc limit 1

И очевиднее и план запроса куда проще.

kiaplayer Oct 17 2015 at 22:05

Ваш запрос подойдет для предложенной задачи только при условии «t1.service_id = 1».
Если же нужно найти последние цены по всем видам услуг — то не подойдет :)

varanio Oct 18 2015 at 04:21

Если бы не было этого условия, и было бы PARTITION BY, тогда да. А так — странноватый запрос.

rinnaatt Oct 21 2015 at 06:10

Чудак ты автор, сам же просил:

Прошу в коментариях накидать примеров, где особенно удобно применять оконные фунции. А также, какие с ними могут возникнуть проблемы, если таковые имеются.

Ну я и дал пример сферического запроса в вакуме, реальный запрос намного сложнее и масштабнее, но я его здесь приводить не буду так как не интересно.

Melkij Oct 18 2015 at 09:12

Та запросто:

select distinct on (t1.service_id) t1.service_id, t1.tariff from from tariff_price t1 where t1.put_into <= CURRENT_DATE order by t1.service_id, t1.put_into desc

Santacruz Oct 17 2015 at 11:58

Нужна помощь зала… как красиво вытащить последний ряд партишена?

http://sqlfiddle.com/#!15/6bba4/1

ONIKSfly Oct 17 2015 at 12:26

Зря вы так, попробуйте лучше сюда.

varanio Oct 17 2015 at 13:16

последний ряд партишена, если я правильно понял задачу, можно вытащить примерно так: пронумеровать row_number() over (order by… desc) as num, потом весь запрос сделать подзапросом, и отфильтровать where num = 1

varanio Oct 17 2015 at 14:15

* я забыл собственно partition by вставить )

FSA Oct 17 2015 at 17:39

В очередной раз жалею, что выбрал MySQL для своего проекта с несколькими десятками таблиц…

Bezk Oct 17 2015 at 18:27

Несколько десятков – это не тысячи, можно и смигрировать :-)

FSA Oct 18 2015 at 21:06

Можно. Осталось быдлокод подготовить. Пока медленно выходит. Плюс надо преодолеть страх отказаться от phpMyAdmin. За столько лет привык уже. А полноценной замены ему нет. Кстати, для многих это и есть причина оставаться на MySQL. Потому что «так удобнее»,

Fedcomp Dec 9 2015 at 11:49

а как же phppgadmin?

FSA Dec 16 2015 at 08:34

По удобству это совсем не то. Хотя я пользовался.

Shannon Apr 26 2016 at 10:56

phpMyAdmin можно легко заменить на Adminer, он и mysql и postgresql поддерживает

NeX Oct 17 2015 at 22:22

Держите. pgloader.io

NeX Oct 17 2015 at 22:31

Из плюсов — он единственный из списка wiki.postgresql.org/wiki/Converting_from_other_Databases_to_PostgreSQL работает с гео полями

FSA Oct 18 2015 at 21:00

Ну у меня есть в базе координаты объектов. Только я особо не заморачивался. Главное отображаются поверх Openstreetmap.

FSA Oct 19 2015 at 10:13

Что-то вот так просто никак не соображу как его собрать под Gentoo.

SanSYS Oct 31 2017 at 17:24

Прежде учтите, что в индексах пг хранится ссылка на данные по внутреннему идентификатору
Как следствие — при обновлении строки обновляется ссылка на данные в индексе

Envek Oct 18 2015 at 05:38

Оконные функции я часто использую для миграции данных. Очень удобно. Это либо удаление дубликатов, либо штуки типа перенумерования записей, например так: envek.name/ru/blog/2015/04/28/sql-window-functions

Isopropil Oct 18 2015 at 16:46

Отличная статья, спасибо, очень радует, что материалы по этой действительно великолепной СУБД стали появляться всё чаще. Ещё очень бы хотелось материалов по масштабированию — советы, практики использования таких вещей, как pgPool-II, PostgresXL и т.д.

VolCh Oct 18 2015 at 21:39

Оконные функции типа first/last_value очень удобны при работе с версионированными или хронологическими данными. Особенно функции, «заглядывающие» вперёд по запросу. В том же мускуле с помощью переменных худо-бедно можно выводить результаты в текущей строке, базирующиеся на результатах предыдущих, но вот если нужны последующие, то без подзапросов с обратной сортировкой не обойтись.

ajvol Oct 20 2015 at 07:23

Неплохо бы ещё пару слов сказать про волшебное «UNBOUNDED FOLLOWING», и как оно влияет на выражения. Оптимизатору несложно выполнять агрегации над теми строками, которые он уже «просканировал», вероятно, поэтому по умолчанию используются границы «RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW», но если вам нужно «заглядывать вперёд» и учитывать значения будущих строк окна, то приходится использовать то самое «FOLLOWING», которое может кардинальным образом менять план и скорость выполнения запроса.

Вот простой пример расчёта среднего по умолчанию

SELECT 
   NAME,
   SALARY, 
   AVG(SALARY) OVER (ORDER BY SAL) AVG
FROM
   EMP;

NAME           SALARY        AVG
---------- ---------- ----------
SMITH             800        800
JAMES             950        875
ADAMS            1100        950
WARD             1250       1025

Подробнее, например, на www.dba-oracle.com/t_advanced_sql_windowing_clause.htm

SanSYS Oct 31 2017 at 17:35

Не упомянута вот такая возможность:

select id,
sum(viewed) FILTER (where viewed > 5) OVER (ORDER BY expectedenddate DESC) AS rating
from table1

Если добавлено предложение FILTER, агрегатной функции подаются только те входные строки, для которых условие_фильтра вычисляется как истинное; другие строки отбрасываются

Ну и доп. ссылки:

PS: спецом на postgrespro.ru ссылки поставил, уж больно Олег Бартунов его хвалил в Уфе

Melkij Oct 31 2017 at 18:09

Ключевое слово filter — это фильтрация вообще для любой аггрегатной функции, хоть оконной хоть нет. Появилось в 9.4. Вещь жутко удобная, это точно.

SanSYS Oct 31 2017 at 17:40

один order ничуть не мешает другому

Автор, я попробовал на тестовых данных, объясни, плиз, как сделать этот запрос лучше, ибо ордеры, таки мешают друг другу

varanio Nov 1 2017 at 07:54

Я имел в виду, логически не мешают. По производительности надо посмотреть. А у вас есть дамп с данными, чтобы погонять можно было?

YakovLitvin Apr 23 2019 at 08:50

подскажите, я правильно понял, что окна не бывают «скользящими»? Иными словами, нельзя вычислить скользящее среднее, типа (тут окно в 2 значения):

val avg

3 | 4.5

6 | 4.5

3 | 4

5 | 4.5

4 |

Mingun Apr 23 2019 at 15:06

Бывают. Для этого как раз предназначены фразы range / rows оконной функции. На примере Oracle:

with data as (
    select 3 val from dual union all
    select 6 val from dual union all
    select 3 val from dual union all
    select 5 val from dual union all
    select 4 val from dual
)
select n, val, avg(val) over(order by n rows between current row and 1 following) avg
from (select rownum n, val from data) t;

Результат:

| N | VAL | AVG |
|---|-----|-----|
| 1 |   3 | 4.5 |
| 2 |   6 | 4.5 |
| 3 |   3 |   4 |
| 4 |   5 | 4.5 |
| 5 |   4 |   4 |

Здесь колонка n искусственно введена для того, чтобы правильно упорядочить данные во фразе order by окна. Если у вас уже есть колонка сортировки, эта искусственная колонка не нужна. Фраза rows between current row and 1 following определяет границы окна: между текущей строкой и плюс одной строкой от текущей (включительно) — получаем ваш интервал в 2 строки; rows означает, что оперируем физическими строками. Значения за последней строкой считаются как бы равными null. Ещё можно использовать range — в этом случае диапазон будет рассчитываться не от порядковых номеров строк, а от значений в колонке n (той, которая в order by). В нашем случае порядковый номер и значение совпадают, так что результат был бы одним и тем же, но если бы вместо n стоял, например, реальный идентификатор строки, разница была бы существенной!

Документация по аналитическим функциям.

YakovLitvin Apr 28 2019 at 20:36

Здорово, спасибо. На "[sql flavour] rows between" ищется, что нужно. Например, тут для MS SQL: docs.microsoft.com/ru-RU/sql/t-sql/queries/select-over-clause-transact-sql?view=aps-pdw-2016

Bakuard Feb 18 2022 at 16:01

Некропост, но ... вот пример, где удобно использовать оконные функции: в БД есть некоторая таблица MyTable. Все строки MyTable соответствующие критерию a образуют множество строк A, а все строки соответствующие критерию b образуют множество строк В. Необходимо получить объединение множеств A и B, при этом строки выводятся в следующем порядке:

Сперва все строки соответствующие только критерию a.
Затем все строки соответствующие критерию a и критерию b.
Под конец все строки соответствующие только критерию b. Критерии a и b не определенны заранее и формируются динамически.

varanio Feb 18 2022 at 16:04

можете привести пример? Не оч понятно

Bakuard Feb 19 2022 at 04:04

Ок. Пусть у нас есть таблица:

create table MyTable (
  id UUID not null,
  value1 INT not null,
  value2 INT not null,
  primary key(id)
);

Нужно вывести все строки которые соответствуют критерию value1 > 1000 или критерию value2 > -250 and value2 < 370, при этом строки должны быть отсортированы в следующем порядке:

Сперва все строки соответствующие только критерию value1 > 1000
Затем все строки соответствующие критерию value1 > 1000 и критерию value2 > -250 and value2 < 370
Под конец выводятся строки соответствующие только критерию value2 > -250 and value2 < 370