feedbee24 июл 2008 в 17:10

Подсчет количества найденных записей в PostgreSQL

3 мин

972

PostgreSQL *

+33

Комментарии 43

TermiT 24 июл 2008 в 17:39

Помоему первый и второй у вас идентичны...

TermiT 24 июл 2008 в 17:40

Первый и второй вариант

feedbee 24 июл 2008 в 17:44

Да, пардон, промахнулся. Уже поправил. Спасибо.

PQR 24 июл 2008 в 17:46

Не уловил разницы в коде вариантов 1 и 2 - опечатка?

Tr1aL 24 июл 2008 в 22:47

разница есть, смотри внимательней :)

symbix 24 июл 2008 в 21:33

>>из MySQL мне было известно, что поиск с count()-запросом работает почти в 2 раза медленнее, чем с SQL_CALC_FOUND_ROWS

далеко не всегда

http://www.mysqlperformanceblog.com/2007…

razawa 25 июл 2008 в 05:22

А я вот про MySQL новое узнал отсюда :-). PostgreSQL еще не использовал

romychs 25 июл 2008 в 05:22

Пасиб, чую, скоро нужно будет программулинку переделывать под postgre, как раз пригодятся Ваши варианты.

Frank 25 июл 2008 в 07:15

Не поверите, ровно 10 минут назад как раз искал эту информацию. Спасибо.

LDEV 25 июл 2008 в 07:35

Открыл для себя новый параметр в MySQL - SQL_CALC_FOUND_ROWS. Если честно, никогда его не встречал. Возьму на вооружение!

3stark 25 июл 2008 в 07:46

кажется, в Варианте 3 описка:
select id from testing where text like '%adf%' limit 20 offset 180000;

feedbee 25 июл 2008 в 07:57

В данном случае это не существенно, но таки да: там должен быть id.

AlienZzzz 25 июл 2008 в 09:07

я бы лучше сам запрос оптимизировал. и использовал бы полнотекстовый поиск. который встроен в постгрессе, у меня 200 к записей примерно
нужно постранично выводить.

я делаю так
select count(*) from ( .. запрос .. )

ну и далее лимитом уже, постранично когда показать надо.

feedbee 25 июл 2008 в 09:20

Я специально сделал поиск через LIKE, чтобы получить "тяжелый" запрос. Понятно, что по тексту лучше искать full text search'ем. А тяжелые запросы не получаются не только при поиске по тексту. На счет варианта "select count(*) from ( .. запрос .. ) ну и далее лимитом уже, постранично когда показать надо. " как раз написано в этой статье, почитайле пожалуйста. Там еще указана разница во времени такого запроса и варианта с курсором — ваш вариант на 75% медленнее при выборках далеких страниц.

AlienZzzz 25 июл 2008 в 09:26

у меня немного сложно реализовать через курсор, так как сам ".. запрос .." у меня еще парсится в зависимости от фильтров (у мен каждое поле можно отфильтровать и т.д.), поэтому запрос может быть разным.

select count(*) from ( .. запрос .. )

___

на 75 проц. медленнее если лайк , но не фул текстом )

feedbee 25 июл 2008 в 09:54

Не важно, лайк или полнотекстный поиск. В 2 запроса при использовании сортировки или выборе далекой страницы будет обрабатываться примерно в 1,75 раза дольше. Через лайк речь будет о 0,6 с против 0,4 с; при фултексте речь будет например о 0,2 против 0,12

AlienZzzz 25 июл 2008 в 09:59

в любом случае респект. я попробую подкрутить это к себе (ессли смогу задавать запрос, как строчку 'DECLARE curs CURSOR FOR 'se ....'; )

feedbee 25 июл 2008 в 10:03

Спасибо :) Было бы интересно сравнение скоростей в вашем конкретном случае. Толкьо не забудьте, что сравнивать надо на далеких страницах от начала. Чем ближе страница к началу, тем меньше времени работает второй запрос, если нет сортировки.

AlienZzzz 25 июл 2008 в 10:28

сортировка есть .

zolotukhin 25 июл 2008 в 09:16

Отличное сравнение, спасибо за него. Есть еще интересная возможность быстрого определения приблизительного количества рядов, когда не нужна идеальная точность (такое бывает в случае больших чисел): делать explain запросу при обновленной статистике (в свежих версиях PostgreSQL при включенном автовакууме статистика всегда актуальна) и смотреть на оценку рядов, которую делает планировщик запросов. Цена вопроса — миллисекунды.

greeka 25 июл 2008 в 09:17

1) так а чем по вашему отличается вариант 1 от варианта 2? вы реально полагаете, что это разные запросы?
я думаю, что анализатор приводит их к одному (а именно к первому варианту)...

2) по поводу ваших методов тестирования - выполенение одинаковых запросов в цикле не дает полной картины так как база кеширует такие запросы и он реально выполняется только первый раз.

AlienZzzz 25 июл 2008 в 09:19

не выполняеться а анализируется 1 раз, собствено на анализ то время большое тратится.

greeka 25 июл 2008 в 09:23

и выполняется тоже.
так как у автора в тестах искомая строка не меняется!

galaxy 25 июл 2008 в 09:37

Вот уж неправда. Во-первых, если два одинаковых запроса идут НЕ в одной транзакции с уровнем изоляции SERIALIZABLE, то перечитывать придется, т.к. новые записи могли появится за это время. Во-вторых, представьте себе оверхед от кеширования результатов запросов; постгрес этим не занимается. Возможно, вы путаете с кешированием часто запрашиваемых страниц.

greeka 25 июл 2008 в 09:48

сейчас запустил тест немного его изменив - засекаю время между выполнениями запросов, так вот, первый выполняется долго (20 секунд), последующие - намного быстрее (~0,01 сек).
хотя, я тут действительно мог ошибиться с транзакциями. но все равно результаты налицо.
хотя у меня сервак монстр, оптимизирован, и пока нет изменений в табл. просто выборка. да и сама выборка всего 20 записей - их закешировать много ресурсов не нужно

shuffle 25 июл 2008 в 09:26

лучше делать не count(*), а count(case when text like '%adf%' then 1 end) - попробуйте, скорее всего будет быстрее.

greeka 25 июл 2008 в 09:31

одинаково на 10 лимонах записей, перебор что там, что там по всей таблице

yar 25 июл 2008 в 20:15

еще проще select count(1) from test where text like '%adf%', без всяких case :)

greeka 26 июл 2008 в 07:44

ну я count никогда по звездочке не делаю - по первичному ключу ли как вы написали...

greeka 25 июл 2008 в 09:35

на самом деле на больших объемах данных при тяжелых запросах count нужно закешировать при первом обращении и потом просто брать из кеша. да, кол-во может измениться. в этом случае можно делать пересчет где-то "в фоне" через каждые N страниц и обновлять кеш.

feedbee 25 июл 2008 в 09:55

Это если всегда одинаковый запрос. Тогда так и надо делать. А если запросы постоянно разные (фильтры, поиски текста), то не перекешируешь все.

greeka 25 июл 2008 в 11:08

ну это я для пейджера написал вариант, а так понятно что нужно каждый раз пересчитывать

yar 25 июл 2008 в 20:14

делать пейджинг при больших объемах в любом случае бессмысленно
ну какой смысл листать миллион записей?

greeka 26 июл 2008 в 07:46

на миллион записей нет смысла, но смысл в том, сколько записей в таблице. если из миллиона выберется 100 записей, то листать нужно, но от этого count меньше весить не станет

Psih 25 июл 2008 в 10:13

Использовать SQL_CALC_FOUND_ROWS в MySQL следует только при LIKE или FullTextSearch или нету индексов на поисковых полях, в результате чего запрос работает долго. Если у вас выборка вида
SELECT fields
FROM table1
LEFT JOIN table2 ON table2.id = table2.reference
WHERE table1.reference = INT LIMIT 0, 20

из хотя бы десятков тысячь записей, то SELECT + SELECT COUNT(*) по условию будет сильно быстрее. SQL_CALC_FOUND_ROWS в данном случае заставляет сделать JOIN на все записи доступные в таблицах и только потом отрезает их. Без него это дело сильно оптимизируется и 2 запроса в итоге могут быть в несколько раз быстрее чем один с SQL_CALC_FOUND_ROWS (да, и на памяти вы тоже сильно экономите)

feedbee 25 июл 2008 в 10:22

Проверял на практике: в запросе нет ни FT, ни LIKE. Запросы с count() работали дольше. А вот в случае с JOIN ваша правда (во всяком случае по логике).

Q2W 25 июл 2008 в 11:05

Да, вариант с count() чаще всего лучше, ибо:
1. Не нужна сортировка (а это очень тяжёлая операция).
2. Часто можно выключить join'ы из запроса.
3. Можно выключить всякие расчёты и проч. из запроса.

В результате запрос с count() становится гораздо легче и быстрее.
А вот в варианте с SQL_CALC_FOUND_ROWS базе приходится применять всё вышеописанное ко всем строкам таблицы, а не только к выбираемым. И хоть и есть экономия на выводе только того, что нужно, в результате получается медленнее.

Всё вышесказанное неоднократно проверено и используется на более-менее нагруженном проекте, над оптимизацией производительности которого работали очень много.

fisher 25 июл 2008 в 21:04

>>базе приходится применять всё вышеописанное ко всем строкам таблицы
а это извините из общих физических соображений-то вообще зачем? где такое написано? и не путаете ли Вы с count у innodb vs isam.

johnny_bee 25 июл 2008 в 20:51

Небольшое замечание, почему в постгре нет SQL_CALC_FOUND_ROWS (что бы его не ругали). Постгря умеет использовать индексы для сортировки и выборок limit/offset, соотв. при выборке он может и не пройтись по всем полям, удовлетворяющим where.

На практике имеет смысл денормализовать по полям, которые используются в where.

munkie 28 июл 2008 в 09:19

В php лучше использовать функцию pg_affected_rows(), pg_cmdtuples() считается устаревшей.

xiWera 29 июл 2008 в 22:02

это только у меня так, что после move на начало, move обратно в конец отработывает столько же времени сколько в первый раз? хотя внутри транзакции ничего не меняется

Sway 17 июн 2013 в 11:40

4й вариант, конечно прекрасен, но невозможен при использовании PDO т.к. нет альтернативы для pg_affected_rows/pg_cmdtuples и нет возможности вызвать их из-за отсутствия ресурса, который они требуют.
Также в сам postgres не нашел возможности узнать какую-либо информацию о позиции курсора.
Есть еще варианты?

vajadhava 8 сен 2014 в 11:28

Есть еще совершенно простой и безболезненный способ, выбирать одновременно вместе с данными:

SELECT stuff,
       count(*) OVER() AS total_count
FROM table
WHERE condition
ORDER BY stuff OFFSET 40 LIMIT 20

Зарегистрируйтесь на Хабре, чтобы оставить комментарий