jeroyle 30 июл 2024 в 06:04

Как мы перешли с оффсетной пагинации на курсорную, или о проблемах динамической фильтрации

Простой

7 мин

4.9K

Блог компании Музыкальный сервис ЗвукPython*Программирование*Алгоритмы*

Кейс

Комментарии 14

olivera507224 30 июл 2024 в 07:17

Довольно странно в статье, в названии которой прямо фигурирует курсорная пагинация, не найти ни одного упоминания курсорной пагинации.

Gromilo 30 июл 2024 в 07:27

Вы про курсоры в БД?

olivera507224 30 июл 2024 в 07:35

Да, из названия ожидаешь прочитать историю внедрения курсорной пагинации, но в тексте речь идёт о пагинации на основе упорядоченного набора ключей.

И совсем не ясно, какие фильтры вы применяете к полученным из БД данным, что эти фильтры нельзя применить на уровне самой БД. Вот это было бы действительно интересно.

Gromilo 30 июл 2024 в 07:46

Если честно, разницы всё равно не понял.

Вот курсорная пагинация в ларавел: на фронт отдаём строку с курсором, а по факту это тот же упорядоченных набор ключей:where id > 15 order by id asc limit 15.

Можно пример чем курсорная пагинация отличается от "на основе упорядоченного набора ключей"?

P.S. я не автор и мне самому интересно почему фильтрация не в бд.

olivera507224 30 июл 2024 в 08:03

Возможно, у нас возникло недопонимание и расхождение в трактовании термина. Под курсором я однозначно понимаю поименованную область памяти, содержащую результирующий набор селект-запроса.

Просмотрел ссылку, которую вы скинули, и таки да - всё встало на свои места. Ларавель, похоже, называют курсорной пагинацией как раз пагинацию по упорядоченному набору ключей, просто в параметрах запроса вместо страницы нужно передавать зашифрованную строку, которую они называют курсором. Интересно, АпиПалтформа тоже под курсором понимают не курсор в БД?

я не автор

Сорри, почему-то я решил что статься ваша :)

jeroyle 30 июл 2024 в 11:57

Вы приводите ссылку на Laravel и курсорную пагинацию в нём же. Наша реализация сделала примерно по такому же принципу, но на Python (в силу языка мы не можем использовать Laravel). Насчет

И совсем не ясно, какие фильтры вы применяете к полученным из БД данным, что эти фильтры нельзя применить на уровне самой БД

К сожалению, фильтровать данные на уровне самой БД нам на текущий момент не позволяет архитектура приложения

devlev 30 июл 2024 в 07:20

На самом деле проблемы оффсетной пагинации куда глобальнее чем кажутся на первый взгляд. Предположим мы уже отфильтровали данные и показали их клиенту. Пока клиент смотри на эти данные были добавлены новые записи в первую страницу. Тогда произойдет сдвиг данных и на второй странице возможно окажутся те же записи, что были и на первой. А если на UI стороне отображение реализовано в виде авто подгрузке по доскролу то клиент увидит задвоение некоторых данных. Курсорная пагинация не обладает подобной проблемой. Новые записи которые были добавлены на первую страницу вообще не попадут в выдачу клиента, до обновления первой страницы.

В одном из проектов как раз реализовывал подобную курсорную пагинацию правда она там была в обе стороны. Обычно при долгой прокрутке страницы, с доскролом, на странице начнет отображаться так много записей что сама страница начнет тормозить и подлагивать. Чтобы этого избежать курсорная подгрузка реализована в обе стороны: при подгрузке третей и более страницы верхние данные удаляются. И наоборот. При прокрутке на верх подгружаются записи которые были удалены ранее, а снизу записи стираются.

А как сделано у вас. Курсоры в обе стороны или только в одну?

jeroyle 30 июл 2024 в 11:58

Сейчас у нас курсоры только в одну сторону, так как в обратную пока не было необходимости. Но технически мы это возможность для клиентов (веб, ios, android) рассматривали и учитывали, поэтому добавить её будет не сложно

krioz 1 авг 2024 в 19:59

Так в оффсете запомните id/прочее первого элемента и передавайте его в lte/gte фильтр. Проблема только если внутри выборки меняются данные что влияет на порядок сортировки

kacetal 30 июл 2024 в 18:51

Самое интересное в такой пагинации это составные индексы с указанием сортировки индекса. За счёт чего и получается быстро находить нужную точку. К сожалению об этом ничего не написано.

Andrey_Solomatin 30 июл 2024 в 23:31

Снова отфильтровываем и повторяем цикл, пока не наберем нужное количество + 1 (почему +1 расскажу чуть ниже), либо пока не сходим за донабором пять раз. Количество попыток донабора было выбрано эмпирическим путем, потому что для большинства артистов этого должно было хватить.

При этом в итоге можно получить 0 записей.

Решение которое будет идеально для пользователя это загнать всё в одну базу. Это может быть дополнительная база, которая хранит копию данных предназначенную именно для этих запросов. Если фильтры редко меняются, то можно посмотреть на nosql решения, где можно положить все поля для фильтрации в один документ например OpenSearch.

Для компании такое решение не бесплатное. Нужно много места и новый сервер(ы), проблемы поддержания данных в актуальном состоянии (новые треки найдутся не сразу), ну и работа разработчиков.

PorcoRosso 1 авг 2024 в 18:12

Прости если ошибаюсь, но разве во тут не схожий подход описан?

k4ir05 5 авг 2024 в 04:49

А то, что у вас среди релизов одного исполнителя выдаются релизы совсем других жанров и других одноимённых исполнителей, это тоже из-за особенностей фильтрации? Или просто привязали треки по совпадению имён исполнителей? (пример)

FeRViD 3 апр в 13:22

Представьте такое наполнение, когда popularity идет в реверсном порядке по отношению к id, например:

CREATE TABLE releases (id INT NOT NULL, popularity INT, PRIMARY KEY (id));

INSERT INTO releases (id, popularity) VALUES
    (1, 99),
    (2, 98),
    (3, 97),
    (4, 96),
    (5, 95),
    (6, 94),
    (7, 93),
    (8, 92),
    (9, 91),
    (10, 90);

Тогда такой запрос:

SELECT * FROM releases ORDER BY popularity, id;

вернет

SELECT * FROM releases ORDER BY popularity, id;
 id | popularity
----+------------
 10 |         90
  9 |         91
  8 |         92
  7 |         93
  6 |         94
  5 |         95
  4 |         96
  3 |         97
  2 |         98
  1 |         99
(10 rows)

А это значит, что такой запрос:

SELECT * FROM releases WHERE id > LAST_ID_IN_LAST_PAGE ORDER BY popularity, id LIMIT 2;

вернет по сути 1 пейдж размера 2 из 5 возможных, второй пейдж будет содержать дубликат, а третий пейдж уже будет пустым.

Пример (тут мы начинаем с id > 0 для первого пейджа):

SELECT * FROM releases WHERE id > 0 ORDER BY popularity, id LIMIT 2;
 id | popularity
----+------------
 10 |         90
  9 |         91
(2 rows)

SELECT * FROM releases WHERE id > 9 ORDER BY popularity, id LIMIT 2;
 id | popularity
----+------------
 10 |         90
(1 row)

SELECT * FROM releases WHERE id > 10 ORDER BY popularity, id LIMIT 2;
 id | popularity
----+------------
(0 rows)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий