siberiano 10 мар 2012 в 20:36

Как не пересчитывать суммы и средние каждый раз

7 мин

7.5K

Django*

+46

Комментарии 35

Nickname 10 мар 2012 в 22:34

А как эта оптимизация позволяет быстрее сравнивать двух пользователей между собой?

kikaha 11 мар 2012 в 02:24

Никак, эта оптимизация дает средний чек по всем записям.
Если хотите получить средние данные по нескольким срезам — придётся делать оптимизацию по каждому срезу при каждой записи. Это несколько усложнит программу, но при нескольких миллионах записей и частых запросах результат (выигрыш в скорости) будет того стоить.

Nickname 11 мар 2012 в 09:46

Я это понимаю, я задавал вопрос автору. В его таблице результатов ускорился даже вариант сравнения двух пользователей.

siberiano 11 мар 2012 в 09:47

Да, это ошибка, исправляю.

siberiano 11 мар 2012 в 09:49

Надо будет заново прогнать все эти тесты и написать конкретные результаты.

ncix 11 мар 2012 в 04:02

Поздравляю, вы изобрели Регистры :)

hom 11 мар 2012 в 08:26

в фаерберде например, как раз, как вариант и используются тригеры + регистры для генерации суррагатного ключа :)

ncix 11 мар 2012 в 09:10

Вы под «регистром» имеете ввиду SEQUENCE(генератор)?

hom 11 мар 2012 в 09:17

так точно, генератор

ncix 11 мар 2012 в 10:35

Ну это ж простой целый счетчик, с ним особо не разгуляешься. Как с дробными числами быть, например?

К тому же генераторы транзакционно-независимы. Т.е. транзакцию с данными можно откатить а генератор останется.

AlexVS85 11 мар 2012 в 10:26

А как лучше хранить текущий баланс счёта?

Сейчас для себя пишу учебный проект «Домашняя Бухгалтерия» (на Ruby on Rails) и столкнулся с проблемой хранения текущего баланса счёта (кошелька). Вижу два варианта:
1) одна запись в базе отвечающая за хранение состояние счёта
+ простота
— сложно узнать сколько было на счету месяц/год назад. Для этого надо будет просуммировать все совершенный транзакции и вычесть от текущего баланса
2) к каждой записи доход/расход добавляем поле «account_state» где хранить состояние счёта на момент выполнения данной транзакции
+ знаем состояние счёта в любой момент времени (месяц/год назад)
— сложность системы: если необходимо добавить/удалить/изменить доход/расход задним числом, тогда придется пересчитывать состояние счёта для всех транзакций

silencer 11 мар 2012 в 11:10

3) Вариант (в 1С: Бухгалтерии, кажется, реализован именно он) — сохранять промежуточные итоги на начало/конец периода (день/неделя/месяц)

siberiano 11 мар 2012 в 16:43

Да, это компромисс между двумя случаями.

Я когда-то работал в торговой сети, где было 500 магазинов и по 2000 наименований в каждом. Там решили хранить остатки за каждый день. Получилось, что каждый день прибавлялось бы по 50-100 мегабайт. Их не надо было бы пересчитывать, но если бы понадобилось корректировать, это была бы беда. И самое главное, что эти данные не были точными. Инвентаризации постоянно находили значительные расхождения. То есть хранить неточные оценочные данные не было большого смысла. Они нужны были только ради построения прогнозов, которые делали далеко не по всем наименованиям.

mlk 11 мар 2012 в 10:34

Имплементация скользящего среднего :)

mlk 11 мар 2012 в 10:36

Кстати, в приборах обычно используют именно скользящее среднее для подавление шумов. Проблема только в том, что вход в скользящее среднее занимает время.

siberiano 11 мар 2012 в 10:50

Не только. Ещё дисперсия. :) Проблема в том, что в обычных БД этого нет, даже суммы пересчитываются полностью — попробовал на postgres, те же проблемы, только пошустрее работает. По сути я пишу то, что должен делать встроенный оптимизатор запросов.

gasya 11 мар 2012 в 13:54

Дико сложные конечно идеи задействованы, никто бы и не догадался.

siberiano 11 мар 2012 в 14:26

Да, верно, люди с Вашим высокоразвитым интеллектом догадались бы за секунду. Им эта статья ни к чему. Однако моему техническому директору не было известно, что средняя разность раскладывается как разность средних, и её можно исправлять, и что квадратичные величины тоже раскладываются на суммы.

loststylus 11 мар 2012 в 16:18

Ваш технический директор занимает пост, не соответствующий его скиллам. Вот и все. Частая ситуация в России.

siberiano 11 мар 2012 в 16:33

А вы уверены, что мы в России работаем? Не угадали, не в России. И не стоит обсуждать личности людей. По отдельности такие вещи знают многие, а вместе у понятном виде разные знания просто так не лежат. Если бы я нашёл подобные оптимизации в поисковиках, не писал бы эту статью.

ssneg 12 мар 2012 в 10:56

Задача технического директора — держать команду, которая может решать технические задачи и ставить ей эти задачи, а не решать их своими силами. Это я вам как технический директор заявляю.

Завтра в проекте понадобится выравнять картинку в DIV по нижней части текста, а послезавтра — распознать изображение с камеры в iOS. И что, ТД должен и это знать? Нет, он должен организовать подчиненных и подрядчиков так, чтобы эти задачи решились максимально быстро, дешево и надежно.

vdshat 11 мар 2012 в 19:27

Обычно хранятся накопленные суммы, например, по каждому счету и сумма этих сумм делится на количество строк в таблице либо количество строк в выборке. Опять же, накопленные суммы легко корректировать. Так же возможно построение по различным измерениям. И OLAP не такой уж дорогой получается ;-)

siberiano 11 мар 2012 в 21:29

Да, я как-то тоже замышлял OLAP на коленке с автоматической свёрткой по всем возможным измерениям. Но в конторе надо было дёшево и сердито, поэтому решили, пусть клиенты скажут, что им нужно, и обошлись простыми отчётами.

vdshat 11 мар 2012 в 21:36

Реально в банке для подсчетов средних значений по всем клиентам, отделениям, годам/месяцам/неделям/дням и пр. достаточно было одной(!) дополнительной таблицы, правда с «хитрым» наполнением. Стоимость была 1-2 месяца для 1 разработчика. -

ComodoHacker 11 мар 2012 в 21:07

> Обычные базы данных не предлагают таких оптимизаций.

Да что вы говорите! Google(«материализованные представления»)

siberiano 11 мар 2012 в 21:22

Ок, тогда, скажите, пожалуйста, можно ли сделать триггер, который бы не запускал пересчёт суммы по всей колонке, а увеличивал бы её на значение из добавленной записи?

vdshat 11 мар 2012 в 21:31

Триггер такой сделать не проблема, проблема в другом. Если нужно пересчитывать суммы по всей колонке, то это уже неправильный дизайн.

siberiano 11 мар 2012 в 21:37

Ну вот реальная ситуация: продажи в 10 оптовых магазинах создают 500 000 строк в неделю, 3000 продуктов. Мне надо пересчитать годовые итоги и по категориям продуктов, и по отдельным из них. Руководитель просит дать ему таблицу в Excel. Не веб-отчёт.

vdshat 11 мар 2012 в 22:03

Накапливаете по каждому продукту в таблице ежегодные + ежемесячные (для текущего года) + еженедельные (для текущего месяца) + ежедневные (для текущей недели) и т.д. (вплоть до секунд) суммы и количество дней. Всегда имеете среднее. По окончанию периода «схлопываете» данные. Тоже самое по категориям. «Окончательный» пересчет происходит на закрытии периода. На практике пересчитывать, максимум, приходилось последний месяц, что далеко не все года.

siberiano 11 мар 2012 в 21:26

duckduckgo «postgres materialized view выдаёт»: «Materialized Views are currently the #1 requested feature in a user survey for addition to PostgreSQL.»

ComodoHacker 11 мар 2012 в 23:40

Да, хотя попытки уже были. Но ведь не Постгресом единым ограничивается круг «обычных баз данных» :)

RinNas 13 мар 2012 в 11:49

В тексте статьи есть картинка с формулой из трёх строк.
Во второй строке почему после открывающей скобки идёт n вместо суммы по n?

siberiano 13 мар 2012 в 15:10

Там сумма по u от 1 до n. Xq от u не зависит, поэтому сумма из n одинаковых Xq — это n*Xq.

EvoTech 30 мар 2012 в 22:52

Идея, конечно, хорошая, но нужно хорошо решить вопрос с параллельным доступом. Так как в момент времени от данных данных и до их записи, сами данные уже могут быть изменены.

Мы аналогичную практику уже применяли на одном проекте средней нагруженности. Кэшированные значения постоянно «уезжали» от реального значения, пока не решили вопрос с конкуретным доступом. Нужно делать атомарным этот ряд операций. Выбрать соответствующий уровень изолированности транзакций БД и предотвратить чтение конкурентными потоками данных (для переподсчета) в период выполнения этой атомарной операции.

Использование сигналов в том виде, как Вы написали — недостаточно. Кстати, select_for_update() (для AnswerAggregate) Django поддерживает только с версии 1.4, которая недавно вышла.

EvoTech 30 мар 2012 в 22:54

… Так как в момент времени от ~~данных~~ получения данных…

Зарегистрируйтесь на Хабре, чтобы оставить комментарий