Комментарии / Профиль aymeshkov / Хабр

Все потоки

Андрей Мешков @aymeshkov

Пользователь

ПрофильСтатьи9ПостыНовостиКомментарии179

Распараллеливание длительных операций

aymeshkov 25 ноя 2009 в 15:34

Это в один поток. Я сейчас молчу про потери при лишнем seq scan'е и сортировке таблицы. А если захотите асинхронно по каждому пустить — придется вытаскивать результат SELECT DISTINCT на клиента. А потом еще затрачивать время на открытие нового connection к базе для запуска очередного запроса.

0

Распараллеливание длительных операций

aymeshkov 25 ноя 2009 в 15:18

А абонентов у вас 5 миллионов. Откуда знаете какой звонил за последние 5 минут?

0

Распараллеливание длительных операций

aymeshkov 25 ноя 2009 в 15:13

Каких конкретно запросов накидать?

0

Распараллеливание длительных операций

aymeshkov 25 ноя 2009 в 14:43

Это замедлит вставку, а при ошибке, вставка вообще не пройдет. Если вставлять быстро (COPY в postgres), то триггер игнорируется. Вообщем-то с триггерами я всегда руководствуюсь простым правилом — если есть возможность избежать использования триггеров — выбирай ее всегда.

0

Распараллеливание длительных операций

aymeshkov 25 ноя 2009 в 14:43

ээ, а как вы себе это представляете?

0

Распараллеливание длительных операций

aymeshkov 25 ноя 2009 в 12:15

Добавим еще 4 ядра и сделаем 8 потоков:). Только не спрашивайте, что будет если объем вырастет еще раз в 5:).

0

Распараллеливание длительных операций

aymeshkov 25 ноя 2009 в 12:14

Я вам об одном сферическом коне, а вы мне о своем:).

>>решение кривое, т.к. если сервер не успевает обрабатывать FIFO
В примере не было FIFO, но мне не жалко, пусть будет.

>>то на нескольких процессах он должен la сервера поднять и затормозить работу сервера.
Угу, три ядра у нас простаивало, а теперь они заняты работой и усиленно тормозят работу сервера, да.

>>Такая задача решается мониторингом длины очереди и контролем при запуске скрипта того что старый завершен.
В примере так и делается. Просто когда скрипт перестает справляться, очередь начинает накапливаться.

+1

Распараллеливание длительных операций

aymeshkov 25 ноя 2009 в 12:11

Да-да, я выше ответил также. Только лучше использовать секционирование, а не VIEW и несколько таблиц. Но это все очень накладно.

0

Распараллеливание длительных операций

aymeshkov 25 ноя 2009 в 11:48

Наверное не так в первый раз сказал. Такой вариант возможен и применим. Его минус — ребалансировка если вам нужно увеличить количество потоков (легко обходится если вы сразу создадите большее количество секций, чем используется) + накладные расходы связанные с самим секционированием.

0

Распараллеливание длительных операций

aymeshkov 25 ноя 2009 в 10:51

Нет, это плохо. А если вам 4-х потоков уже не хватает, а нужно 8? Замучаетесь таблицы пересоздавать.

0

Распараллеливание длительных операций

aymeshkov 25 ноя 2009 в 09:28

Выше в комментариях идет дискуссия на этот счет. Более жизнеспособный пример habrahabr.ru/blogs/postgresql/76309/#comment_2217268, при котором индекс дает преимущество. Если идти по всей таблице в 4 потока — выигрыша по сути нет. Если в 16 — есть. Так что все зависит от задачи.

0

Распараллеливание длительных операций

aymeshkov 25 ноя 2009 в 09:25

Не, если потоков 16, то выигрыш есть:).

0

Распараллеливание длительных операций

aymeshkov 25 ноя 2009 в 09:23

Обалденно, спасибо большое, не знал об этом)

0

Распараллеливание длительных операций

aymeshkov 25 ноя 2009 в 09:20

В постгре еще можно partial индекс создать, тогда вообще проблем никаких:

CREATE INDEX billing.calls_subscriber_id_mod_idx ON billing.calls USING btree (subscriber_id % 4) WHERE billed = FALSE; * This source code was highlighted with Source Code Highlighter.

+2

Распараллеливание длительных операций

aymeshkov 25 ноя 2009 в 09:18

Да, вы правы, спешил когда писал.

+1

Распараллеливание длительных операций

aymeshkov 25 ноя 2009 в 09:17

Да, тоже правильно. Можно еще bitmap индекс создать. А вообще если мы каждый раз чешем по всей таблице, то индекс выигрыш даст минимальный, а вот если появляется поле billed (как выше в комментариях), то ситуация меняется. В примере billed нет чтобы не отвлекать внимание от сути.

0

Распараллеливание длительных операций

aymeshkov 25 ноя 2009 в 09:13

Подправил, спасибо

+1

Распараллеливание длительных операций

aymeshkov 25 ноя 2009 в 09:12

Ага, когда у вас каждый поток тарифицирует по 100 тысяч вызовов за раз, встрять на блокировке на каком-то несчастном абоненте никак нельзя.

0

Распараллеливание длительных операций

aymeshkov 25 ноя 2009 в 09:10

На самом деле этот прием я подглядел когда-то давно именно в биллинге (есть такой замечательный биллинг — БИС от петер-сервис, его Мегафон использует). У них отложенное применение скидок, и по таблице вызовов они идут в 8 или 16 потоков используя похожий индекс по полю % 8 или 16.

+1

Распараллеливание длительных операций

aymeshkov 25 ноя 2009 в 09:06

Да, вы правы, так даже нагляднее. Индекс тогда выглядит как:

CREATE INDEX billing.calls_subscriber_id_mod_idx ON billing.calls USING btree (subscriber_id % 4, billed); * This source code was highlighted with Source Code Highlighter.

И выборка идет еще шустрее.

+1

1 2 ...

7