Pull to refresh

Comments 14

А какую базу использовали?
И пробовали-ли оптимизировать базу?
С ваших слов, при большом количестве задач поиск в базе занимал значительное время.
Может быть оптимизация поможет?

не откусывай больше, чем можешь проглотить

Глотаете не жуя? :)
Корректная фраза: bite more than you can chew - укусил больше, чем можешь пережевать.

Спасибо за комментарий! Да, мы пробовали настроить более агрессивный автовакуум, чтобы почаще чистить мусор(у нас Postgres), но результат нас не порадовал: прирост был всего на пару процентов, то есть в рамках погрешности

Думали над добавлением новых индексов, но с этим возникли сложности:

  1. В Camunda из коробки уже есть все необходимые индексы на таблицу act_ru_job, здесь мы не нашли возможностей для улучшения. Но возможно они есть, и мы плохо искали)

  2. Сложно комплексно мониторить перфоманс при добавлении индексов. Например, если у нас получится ускорить чтение Job'ов, мы случайно можем резко замедлить вставку при батчевых операциях, таких как миграции на новую версию схемы

  3. Мы скоро планируем добавить приоритезацию Job'ов, и она потребует замены индексов в act_ru_job. Есть риск вернуться к проблеме, так как запрос на поллинг Job'ов изменится

А вот по фразе из заголовка мной было проведено отдельное расследование на эту тему еще перед публикацией)

В большинстве упоминаний в русскоязычных источниках используется именно 'проглатывать', но вы правы, что правильнее было бы перевести как 'пережевать'. Оставил как привычнее народу)

Моё мнение, вы просто ошиблись с архитектурой решения и не учли потенциальную нагрузку с учетом роста. По факту просто уперлись в производительность постгреса. Даже если вы сейчас потюните что-то, то это спасёт только на время. При подаче нагрузки ещё x2 у вас опять всё сляжет. Тут или использовать in-memory оркестраторы бп с такими же бд или всю оркестрацию бизнес процессов строить самим на базе Кафки.

Слышал, что сбер сделал свой bpmn движок platform v flow как раз на базе Кафки избавившись от бд, где все состояния бп в кафке и хранятся. Видимо тоже уперлись в бд...

Спасибо за комментарий! Здесь наверное не соглашусь с тем, что выбор Camunda был ошибкой. Дам немного контекста по приложению:

  • 15 независимых между собой схем-процессов

  • Процессы часто переиспользуют код из соседних процессов. Все общие части мы выносим в отдельные схемы и вызываем через CallActivity.

  • Схемы постоянно меняются из-за изменения требований бизнеса.

  • Часто на схемах можно встретить возврат состояния на предыдущие шаги процесса

  • Стандартная нагрузка примерно 50 тысяч процессов в день. Массовые выгрузки на миллионы это скорее редкость или ошибка

Если отказаться от Camunda как оркестратора, нам бы пришлось в коде фиксировать все переходы и состояния. Это бы заняло в разы больше времени на мой взгляд

А заменить камунду особо не на что, могу ошибаться, но по-моему достойных аналогов у нее сейчас нет. Остается только выбирать между 7 и 8 версиями)

Про железки кстати у нас недавно был интересный кейс:

При ресурсах Postgres в 1 CPU и 2 RAM у нас использование CPU держалась стабильно в диапазоне 20-30% в простое. Но когда увеличили ресурсы в 2 раза, нагрузка опустилась до 1%. Глубоко в эту тему не копали, но есть предположение, что Postgres смог выгрузить все данные в память и не ходить на диск при чтении

Спасибо за статью со столь нлубоким описанием.

Вы правы, данная ситуация не уникальна и многие с ней сталкиваются.

  1. Вы правы, настройка должна быть включена. Можно еще принудительно проверять dueDate в диаграммах перез заливкой в репозиторий.

  2. В настройках Kafka слушателя уже есть поддержка мультипоточности и максимального количества потоков. Настройка слушателя необходима, т.к. всегда есть аппаратные ограничения.

  3. Нужно блюсти баланс и, вы правы, просто увеличение пула не решает проблемы

  4. А вот здесь, как раз, и кроется основная проблема и основнаое решение - нужно уменьшить количество висящих процессов. Супер база и железо быстрей обработает ваши сотни тысяч процессов, но и их возможности ограничены. Технические решения могут только на время улучшить картину, но не решат логические ошибки.

    В одной компании с сотнями тысяч сотрудников была такая же проблема. Казалось, проще простого стартовать на каждого сотрудника экземпляр процесса и дело с концом. Но...

    1. При увеличении количества сотрудником количество процессов будет расти

    2. При завершении и старте нового периода количество процессов может удваиваться

    3. Если нужно передеплоить новую версию процесса, например, нашли ошибку в логике, то получаем тот же массовый эффект.

    4. Сама по себе поддержка сотен тысяч процессов затратное дело.

      При анализе процессов оказалось, что уникальных типов процессов с режимами ожидания всего не более 20ти. Простая переделка процессов решила все остальные. Процесс по времени шлет уникальные сообщения на каждого сотрудника и сообщения стартуют процессы с короткими транзакциями.

      Основной совет - не смешивать реалтайм и обработку с таймерами в одном процессе.

Спасибо за подробный комментарий! Рад что статья собирает людей, кто уже имел дело с этой проблемой, надеюсь это будет тот случай, когда комментарии будут полезнее самой статьи)

Процесс по времени шлет уникальные сообщения на каждого сотрудника

Можете здесь чуть подробнее объяснить, как вы шлете сообщения в нужное время? Мы просто такие вещи обычно делаем на таймерах , и я пока не представляю как без них обойтись в такой ситуации

Или может есть какие-нибудь универсальные подходы по избавлению от таймеров, или здесь все индивидуально от сервиса к сервису?

У нас вот много циклических ежедневных таймеров, и у меня была мысль заменить их ожидающий MessageEvent. И в приложении добавить простой советский Schedulled Job от Spring, который будет находить все активные процессы и коррелировать в них сообщения. Таблица act_ru_job сильно похудеет, так как процесс висящий на ожидании сообщения не создает джобу

Добрый день! Большое спасибо за статью, было интересно прочитать. Если я правильно понял, то вы используете делегаты, в таком случае действительно не помогает увеличение потоков в пуле без увеличения числа соединений БД, тк поток, если мне не изменяет память, забирает соединение целиком и полностью, пока не завершит джобу, так что прирост сложно ощутить.

Рассматриваете ли вы переход с делегатов на external task? С ними и на 8 версию можно будет переходить) У нас была похожая проблема, мы ее решили в том числе переходом на external task, тк коннекты к БД были задействованы только для поиска задач и сохранения результата, а во время исполнения задачи освобождались. Замеряли потом нагрузочные тестированием и выявили, что таким образом можно кусать куда больше. В целом подход с внешним исполнением позволяет больше обрабатывать, но требует и большей зрелости, тк начинается пляска с блокировками задачами и идемпотентностью. Но бесконечно не замасштабироваться, тк в конце упремся в БД все равно. Где-то были записаны замеры, получали в районе х4-х10 при разных проблемах, но это уже тема для другой статьи)

Привет, спасибо за комментарий! Да, external таски нам советовали, слышал что некоторые команды внутри банка перешли полностью на них, но нам к сожалению пока не удалось с ними поработать

Полный переход на них нам дорого обойдется, у нас за год уже больше 70 делегатов накопилось и они продолжают расти чуть ли не с каждым днем. Если получится протестить на отдельных процессах, то отпишусь сюда об ощущениях)

Звучит действительно как крутая тема для отдельной статьи, по типу Delegate vs External Task с замерами по производительности. Было бы круто, если бы вы пошарили свой опыт по переходу на них, мы наверное не скоро до них доберемся

Не знаю насколько будет актуален этот совет, т.к. я только изучаю процессы, но видел видео с похожей проблемой у Avito. Это было связано с PgBouncer, но оно 3-х летней давности, возможно это уже не актуальное решение, тем не менее стоит посмотреть и там.
Суть проблемы, соединение вытесняется из ConnectionPool в БД, на его место приходит новое и устанавливает connect, однако, старому объекту для отмены запроса нужно снова подключиться к БД в асинхронном режиме, чем больше запросов - тем больше таких соединений копится и лимит коннектов забивается этими "неактивными" объектами.
Вот ссылка на видео в YouTube: Есть смысл посмотреть с 10 минуты или 13 минуты.
https://www.youtube.com/watch?v=imfSiWFJrb0
Заранее извиняюсь, если это не то, но, возможно, будет полезно.

Большое спасибо за статью.

Пока читал в голове была мысль, что самым дешёвым и эффективным решением будет внедрить transactional inbox, читать сообщения из кафки, полезную нагрузку сообщения сохранять в БД без запуска процессов камунды. Далее отдельным обработчиком (на ShedLock'е) определять количество запущенных процессов, определять, какое количество новых процессов можно запустить, и запускать, основываясь на том, что было сохранено в БД ранее из кафки.

По идее это должно решить проблему непрочтения сообщений из топика и внезапного взрывного роста запущенных процессов.

Как я понял, вы пробуете именно этот вариант? Интересно будет почитать что у вас получится. Удачи!

P.S. Что-то похожее было недавно у нас, но там проблема была не на старте, а на середине процесса где стоял таймер. При большом числе процессов весь пулл экзекуторов обрабатывал таймеры и новые процессы не создавались)

Спасибо за ваш комментарий! Да, вы угадали, именно так и планируем сделать, вплоть до деталей с шедлоком)

Еще дополнительно добавим фильтрацию сообщений, т.к у нас бывает такое, что процессы запускаются только по 5% сообщений из топика. Сейчас эта фильтрация происходит в уже запущенном процессе, и хотим перенести её в обработчик входящих сообщений, чтобы запускать только действительно нужные процессы

удалить КАМУНДУ - самое хорошее решение :-)

Как я понял вы это и собираетесь сделать :-)

Ато мне никто не верит на работе, я то же самое говорю :-)

Sign up to leave a comment.