mixon271 30 мар 2023 в 17:33

Консистентность в конкуретной среде: как не захлебнуться в потоках данных

Простой

21 мин

7.4K

Блог компании ТочкаPython*Микросервисы*

Туториал

+19

Комментарии 10

sgjurano 30 мар 2023 в 21:34

Отличная статья, спасибо!

В процессе чтения много раз приходила в голову мысль: а не было бы существенно проще, если бы все части системы, нуждающиеся в высоких гарантиях согласованности, опирались не на личные маленькие базки, а на одну большую?

Навскидку выглядит так, что Distributed SQL базы (CRDB, YDB) вполне могут с этим помочь.

mixon271 31 мар 2023 в 09:49

Если использовать одну большую базу, то будет слишком велик соблазн каким-то сервисам самовольно влезать в данные других сервисов и вносить туда изменения, которых не ожидают владельцы данных (например, нарушать какие-то правила организации данных). Чтобы такого не было каждый сервис хранит свои данные изолированно от других и предоставляет наружу интерфейс для взаимодействия :)

sgjurano 31 мар 2023 в 10:03

Этот паттерн мне известен, я предлагаю не считать его серебряной пулей, а попробовать критично переосмыслить его применимость при столкновении с требованием строгой согласованности на раздельных базах.

Это требование "кричит", что система распилена на части в неподходящем месте, как итог разработчики сталкиваются с необходимостью решать ещё более сложные проблемы, чем в ситуации когда база общая — собственно об этих проблемах вся ваша статья.

Понятно, что бывают ситуации, когда система уже распилена, а требование согласованности пришло постфактум — тут простых решений нет, но на этапе проектирования я бы рекомендовал делить систему на части, именно опираясь на требования согласованности данных.

mixon271 31 мар 2023 в 12:17

Да, тут палка о двух концах: либо вы имеете потенциальную проблему с инкапсуляцией данных в базе, либо проблемы описанные в статье. Я не говорю, что подход с разделением БД является единственно верным. Какой подход выбрать -- решать уже вам :)

sgjurano 31 мар 2023 в 22:24

Кстати, пришла тут в голову мысль. Можно доступы на базе с помощью ACL разделять, чтобы соблазна лезть в чужие данные не было.

funca 31 мар 2023 в 13:59

Решать алгоритмические проблемы эмпирическими методами может быть дорого, долго и неправильно. Может стоит откатиться на шаг назад и посмотреть на проблему сверху: какие есть теоретические наработки и стандарты в вашей области для организации распределенного процессинга, как проводится верификация решения?

mixon271 3 апр 2023 в 09:29

Не уверен, что правильно понял что именно понимается под "эмпирическими методами". Можно ли раскрыть эту мысль подробнее?

Debrainer 3 апр 2023 в 08:57

Полезная статья для тех, кто в теме и вынужден решать подобные проблемы.

Однако, простая фоновая джоба хоть на обработке хоть на отсылке, да ещё однопоточная, просто не будет справляться при действительно высоких нагрузках. И начнется следующий этап борьбы - распараллеливание джоб и опять решение вопросов строгой упорядоченности и неповторов при успехе и повторов при определенных ошибках.

Кроме того, в статье возможно умышленно опущены вопросы идемпотентности ибо я слабо себе представляю чтобы сервис при схеме запрос-ответ молча проглотил повтор запроса и не выдал ответа.

Было бы круто в конце статьи увидеть обзор решений, которые частично или полностью решают подобные проблемы в распределенных системах с использованием асинхронного взаимодействия с брокерами сообщений и/или шинами данных.

Например, на сайте Temporal пример с переводом денег между счетами описан в качестве демо того как эта проблема там решается.

mark_ablov 5 апр 2023 в 02:55

2-фазовые коммиты, всё как мы любим =)

LaRN 6 апр 2023 в 20:14

Как будто не учтён ещё кейс, когда все ОК, но в момент финального ack все сломалось и сообщение ушло в retry. А затем при повторной обработке кто-то успешно купит две пиццы вместо одной :).

Нужно ещё видимо где-то хранить и проверять статус основного события, обработано оно или нет и проверять его перед обработкой.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий