Все, кажется, сильно проще. Недавно починили баг, из-за которого в некоторых случаях отмена авторизации не посылалась, и только сам банк ее отменял сильно позже. Это могло быть причиной. MgDuke прости за неудобства.
Автопоиск аномалий было прикручивали, но потом открутили — предупреждения от него приходили уже когда метрики в NewRelic'е были красными. Если говорить про логи, то сейчас у нас ELK, агрегируем в одно хранилище из всех сервисов. Еще есть превентивный алертинг на базе бизнес- (сколько заказов на стадии поиска водителя, например) и технических метрик (память, диск, скачки сетевой активности, апдекс и тд).
Моя мама пользуется Сбером. Как-то раз нашли вместе с ней баг на их сайте, позвонили по телефону, сообщили о проблеме, я подробно все описал. Баг-репорт отказались принять, потому что мама забыла кодовое слово и ее никак не могли идентифицировать.
MgDuke прости за неудобства.