
Комментарии 7
GitHub начинает путь, который Skype уже завершает?
Я ничего не понял. Это я тупой, перевод плохой или текст изначально написан странно?
Им пришлось вручную удалять весь производственный трафик с поврежденных реплик
Как вообще можно удалять "трафик" с БД? Можно удалять данные, а трафик, это вроде не то что в БД записывается. Или это такой сленг, что ли?
Based on this crash-recovery loop, we chose to prioritize data integrity over site availability by proactively removing production traffic from broken replicas until they were able to successfully process the table rename.
Скорее всего имелось в виду, что они решили вообще резать весь трафик, направляемый на эти реплики, чтобы он не доходил до СУБД (клиент в этот момент получал что-то в духе HTTP ERROR 500).
Ну да, так понятнее, спасибо. Не то что мне очень интересно, что там случилось, но зашел прочитать, ничего не понял, а вот непонимание меня всегда раздражает.
Дык чего случилось. По горячему без выключения сервисов на мастер-базе данных исполнили набор SQL-запросов для переименования большой таблицы (скорее всего через создание некой копии этой таблицы и копирование данных в неё), но тестировали этот набор запросов, видимо, не совсем в идентичной продакшену среде, и в проде этот набор запросов завесил им все реплики, переведя их в неработоспособное состояние, а из-за этого мастер базе тоже стало худо, т.к. вся нагрузка с клиентов пошла на неё. Итог — пришлось отрубить клиентов и реплики и что-то вручную на них развесить.
Обидно досадно и показательно. Плюс повот делать копии.
GitHub отчитался о причинах неполадок 27 ноября